Look who’s talking now

I framtida snakkar vi med maskinene. Men vil vi at samtalen skal gå på norsk og ikkje på engelsk, må eit nasjonalt løft til: Den norske språkbanken.

Den første vaskemaskina som snakkar hindi, finst.

Køyrecomputarar som fortel korleis du køyrer for å finne næraste postkontor, er snart standardutstyr i nye bilar. Og «framtidsbustaden», huset du kan føre samtalar med, er allereie utvikla.

Dette er livet ditt privat. Vel så viktig er arbeidsdagen. Han blir, som vi veit, meir og meir digitalisert. På område etter område blir arbeid utført og styrt ved hjelp av datamaskinar i ymse former og storleikar.

Enno styrer vi helst datamaskinene via eit tastatur. Men den elektroniske utviklinga har gjort det mogleg å integrere taleteknologien i store og små digitale einingar.

Og denne nye generasjonen talegjenkjennarar skjønar faktisk kva du seier – ulikt uferdige prototypar frå seinare år, til dømes NSBs talestyrte billettbestillingssystem som insisterte på å selje deg honnørbillett til Kløfta, jamvel om du ville ha studentmoderasjon til Kongsvinger…

Rivande utvikling

Slik ufullkomen teknologi var nok ei av årsakene til at firmaet Nordisk Språkteknologi (NST) på Voss gjekk konkurs i fjor haust. NST greidde ikkje å tene pengar på kommersiell utnytting av denne teknologien.

Men feltet er i rivande utvikling, og vesentlege delar av forskinga i Noreg skjer ved NTNU.

Såleis fikk universitetet i fjor, saman med Telenor og SINTEF, 40 millionar statlege forskingskroner til bruk på området. Det største prosjektet kallast Brage og forskar på talestyrt dialog mellom menneske og maskinar.

Til saman er seks forskarar og om lag 15 stipendiatar involvert i språkteknologisk forsking ved NTNU.

Men følgjande spørsmål har enno ikkje funne sitt svar: På kva for språk skal samtalen mellom menneske og maskin gå føre seg?

200 MILLIONAR ORD

  • Språkrådets prosjektplan for ein norsk språkbank vart laga på oppdrag frå Kultur- og kyrkjedepartementet og Nærings- og handelsdepartementet. Han foreslår rundt hundre millionar kroner til oppretting av ei nasjonal språkbase.
  • Banken må ha eit innskot på minst 200 millionar ord frå bokmål og nynorsk. I tillegg kjem dialektord.
  • Dei fire norske universitetsrektorane har i eit brev til tre stortingskomitear innstendig bede om at pengane vert tildelt.
Dommedagsprofetiar

– At norsk språk risikerer å bli trengt vekk, kan vi ikkje lenger forkasta som dommedagsprofetiar, seier lingvistikkprofessor Torbjørn Nordgård ved NTNU. – Engelsk er for lengst dominerande innan underhaldningsindustrien, og i akademia går diskusjonen om i kva grad norsk forsvinn ut som undervisningsspråk.

Det kostar like mykje å samle inn data for små språk som for store. Om vi samanliknar norsk og engelsk, kan det jamvel vere slik at norsk fell hakket dyrare: Vi har to offisielle målformer, og ei rad dialektar med store innbyrdes ulikskapar.

Medan om lag 450 millionar menneske har engelsk som førstespråk, er det om lag 4,5 millionar som har norsk til morsmål. Dermed kan vi ikkje vente at den private marknaden tek jobben åleine med å lage produkt med norsk språk. Det må eit nasjonalt løft til.

Ei halvkrone ordet

– Det er særs viktig å få etablert ei samling av norske språkteknologiske ressursar så snart råd er.

Det seier rådgjevar Torbjørg Breivik i Norsk språkråd. Sist haust laga Språkrådet prosjektplan for ein norsk språkbank. Han tek til orde for ei nasjonal satsing på rundt hundre millionar kroner til oppretting av databasen.Det blir ikkje meir enn ein femtiøring per ord. For: – 200 millionar ord er ikkje eitt ord for mykje, seier Breivik.

– Poenget er at vi må ha svært mange ord, mykje tekst, mykje lyd, flest mogleg sjangrar, alt frå e-post og sms til opptak av telefonsamtalar frå flest moglege situasjonar. Dette trengst for at datamaskinen skal kunne «forstå» og «svare» på ein måte som stemmer med konteksten.

Naturleg talespråk er vanskeleg å avdekke reglane i, og ikkje lett å skrive om til maskinleseleg form. 200 millionar er av typen «tenk på eit tal», men det er eit minimum, ikkje noko endeleg tak, seier ho.

Innskot og uttak

200 millionar ord, frå dei to målformene. Dialektord kjem i tillegg. Dette bør etter språkrådets meining bli organisert i form av ein bank. Som i bankar flest, kan ein ha både innskot og uttak – av ord, ikkje pengar.

Innskota i banken vil kome frå diktering og samtaleopptak, aviser, og skjønlitteratur, lydbibliotek og meir til.

Kvart einaste innskot må merkast, slik at låntakarane veit kva det er dei låner. Låntakarane vil vere verksemder og store institusjonar: Dei vil låne i språkbanken for å lage nye talegjenkjenningssystem; syntetisk tale, maskinoversetjingar og anna.

– Språkbanken vil gjere det mykje billegare for selskap å lage språkteknologiske løysingar, seier Breivik.

Dette er vel og bra. Men vi har ikkje spesielt god tid, meiner professor Nordgård:

– Det er ikkje berre engelsk som trugar. Også innafor store språkområde som tysk og fransk er ein i ferd med å utvikle språkteknologiressursar. Frå før har dei mykje meir enn vi, og forspranget aukar på, seier han.

«Det er med språkleg mangfald som med biologisk mangfald: Artsrikdom gagnar oss alle.»

Metoden

Utvikling av språkteknologi krev kunnskap om både språk og teknologi, og om digitale språkressursar. Med få unnatak nyttar all moderne språkteknologi seg av statistiske modellar av ymse slag. Til dømes vil eit dikteringssystem som automatisk konverterer tale til tekst, nytte statistisk modellering av uttalen av språklydar, og av samanhengen mellom ord.

– Desse modellane må trenast opp ved at ein nyttar døme på tale og tekst frå store databasar, seier professor Nordgård.

Trening av statistiske modellar krev eit mykje større tekstgrunnlag enn det som trengst for å skrive ein tradisjonell grammatikk eller ordbok. Treningsfasen er den mest sårbare delen når systemet skal bli laga. Dersom treningsgrunnlaget – treningsdataene – er for små eller av slett kvalitet, vert produktet dårleg.

Kan påverke historia

Verdsspråka dominerer stadig meir, og mange små språk er trua med utrydding. Men gjer det noko? Om eit språk vert forlate fordi folket som nytta det, ser seg betre tent med å gå over til eit anna og større språk – kan ikkje det karakteriserast som uttrykk for naturens gang?

– Det er med språkleg mangfald som med biologisk mangfald: Artsrikdom gagnar oss alle, seier professor Brit Mæhlum ved Institutt for nordistikk og litteraturvitskap. Mæhlum er medlem av fagnemnda i Språkrådet.

– Det er ikkje så enkelt som at ein berre kan bytte språk, som om det var eit verkty. Språk er berarar av kulturell ballast, seier ho.

– Det er heller ikkje slik at vi berre må akseptere at denne utviklinga skjer. Om vi seier ofte nok at dei små språka er dømt til å døy ut, vert det fort tale om sjølvoppfyllande profetiar. Vi kan påverke gangen i historia: Til dømes ved å bygge opp vår eigen språkbank, seier professor Brit Mæhlum.

Tekst: TORE OKSHOLEN