En babelsk forvirring

Helt siden tidenes morgen har menneskene strevd med å forstå hverandres språk. Nå er det datamaskiner som jobber med saken.

Drømmene og visjonene er nesten berusende: en maskin, eller et program, som fritt og elegant kan oversette tekster mellom alle verdens språk.

Science fiction-litteraturen er full av slike glupe innretninger. Douglas Adams’ klassiker «Haikerens guide til galaksen» introduserer for eksempel den lille, gule babelfisken, som sitter i menneskenes ører og oversetter mellom alle språk.

Men virkelighetens babelfisker produserer mest babbel. Det kan de fleste av oss konstatere når vi kjører oversettelsesprogrammene til Yahoo eller Google, eller skjærer tenner over ubehjelpelige – og noen ganger uforståelige – maskinoversatte bruksanvisninger.

Det er et langt sprang fra intelligens til sunt vett.

Underholdende, men upresist

– Kloke maskiner ligger i lang, men inspirerende, avstand fra forskningsfronten, konstaterer professor Lars Hellan.

– Maskinene må selvsagt ha all mulig språkkunnskap, grammatikk som kan prosesseres datamaskinelt, leksika og statistikk. Men de må også ha ha reell verdenskunnskap, og forstå kommunikasjonssituasjoner. Dit er det ennå langt fram.

– En fullt utviklet språkteknologi er neste generasjons teknologi. På 1950-tallet var det stor optimisme og tro på snarlige gjennombrudd. Det ble blant annet brukt mye militære penger på slik forskning. Men resultatene lot vente på seg, sier Hellan.

En vits fra den kalde krigens dager, som kanskje er sann, illustrerer poenget. Forsvaret i en vestmakt utviklet en maskin som skulle oversette mellom russisk og engelsk. For å teste maskinen, matet forskerne den med bibelordet «The spirit is willing, but the flesh is weak». Det ble oversatt til russisk og tilbake igjen, men da var det blitt til «The Vodka is good, but the meat is rotten».

Oversettelsesprogrammene som er tilgjengelige på nettet, gir ofte like underholdende resultater.

– De programmene som brukes i dag, kan gi en grei oversikt over hva en tekst handler om, men sjelden en presis gjengivelse av innholdet, sier Hellan.

Oversettelsens arkitektur

Sammen med kolleger i Trondheim, Bergen og Oslo har Hellan deltatt i Logon-prosjektet, som gikk fra 2002 til 2007. Logon var en del av Forskningsrådets satsing for å øke norsk kompetanse på språkteknologi. Forskere innenfor lingvistikk og informatikk ved de tre universitetene forente krefter for å utvikle en prototyp – en arkitektur – for maskinoversettelse fra norsk til engelsk.

Prosjektet tok utgangspunkt i forskning gjort for andre språk, blant annet det store tyske prosjektet VerbMobil på 90-tallet. Hensikten med både Logon og dets etterfølgere har vært å utvikle et mer presist verktøy enn dagens tilgjengelige programmer, ved å koble presise grammatikker og leksika inn i oversettelsesprosessen.

Jan Tore Lønning er professor i informatikk ved Universitetet i Oslo og nasjonal prosjektleder for Logon. Etter hans mening ble målet – å utvikle metodologi og en demonstrator for maskinoversettelse fra norsk til engelsk – oppnådd. Han beskriver den norske demonstratoren, som kom ut av prosjektet, som en hybrid:

– Programmet tar utgangspunkt i språkanalyse, og supplerer med statistikk for å finne den mest sannsynlige meningen. Andre forskningsgrupper tar utgangspunkt i en statistikkbasert oversettelse og prøver å forbedre den ved å trekke inn språkanalyse.

– Googles statistikkbaserte program er imponerende raskt og effektivt. Men det er en del ting det ikke får til. Det er for eksempel ofte et problem å vite hvem som spiser og hvem som blir spist. Det har også problemer med nye sammensatte ord. På disse områdene mener jeg vårt system kommer bedre ut, sier Lønning.

Men han legger ikke skjul på at Logon-demonstratoren trenger videreutvikling: – Vi må blant annet arbeide mer med entydiggjøring og effektivisering, noe vi ikke hadde rom for å prioritere i prosjektet. Vi bør arbeide mer med kombinasjonen statistikk og språkanalyse, for å se om det kan redusere antallet alternative oversettelser og dermed øke effektiviteten i programmet. Men da er vi avhengig av nye bevilgninger, sier Lønning.

Japansk bjeffing

Logon-prosjektet er avsluttet, men lever videre i enkeltprosjekter. Ett av dem er et samarbeidsprosjekt mellom Institutt for språk og kommunikasjon på Dragvoll og National Institute of Computation Technology i den gamle japanske keiserbyen Kyoto.

– Det er dramatiske forskjeller mellom japansk og norsk. Målet er å se hva slags problemer vi får ved oversettelse mellom så ulike språk, forklarer Lars Hellan.

«Vi får aldri språkteknologiske programmer som kan levere elegante oversettelser av store skjønnlitterære verker.»

Professor Mikael Lindgren

Prosessen foregår i tre trinn. Først omformes en setning i kildespråket til noe som tilsvarer en logisk formel. I trinn to blir denne omformet til en tilsvarende formel for målspråket. I trinn tre blir så denne formelen generert til en setning i målspråket, som skal være logisk likeverdig med utgangspunktet.

– Resultatene man får med en slik arkitektur, er stort sett sammenhengende og meningsfulle. Men et problem er at en setning på 10–15 ord kan komme ut i 1000 varianter i målspråket. Hvordan velger man da den beste, spør Hellan.

Han demonstrerer problemet med den enk- le setningen «Hunden bjeffer». Den mates inn i programmet og omformes til en logisk formel på norsk, overføres til en tilsvarende formel på japansk, før den ender opp med ni alternative setninger på japansk.

– Noen av dem er rett nok varianter av høflighetsformer. Men likevel, sukker Hellan.

Umulig å garantere

Logons prototyp, i likhet med mindre presise verktøy, må supplere den språklige analysen med statistikk for å finne ut hva som er en sannsynlig beste tolkning. Men slik sannsynlighet beror på sjanger og stoffområde. Handler det om sport? Eller økonomi? Eller menneskelige relasjoner? Forskjellene i språkføring kan være store. Og selv med sjangerspesifikk statistikk, og med store datamengder, er det umulig å garantere korrekt resultat, sier Hellan.

– Hovedproblemet for å treffe «riktig» alternativ blant mange resultater, er å kunne beregne «poenget» med en setning, der den brukes i en viss kontekst av en avsender og en mottager som begge vet hva det er snakk om i samtalesituasjonen, og som deler viten om språk og verden. Det forskes mye på slike faktorer generelt, men vi er langt unna å kunne definere

en generell forståelsesmodell, som så lar seg implementere i et maskinsystem.

På sparebluss

Skjeggstubb i maten Vi ba et gratis oversetterprogram på nettet om en norsk versjon av Jamie Olivers oppskrift på brønnkarsesalat. Den slutter slik: «Drizzle with a good extra virgin olive oil just to coat, a small squeeze of lemon juice (because the pear juice is slightly acidic but very tasty), and season well with salt and freshly ground black pepper. Toss all this together and serve. Shave over some Parmesan or Pecorino, crumble your nuts over and tuck in.» «Duskregner med en god ekstra urørt olivenolje akkurat belegge, en liten trykk av sitronsaft (fordi pæresaften er litt sur men meget tasty), og sesongbrønn med salt og fersk malt svart pepper. Kaster all denne sammen og tjener. Barberer seg over en Parmesan eller Pecorino, smuldrer Deres muttere over og plisserer i.» Foto: www.gandal.com

Skjeggstubb i maten
Vi ba et gratis oversetterprogram på nettet om en norsk versjon av Jamie Olivers oppskrift på brønnkarsesalat. Den slutter slik:
«Drizzle with a good extra virgin olive oil just to coat, a small squeeze of lemon juice (because the pear juice is slightly acidic but very tasty), and season well with salt and freshly ground black pepper. Toss all this together and serve. Shave over some Parmesan or Pecorino, crumble your nuts over and tuck in.»
«Duskregner med en god ekstra urørt olivenolje akkurat belegge, en liten trykk av sitronsaft (fordi pæresaften er litt sur men meget tasty), og sesongbrønn med salt og fersk malt svart pepper. Kaster all denne sammen og tjener. Barberer seg over en Parmesan eller Pecorino, smuldrer Deres muttere over og plisserer i.» Foto: www.gandal.com

Etter at Logon-prosjektet er avsluttet, foregår mye av forskningen som benytter dets teknologi, på sparebluss. For til tross for galopperende globalisering, til tross for at Kina er i ferd med å bli Norges viktigste handelspartner, er norsk næringsliv lite interessert i å bruke mye penger på språkteknologiske prosjekter, sier Hellan.

– Vi har hatt kontakt med representanter for store firma. Man skulle tro at de hadde interesse både for presise oversettelsesverktøy og for språkteknologi til styring av industriroboter, for eksempel. Men interessen er iallfall ikke stor nok til at de vil satse store penger på slike prosjekter.

Logon-leder Jan Tore Lønning opplever imidlertid at den internasjonale interessen for språkteknologi og maskinoversettelse er større enn på lenge. Men mye av forskningen foregår nå i regi av amerikanske storselskaper som Google, Yahoo og Microsoft.

– Et selskap som Google har kraftige datamaskiner, store mengder tekst og penger, tre ting som er nødvendig for å utvikle statistisk baserte oversettelsesprogrammer. Dermed kan de også trekke til seg gode forskere fra universitetene. Mange av mine kolleger i USA har gått over til private selskaper, sier Lønning.

Ingen telefon fra PST

Etter terrorangrepene mot USA 11. september 2001 trappet USA opp overvåkingen av all elektronisk kommunikasjon. Også fredelige Sverige har fått en ny avlyttingslov, som åpner for overvåking av all trafikk over bredbånd inn og ut av Sverige. Men verken Politiets sikkerhetstjeneste (PST) eller Forsvarets etterretningstjeneste har meldt sin interesse på Dragvoll.

– Nei, vi har ikke merket noe påtrykk fra den kanten, sier Hellan.

– Men vi lingvister er jo altfor snille til å bli trukket inn i slike hemmelige og mørke prosjekter, legger han til, med et beskjedent smil.

– Veien framover må i stedet baseres på tålmodig utvikling, skritt for skritt, innenfor begrensede domener.

Buss-suksess

Et eksempel er BussTUC, et spørresystem for ruteopplysning basert på naturlig språk, som allerede brukes av bybussene i Trondheim.

TUC står for «The Understanding Computer» og er utviklet ved NTNUs Institutt for datavitenskap og informasjonsteknologi (IDI). Instituttet har også andre prosjekter for bruk av naturlig språk i kommunikasjon med datamaskiner.

Her kan maskinene nettopp få en slags verdenskunnskap, fordi den verden de skal ha kunnskap om, er svært avgrenset. Dermed er også flertydigheten redusert. I BussTUCs verden er busser noe som går på hjul, ingen vil tolke det som synonym for gode kamerater. Maskinen skal svare på rutetider og holdeplasser og slipper å mene noe om situasjonen i Midtøsten eller underskuddet for Olavsfestdagene.

– BussTUC har vært en språkteknologisk suksess. Vi har et samarbeidsprosjekt med IDI på gang for å videreutvikle det, både med å utvikle grammatikken og med å utvide domenet til å gjelde andre områder enn reiser og ruter, sier Hellan.

Myten om fred…

Prosjektet illustrerer realismen som nå preger språkteknologiske miljøer. – Vi får aldri språkteknologiske programmer som kan levere elegante oversettelser av store skjønnlitterære verker. Men vi kan få nyttige verktøy for begrensede domener – for eksempel til korrekt oversettelse av bruksanvisninger, sier Hellan.

Det er et stykke fra rutetider for bussene i Trondheim til fabelen om babelfisken. Og det er kanskje like greit. Ifølge babelfiskens skaper Douglas Adams er det en myte at sterkere mellommenneskelig kommunikasjon skaper fred. Tvert om. Han skriver at babelfisken ved å fjerne alle hindringer for kommunikasjon mellom forskjellige raser og kulturer, forårsaket flere kriger enn noe annet vesen i historien.

Tekst: Lars Martin Hjorthol