Frå munn til skjerm

Legars handskrift kan vere håplaus å dekode. Men talen deira kan snart bli forstått av ei maskin.

Av Tore Oksholen

Ho snakkar inn i mikrofonen. Orda formar seg på skjermen medan ho uttaler dei. Men det går ikkje like greitt heile tida. Kan hende er ho trønder, og seier «gammellægen te passienten», i staden for «pasientens gamle lege». Dataprogrammet leiter ein augneblink etter det samandregne ordet, men finn det ikkje i uttaleleksikonet sitt. Altså må det leggjast inn.

Som folk flest har denne legen ein lei tendens til å avbryte seg sjølv støtt og stadig: Ho begynner på eit ord, men avbryt midtvegs og vel eit anna ord i staden. Då må programmet forstå at når ho seier «oppdag-» så hadde ho eigentleg tenkt å seie «oppdagar» – «oppdag» er ikkje eit eige ord. Eller: Når ho seier «søke, eh, finne» så forstår programmet at det er «finne» som er ordet, og at «søke» ikkje skal nyttast.

Post doc. Bojana Gajic ved NTNU har mange slike problem å stri med. Ein datamaskin forstår akkurat så mykje som du lærer den å forstå. Skal eit dataprogram kunne ta høgde for dei menneskelege variasjonane i naturleg tale, må mange problem løysast. Det er dette taleteknologien handlar om.

Skal spare tid

Attende til doktoren: Ho er gjerne assistentlege på eit stort, travelt sjukehus. Journalføring er noko ho vil bruke minst mogleg tid på. Det skal gå fort, og ho skal ikkje møte problem som tek tid og krefter å løyse.

Derfor er Gajics mål eit system for talegjenkjenning som er slik at doktoren kan tale inn sin rapport – med nøling, gjentaking og andre «feil», slik spontan tale er. Det ho seier, blir i same sekund transkribert på skjerm. Ho sjekkar kjapt at teksten er OK, og vips så går den til den elektroniske journalbasen, og er tilgjengeleg for dei som har tilgang på basen.

Dette er visjonen. Men vi er ikkje der enno. Når vi vil vere der, veit Gajic ikkje. Det som er sikkert, er at ein kan ikkje overlate legane systemet før det fungerer optimalt: Dersom dei får eit system som heile tida misforstår, vil dei ikkje bruke det. Jamvel om sjukehuset totalt sett sparer tid ved at skrivestova vert overflødig, vil legane nemleg bruke meir tid.

Støy eit problem

Gajic har tidlegare arbeidd mest med støyproblematikk knytta til talegjenkjenning. Denne problematikken er særs aktuell i tilhøve til det såkalla MOBEL-prosjektet – Mobil elektronisk pasientjournal – kor ein utviklar ein berbar terminal med tilgang til viktige pasientdata som legane treng, til dømes under visitten. Vital informasjon kan hentast opp eller bli ført inn via tale.

Då er støyproblematikken sentral. Når du sit på kontoret og snakkar inn rapporten, er bakgrunnsstøyen konstant (vifta frå PC-en, osb.), medan den varierer når du flytter deg frå rom til rom. For at talegjenkjenninga skal fungere optimalt her, må systemet heile tida kunne sortere ut irrelevante lydar og tilpasse seg eit lydbilete som er i kontinuerlig endring.