Stifinner i vitenskapens tekstjungel
Dagens forskere står overfor store utfordringer når de skal finne rett informasjon i den store mengden tilgjengelige vitenskaplige tekster.
Nå kan et doktorgradsarbeid ved NTNU gjøre jobben lettere for akademikere i tidsklemma.
Innen medisinsk forskning blir det samlet omtrent to tusen nye artikler hver dag i en stor database som heter Medline.
Dermed må dagens molekylærbiologer forholde seg til et nærmest uoverkommelig volum av tekstmateriale som kontinuerlig øker i omfang.
For å hjelpe fagfolkene i å holde seg oppdatert i dette informasjonshavet, har Rune Sætre ved Institutt for datateknikk og informasjonsvitenskap, NTNU, funnet løsningen:
Et søkemotorsystem som gjør det mulig å sortere ut og “lese” hvilke artikler som er relevante for arbeid molekylærbiologer utfører.
Han har nylig skrevet en doktoravhandling om muligheten for å bygge dette systemet, som han kaller GeneTUC.
Effektiviserer forskningen
Systemet kan svare på spørsmål som “Hvilke gen aktiveres av hormonet gastrin?”. Spørsmålet analyseres grammatikalsk og systemet finner deretter faktasetninger med tilsvarende grammatikk i artiklene.
– Det er enorme mengder med informasjon som foreligger i databasen Medline. Dersom du søker på ordet “gastrin”, forekommer det i mer enn18 000 artikler. Dermed er det viktig å kunne luke ut de artiklene som ikke er relevante for ens arbeid, forklarer Rune Sætre.
Arbeidet til Sætre bygger på et eksisterende system, TUC (The Understanding Computer), som blant annet er i stand til å svare korrekt på spørsmål om bussavganger i Trondheim.
– Så GeneTUC er rett og slett et effektiviseringsverktøy for forskere?
– Ja. Dersom dette systemet blir fullt ut operativt bruker maskinen tjue minutter på søk du ellers trenger en hel dag på å gjøre selv.
Bruker Google til automatiserte søk
Sætre har også utviklet et program som ved hjelp av kunstig intelligens kan svare på biologiske spørsmål ved å bruke Google som søkeverktøy.
Programmet heter Gprot og benytter seg av verdens mest kjente søkemotor for å hente ut informasjon om proteininteraksjon.
– Jeg har tatt GeneTUC et steg videre, men jeg tror det trenger ytterligere videreutvikling før det blir helt operativt. Men i mellomtiden kan Gprot bidra til at det blir lettere å gjennomføre slike søk, spår han.
– Men hvordan klarer programmet å skille ut faktaopplysninger fra all den feilaktige informasjonen som er tilgjengelig på nettet?
– Et eksempel på en typisk feil som kan oppstå, er at man henter informasjon fra dårlige kilder. Dette kan unngås dersom man reduserer søket sitt til å bare gjelde anerkjente journalhjemmesider.
– I forbindelse med doktoravhandlingen gjorde vi et forsøk på det. Først foretok vi et ordinært søk. Da kalkulerte biologer seg fram til at antall treff som inneholdt vitenskapelige feil, var oppe i tretti prosent. Da vi reduserte søket til å gjelde journaldomener, var antall feiltreff redusert til ti prosent, utdyper han.
Å bruke automatiserte Google-søk på denne måten kan føre til en ny måte å bygge ordbøker på, da disse daglig må oppdateres med nye navn og uttrykk fra medisinsk forskning.
Videreutvikles i Tokyo?
Rune Sætre er fra 1. august ansatt som forsker ved Tokyo University. Her skal han være i drøye to år. Han håper blant annet å få jobbet videre med GeneTUC- programmet.
– Ja, jeg tror det skal gå i orden, for jeg har ikke lyst til bare å gi slipp på prosjektet. Og jeg har fått signaler fra biologer ved NTNU om at det er svært ønskelig at GeneTUC ferdigutvikles, sier Sætre.
Sætres doktoravhandling heter GeneTUC: Natural Language Understanding in Medical Text. Den er en videreutvikling av diplomoppgaven til NTNU-student Anders Andenæs.
Av Pål Vikesland