På mønsterjakt i arvestoffet

No legg forskarane ut på vandring i ein ufatteleg stor database: det menneskelege genomet.

For å nytte det velkjente bildet av nåla i høystakken: Her er det ikkje snakk om å finne ei nål, men om å kartlegge den relative likskapen mellom einskilde halmstrå rundt om i stakken.

Bioinformatikken er det nye stadiet i genteknologien. Med ny og større datakraft kan genforskarane legge ut på vandring i arvestoffet vårt. Dermed vil mye skje i åra som kjem. Om 20 år vil alle sjukdomsgenar vere kartlagde.

Nye søkemotorar spelar nøkkelrolla i kartlegginga. I Trondheim er ein ny rask prosessor utvikla av selskapet Interagon. Når det gjeld mønsterattkjenning, er den norske søkemotoren like rask som den kombinerte datakrafta i 2500 vanlege PCar. Den er tre gonger kjappare til å finne att mønster enn den prosessoren amerikanske Celera nytta til å kartlegge det menneskelege genomet.

Bok utan ordliste

Grovt rekna er det to ting ein kan nytte denne nye søkemotoren til. Det eine er å finne att ulike gensekvensar så fort at prosessen blir interaktiv. Det andre er å utnytte databasen (genomet) til å finne ny informasjon, til dømes bestemte mønster. Det siste byr på dei største utfordringane.

Genteknologane opplever nå eit raskt aukande gap mellom kva for informasjon dei har tilgang til, og kva dei forstår. Grovstrukturen i det humane genomet – mennesket sitt arvestoff – er kartlagt. Men kva tyder all informasjonen vi nå får tilgang på? For vi har ennå ikkje skaffa oss “sanninga” om arvestoffet vårt.

– Tvert i mot, vi er berre heilt i byrjinga. Vi sit med heile genomet ordna og systematisert, men vi veit ennå ikkje kor mange genar vi har, fortel professor Hans Krokan og forskar Finn Drabløs. Krokan er kreftforskar og genteknolog, mens Drabløs arbeider i grensefeltet mellom bioinformatikk og biologi/kjemi.

– Det er som å få utdelt ei bok på eit framandt språk, der grammatikken og det meste av ordlista manglar, seier Drabløs.

Kjenne att mønster

Genomet kan sjåast på som eit språk som består av fire bokstavar – A, T, C og G. Desse bokstavane gir namn til fire kjemiske basar. Desse basane ligg alltid i par. Genomet har tre milliardar av dei. Informasjonsmengda som utgjør “livets kode” ville bli ei hundre meter høg bunke A4-ark om ho blei skriven ut. Kvar gong forskaren legg ut på leit etter eit eller anna i arvestoffet, må ho søke gjennom heile denne informasjonsmengda. Det er nemleg ein vesentleg skilnad mellom gensøk og slike søk vi driv med gjennom internettet og liknande.

Tradisjonelle søk kan vi avgrense etter førehandsdefinerte indikatorar på relevans. Det let seg ennå ikkje gjøre når vi søker etter genar eller deler av genar som liknar på kvarandre.

Når forskarane søker etter ny informasjon – nye mønster i genar – ønsker dei å skreddarsy (trunkere) søka slik at dei opnar for å inkludere genbitar som har noe viktig felles, sjølv om likskapen er relativt liten. Slik kan ein finne medlem av same genfamilie, jamvel om medlemene har tilhald langt frå kvarandre i genomet.

– Ein gen kan dessutan stå fram i ulike variantar. Til saman skapar dette store utfordringar, og krev svært avansert søkeverktøy, seier professor Krokan.

Sjukdom og medikament

Ein ting er å lage kartet. Det andre er å bruke det. Det er først etter at forskarane forstår kva for funksjon ein gen, delen av ein gen, eller genfamilien har, at dei også kan seie noe om kva for rolle det spelar i å vere opphav til eller forhindre bestemte sjukdomar. Då vil ein bli i stand til å kartlegge samtlege sjukdomsgenar i kroppen i løpet av eit par tiår, trur Krokan.

Dermed vil ein etter kvart kunne kjenne att mønster for spesielle sjukdomar.

Den farmasøytiske industrien vil ha svært stor nytte av dei nye søkemuligheitene, ved at ein kan skreddarsy medikament. For det skjer ofte at ulike pasientar med tilsynelatande same liding responderer heilt ulikt på eitt og same medikament. Dei fleste medikamenta har ein fysiologisk verknad på kroppen. Men kva, eksakt, verkar akkurat det medikamentet på?

– Kroppen er sett saman av store molekyl der protein er sentralt. Målproteinet for det selektive medikamentet kallast “drug target.” Det er desse proteina medikamentet skal gjøre noe med.

I framtida vil det bli mulig å tilpasse medisinane mye meir nøyaktig slik at det ikkje verkar på andre enn målproteina, forklarar professor Krokan.

Dermed blir risikoen for uønskte sideverknader langt mindre, og verknadslause medikamentkurar kan unngåast. Ein gentest blir tatt før behandling, og ut frå den velger ein profil på kuren.

Litt lenger framme kan ein tenke seg DNA-baserte former for behandling, der ein går inn og blokkerer ein bestemt gen som skapar problem, eller set inn ein frisk gen i sjuke celler.

Datatrål

Nye søkeverktøy vil og verke inn på arbeidsmåten til forskarane. Meir av forskinga startar framføre dataskjermen. Dagens praksis der fagfolk først utviklar hypotesar og deretter testar dei ut på dataene for å finne mønster, vil kunne kompletterast med automatiserte søk og analysar:

Ein slepp ut ein trålpose med ein bestemt maskevidde, og soper med seg det som måtte henge att. Desse datamengdene kan ein så nytte for utvikling av hypotesar.

– Forskaren veit først ikkje heilt kva ho leiter etter, men etter å ha søkt forstår ho meir om kva datasettet inneheld, seier Finn Drabløs.

Interagon

Bioinformatikkselskapet Interagon starta som eit forskingsprosjekt ut frå nettselskapet FAST Search & Transfer. Selskapet har i dag seks tilsette, og held til ved NTNU.

Interagon skal utvikle nye løysingar for automatisk analyse og klassifikasjon av biologiske data, til bruk i forsking og farmasøytisk industri. Universitetet i Bergen har tidlegare etablert eit senter for bioinformatikk.

Også ved Universitetet i Oslo er det etablert fagmiljø på området. Med Interagon har også NTNU tatt steget inn i utviklinga på området.

Av Tore Oksholen