Data for evigheita

Korleis kan vi sikre at elektronisk informasjon ikkje forsvinn for oss – og at folk i framtida kan forstå han?

I løpet av dei kommande tre åra kan vi anta at menneskeheita skapar like mykje ny informasjon som ho har prestert fram til dags dato. Mykje vil vere av ein art som verda sikkert kan klare seg godt forutan.

Men om vi skiljar ut det uvesentlege, vil vi likevel stå att med ei ufatteleg informasjonsmengd. Ho skal takast hand om, vi vil at ho skal vare – om ikkje evig, så minst 100 år fram i tid.

Korleis bevare ho, og korleis oppretthalde tilgjengelegheita? Kor annleis må vi tenke i dag, for å finne løysingar som skal verke om fem år, 15 år eller 50?

Kappløp med tida

Dette er hovudutfordringa for Mads Nygård og Kjetil Nørvåg, professorar ved Institutt for datateknikk og informasjonsvitskap ved NTNU. Saman med forskarar over hele verda deltek dei i kappløpet om å stanse den digitale tidsbomba. Dei er med i forskningsprosjektet LongRec, som skal finne løysingar for langtidslagring av elektronisk informasjon. Prosjektet blir leia av Det Norske Veritas. Forskarene frå NTNU er leiarar for grunnforskinga i prosjektet og har ansvar for tre doktorgradsstipendiatar, som i hovudsak blir finansiert av Noregs forskingsråd.

For mens vi har klart å ta vare på skriftleg materiale som er fleire tusen år gamalt, står vi i fare for å miste det som er produsert etter 1990. Det vil seie alt som er lagt inn på data, anten det er tekst, lyd eller bilde.

LongRec er på jakt etter eit lagringssystem som må tilfredsstille mange ulike behov og brukast uavhengig av format og maskinvare. I dag vert elektronisk informasjon lagra i mange ulike format, som er tilpassa mange ulike maskiner. Det einaste forskarane kan være heilt sikre på, er at format og maskiner som blir brukt i dag, vil bli erstatta av noko heilt nytt.

Kortvarig glede

Nesten frå den eine dagen til den andre risikerer du å oppleve at maskinvare du treng for å køyre eit bestemt dataprogram, ikkje lenger er å oppdrive. Eller at datagrunnlaget berre er tilgjengeleg via program som ikkje finst. For ikkje å snakke om at du har lagra bilde, lyd og tekst på et format du korkje kan lese eller konvertere.

Informasjon og lagring gjennom tidene. (Trykk på bilde for større versjon i pdf-format.) Grafikk: Mads Nordtvedt

Informasjon og lagring gjennom tidene. (Trykk på bilde for større versjon i pdf-format.) Grafikk: Mads Nordtvedt

Tapet er sårt nok om dette skulle ramme di private musikksamling og familiealbum. Verre å tenkje på er at dokument som skal gjelde som rettslige bevis, kan bli borte; at helseinformasjon forsvinn; at sikkerheitssystem kan bli sett ut av drift.

For ikkje å snakke om at kulturarven risikerer å gå tapt. Bare tenk på kor fattige vi ville ha vore i dag, om vi ikkje hadde bevart oldtidas leirtavler eller kyrkjebøkene frå dei siste hundreåra.

Prosedyrar

LongRec-prosjektet er delt opp i ulike tema, som det teknologiske og organisatoriske rundt langtidslagring; søk i historisk informasjon; og sikkerheit.

– Å flytte filer frå gamal til ny teknologi, for eksempel frå tape til harddisk, eller frå gamle til nye harddiskar, er forholdsvis enkelt. Det kan dei fleste som brukar PC, klare. Vår utfordring er å etablere prosedyrar for korleis dette skal utførast. Samstundes må vi sørgje for at ikkje filene forsvinn, om til dømes eit firma eller ein organisasjon blir lagt ned eller reorganisert, forklarer Nygård.

– Éi utfordring er å sikre at innhaldet på denne CD-en blir ført over til eit nytt medium, til dømes ein ny CD, før det oppstår feil på CD-en eller før lesarane for dagens CD-ar går ut av produksjon. Ei anna utfordring er å vite kor denne CD-en er lagra, samt kva som finst på den, den dagen ein har bruk for innhaldet.

Endå ei utfordring er å handtere endringar av filformat. Éi løysing er å konvertere gamal standard til det nye formatet. Alternativet kan vere å utvikle utstyr eller program som kan gjere det gamle formatet tilgjengeleg, utdjupar Nørvåg og Nygård.

Mange lag informasjon

Den første løysinga er tilsynelatande den enklaste, men har ein openbar svakheit. Ved konvertering frå eitt format til eit anna, vil ein risikere å miste moment som ein ikkje var merksam på då konverteringa vart utført.

Forskarane trekker fram handskrivne bøker frå mellomalderen som eksempel:

– Konvertering til nytt format kan bety å berre trekke ut teksten og lagre han i ei tekstfil. På den måten får vi med informasjonen i teksten, men kanskje miste aspekt rundt handskrifta, som både kan vere kunstnarisk og kan gje informasjon om kven som skreiv teksten.

Det såkalla automatlageret ved Nasjonalbiblioteket oppbevarer bøker, tidsskrift og mikrofilm. Anlegget har plass til om lag 41 500 kassar med i alt omkring halvannan million dokument i hengemapper. Foto: Kjell Sommerseth, Nasjonalbiblioteket

Det såkalla automatlageret ved Nasjonalbiblioteket oppbevarer bøker, tidsskrift og mikrofilm. Anlegget har plass til om lag 41 500 kassar med i alt omkring halvannan million dokument i hengemapper. Foto: Kjell Sommerseth, Nasjonalbiblioteket

Alternativet kan være å avfotografere sidene i boka, og bruke eit program for å sjå bileta. På den måten blir all informasjon bevart for framtida.

Søking på tid

Ei stor ulempe med dagens søkemotorteknologi er at han ikkje tek omsyn til tidsaspektet. Dette er et formidabelt problem for dokumentsamlingar som er skrivne gjennom fleire hundre år, for eksempel hos Nasjonalbiblioteket.

La oss seie at du vil finne eit dokument som inneheld ordet «Fosnavåg» og som vart skrive før år 1970. Slik teknologien fungerar i dag, må du gå gjennom ei stor mengd søketreff for å finne ut kva som ble skreve før 1970.

Nokre dokument inneheld eksplisitt informasjon om når dei vart skrivne, som tilfellet er med daterte brev. Andre dokument har ikkje den minste pekepinn om når dei vart til.

– I vår forsking vil vi mellom anna sjå på korleis vi kan gjere effektive søk på «inneheld Fosnavåg og er skrive før 1970». For dokument som er daterte, blir utfordringa å utføre søket effektivt på store datamengder, med vidareutvikling av indekseringsteknikkar.

For udaterte dokument må ein i tillegg forsøke å tidsbestemme dokumentet, kanskje basert på statistiske språkmodellar.

Til dømes kan vi sjå på kva for ord som vert brukt. Er ordet «tsunami» med, er det relativt sannsynleg at dokumentet er skrive etter 2004. Er i tillegg «Bin Laden» med, blir vi styrka i trua på at det er skrive etter 2004, meiner LongRec-forskarane.

Eit tilleggsproblem når ein søker i dokument frå ulike tidsepokar, er at språket endrar seg over tid. Dette bør søkeverktøyet kunne fange opp, slik at når ein søker etter «Trondheim», også kan finne dokument som inneheld «Trondhjem» eller «Nidaros». Dette gjeld sjølvsagt ikkje berre stadnamn, men alle slags ord og uttrykk.

Sikkerheit

Å hindre uvedkommande tilgang til datafiler er ei generell problemstilling innanfor datasikkerheit. NTNU-forskarane vil studere fleire sikkerheitsaspekt: Korleis skal vi kunne fastslå at eit dokument er skrive av ein bestemt person, eller kjem frå ei bestemt bedrift?

Når eit format skal endrast, korleis skal vi vite at ikkje informasjon blir lagt til eller fjerna i prosessen? At ikkje historia vert forfalska?

Og når eit firma vert kjøpt opp eller splitta, kven står da som eigar av dokumenta?

Håper å sjå lyset

På lang sikt håper Nygård og Nørvåg å bygge ut LongRec til eit EU-program. I første omgang konsentrerer prosjektet seg om å søke løysingar for nasjonale behov.

Blant samarbeidspartnarane er Det Norske Veritas (DNV), som er initiativtakar til forskingsprosjektet. DNV har blant anna behov for gode løysingar for distribusjon og sikker lagring av digitale skipsteikningar.

Andre partnarar er Nasjonalbiblioteket, Bankanes Betalingssentral, Riksarkivet, Brønnøysundregistra, StatoilHydro, Norsk Reknesentral og Utanriksdepartementet. For ikkje å gløyme CSAM, Rikshospitalets portal for helseinformatikk, og søkemotoren Fast.

Nokre av løysingane deltakarane spør etter, har dei felles bruk for. Andre løysingar er meir spesifikke. Uansett har ikkje forskarane kome stort lenger enn til kartleggingsfasen. Men databasegruppa ved Institutt for datateknikk og informasjonsvitskap har 15 års erfaring med tidsrelaterte data og minst det dobbelte med handsaming av store datamengder.

– No samlar vi inn alle lure tankar som er tenkte frå før, for å bygge vidare på dei beste, seier Nygård og Nørvåg.

– Prosjektet må byggast bit for bit. Vi har kanskje sett nokre små lys, ein dag venter forhåpentlegvis full flombelysning.

Av Synnøve Ressem