NTNU har vi vært med på å utvikle en prototyp for å fjerne sensitive personopplysninger fra gendataene. Foto: Scanpix

Norske rådata for covid-19 legges ut

Rådata om norske koronavirus-gener blir nå for første gang fritt tilgjengelig gjennom den åpne genbanken ENA.

ELIXIR Norge og Folkehelseinstituttet (FHI) har samarbeidet om en teknisk løsning som laster opp de norske virussekvensene til genbanken sammen med informasjon om hvor prøvene kom fra. Løsningen sikrer at sensitiv informasjon om pasienten som hadde det aktuelle viruset ikke inkluderes.

– I den pågående pandemien har det vist seg å være svært viktig at all tilgjengelig virusinformasjon deles så raskt og åpent som mulig, med helsepersonell og forskere verden over. Vi er derfor svært glade for at også norske virussekvenser nå gjøres åpent tilgjengelig sier professor Nils Peder Willassen ved UiT. Han er også nestleder for ELIXIR Norge, den norske forskningsinfrastrukturen for bioinformatikk og biologiske data.

Ved deling av rådata er det mulig å foreta systematiske sammenligninger av alle tilgjengelige SARS-CoV-2-sekvenser internasjonalt. Det er viktig at norske sekvenser er en del av dette, mener Willassen.

NTNU bidrar

NTNUs rolle i ELIXIR-samarbeidet er å bidra med datakompetanse.

– I denne saken har vi vært med på å utvikle en prototyp for å fjerne sensitive personopplysninger fra gendataene. I samarbeid med HUNT Cloud ved NTNU har vi laget en filtrering som fjerner personsensitive spor, sier professor Pål Sætrom ved institutt for klinisk og molekylær medisin ved NTNU. 

FHI fornøyd

I Folkehelseinstituttet er man fornøyd med at enda mer av de norske dataene blir tilgjengelige. 

– Vi er svært glade for å bidra med norske virussekvenser i den internasjonale dugnaden sier Anna Karin Germundson Hauge. Hun er avdelingsdirektør ved avdeling for bakteriologi ved FHI.

Hauge presiserer at såkalte konsensus-sekvenser fra det norske SARS-CoV-2 utbruddet tidligere har vært delt med det internasjonale samfunnet gjennom GISAID, et verktøy for rask utveksling av utbruddsdata.

– Gjennom samarbeidet med ELIXIR Norge sikrer vi nå at også alt underlagsmateriale kan deles, sier hun.

Åpen genbank

ENA (European Nucleotide Archive) er en kvalitetssikret internasjonal database som samler og ivaretar alle typer nukleotidsekvenser. Løsningen benytter seg av NeLS, den norske e-infrastrukturen for livsvitenskapelige data, som er utviklet av ELIXIR Norge, og TSD, Tjenester for sensitive data, utviklet ved USIT ved UiO.

Løsningen bevarer all informasjon som er nødvendig for åpen gjenbruk av data, samtidig som at alle spor fra pasienten som har hatt det aktuelle viruset fjernes, slik at personvernet hele tiden er ivaretatt.