Forskere viser i et nyt metodestudie, at der kan trækkes meget mere klinisk relevant information ud af relativt rå eller tilsyneladende mindre betydningsfulde data fra store biobanker og genetiske databaser. Metoden kan også anvendes til at øge mængden af forskningsmæssig brugbar genetisk information om mennesker, som vi genetisk kun har målt relativt begrænset på, siger forsker.
Forestil dig, at du som forsker gerne vil undersøge genetikken bag depression.
Det kræver store mængder data, hvor du måske skal lave genetiske profileringer af 100.000 personer og sammenholde data med deres sygdomshistorik og andre fænotypiske træk.
Den slags studier koster en formue at lave, og hvis du i stedet ønsker at gøre brug af nogle af de store biobanker, der findes rundt om i verden, indeholder de måske ikke de data, som du skal bruge. Det gælder både de genetiske og de fænotypiske typer af data.
Nu viser et nyt studie, at det metodisk faktisk er muligt at tillægge personer sandsynligheden for nogle genetiske og klinisk relevante karaktertræk, uden at man overhovedet har målt de pågældende genetiske eller kliniske træk.
Disse data for sandsynlige genetiske og fænotypiske træk kan man så lave sine undersøgelser på og derved blive klogere på genetikken bag depression og hvordan den er forskellig mellem mennesker.
"Metoden er aktuel, fordi det gør, at vi kan få betydeligt mere indsigt i genetikken bag en sygdom, uden at vi har lavet en tilsvarende omfattende genetisk kortlægning af de personer, der er med i en given undersøgelse. Samtidig kan vi spare en masse ressourcer på disse typisk meget dyre studier, som på sigt kan gøre os i stand til at forudsige, om en given person har øget risiko for udvikling af for eksempel depression, eller om personen formentlig vil reagere positivt eller negativt på en given behandling," fortæller en af forskerne bag studiet, klinisk professor Thomas Werge fra Institut for Biologisk Psykiatri, Københavns Universitetshospital, og Klinisk Medicin ved Københavns Universitet.
Forskningen er offentliggjort i Nature Genetics.
Ikke nødvendigt at kende til de træk, man gerne vil studere
I studiet har forskerne valideret en metode til at blive klogere på personers genetik eller fænotypiske træk ud fra andre fænotypiske træk eller andre former for data.
Et eksempel kan være, at man gerne vil studere demens, men at man til sin undersøgelse kun har personer i alderen 30 til 50 år.
I denne gruppe har formentlig ingen udviklet demens, så det giver ikke meget mening at sammenholde denne gruppes genetik med risikoen for udvikling af demens.
I stedet for at vente 40 år på, at personerne i undersøgelsesgruppen begynder at udvikle demens, kan man i eksemplet benytte information om forældrenes sygehistorik med demens.
"Det vil sige, at vi i stedet for at måle på demens hos den person, som vi har genetiske data på, estimerer vi en sandsynlighed for demens ud fra viden om, hvorvidt forældrene havde demens. Vi udfylder på den måde en manglende viden om personernes fremtidige sygdom i vores undersøgelseskohorte med sandsynligheder," forklarer Thomas Werge.
Har én forælder haft demens, kan man tillægge personen en vis sandsynlighed for at udvikle demens, mens sandsynligheden for eksempel kan være 50 pct. højere, hvis begge forældre har haft demens.
"Vi behøver ikke kende til alt om en person for at kunne lave vores analyser. Hvis vi kender til nogle træk, kan vi udregne en sandsynlighed for andre træk, som vi er interesseret i, og det er nok til, at vi har styrke i data til at kunne trække resultater ud af vores undersøgelser," siger Thomas Werge.
Låner sammenhænge fra andre datasæt
I studiet viser forskerne, at man kan identificere slægtskaber mellem genetiske forskelle og mellem karaktertræk og bruge denne indsigt til ganske nøjagtigt at beregne andre personers sandsynlighed for klinisk vigtige karaktertræk og genetiske varianter, så disse personer også kan indgå og styrke sygdomsstudier.
Et eksempel kan være, at man om en person kun kender til personens fødselsvægt, uddannelse, køn og alder, men at man skal bruge personens højde i sin analyse.
Igen kan man ud fra data fra databaser med millioner af andre mennesker identificere sammenhænge mellem fødselsvægt, uddannelse, alder, køn og højde, og det gør, at man for personerne i sin egen undersøgelseskohorte kan lave en sandsynlighed for en højde på hver person, hvis højde er ukendt.
Denne sandsynlige højde kan så indgå i og væsentligt styrke studiet, så der kan komme brugbare konklusioner ud af det.
"Så selvom vi ikke kender til personens højde, men kun en sandsynlig højde, kan denne 'sandsynlige højde' alligevel indgå og bidrage i genetiske studier. Det interessante, som bliver vist i dette studie, er, at man kan bruge forældredata eller andre informationer om de personer, man er interesseret i at lave sine analyser på. Fordi man kender til sammenhænge mellem fænotypiske træk og genetik fra andre store datasæt, kan man regne sandsynligheden ud i sit eget datasæt," forklarer Thomas Werge.
Selv uden data kan forskere blive klogere på depression
I det omtalte studie viser forskerne, at den ovennævnte metode virker i en genetisk undersøgelse for depression.
Depression kan være en svær størrelse at studere, fordi selve diagnosen ikke er ja/nej på samme måde som for eksempel en diagnose med type 1-diabetes, eller når man måler højde eller vægt.
"Her er det tanken, at vi kan forstå genetik og årsager til depression meget bedre, hvis vi har flere data på store grupper af personer med depression. Men som sagt er den type studier meget omkostningstunge," siger Thomas Werge.
I stedet for at lave studierne fra bunden viser forskerne i deres studie, at man kan tage data fra store biobanker som for eksempel UK Biobank eller Biobanken i Region Hovedstaden, Danmark.
Biobanker indeholder ofte genetiske data på deltagere samt generelle oplysninger om tidligere sygdomme, uddannelse og lignende, men der mangler typisk detaljerede oplysninger om de mange specielle og klinisk afgørende karaktertræk, som varierer mellem personer med depression.
Det er disse data, som forskerne ikke behøver at kende til, fordi de kan udregne sandsynligheder for dem og derved lave deres analyser på de meget store datasæt, som er til rådighed.
"Grundlæggende data og ressourcer er der, og det koster ikke spidsen af en rumraket og en hel karriere at estimere de data, som mangler, men som man skal bruge. Man kan beregne sig til noget brugbart og derved identificere for eksempel genetik med betydning for et klinisk vigtigt aspekt af depression. Det kan få betydning for den kliniske verden og behandlingen af personer med depression," siger Thomas Werge.