Validering

Validering

I dagens informasjonssamfunn er det en utbredt misoppfatning at tradisjonelle problemstillinger knyttet til datakvalitet kan omgås ved å samle inn mye data. Men problemene som finnes i mindre datasett forsvinner ikke ved oppskalering – snarere tvert imot; kvantitet har ofte en tendens til å gå på bekostning av kvaliteten på det som samles inn.

Det kan også antas å være en assosiasjon mellom datakvalitet og bruk av data. Data av dårlig kvalitet vil neppe bli brukt, og dermed forbli dårlige, mens bruk av data vil sette fokus på og trolig forbedre datakvaliteten. En helseinstitusjon som aktivt bruker sine egne registerdata til kvalitetssikring og kvalitetsforbedringsarbeid, og således opplever nytteverdi i klinikken av innregistreringen av data, vil trolig være opptatt av at datakvaliteten skal være høy.

Hensikten med å validere registerdata er likevel ikke først og fremst å korrigere feil i data, men å estimere hvor mye data som mangler og hvor stor andel av verdiene av en eller flere variabler som er korrekt registrert. Resultatene fra et valideringsprosjekt benyttes i analyser av registerets data og kan fungere som et utgangspunkt for et mer systematisk korreksjonsarbeid.

Krav om validering

For at kvalitetsregistrene skal kunne tjene sitt formål er det avgjørende at data er så korrekte og fullstendige som mulig. I kriteriene som ligger til grunn for evalueringen av de nasjonale kvalitetsregistrenes status opereres det med fire faser eller stadier som beskriver et registers utvikling. Den første fasen, utviklingsfasen, definerer et minimum for å kunne bli tildelt nasjonal status. Den andre fasen er implementeringsfasen, mens tredje og fjerde fase er driftsfaser.

I implementeringsfasen skal registeret ha utarbeidet en plan for beregning av dekningsgrad og evaluering av datakvalitet. I driftsfasen skal det kunne redegjøres for registerets datakvalitet i stadium tre og i fjerde stadium skal datakvaliteten kunne dokumenteres. Allerede når registeret gjøres klar for å settes i drift med landsomfattende datainnsamling skal det utarbeides planer for evaluering av datakvalitet, og disse må implementeres og dokumenteres i driftsfasen.

Målet er at alle nasjonale registre på sikt skal nå det fjerde stadium. Hvis et register over tid ikke er i stand til å oppfylle kravene til sitt neste stadium vil ekspertgruppen, som gjennomfører evalueringen, i samråd med databehandlingsansvarlig instans og driftsansvarlig RHF vurdere nødvendige tiltak ovenfor registeret. Alle nasjonale registre må derfor jobbe for å kunne dokumentere sin datakvalitet, noe som innebærer at en form for validering må implementeres.

Ulike typer validering

I tillegg til å estimere dekningsgrad og evaluere hvor korrekte de registrerte data er, kan man også undersøke datas aktualitet og sammenlignbarhet. Et valideringsprosjekt trenger ikke inkludere alle kvalitetsdimensjonene, men alle kvalitetsdimensjoner bør evalueres gjennom valideringsprosjekter. Det enkleste er dog som regel å inkludere alle kvalitetsdimensjoner i ett og samme valideringsprosjekt. Vi viser til eksempelet under for å illustrere forskjellene på de ulike kvalitetsdimensjonene og hvordan valideringsresultatene kan sammenfattes.

Eksempel på evaluering av dekningsgrad, validitet, aktualitet og sammenlignbarhet

Som et utgangspunkt for kvalitetsforbedringsarbeid undersøkte i 2012 det Nationella Prostatacancerregistret (NPCR) i Sverige både dekningsgrad, validitet, aktualitet og sammenlignbarhet for registerets data og sammenfattet resultatene i en rapport. Resultatene er av mindre betydning her, men prosjektet og sammenfatningen er bra, spesielt vil vi her trekke frem kurvene som viser innrapporteringshastigheten som svært informative. Les mer

Validering mot kildedata

Kontroll mot kildedata er nok den beste – men også mest ressurskrevende – valideringsmetoden. Derfor er det vanligvis bare et tilfeldig utvalg av enheter og individer som kontrolleres. Sammenligning av registerdata mot kildedata skjer vanligvis på pasientnivå med pasientjournalen som kilde, hvor grunnprinsippet er at fasiten er de data som er registrert i kilden. Les mer om tilfeldig utvalg

Validering mot kildedata gjør det mulig å identifisere om det er problemer med en eller flere variabler. Hvis en variabel systematisk blir feiltolket eller utelatt, har man mulighet til å tydeliggjøre informasjonen om hvordan variabelen skal registreres i registret. Man kan også identifisere problemer med innregistreringen fra bestemte enheter, noe som gir mulighet for diskusjoner og avklaring omkring hvordan innregistreringen skal utføres.

Eksempel på validering mot kildedata

Norsk hjerneslagregister (NHR) gjennomførte i 2014 en valideringsstudie på slagdiagnoser både i registeret og Norsk pasientregister. De gjorde en gjennomgang av pasientjournaler for alle pasienter som var registrert i enten NHR eller NPR ved fire sykehus i Midt-Norge i 2012. De undersøkte også pasientjournalene til et større utvalg pasienter som hadde TIA eller slaglignende diagnoser, pluss et tilfeldig utvalg ikke-slagrelaterte diagnoser for å se etter falske negative. Totalt undersøkte de 5192 pasientjournaler og beregnet kompletthet og korrekthet på diagnose i både NHR og NPR. I tillegg har registeret, basert på et tilfeldig utvalg pasienter, evaluert reliabiliteten på variablene i registeret. Les mer her og her.

Validering mot journal forutsetter visse juridiske tillatelser. Les mer om juss

Validering mot faglig standard

Validering mot kildedata eller eksterne registre er de vanligste formene for validering, men det er også mulig å validere kvaliteten på en klassifiseringsvariabel mot en (medisinsk-) faglig standard.

Dersom man for eksempel ønsker å vurdere kvaliteten av en diagnosevariabel forutsetter det at man har en form for fasit som sier hvilken diagnose som er korrekt i det enkelte tilfelle. En fasit av denne typen kan bygge på etablert faglig konsensus eller bestemmes ved at flere erfarne og uavhengige eksperter kommer til enighet om hvordan et tilfelle skal klassifiseres. Ved en slik validering sammenlignes kodene som er registrert i registeret med den forhåndsdefinerte «gullstandarden». Høy samsvarsgrad indikerer høy datakvalitet.

Datamengden i et register er ofte såpass stor at det er for ressurskrevende å gjennomføre en slik validering av samtlige koder for en aktuell variabel. Beregning av graden av samsvar mellom et register og «gullstandarden» baseres derfor ofte på et tilfeldig utvalgt hvor samsvarsgraden analyseres statistisk, for eksempel ved hjelp av den såkalte «kappametoden».

Eksempel på validering mot en faglig standard

I 2014 gjennomførte Norsk pasientregister (NPR), i samarbeid med Cerebral pareseregisteret i Norge, en validering av diagnoser for barn som sto oppført med CP i NPR. To erfarne barneleger med spesialkompetanse innen barnenevrologi sjekket journalene for disse barna og fant at diagnosen var korrekt i 84% av tilfellene. Dette gir verdifull informasjon om kvaliteten på CP-diagnosene i NPR. Les mer

Validering uten kildedata

Det er ikke alltid uavhengige kildedata eksisterer for variablene i et kvalitetsregister. For eksempel vil det være vanskelig å validere variabler som måler pasienters livskvalitet. Det man kan gjøre, er å sammenfatte beskrivende statistikk (f.eks. gjennomsnittsverdier, medianverdier, antall manglende verdier, minste og største verdier og spredning) for deltakende enheter og gjøre en vurdering av om variasjonene som framkommer mellom enhetene er rimelig.

Regelmessig validering

Alle kvalitetsregistre bør sette opp og gjennomføre skreddersydde valideringsplaner. Nøkkelvariabler bør kontrolleres regelmessig, mens mer omfattende valideringsstudier gjennomføres ved behov, for eksempel i forbindelse med spesielle forskningsprosjekter som omhandler kvalitetsregisterdata. Alt for ofte ser man i publiserte artikler at metodebiten er omfattende beskrevet, mens datakvaliteten knapt er nevnt med et ord. Metode og resultater har mindre å si hvis datagrunnlaget er sviktende.

Vær bevisst på at validering er ferskvare som går ut på dato. Dersom du har validert data for perioden 2005-2010, kan du strengt tatt ikke si noe om datakvaliteten for perioden 2010-2015. Det kan ha skjedd endringer i personell, praksis og rutiner eller i IT-systemer og databaser som påvirker datakvaliteten.

Utvalg av enheter og pasienter

Ettersom det sjeldent er mulig eller praktisk gjennomførbart å validere registerdata mot kildedata for samtlige enheter/institusjoner og pasienter, må det gjøres et tilfeldig utvalg av pasienter for utvalgte variabler. Man estimerer så feilrater for utvalget og ekstrapolerer resultatene til resten av registeret.

For å lette arbeidet og begrense kostnadene kan det være fordelaktig å foreta en stratifisert eller klynget trekning, det vil si at man trekker de data som skal valideres i flere trinn. I en stratifisert trekning trekker man ut et antall pasienter ved alle enhetene og beregner enhetenes feilrater, mens man i en klynget trekning antar at visse enheter er like og kun trekker ut noen av enhetene fra hver klynge. Man kan godt si at en klynget trekning er en stratifisert trekning med et ekstra ledd hvor klyngene utgjør strata. (Dersom man trekker pasienter direkte fra hver klynge, uten å gå via en trekning av enhetene, er en klynget trekning i praksis det samme som en stratifisert trekning.) En stratifisert trekning betyr strengt tatt bare at data deles inn i kategorier/strata, før man trekker et utvalg fra hvert stratum, som samlet utgjør det totale utvalget av trekningen.

Man kan altså enten velge å inkludere alle enhetene (stratifisert trekning) eller å trekke et tilfeldig utvalg av enhetene (klynget trekning) fra hver klynge, for deretter å trekke et tilfeldig utvalg av pasienter ved disse enhetene og kontrollere utvalgte variabler. Sistnevnte er altså en totrinnsmetode, hvor man først trekker tilfeldige enheter, for så å trekke tilfeldige pasienter fra disse, istedenfor å trekke pasienter direkte fra alle enhetene. Man kan legge på ytterlige ett trinn ved å dele pasientene inn i ulike pasientgrupper hvis det er et poeng at pasientene ikke er ensartede. Videre kan man også anvende ulik vekting i trekningen, det vil si at sannsynligheten for å bli trukket ut ikke er den samme for alle pasientene. Dette kompliserer matematikken noe, men åpner for et mer fleksibelt design.

Hensiktsmessig inndeling, form, vekting og utvalgsstørrelser med tanke på ønskede feilmarginer, er svært registerspesifikt og bør, sammen med ekstrapoleringingen til hele registeret, gjøres av statistikere i samarbeid med registerets medisinske fagmiljø. Man kan ikke blindt kopiere utvalgsstørrelsene fra valideringsstudier i andre kvalitetsregistre.

Hovedpoenget er at utvalget skal være representativt for registeret. Dette avhenger av registerets natur, ikke bare antallet enheter og pasienter, men også klassifisering av pasient- og institusjonstyper. Det er ikke uvanlig at det er forskjell på de ulike institusjonens størrelse, funksjon, variasjon og pasientsammensetning – og dette må det tas hensyn til. Kanskje trengs det mange pasienter fra få institusjoner, kanskje trengs det få pasienter fra mange institusjoner, eller kanskje trengs det en kombinasjon av disse. Det kan være et poeng å stratifisere for å få feilrater for hvert sykehus og ikke bare hele registeret, hvis man f.eks. vet at det er forskjeller i rutinene på hvordan sykehusene registrerer opplysninger i registeret. Videre må man vurdere om man ønsker å sikre seg at man får med pasienter som er representative med tanke på alder, kjønn eller sykdomskarakteristika. Man kan stratifisere både institusjonene og pasientene.

Med et godt designet utvalg oppnås nesten like stor nøyaktighet som ved full en validering, bare til betydelig lavere kostnader. Vi vil i fortsettelsen beskrive prinsippene for uttrekksstørrelser for et stratifisert utvalg, men gjør oppmerksom på at beskrivelsen er forenklet – i en del tilfeller må det benyttes mer avanserte metoder. De som er interessert kan for eksempel sjekke: «Sampling of populations» av P. Levy og «Sampling Essentials» av J. Daniel.

Hvis det ikke foreligger dokumentasjon av hvilke institusjoner som er like med tanke på funksjon og variasjon bør man være forsiktig med å velge et klyngedesign. Hvis man er usikker er det bedre å ha en enkel eller full randomisering fremfor en smart randomisering. En full randomisering, altså at du trekker pasienter uavhengig av deres tilhørighet, er enkel å forstå. Man bør ikke komplisere matematikken før begrensede ressurser, som reisekostnader og tidsbruk, gjør det nødvendig.

Et poeng av praktisk betydning man kan merke seg er at man, i tillegg til juridisk hjemmel, bør hente inn tilsagn om samarbeid i forbindelse med valideringen fra alle aktuelle institusjoner. Hvis man trekker utvalget av enheter i forkant, for så å finne ut at kun ni av ti enheter ønsker å delta i valideringen, vil den ene enheten «ødelegge» hele valideringen.

Hvor stort må utvalget være

Et vanlig spørsmål i denne sammenheng er hvor stort utvalg som må valideres. Prinsippene for beregning av utvalgsstørrelse er omtrent som i kliniske studier, det vil si at man definerer seg akseptable feilmarginer og beregner utvalgsstørrelsen ut fra dette. Men for å redusere de logistiske problemene og behovet for å reise rundt på hvert sykehus kan det, som tidligere beskrevet, være fornuftig å bruke en flertrinnsmetode.

La oss betrakte et utvalgsdesign hvor første trinn består i av å trekke et utvalg sykehus, for deretter å trekke et utvalg pasienter fra disse sykehusene. Antallet pasienter som trengs avhenger av hvor stor sikkerhet man ønsker for beregningen av andelen korrekte registreringer for en spesifikk variabel. Jo større sikkerhet (smalere konfidensintervaller) man ønsker for beregningen av validiteten, desto større utvalg kreves, og jo færre sykehus som velges i det første utvalget, desto flere pasienter må velges i det andre trinnet for å oppnå samme sikkerhet.

Beregningen av nødvendig størrelser kompliseres av at det på hvert enkelt sykehus kan foreligge (intraklasse-) korrelasjon mellom observasjonene. Ettersom dette reduserer informasjonsinnholdet i utvalget ved hvert sykehus, må den samlede utvalgsstørrelsen være større enn det som kreves ved full randomisering (pasienter trukket uavhengig av sykehus), og jo høyere korrelasjon, desto større må utvalget være. Faktoren som beskriver hvor mange flere pasienter som må inkluderes kalles gjerne designeffekten. Denne er avhengig av intraklassekorrelasjonene og antallet pasienter som velges ut ved hvert sykehus.

Utvalgets størrelse og form kan beregnes ved hjelp av ulike programmer og standardiserte tabeller. Dette utypes ikke i detalj her, men under gis et forenklet eksempel på utregning av utvalgsstørrelse ved full randomisering. Sistnevnte er ofte å foretrekke dersom tid og ressurser ikke utelukker det ettersom matematikken kompliseres av et trinnvis utvalg. Utregningen av utvalgsstørrelse under skal ikke slavisk etterfølgelses, det er et svært stilisert eksempel, hvert register er unikt og må vurderes på sitt eget grunnlag.

Eksempel på utregning av utvalgsstørrelse

Anta at vi ønsker å validere en variabel , f.eks. en prosedyrekode, og at vi ønsker å estimere feilraten til denne variabelen, dvs. andelen tilfeller hvor variabelen mangler eller er registrert med feil kode. Følgende utregning av utvalgstørrelsen, som er avhengig av konfidensnivået og en presumtiv prevalens av feilregistreringer, viser f.eks. at man tolererer en usikkerhet på pluss/minus ett prosentpoeng i estimatet på andelen feilregistreringer trenger 380 stikkprøver dersom man antar at prevalensen er 1% og 1825 stikkrpøver dersom man antar at prevalensen er 5%. 

Merk at man i praksis ofte ikke kjenner, eller fullgodt kan estimere, størrelsene som inngår i regnestykket for utvalgets størrelse. Dersom man ikke har en presumtiv verdi på andelen feilregistreringer eller kjenner intraklassekorrelasjoner blir det mange ukjente størrelser i ligningen. For antagelsen om andel feilregistreringer kan man basere seg på andre valideringsstudier eller gjennomføre en pilotstudie, men man ender uansett fort i en situasjon hvor man regner «baklengs», det vil si at man velger en utvalgsstørrelse som en gjennomførbar i praksis og regner seg til hvilke feilmarginer man opererer med istedenfor en predefinert toleranse for feilmargin.

Dokumentasjon og rapportering

Det er viktig å dokumentere valideringen som gjøres i et register. Det skal være mulig å spore hva som har blitt validert og når det har blitt gjort. Handlingene dokumenteres gjerne ved hjelp av valideringsrapporter som minst bør inneholde følgende hovedpunkter:

  • Beskrive valg av valideringsmetode.
  • Navn på personer som har hatt ansvar for valideringen og dato for utføring.
  • Resultat av validering og en vurdering av datakvaliteten som høy, akseptabel eller svak.

Resultatet av valideringen skal rapporteres til deltakende enheter og gjøres tilgjengelig for alle, og ved behov bør det utarbeides tiltaksplaner for å bedre datakvaliteten. Benytt gjerne anvisningene i denne håndboken som mal for rapportering av valideringsarbeid. 

Les mer om anvisninger for valideringsarbeid

Etter valideringen

Etter en valideringsprosess må man vurdere om man skal korrigere de feilaktige data som blir avdekket. Det kan være etiske eller juridiske grunner til at data absolutt bør rettes, men det ingen selvfølge at feilene skal rettes. Man må være klar over at man risikerer å introdusere skjevheter i datamaterialet ettersom feilene som oppdages som regel kun er for et visst utvalg. Ved å korrigere data mister man oversikten over feilenes størrelse og betydning, som kan være av verdi i analyser.

Dersom en validering avdekker store feil for en gitt variabel eller variabelverdi/-kategori, kan det være en bedre fremgangsmåte å be avdelingene kontrollere data for denne variabelen fremfor å kun korrigere de feilene som avdekkes under valideringen. Hva man velger å gjøre er en vurdering som må gjøres for hver enkelt valideringsprosess basert på feilenes natur og konsekvenser for analyser. Man kan også vurdere å beholde de feilaktige data sentralt i registrene, men be avdelingene korrigere opplysningene i de lokale kildene, f.eks. pasientjournalen. Men det er her viktig å være bevisst på at det kun skal være ett originalt datasett som utgjør registeret, man ønsker å unngå at det eksisterer to ulike datasett som utvikler seg i hver sin retning.