Refleksjon

Forskere snakker ofte om «signifikante resultater» når de mener å ha unnet ‘virkelige’ forskjeller, for eksempel mellom en ny behandlingsmetode og vanlig praksis. Men det er viktig også å bruke holdepunkter utenfor statistikken. Sunn fornuft, kritisk sans og vurdering av praktiske implikasjoner er vesentlig i en vurdering av om et tiltak har effekt.

Signifikante resultater er sjargong for statistisk signifikans, men sier egentlig ikke noe om hvorvidt et tiltak har stor eller liten praktisk effekt. Når forskere sier at et tiltak er signifikant bedre enn vanlig praksis, er det lett å tenke at det betyr «grønt lys» for å bruke tiltaket, i tillit til at det hjelper målgruppen på en god måte. Men «statistisk signifikans» gir liten informasjon om forskjellen mellom en eksperimentgruppe og en kontrollgruppe. Forskere bruker derfor ofte en effektstørrelse, som for eksempel Cohens d, som et uttrykk for praktisk eller klinisk signifikans. Cohens d er en standardskåre som gjør det mulig å sammenlikne resultater på tvers av studier, og den tallfester den faktiske forskjellen i behandlingsutfall mellom grupper som får − og som ikke får et tiltak. Derfor er det blitt svært vanlig å rapportere denne i forskningslitteratur − med referanse til Cohens autoritative bok fra 1977.

At dette ikke er fullt så enkelt, skal vi forklare i denne artikkelen. Vi vil argumentere for at det er viktig å bruke holdepunkter utenfor statistikken når vi skal vurdere om et tiltak har effekt. Sunn fornuft, kritisk sans- og vurdering av praktiske implikasjoner er vesentlig i en vurdering av om et tiltak har effekt. Hva kan det være lurt å tenke på når en hører at et tiltak har effekt? Det er lett å bli forført – eller provosert – av kvantitativ forskning og statistikk som «objektiv» og eksakt. Men det er viktig å se på statistiske effekter som redskap for å tolke store datamengder på en mest mulig gjennomsiktig og etterprøvbar måte. Siden forskning må vurderes og tolkes, er det nyttig å ha noen holdepunkter for egne vurderinger av resultatene.

Følgelig ønsker vi å gi praktikere, og kanskje også en og annen forsker, noen enkle holdepunkter til hjelp i vurderingen av om et tiltak som er evaluert er tull, eller om det kan ha praktisk betydning.

Design og kontrollgruppe

Når forskere snakker om «design» handler det om hvordan en evaluering er utformet; om hvem de samler inn data fra (f.eks. en eksperiment- og kontrollgruppe) og når (f.eks. før og etter gjennomføringen av en intervensjon). En av de beste måtene å teste effekten av et tiltak på, er gjennom en såkalt «randomisert, kontrollert studie».

Ideen er enkel; man rekrutterer en gruppe barn og familier som er i målgruppen for tiltaket, man velger tilfeldig hvem som får tiltaket og hvem som får et alternativ (kalt kontrollgruppe eller sammenlikningsgruppe), og måler utfallet (for eksempel forekomst av atferdsproblemer) før og etter tiltaket. Hvis den tilfeldige fordelingen (les: randomiseringen) har fungert, er de to gruppene sammenliknbare før tiltaket settes inn. Den eneste forskjellen er at de får forskjellige tiltak. En forskjell i atferdsvansker etter at tiltaket er avsluttet, skal derfor i prinsippet kunne forklares kun ved at gruppene har fått ulike tiltak. Forskjellen i utfallet målt under eksperimentbetingelsen og alternativet er effekten av tiltaket.

Det vesentlige spørsmålet for å vurdere om et tiltak har effekt er: Er det rimelig å tro at den eneste forskjellen mellom de to gruppene er at én har fått tiltak og én har fått kontrollbetingelsen? Hvis svaret på dette er ja – her er det sunn fornuft, kritisk sans, og naturligvis erfaring med forskningsdesign som ligger til grunn − kan vi gå videre til å tenke på gruppene.

Er gruppene store nok?

Gruppene må være store nok til at forskjellene mellom gruppene faktisk synes i dataene. Vi ønsker med andre ord at tilfeldige variasjoner innad i gruppene ikke er større enn at effekten av et tiltak synes. For små grupper kan føre til at vi ikke ser effekter som faktisk er det (dvs. at vi forkaster et tiltak som uvirksomt selv om det faktisk er virksomt). I forskning kalles dette ofte Type II-feil. Det finnes ingen eksakte regler for hvor store gruppene skal være. En tommelfingerregel er at jo større grupper, jo bedre, og at studier med mindre enn femti i hver gruppe bør betraktes med mer skepsis enn studier med større grupper. Men grensene er flytende, og avhenger blant annet av hvor store forskjeller vi forventer å finne.

Hva sammenliknes tiltaket med?

Hvis vi tenker at gruppene er store nok for å være pålitelige, må vi tenke på kontrollbetingelsen. En effekt av et tiltak er alltid avhengig av hva det sammenliknes med. Dette kaller forskere for den kontrafaktiske betingelsen. Hva hadde barnet fått hvis det ikke fikk tiltaket? For å kunne vurdere effekten av et tiltak må vi derfor vite hva kontrollgruppen fikk. Ofte beskrives dette som ‘vanlig behandling’ (eng. treatment as usual). Hvis kontrolltiltaket er veldig bra, må jo tiltaket være desto bedre for å vise seg mer effektivt. Hvis det ikke er noe kontrolltiltak, viser studien bare at tiltaket er bedre enn ingen behandling.

Jo vagere kontrolltiltaket er beskrevet, jo vanskeligere er det å vurdere effekten av det. At et tiltak er effektivt på ett sted, eller på ett tidspunkt, forteller oss ikke nødvendigvis at det vil være effektivt i andre situasjoner, hvor det alternative tiltaket er annerledes. For eksempel kan kriminalitetsforebyggende tiltak som viser seg virksomme i USA, ikke nødvendigvis være virksomme i Norge, fordi vi har et helt annet tiltaksapparat overfor barn og unge som begår lovbrudd.

Vurderingen av overførbarheten eller generaliseringsverdien av resultater må altså bygge på sunn fornuft og skepsis. Når vi nå har tenkt gjennom design, gruppestørrelser og kontrollbetingelse, kan vi gå videre til å vurdere selve effekten av tiltaket.

Statistisk signifikans

Statistisk signifikans er en funksjon av størrelsen på en effekt og av størrelsen på gruppene. Jo større grupper som sammenliknes, jo mindre effekt skal til for å få et signifikant resultat. Innenfor fag som psykologi og pedagogikk tenker man at hvis det er mindre enn 5 % sannsynlighet for at den observerte forskjellen skyldes tilfeldigheter, så kan det skyldes effekten av tiltaket. Sagt på en annen måte; hvis den samme undersøkelsen ble gjennomført 100 ganger i den samme målgruppen, forventer vi å få et tilsvarende godt resultat i 95 av disse. Forskere skriver da ofte at p<.05, hvor p viser til sannsynligheten for å begå en Type I-feil: Å si at det er en effekt der hvor det egentlig ikke er annet enn tilfeldige variasjoner. Det er utelukkende konvensjonelle grunner til at 5 % er blitt en kritisk grense. Hvis det er mindre enn 6 % eller 7 % risiko for Type I-feil (i stedet for 5 %), er det ikke noen logisk grunn til å skulle forkaste intervensjonen, selv om dette ofte gjøres. Forskere snakker derfor ofte om «grensesignifikante» resultater hvis p-verdien er mindre enn 10 %. De seneste årene har vi sett en tendens til at forskere er mindre rigide i å forkaste resultater med noe høyere p-verdier enn 5 %.

Samtidig er mange kritiske til betydningen av p-verdier for å vurdere viktigheten av et resultat. Fordi p-verdien på 5 % er et tilfeldig kuttepunkt, har en del forskere vært bekymret for at det utvikler seg en kultur for «p-hacking», som vil si at forskere kan ta ulike grep for å «presse» p-verdien ned under 5 %-grensen. For å forebygge slike uheldige grep, er det i dag vanlig at randomiserte studier registreres i forkant, der forskere redegjør for hvordan de samler inn og analyserer data.

Konfidensintervaller gir mer nyansert informasjon

Det er også blitt vanlig å oppgi konfidensintervall for effektene av en intervensjon. Konfidensintervallet kan tenkes på som en metafor for hvor stor tillit vi kan ha til et resultat. Ser vi litt mer teknisk på det, er konfidensintervallet strengt tatt en mer nyansert versjon av p-verdien. Et konfidensintervall angir et spenn for den sannsynlige effekten av et tiltak (sammenliknet med en kontrollgruppe). For eksempel angir et 95 % konfidensintervall at den forskjellen man observerer med 95 % sannsynlighet ligger utenfor konfidensintervallet, hvis det ikke er noen reelle forskjeller mellom gruppene. I tillegg til informasjonen fra p-verdien gir altså konfidensintervallet informasjon om den sannsynlige variasjonsbredden av en effekt i den målgruppen som tiltaket er rettet mot.

Kort oppsummert gir statistisk signifikans informasjon om sannsynligheten for at effekten er et resultat av tilfeldige variasjoner i målgruppen, men den sier ikke noe om hvor effektivt tiltaket er. For å si noe om hvor effektivt tiltaket er, må vi se på effektstørrelsen.

Hva er effektstørrelse?

En effektstørrelse er et standardisert mål på effekten av et tiltak sammenliknet med kontrollgruppen. For eksempel betyr en effektstørrelse på 0.2 for en intervensjon, sammenliknet med kontroll, at det er 20 % av et standardavvik forskjell i gjennomsnittsverdien mellom de to gruppene. Se for deg at intervensjonsgruppen har en gjennomsnittsverdi (etter intervensjonen) på 1.50 på et mål på atferdsvansker, og standardavviket for denne gruppen er 0.31, mens kontrollgruppen har en gjennomsnittsverdi på 1.56 og et standardavvik på 0.29. Vi kan da regne ut den gjennomsnittlige størrelsen på standardavviket, (0.31+0.29)/2, som blir 0.30. Deretter regner vi ut differansen mellom skåren for intervensjonsog kontrollgruppe, 1.50-1.56, som blir -0.06. Til slutt dividerer vi differansen på det gjennomsnittlige standardavviket, -0.06/0.30, som blir -0.20. Det viser at intervensjonsgruppen i gjennomsnitt skårer 20 % lavere på atferdsvansker enn kontrollgruppen etter intervensjonen. Vi har dermed en effektstørrelse på 0.20. En slik effektstørrelse kalles Cohens d, etter Jacob Cohen, som først beskrev den. En annen variant kalles for Hedges g, og kan tolkes på samme måte. Her holder vi oss til Cohens d, som altså beskriver forskjellen mellom grupper som funksjon av spredningen i utvalgene.

Det finnes også andre typer effektstørrelser. I analyser av sammenhenger mellom variabler, for eksempel mellom familieinntekt og atferdsvansker, er det vanlig å bruke effektstørrelser som beskriver hvor sterk sammenhengen er. Det uttrykkes som en korrelasjonskoeffisient (r), eller en standardisert regresjonskoeffisient (beta). Analyser av forskjeller i proporsjoner, for eksempel andelen syke etter behandling i en intervensjonsgruppe og en kontrollgruppe, bruker ofte odds ratio eller risk ratio for å beskrive effekten. For enkelthetens skyld vil vi her fokusere på Cohens d. Premissene vi beskriver for å tolke en effektstørrelse er imidlertid relevante for alle typer. Det er viktig å være oppmerksom på at skalaene er forskjellige for de ulike typene effektstørrelser. En r på 0.20 kan ikke forstås som den samme effekten som en d på .20 (en d på 0.20 kan regnes om til en r på ca. 0.1).

Hva er en stor effektstørrelse?

Hvordan kan man så ta stilling til om en Cohens d på 0.20 skal tilsi at effekten av tiltaket er stor nok til at vi kan si at tiltaket fungerer? Mange forskere vurderer størrelsen på d ved å henvise til «Cohens standarder». Selv om dette er vanlig, bygger det på en misforståelse, og kan føre til at forskere trekker gale konklusjoner om effekten av tiltaket de har evaluert.

For omtrent førti år siden skrev Jacob Cohen en bok om statistisk styrke. Statistisk styrke er en måte å beregne hvor mange deltakere man må ha i en studie for å unngå å forkaste en hypotese som har støtte i data (Type II-feil). Cohen skrev at når man skal bestemme utvalgsstørrelse, er det lurt å se på tidligere forskning innenfor samme tema, og se hvor store effekter andre har funnet. Så kan man bruke dette som utgangspunkt for å beregne hvor store grupper man bør rekruttere. Hvis man forventer store effekter, kan man klare seg med ganske små grupper. Hvis man forventer små effekter, må man imidlertid rekruttere flere deltakere til studien.

Cohen skrev også at hvis man ikke vet hvor store effekter man kan forvente, kan det være greit med noen tommelfingerregler. Basert på egen forskererfaring, definerte han en liten Cohens d som 0.20, en middels som 0.50, en stor som 0.80, og en veldig stor som 1.30. Cohen var visstnok ganske ukomfortabel med å definere slike standarder, fordi han fryktet at de ville bli misforstått og misbrukt. Og det er akkurat det som har skjedd. Forskere innenfor mange disipliner har siden brukt disse tallene som en standard for å si om et tiltak har en stor effekt. Det finnes mange eksempler på dette, men ett som har vært mye referert i den offentlige debatten i Norge, er John Hatties analyser av virksomme tiltak i skolen. Hattie skriver ganske kategorisk at kun tiltak med en effektstørrelse over 0.40 er verd å vurdere. Alle som skriver om effektstørrelser fraråder på det sterkeste denne formen for kategoriske definisjoner av hva som er en stor effekt.

Den praktiske betydningen av å tolke effektstørelser

En effektstørrelse må tolkes i en sammenheng. Spesielt er det relevant å vurdere den praktiske betydningen av effektstørrelsen, alvorlighetsgraden av utfallet, hvor mange som kan ha utbytte av tiltaket, de ekstra omkostningene ved tiltaket (både økonomisk og menneskelig), samt effektstørrelsen relativt til andre tiltak eller forhold, som vi vet har betydning.

Vi skal forklare hvert av disse momentene, men starter med et klassisk eksempel.

I 1990 skrev psykologen Robert Rosenthal et motsvar til en kritisk artikkel som hevdet at psykoterapeutiske intervensjoner var lite virksomme, fordi en metaanalyse (kvantitativ sammenstilling av mange studier) hadde konkludert med at den gjennomsnittlige effektstørrelsen på tvers av mange studier var 0.30 (og følgelig ganske liten etter Cohens standarder). Rosenthal viste til en kjempestor randomisert studie av hvorvidt Aspirin kunne forebygge hjerteinfarkt. Effektstørrelsen i studien var 0.03. Studien endret imidlertid anbefalingene for forebygging av hjerteinfarkt. Hvorfor? Utfallet var alvorlig (i ytterste konsekvens, død), intervensjonen var nesten gratis (Aspirin er ganske billig), det var på det tidspunktet ingen kjente bivirkninger, og studien var av veldig høy kvalitet. I tillegg er årsaksmekanismen kjent, vi vet altså hvorfor Aspirin har den effekten. Selv om effektstørrelsen var liten, kunne Aspirin altså, på en billig og enkel måte, gjennom forebygging forhindre noen hundre dødsfall i året. Hvis Cohens standard hadde ligget til grunn, ville dette tiltaket ha blitt forkastet som lite effektivt.

Dette eksempelet illustrerer hvorfor effektstørrelsen kun er å betrakte som et tall, og hvorfor dette tallet kun har mening i en sammenheng. Den praktiske betydningen av tallet må vurderes i en sammenheng.

Innledningsvis kan det være nyttig å vurdere om vi vet nok om utfallsmålet til at den ikke-standardiserte forskjellen mellom gruppene kan være meningsfull. I eksempelet over, hvor effektstørrelsen ble beregnet til 0.20, svarte dette til en gruppeforskjell på 0.06 på skalaen for atferdsvansker.

Alvorlighetsgrad

La oss nærme oss tematikken omkring barn, ungdom og atferdsproblemer. Hvis vi for eksempel vet at barn, etter innføring av et tiltak, i gjennomsnitt slår andre én gang mindre per uke, kan det være et nyttig utgangspunkt. Vanligvis har vi ikke denne typen informasjon om mål på atferdsvansker, så vi må gjøre denne vurderingen basert på annen informasjon. I andre tilfeller kan vi ha et utfall som er lettere å tolke. Det kan for eksempel være antall anmeldte lovbrudd, eller antall ganger ungdom ruser seg.

Under alle omstendigheter må vurderingen av størrelsen på en effekt bygge på en vurdering av effektstørrelsen i lys av hva vi vet om utfallet og utfallsmålet. I forlengelsen av dette er naturligvis alvorlighetsgraden av utfallet relevant. En liten reduksjon av et veldig alvorlig utfall (vold, selvskading, død) kan være viktig, mens en stor reduksjon av et mindre alvorlig utfall (motivasjon for å spise frukt) kan være mindre viktig.

Hvor mange hjelper behandlingen, og hva koster den?

Hvor mange som kan hjelpes av et tiltak, er også relevant. En effektstørrelse på 0.20 av et tiltak som retter seg mot store grupper, som for eksempel PALS, som gjennomføres på skole- og klassenivå, kan tolkes som viktigere enn en tilsvarende effektstørrelse for et individuelt rettet tiltak, fordi den endringen som oppnås berører flere. Som Aspirineksempelet viste, kan en liten effekt som berører mange mennesker ha stor betydning. Hvis en intervensjon gjør at alle elevene i en klasse dytter andre elever én gang mindre per uke, kan det bety endel for et klassemiljø. Dette er naturligvis også relatert til de ekstra omkostningene ved tiltaket (både økonomisk og menneskelig).

En effektstørrelse på 0.20 i evalueringen av et tiltak som er dyrt, har store konsekvenser for dem som deltar. Et tiltak som er veldig tidkrevende, er naturligvis mindre gunstig enn et som er raskt å gjennomføre. Igjen er tolkningen en vurderingssak. Hvis tiltaket som evalueres har en effektstørrelse på 0.00 sammenliknet med kontrolltiltaket, men tar halvparten av tiden og koster halvparten så mye, er det naturligvis en positiv effekt.

Effekt i lys av andre studier

En effektstørrelse bør alltid vurderes i forhold til andre tiltak. Derfor må man sammenlikne effektstørrelsen i evalueringen av et tiltak med andre tiltak av samme type. Effektstørrelsen i evalueringen av PALS bør sammenliknes med evalueringer av andre skolerettete tiltak, ikke individuelle behandlinger (naturligvis med tiltakenes omfang og kostnader i mente). Dette kan innebære å se på enkeltstudier, men det kan også være nyttig å se på meta-analyser.

Meta-analyser kan gi et mer robust bilde av hvor store effektstørrelser er på tvers av studier. Ofte oppgis effektstørrelser i meta-analyser med et konfidensintervall, slik at vi får en indikasjon på spennet i resultater fra tidligere forskning. Det er imidlertid alltid viktig å sjekke om de studiene som inngår i meta-analysen faktisk bruker samme typer metode (og kontrollbetingelser), og evaluerer samme type tiltak, som dem man selv har gjort. Ved å sammenlikne effektstørrelsen med dem fra evalueringer av andre liknende tiltak, får man ytterligere informasjon til å tolke effektstørrelsen. Heller ikke dette er i seg selv et endelig svar på om tiltaket er tull eller ikke.

Effekten i lys av andre relevante forhold

Det siste momentet vi skal diskutere her, er effektstørrelsen relativt til andre relevante forhold. Dette innebærer at vi finner andre meningsfulle forskjeller i det utfallet som er målt, og ser resultatet av evalueringen i lys av det. Dette kan være spesielt nyttig i tilfeller hvor skalaen som benyttes ikke har en intuitiv eller direkte tolkbar mening, slik tilfellet ofte er med mål for atferdsvansker.

For eksempel kan vi tenke oss at en effektstørrelse på 0.20 svarer til forskjellen i atferdsvansker mellom jenter og gutter. I så fall får vi en praktisk «målestokk» å se effekten i forhold til. Hvis vi har en generell opplevelse av at gutter er merkbart mer vanskelige å håndtere enn jenter i den aktuelle aldersgruppen, gir dette oss en indikasjon på den praktiske størrelsen på effekten.

Andre eksempler på relevante sammenlikninger er sosioøkonomiske forskjeller. En språk-intervensjon i barnehagen kan tenkes å redusere den sosiale ulikheten i språkferdigheter. I tiltak som måler utfall som normalt øker med alder, som for eksempel språkferdigheter, kan vi sammenlikne effekten av et tiltak med normal utvikling. Vi kan for eksempel se at effekten av en intervensjon med varighet på to måneder tilsvarer seks måneder med normal utvikling.

Oppsummering: Kritisk vudering og sunn fornuft

Vi har argumentert for at tolkningen av en effektstørrelse ikke bør være basert på absolutte kriterier, men på kritisk vurdering og sunn fornuft. Kathleen McCartney skrev at det er med effektstørrelser som med barn; man forstår dem best hvis man ser dem i kontekst, det vil si den helhetlige sammenhengen de inngår i.

Vi må vurdere kvaliteten på evalueringen, hva tiltaket sammenliknes med, omfanget av tiltaket, og effekten i forhold til hva vi kan forvente og hva som er meningsfulle forskjeller. Statistisk signifikans er en kilde til informasjon, men aldri tilstrekkelig til å vurdere om et tiltak fungerer. Effektstørrelsen gir heller ikke i seg selv et svar på om et tiltak er tull, men det gir vesentlig informasjon om hvor stor effekten er. Først når vi ser informasjonen om statistisk signifikans og effektstørrelse i en kontekst, kan vi begynne å vurdere om vi har et virksomt tiltak eller tull. Denne vurderingen bør innbefatte alt vi vet om studien, tiltaket og utfallet. Vi må med andre ord gjøre en helhetsvurdering, hvor statistikk og tall gir oss grunnlag for vurderingen.

Tall alene sier ikke om tiltaket er tull. Det vurderer vi best, hvis vi tenker oss godt om.

 

  • Vis referanser