Intervju

Et grunnleggende spørsmål knyttet til tiltak og støtteordninger er: «virker dette»? Har det noen effekt, eller hadde mottakerne klart seg like bra med noe annet eller uten noe i det hele tatt? En av de med lengst erfaring fra evalueringsfeltet er Terje Ogden, tidligere forskningsdirektør, og nå seniorforsker ved NUBU.

Ivar Frønes har intervjuet Terje Ogden, seniorforsker ved NUBU. (Foto: NUBU)

 

Terje, Hvordan kan vi finne ut om våre tiltak og intervensjoner har den effekten vi mener og håper de skal ha? 

- Da jeg først skrev om dette i 1983, knyttet til en vurdering av et større prosjekt i Bergen, kom jeg inn med et økologisk perspektiv – det vil si med et bredt perspektiv på spørsmålet om prosjektet virket. Og svaret var, «det kommer an på". Jeg var med andre ord fleksibel, eller åpen om man vil, på valg av metoder og på vurderinger av resultater. Allerede den gangen eksisterte det vi kaller et evidenshierarki der resultater fra metaanalyser og randomiserte, kontrollerte studier (RCT) hadde høyest status. Og det er selvfølgelig slik at noen metoder gir større sikkerhet enn andre, hierarkiene har sin funksjon. Men det er ikke alltid mulig å evaluere tiltak i følge "gullstandarden".

- Ofte bør vi rett og slett samle alt vi har av dokumentasjon om et tiltak. Alt fra evalueringer basert på kontrollgruppe til deskriptive analyser. Så kan vi la kyndige og erfarne forskere gå gjennom dette og gjøre seg opp en helhetlig mening om hvorvidt dokumentasjonen peker i riktig retning. Noen ganger er det fornuftig å kombinere data, skjønn og erfaring, og konkludere basert på dette. Vi kan med andre ord ikke redusere kunnskapsbasert praksis til et spørsmål om rangering av metodologi og effektstørrelser. For det praktiske, kliniske arbeidet blir det ofte for snevert.  

Det er jo ikke så veldig lenge siden evaluering ofte ble foretatt som en form for selv-evaluering; litt av typen at “alle syntes det hadde vært en fin tur”. De siste tiårene har dette endret seg. Hva er de sentrale premissene i en evaluering av for eksempel effekter av intervensjoner for barns utvikling? 

- Dette er egentlig litt motsetningsfylt. Lenge var det vært høyt verdsatt at dyktige praktikere eller klinikere forsket på sin egen praksis. Det var det både Piagét og Freud gjorde. Men etter hvert har en blitt mer kritisk til slik forskning, og mener at faren for feilvurderinger eller feilslutninger er stor. Så hvis hensikten er å evaluere om et tiltak virker, så kreves det gjerne i dag at det skal foreligge minst én evaluering utført av noen andre enn den som har utviklet metoden. Selv er jeg opptatt av multi-informantperspektivet som har flere innfallsvinkler og formidler flere synspunkter. Vi trenger informasjon fra barnet selv, fra foreldre, lærere og andre involverte, slik at det oppstår en krysspeiling. Feilkilder oppstår alltid, uansett hvem som rapporterer og forteller om ting, og derfor er krysspeiling så viktig.

- Noen er enda strengere og aksepterer bare såkalte objektive indikatorer, det vil si fenomener som enkelt kan observeres og måles. Ett eksempel var en vurdering av forebyggende arbeid i Sverige, der det eneste prosjektet som var holdbart var SJ’s planer om å gjerde inn alle togstrekninger i landet for dermed å redusere antall påkjørsler av tog. Fullt så streng var ikke Gerald Patterson (en av grunnleggerne av PMTO), men han var opptatt av at forskningen kun skulle beskjeftige seg med det som kunne måles på en stabil (reliabel) og troverdig (valid) måte. Indikatorene burde ikke nødvendigvis være objektive, men målingene skulle være sammenfallende over tid, på tvers av personer og miljøer. Vi trenger selvfølgelig å utvikle objektive indikatorer så langt det er mulig, men de griper ikke hele historien. Også objektive indikatorer må tolkes for å gi mening – og ulike perspektiver gir ofte ulike tolkningsmuligheter av hva som foregår. Evaluering og forståelse krever bredde og dybde. 

- Der er viktig å utvikle rammer og prinsipper som bidrar til evalueringsforskningens utvikling. Men selv om metodeutvikling er grunnleggende, så må ikke metodefokuset bli så fremtredende at en glemmer innholdet eller substansen i det en evaluerer. Formelle evalueringskriterier kan noen ganger bli så rigide at de ikke lar seg gjennomføre av etiske eller økonomiske årsaker. Kriteriene for god evaluering må forholde seg til substans og kontekst like mye som til metode i seg selv. Sagt med andre ord så må vi sikre at design og metoder som er valgt representerer en fruktbar forståelse av det vi studerer.  

Følgeforsking – altså forløpende vurderinger av et prosjekt – er ofte brukt i en del nyere prosjekter. Oppfyller følgeforskningen grunnleggende evalueringskriterier? 

- Følgeforskning handler som regel om at noen følger et prosjekt og registrerer og vurderer hvordan det går. Jeg er kritisk til mye av denne forskningen, og mener at den som regel ikke kan benyttes til å konkludere at et prosjekt har vært vellykket eller virksomt. Det kan kun benyttes til å korrigere prosjekter som er under arbeid, ved å peke på virksomme og mindre virksomme komponenter. Ofte avsettes det også svært små beløp til slik forskning, sammenlignet med prosjektets totalkostnader. Dermed får den som evaluerer små muligheter til å gå i bredden eller dybden med sine spørsmål.

- Det kan også virke som om følgeforskningen ofte preges av de positive forventningene som prosjektutvikleren har til resultatene. Det betyr ikke nødvendigvis at resultatene er feilaktige, men at en lett framhever de positive erfaringene og utfallene på bekostning av den negative. Designet er også ofte svakt, fordi det sjelden er noe sammenligningsgrunnlag som i en kontrollgruppe. Følgeforskning gir av og til inntrykk av at prosjektansvarlige kjøper seg legitimitet, og at en tar lett på evalueringsforskningens fundamentale regler og premisser.  

Hva er grunnleggende kjennetegn ved god evalueringsforskning? 

- Evalueringsforskning skal være prospektiv, det vil si følge et prosjekt eller tiltak fra begynnelse til slutt, med et klart start- og sluttpunkt. For å unngå målforskyvning skal en også på forhånd formidle hva en ønsker å oppnå med prosjektet og hva som er det viktigste utfallet. Dermed unngår en at målene endres underveis, og at en ved prosjektslutt framhever positive resultater som en ikke hadde planlagt eller forventet.

- God evalueringsforskning skal også ha en relevant kontroll- eller sammenligningsgruppe. Kontrollgruppa er kjernen i forskningsbasert evaluering sammen med før- og etter-målingene. Det er kontrollgruppa som gir pre- og postkunnskapen mening. Gruppene skal helst være sammenlignbare enten gjennom tilfeldig fordeling (randomisering) eller matching, der man parvis sammenligner en deltaker som har fått tiltaket med én som ikke har fått det. Dermed kan en fastslå om de positive endringene skyldtes selve tiltaket og ikke andre forhold. Men det er ikke bare individer som kan fordeles tilfeldig på prosjekt og kontrollgrupper, det kan også gjøres med enheter som skoler eller kommuner. Men en viktig grunnregel er da at randomiseringsenheten også må være analyseenheten. En kan for eksempel ikke randomisere kommuner og deretter analysere hvilke forskjeller en finner mellom individer.  

- Evalueringsforskning skal bygge på troverdige målinger, og da understrekes ofte verdien av anerkjente målingsinstrumenter. Mest kjent er antagelig intelligenstestene som har gjennomgått mange og grundige undersøkelser av sine måleegenskaper. Også på andre områder anbefales bruk av «internasjonalt anerkjente og validerte kartleggingsinstrumenter». Det er særlig viktig hvis en ønsker å publisere resultatene internasjonalt. Internasjonale tidsskrifter med fagfellevurderinger legger ofte stor vekt på måleinstrumentenes kvalitet, både internasjonalt og i det landet forskningen gjennomføres. På denne måten kan nasjonale funn sammenholdes med internasjonal kunnskap.  

- Nært knyttet til forskning om virksomme tiltak er forskning om selve gjennomføringen at tiltaket. Det omtales som prosessevaluering eller implementeringsevaluering.  Hvis en skal evaluere om et tiltak er virksomt, må man også forsikre seg om at tiltaket har blitt gjennomført slik det opprinnelig ble utformet. Dette omtales ofte som evaluering av etterlevelse (eng. fidelity), og handler om hvor lojalt praktikerne gjennomfører tiltaket. Gjør vi det vi sier vi gjør?     Det er nok mange prosjekter som er målt og vurdert uten å holdt øye med om vi gjør det vi intenderte å gjøre. Når det kommer til gjennomføring er det mange praktikere som rister av seg intensjonene og beskrivelsene som ligger i prosjektet, og gjør som de alltid har gjort. Men da blir evalueringer temmelig meningsløs, for da vet vi jo ikke hva vi målte effekten av. Måling av etterlevelse er derfor viktig, og som regel forventes det at høy grad av etterlevelse gir gode resultater. Men implementeringsforskningen retter også oppmerksomheten mot hvilken betydning andre sider ved gjennomføringen har for resultatene. Utfall eller resultater kan variere med hvor ofte og hvor lenge tiltaket varer, og de påvirkes av mottakernes entusiasme og reaksjoner. Det hjelper lite med virksomme tiltak, hvis nesten ingen ønsker å delta eller ta dem i bruk. Implementering er også et spørsmål om hvor store lokale tilpasninger som må til hvis tiltaket skal prøves ut på flere steder, og hvilken betydning formidlernes kompetanse og ferdigheter har for et vellykket utfall. 

Det du forteller her illustrerer vel at de siste tiårene kjennetegnes av refleksjoner omkring evaluering, prosesser som strekker seg utover effektstørrelse og avgrensede metodiske forhold? 

- Det er en klart økende opptatthet av og kunnskap om evaluering; vi må vite om det vi driver med virker på den måten vi intenderer det skal virke. Men i denne diskusjonen har en også fått et utfordrende motsetningsforhold mellom validitet og autensitet. De som er opptatt av autensitet har liten tro på evalueringsforskningens grupperesultater og konklusjoner. Dette perspektivet formidler at det er den som har skoen på som vet hvor den trykker. Det betyr at det bare er psykiatriske pasienter som kan fortelle hva som bør gjøres i psykiatrien, bare barnevernets klienter som kan fortelle hva som bør gjøres i barnevernet, bare personer med stoffproblemer som kan fortelle hva som kan bør gjøres med narkotikapolitikken og så videre. Kort sagt tenker en da at utsatte grupper har løsningen på egne problemer, og at systematiske kunnskapsoppsummeringer har liten verdi. De personlige anekdotene som får gjennomslag, noe som blant annet viser seg i avisenes fokus på enkeltpersoner når de skal framstille en sak.

- På den ene siden er det autentiske perspektivet svært nødvendig og fruktbart, noe som blant annet har vist seg når barn i kontakt med barnevernet i liten grad har blitt spurt om hvordan de har det og hva de synes om hjelpen de blir tilbudt. På den andre siden er anekdoter om hvordan de «egentlig har det» problematiske som utgangspunkt for tiltaksutvikling. Det er fare for at enkeltpersoners opplevelser og meninger får altfor stort gjennomslag, og det er vanskelig å generalisere ut fra individuelle opplevelser.  

Du har ved tidligere anledninger understreket betydningen av å snakke med barn – hvordan kan dette sees i en evalueringssammenheng? 

- Det er enormt viktig, for det gir unik og nødvendig kunnskap. Nødvendigheten av barns perspektiv understrekes i all barneforskning. Både i forhold til barns liv generelt, og ikke minst i kliniske sammenhenger. Det er svært verdifullt at barns medvirkning nå understrekes av alle. I situasjoner som angår barnet og dets liv har barnet en rett til å være med på å skape en forståelse av hva som skjer og hva som bør gjøres. Men skal man generalisere om barns situasjon og barns problemer – og det er det vi søker å gjøre som forskere –  kan ikke dette baseres på særegne forhold og individuelle opplevelser. I Norge var psykologen Per Olav Tiller en tidlig talsperson for å lytte til barnet – ikke bare til foreldrene. Han understreket at barnet kjenner sin egen unike situasjon best, men han mente aldri at barns kjennskap til sin unike situasjon kunne generaliseres til andre barns like unike situasjoner.

 

  • Vis referanser