torsdag 3. april 2014

Skal vi telle?

På bakgrunn av en kronikk i nettavisen Khrono ble jeg invitert til Forskerforbundets landsråd for å holde en innledning. Jeg gjengir den her til eventuell glede for eventuelle lesere.

Innlegg til Forskerforbundets landsråd: Skal vi telle?

Jeg er studieleder ved Høgskolen i Oslo og Akershus. Det er en mellomlederstilling hvor jeg har personalansvar for knapt 40 ansatte. En av oppgavene mine er å vurdere om de har gjort rett og skjell for seg i tida de har hatt avsatt til forskning og utviklingsarbeid. For å gjøre den jobben hadde det vært deilig med noen klare kriterier som gjorde at jeg slapp unna vanskelige skjønnsmessige avgjørelser. Å vurdere om et tall er større enn en fastsatt grense er sånt jeg liker – jeg er, som noen av dere vet, matematiker. Da kunne jeg slippe å bruke tid på å være dommer over mine ansattes FoU-arbeider, og kunne konsentrere meg om å støtte, oppmuntre, inspirere og veilede.

En avsporing: Hvem er verdens beste komponist? Beethoven? Mozart? Det er jo utklassing – Mozart har skrevet 41 symfonier mot Beethovens 9. Bach, som mange holder som verdens største komponist kommer jo helt til kort, for symfonier i vår forstand var ikke ferdig utviklet på hans tid. Men Haydn knuser disse, med sine 107 symfonier. (Georg Philipp Telemann skal ha skrevet over 3600 ulike verker, og regnes blant de mest produktive komponistene noensinne. Men særlig mange symfonier skrev han ikke.)

Noen musikkjennere vil kanskje si at det er forskjell på symfonier, og at det ikke gir mening å si om en komponist er god bare ved å telle. Symfoniene er jo ikke en gang fagfellevurdert! Men med forskningsartikler må det vel være greit å telle? De har jo alle liknende kvalitet.

Jeg vil gi et lite – og litt selvopptatt – eksempel, langt unna de store komponistene. (Jeg spurte en kollega om hun syntes dette ble for selvopptatt, men hun svarte: Forskerforbundet har jo invitert deg, så da får de tåle såpass...) Her er tre artikler jeg har skrevet:
  • History of mathematics in the TIMSS 1999 video study. På konferanser har jeg møtt flere forskere som har lest denne artikkelen og synes den gir interessante perspektiver. Den ga ingen publiseringspoeng, for den ble publisert i proceedings som ikke var tellende den gang.
  • Teachers’ conceptions of history of mathematics og History of Mathematics for Primary School Teacher Education Or: Can You Do Something Even if You Can't Do Much? er to artikler som er publisert i samme antologi, og som ga 0,7 publiseringspoeng hver. Den første er en intervjustudie som undersøker læreres syn på matematikkhistorie, den andre er strengt tatt en beskrivelse av min egen undervisning, med noen refleksjoner rundt. Den første kostet langt mer arbeid enn den andre.
Den artikkelen som jeg får respons på er nyttig, ga altså ingen poeng, mens de to andre, som krevde veldig ulik arbeidsinnsats, ga 0,7 poeng hver. Jeg vil påstå at publiseringspoengene sier fint lite om kvaliteten på og nytten av artiklene. Men vi kan jo måle noe annet – såkalt «impact». Intervjustudien har faktisk blitt referert til 9 ganger (ifølge Google Scholar) og bare en av dem var meg selv. Den ikke poenggivende studien som flere skryter av er blitt referert til 4 ganger (men tre av dem var av meg selv, dessverre - hvilket viser at selvopplevd kvalitet var god), mens den poenggivende om egen undervisning aldri er blitt referert til. Jeg vet for så vidt ikke om den har blitt lest heller. Så impact er en lovende indikator.

Da vil jeg vise til en helt annen artikkel: Mark Regnerus’ artikkel «How different are the adult children of parents who have same-sex relationships? Findings from the New Family Structures Study”. Denne har fått hele 35 referanser. Noen av disse er rosende, andre sier ting som “Extensive critique of this study has pointed out that…”, “methodologically flawed paper”, «Regnerus's use of this broken family as representative of lesbian families was one source of strong criticism”. Artikkelen tråkker rett inn i debatten om homoekteskap, og mange mener den er direkte usannferdig. Dette er en grei illustrasjon av at hvis man måler FoU-kvalitet i impact, så vil man oppmuntre til kontroversiell forskning. «Kjedelig» forskning som bygger tålmodig videre på tidligere studier – eller til og med gjentar tidligere forskning for å se om den er holdbar – vil ikke nå opp. (For øvrig ble Regnerus’ studie også brukt i en rettssak i Michigan om ekteskapsforbud, hvor forskningen ble kalt «entirely unbelievable and not worthy of serious consideration».)

Min konklusjon blir derfor dessverre at det er meningsløst å forsøke å tallfeste FoU-kvalitet. Der er jeg på linje med forskergruppa som evaluerte det norske tellekantsystemet. De sier at tellekantsystemet fungerer helt greit til sitt bruk – nemlig til å fordele penger fra statskassa til institusjonene. Men de synes det ser ut som det er systematiske ulikheter mellom fagområder, slik at noen fagområder lettere får tellekantpoenger enn andre. Men dette gjør ikke så mye siden alle institusjoner har en god bredde av fagområder representert. Brukt på lavere nivå, vil systemet imidlertid lett gi «perverse effekter» som danskene kalte det.

Jeg har sett tellekanter brukt som kriterium ved tildeling av penger til såkalt «sterke forskergrupper», som jo per definisjon handler om å sammenlikne miljøer i ulike fagområder, hvor evalueringsgruppa altså advarer mot systematiske ulikheter i hvordan tellekantsystemet teller. På noen fakulteter ved HiOA kan det se ut som at tellekantsystemet er nærmest avgjørende ved tildeling av FoU-tid på individnivå.

Og institutter sammenliknes og vurderes som gode eller mindre gode i FoU-arbeidet ut fra tellekantpoeng. Da står man i akutt fare for å komme bort i de «perverse effekter» som evaluatorene advarer så sterkt mot. Sammenlikning på tvers av fagområder må skje på mer intelligente måter enn dette.

Jeg har til og med hørt om sakkyndige utvalg ved tilsettinger som begrunner sine rangeringer med tellekantpoeng – til tross for at selve poenget med å ha et sakkyndig utvalg er at de selv skal lese og vurdere kvaliteten på det innsendte materialet. Hvis vurdering av søkere skulle bestå i å telle, kunne de sakkyndige utvalg erstattes av en algoritme tilknyttet FoU-registeret Cristin.

Så må vi også huske hva lovverket sier om UH-sektorens virksomhet. Ifølge UH-loven skal UH-sektoren tilby utdanninger «som er basert på det fremste innen forskning, faglig og kunstnerisk utviklingsarbeid og erfaringskunnskap.» Selve formålet med UH-sektoren er – ifølge §1-1 – å gi utdanning, utføre forskning og utviklingsarbeid og formidle kunnskap. Da blir det veldig skummelt å prøve å måle forskningen uten også å prøve å telle utviklingsarbeid og formidlingen – det blir som å måle komponisters produksjon ved bare å telle symfoniene. (I parentes bemerket: spørsmålet om hvem som er den største Beatle’n - John, Paul, George eller Ringo - kan besvares enkelt: det er vel Paul som er den eneste av de fire som har skrevet en symfoni...)

For egen del har jeg resignert. Jeg tror ikke på at noe tellekantsystem kan gi meg fasit på om en av mine ansatte har brukt FoU-tida sin fornuftig. Jeg tror ikke noe på at et NVI-system kan gjøres godt nok ved å legge til flere kategorier og flere poengsummer. Jeg tror at en slik faglig vurdering må ha et sterkt innslag av faglig skjønn. Så slik sett blir det behov for fagfolk (til og med i ledelsen) også i framtida.

Ingen kommentarer:

Legg inn en kommentar