Bayesiaanse statistiek gaat stroom “onzinnige” publicaties indammen
Mathematisch psycholoog pleit voor het afscheid van de klassieke p-waarde
Wetenschappers trekken te vaak conclusies op basis van een misleidende statistische methodiek. Het wordt hoog tijd dat de klassieke statistiek plaatsmaakt voor de Bayesiaanse methodologie, vindt Eric-Jan Wagenmakers, die onlangs een ERC binnenhaalde.
Ongeveer de helft van alle publicaties in de maatschappij- en gedragswetenschappen kan zó de prullenbak in. Een van de oorzaken: het gebruik van de klassieke statistiek en de overwaardering van de p-waarde. Het wordt hoog tijd dat de klassieke statistiek plaatsmaakt voor de Bayesiaanse methodologie, vindt Eric-Jan Wagenmakers, die onlangs een ERC binnenhaalde.
Wagenmakers, als mathematisch psycholoog werkzaam aan de afdeling Psychologie van de Universiteit van Amsterdam, noemt zichzelf schertsend een evangelist op het gebied van de Bayesiaanse statistiek. Enkele jaren geleden maakte hij kennis met deze vorm van methodologie en was vrijwel meteen ‘om’. De klassieke statistiek onderzoekt slechts of de nulhypothese is verworpen; Bayesianen onderzoeken hoe groot de kans is dat een alternatieve theorie waar is, gedeeld door de kans dat de nulhypothese klopt. Wagenmakers pleit voor een afscheid van de klassieke theorie met de onvermijdelijke p-waarde.
U heeft weinig vertrouwen in de klassieke statistiek. Kunt u uitleggen waar volgens u het probleem zit?
‘Veel wetenschappers kennen de p-waarde een andere betekenis toe dan deze eigenlijk heeft. Verder wordt in de klassieke statistiek de alternatieve hypothese volledig genegeerd. Daardoor ontstaan verkeerde conclusies en schetsen onderzoekers een veel rooskleuriger beeld van de gevonden resultaten dan ze eigenlijk op basis van die gegevens zouden mogen doen. Dat levert een hele stroom onzinnige publicaties op.’
Kunt u daar voorbeelden van noemen?
‘Neem het onderzoek van Daryl Bem (2010) waarin hij “aantoonde” dat mensen in de toekomst kunnen kijken. Als je statistische methodiek dat soort tegenintuïtieve conclusies ondersteunt, dan is het hoog tijd voor een kritisch zelfonderzoek. Wanneer je de data analyseert volgens de Baysiaanse statistiek, komt er trouwens niets significants uit, zo hebben wij onlangs aangetoond in een tegenartikel. Nog een recent voorbeeld: twee groepen Amerikanen vulden een vragenlijst in over hun politieke voorkeur. De ene groep kreeg een lijst met, en de andere groep eentje zonder Amerikaans vlaggetje erop. De groep die de lijst had gekregen met de stars en stripes erop, stemde 8 maanden later vaker Republikeins dan de groep met de lijst zonder de vlag. De conclusie: het zien van de nationale vlag beïnvloedt het stemgedrag van de Amerikaan, zelfs 8 maanden later. Hier geldt weer hetzelfde: als je zo’n opzienbarende conclusie trekt, zou je als onderzoeker beter moeten weten en opnieuw kritisch naar je data en je statistische methode moeten kijken. Maar ja, de p-waarde is lager dan .05, het is een aansprekend verhaal en dus, hopla, verschijnt er weer een onzinnig artikel.’
En zo verschijnen er heel wat artikelen die niet deugen.
‘John Ioannidis (hoogleraar Epidemiologie aan de Stanford University – red.) heeft ingeschat dat meer dan de helft van alle gerapporteerde bevindingen onjuist is. Ik vermoed dat dit voor sommige vakgebieden binnen de gedrags- en maatschappijwetenschappen ook wel het geval is.’
Dat is ronduit schokkend te noemen.
‘Ja, dat is het ook. En vergis je niet: niet alleen bij de sociale wetenschappen gaat het mis, óók in de medische hoek worden conclusies getrokken op basis van een misleidende statistische methodiek. En daar gaat het om mensenlevens.’
U zei het zelf al: de onderzoeker zou beter moeten weten. Toch publiceert hij of zij het artikel, en gerenommeerde tijdschriften als Science en Nature zijn er blij mee. Is dit dan puur kwaadwillendheid? Of onwetendheid?
‘Voor een deel zou je het kwaadwillendheid kunnen noemen, in die zin dat onderzoekers er niet op zitten te wachten om zichzelf in de vingers te snijden met een meer conservatieve statistische methode. Onderzoekers willen publiceren, en dat wordt ook van hen verwacht. De publicatiedruk is enorm. Onderzoekers maken daarom soms exploratief gebruik van de data - niet zoals het hoort eerst je vraag formuleren en dan pas het experiment uitvoeren, maar net zolang in de verzamelde data graven tot je iets interessants vindt. Op een gegeven moment ontdek je een significante p-waarde, en dan ben je al aardig op weg naar een publicatie. De tijdschriften op hun beurt willen niets liever dan opzienbarend onderzoek publiceren, ook al is het te mooi om waar te zijn. Voor een ander, belangrijk deel is het onwetendheid. Veel wetenschappers weten niet goed hoe ze die p-waarde moeten interpreteren en ze hebben nooit anders geleerd dan de klassieke statistiek. In andere vakgebieden zoals de pure statistiek en de kunstmatige intelligentie is de Bayesiaanse methode al jarenlang gemeengoed.’
Hoog tijd voor een Baysesiaanse revolutie in de sociale wetenschappen?
‘Die komt er ook, maar dat kan nog wel honderd jaar duren. Studenten moeten in een vroeg stadium kennismaken met deze vorm van statistiek, dus het onderwijs moet worden aangepast. Verder moeten wetenschappers, editors en reviewers hun denk- en werkwijze aanpassen. En we moeten drempels uit de weg ruimen die het op dit moment moeilijk maken om deze vorm van statistiek toe te passen. Een groot probleem op dit moment is de praktische dataverwerking – er bestaat simpelweg nog geen eenvoudig te gebruiken statistieksoftware voor sociale wetenschappers die gebaseerd is op de Bayesiaanse statistiek. Een van de belangrijkste dingen die ik de komende tijd met mijn ERC ga doen, is het ontwikkelen van een programma met de look and feel van het programma SPSS, zodat ook maatschappij- en gedragswetenschappers op niet al te complexe wijze hun data kunnen analyseren met een Bayesiaanse hypothesetoets.’
Als ook de sociale wetenschappers zijn overgestapt op deze ‘nieuwe’ methode, betekent dat een stuk minder opzienbarende resultaten én veel minder publicaties.
‘Die kans bestaat. Maar de kwaliteit neemt enorm toe en het zou goed kunnen dat tijdschriften andere standaarden gaan hanteren – die beoordelen artikelen dan meer op de manier van onderzoeken dan op aansprekende uitkomsten.’
Is de Bayesiaanse statistiek niet simpelweg een nieuwe trend die straks weer wordt ingehaald door een andere?
‘Het grappige is dat iemand als Daryl Bem daar wel mee schermt. Die zegt: laten andere mensen maar nieuwe dingen omarmen, maar als je oude methode goed werkt, kun je daar beter aan vasthouden. Echter, wie zich er een beetje in verdiept, kan niet anders dan concluderen dat de Bayesiaanse theorie de meest logische, rationele vorm van statistiek is, waarbij dwingende, universele principes leidend zijn. Je kunt er als wetenschapper simpelweg niet omheen.’
U maakt zich vast niet altijd even populair met uw denkbeelden.
‘Niet bij iedereen, nee. Studenten en jongere onderzoekers zijn wel bereid om zich erin te verdiepen en er serieus mee aan de slag te gaan. Collega’s die al jaren in het vak zitten en de klassieke statistiek prima beheersen daarentegen, verzetten zich het meest. Daar zit ik overigens niet echt mee. Waar ik wél moeite mee heb: er zijn bepaalde stromingen, met name in de Verenigde Staten, die beweren dat wetenschap “ook maar een mening” is. Zulke stromingen zouden kunnen proberen Bayesianen voor hun karretje te spannen – “ze trekken wetenschappelijke conclusies in twijfel en dus denken ze er net zo over als wij”. Dat is natuurlijk lariekoek – ook voor Bayesianen is de wetenschappelijke methode wet. Onderzoekers moeten alleen veel strenger worden voor zichzelf.’
Auteur: Esther van Bochove, FMG Communicatie
