NOISE "Overal waar oordeel is, is er ruis en dat kan goed zijn; 't verbetert de nauwkeurigheid
Een gesprek met Daniel Kahneman over "NOISE : ruis in NL"
Behavioral scientis Evan Nesterak 24 mei 2021
Lezers van Behavioral Scientist hebben waarschijnlijk geen introductie tot Daniel Kahneman nodig. Al meer dan zes decennia heeft de Nobelprijswinnende psycholoog gewerkt aan het verdiepen van ons begrip van menselijk gedrag en besluitvorming, door erop te wijzen wanneer we fouten maken en hoe.
Een groot deel van die tijd werd besteed aan het begrijpen hoe verschillende cognitieve vooroordelen onze beslissingen en gedrag beïnvloeden. Zijn boek Thinking Fast and Slow toonde dit werk en was voor velen buiten de onderzoekswereld hun introductie in de wetenschap van besluitvorming.
Tien jaar na Thinking Fast and Slow is Kahneman terug met een nieuw boek dat je opnieuw zal doen twijfelen aan wat je dacht te weten over het nemen van beslissingen. Lawaai, in samenwerking met Olivier Sibony en Cass Sunstein, behandelt een andere manier waarop we systematische fouten maken bij het nemen van beslissingen - in de variabiliteit van onze geaggregeerde oordelen.
Als een groep rechters bijvoorbeeld enorm verschillende vonnissen geeft aan beklaagden die hetzelfde misdrijf hebben gepleegd - sommige rechters geven een maand gevangenisstraf, anderen een jaar, anderen zeven jaar en anderen ergens tussenin - dan zou men het systeem kunnen noemen luidruchtig. We verwachten vergelijkbare straffen voor dezelfde misdaad. In een bevooroordeeld systeem kunnen rechters consequent straffen opleggen die te hoog zijn voor bepaalde soorten misdrijven. Systemen kunnen zowel bevooroordeeld als luidruchtig zijn. Dat is wat we zouden hebben als rechters te gevarieerd zijn in hun veroordeling en consequent een te harde straf uitdelen.
Kahnemen en co vinden dat het tijd wordt dat we meer aandacht besteden aan ruis. En dat komt omdat het verminderen van ruis in een systeem fouten kan helpen verminderen, net zoals het verminderen van vertekening dat doet. De recente aandacht van het veld voor vertekening heeft het lawaai overschaduwd; het is alsof we systemische fouten bestrijden met één hand achter onze rug gebonden. De zaak van gerechtelijke veroordeling is een voorbeeld dat in het boek voorkomt. En in dat voorbeeld is het niet moeilijk in te zien dat ruis niet alleen een eigenaardigheid is om beslissingen te nemen, maar een kenmerk van de besluitvormingssystemen die we hebben opgezet, en een met ernstige gevolgen.
Kahneman en ik hadden de kans om ruis te bespreken tijdens een Zoom-oproep. We hebben veel aandacht besteed aan ons gesprek van een uur, dat ik hieronder heb gedestilleerd en in drie secties heb onderverdeeld: wat ruis is en hoe het verschilt van vooringenomenheid, hoe we ruis kunnen meten en ermee kunnen omgaan, en enkele nuances van ruis.
Wat is ruis en hoe verschilt het van vooringenomenheid
Evan Nesterak: In deze fase van je carrière kon je je, na alles wat je gestudeerd had, concentreren op alles wat je maar wilde. Waar gaat het over geluid dat het uw aandacht kon vasthouden en vasthouden?
Daniel Kahneman: In de wiskunde van nauwkeurigheid zijn er twee soorten fouten die gelijkwaardig zijn. Er is het gemiddelde van de fouten, wat vertekening is, en er is de variabiliteit van fouten, en dat is ruis. Ik heb mijn hele leven vooringenomenheid bestudeerd, maar een paar jaar geleden kwam ik een geval van ruis tegen, en ik was erg onder de indruk van zowel hoeveel ruis er was (onder verzekeraars die precies hetzelfde oordeelden) als vooral hoe weinig mensen wisten ervan.
Er is een hoofdstuk waar ik die vergelijking heb - en het is volkomen triviaal, maar als je erover nadenkt, is het buitengewoon belangrijk - dat de gemiddelde kwadratische fout gelijk is aan bias in het kwadraat plus ruis in het kwadraat. Dat maakt ruis tot een groot probleem, omdat we weten dat vertekening een groot probleem is. Ik vermoed zelfs dat ruis in veel situaties een aanzienlijk grotere bron van onnauwkeurigheid en fouten is dan vertekening.
Algemene fout (gemiddelde kwadratische fout) = afwijking in het kwadraat + ruis in het kwadraat. “[De figuur hierboven] laat zien hoe MSE (de oppervlakte van het donkere vierkant) gelijk is aan de som van de oppervlaktes van de andere twee vierkanten. In het linkerpaneel is er meer ruis dan vertekening; in het rechterpaneel meer vertekening dan ruis. Maar MSE is hetzelfde, en de foutvergelijking geldt in beide gevallen. " Bron: lawaai, hoofdstuk 5.
Laten we het hebben over vooringenomenheid en ruis, want onze lezers zullen bekend zijn met cognitieve vooroordelen. U noemde hoe beide de besluitvorming beïnvloeden, maar ze doen dat op verschillende manieren. Kunnen we meer op dat onderscheid ingaan?
Aan de ene kant is bias een gemiddelde fout. Aan de andere kant is het een psychologisch mechanisme en het is een psychologische observatie. Er zijn mechanismen die systematische fouten veroorzaken in de oordelen van mensen en in de beslissingen van mensen, en die fouten worden vooringenomenheid genoemd. En het is in feite een psychologisch mechanisme dat gebeurtenissen binnen het individu verklaart - waarom een individu geneigd is de ene of de andere fout te maken.
Ik heb mijn hele leven vooringenomenheid bestudeerd, maar een paar jaar geleden kwam ik een geval van lawaai tegen, en ik was erg onder de indruk van zowel hoeveel ruis er was (onder verzekeraars die precies hetzelfde oordeelden) als vooral hoe weinig mensen wisten ervan.
De ruis waar we vooral in geïnteresseerd zijn, is een heel ander fenomeen, omdat het een fenomeen is van individuele verschillen. Het zit niet binnen één individu, het is gewoon de variabiliteit tussen individuen.
Het is een heel ander verhaal, en het zijn geen twee concurrerende bronnen van fouten binnen het individu. Er is ruis binnen het onderwerp, wat erg verwarrend is, maar de ruis waarin we echt geïnteresseerd zijn, is systeemruis.
Ik wil een regel in het boek naar voren brengen die me opviel. U schrijft dat "vooringenomenheid een soort verklarend charisma heeft, waaraan ruis ontbreekt". Ik vroeg me af of we dat citaat een beetje konden onderzoeken.
Vooringenomenheid wordt gevonden, en u kunt het herkennen, in één enkele beslissing. Als een vrouw die verondersteld wordt aangenomen te worden, niet wordt aangenomen, bijvoorbeeld omdat ze een vrouw is, herkennen we dat in één enkele beslissing. Bovendien is er een oorzakelijke verklaring - daar komt het charisma vandaan. De bias heeft een causale kracht, de bias produceert dat soort fouten.
Ruis daarentegen is iets dat je in een bepaald oordeel niet kunt herkennen. Het heeft geen zin om te zeggen dat de fout in dit oordeel wordt veroorzaakt door ruis. Ruis is per definitie een statistisch fenomeen. En als je zegt dat een oordeel luidruchtig is, bedoel je dat dit soort oordelen luidruchtig zijn dat de statistieken variabiliteit aangeven, duiden op ruis.
Rekening houden met en verhelpen van ruis
Hoe zouden ze kunnen beginnen voor een organisatie die ruis wil aanpakken? In het boek beschrijft u een "geluidsaudit". Is dat waar je zou beginnen?
Dit is onze eerste aanbeveling. Als u een aantal werknemers heeft die een verwisselbare functie vervullen, zoals verschillende artsen in de E.R. of verschillende federale rechters of verschillende verzekeraars bij een verzekeringsmaatschappij. Als die situatie bestaat, kunt u een geluidsaudit doen. En we raden iedereen die zich met die mogelijkheid bezighoudt ten zeerste aan om een geluidsaudit uit te voeren.
Bij een geluidsaudit krijgen mensen een realistisch probleem voorgeschoteld, het soort probleem dat ze tijdens hun werk kunnen tegenkomen. Een aantal van die uitwisselbare medewerkers krijgt allemaal dezelfde vraag voorgelegd en wordt een heel precieze vraag gesteld - om een dollarnummer in te voeren of op een andere manier aan te geven wat ze in dat geval verwachten. Kijk dan maar naar de variabiliteit van de casus. U hoeft het juiste antwoord niet te weten, want wat u interesseert, is de variabiliteit van oordelen. Als de oordelen variabel zijn, zijn de fouten variabel.
Oké, dus je hebt de geluidsaudit uitgevoerd. In het geval van de verzekeraars schrijft u dat leidinggevenden ongeveer 10 procent variabiliteit verwachtten, maar dat was meer dan 55 procent. Dus als leidinggevende realiseer je je dat er meer variabiliteit is dan je had verwacht - wat doe je nu?
Er zijn verschillende mogelijkheden. Als het oordeel relatief eenvoudig is, kun je je afvragen of je überhaupt menselijk oordeel nodig hebt, of je kunt het menselijk oordeel vervangen door een regel of een algoritme. De regels hoeven niet erg ingewikkeld te zijn. Soms kunnen de regels checklists zijn. Het hoeft niet eens een berekening te zijn. De Apgar-score, hoe te beslissen of baby's gezond zijn, is een regel. En het elimineert ruis bijna perfect onder artsen.
In meer complexe gevallen, zoals verzekeraars of rechters, is een eenvoudige regel niet voldoende. In die gevallen probeer je het oordeel op verschillende manieren te disciplineren. Het idee is dat gedisciplineerde oordeelsvorming waarschijnlijk uniformer is, en dat de onderling uitwisselbare mensen die oordelen voor een organisatie volgen, als ze hetzelfde denkproces volgen, waarschijnlijk tot vergelijkbare conclusies zullen komen en dat vermindert het lawaai. We noemen die stappen 'beslissingshygiëne', en dat zijn stappen die een organisatie kan nemen, zonder rekening te houden met specifieke vooroordelen, om de kwaliteit van het beoordelingsproces te verbeteren.
U noemt zes verschillende componenten van beslishygiëne. Kun je er een uitkiezen en uitleggen waarom je het belangrijk vindt?
In de eerste plaats is wat we proberen te doen bij beslissingen over hygiëne een gedisciplineerd proces. Het wordt niet door regels bepaald, maar het wordt tot op zekere hoogte gedisciplineerd.
Ik denk dat het belangrijkste voorbeeld dat we hebben van beslissingshygiëne is dat wanneer je voor een beslissing staat met meerdere opties, we een slogan hebben: behandel opties als kandidaten. De reden dat we opties als kandidaten willen behandelen, is dat er eigenlijk een antwoord is, op basis van onderzoek, over hoe u selectiegesprekken moet voeren en hoe u mensen moet selecteren die kandidaat zijn voor een baan. Het leidt niet tot een perfecte voorspelling van de prestaties, want dat is onmogelijk, maar het is waarschijnlijk het beste dat kan worden gedaan. En het antwoord is om het probleem op te lossen.
Ik denk dat het belangrijkste voorbeeld dat we hebben van beslissingshygiëne is dat wanneer je voor een beslissing staat met meerdere opties, we een slogan hebben: behandel opties als kandidaten.
Als je aan het eind een evaluatief oordeel moet vellen, dan is dat het opbreken van het probleem en het evalueren van verschillende aspecten van de optie, net zoals je verschillende eigenschappen van de kandidaten zou opsplitsen. Doe dat met behoud van de specifieke oordelen a) zoveel mogelijk op feiten gebaseerd en b) zo onafhankelijk mogelijk van elkaar. Je wilt niet dat het oordeel van een kenmerk wordt beïnvloed door het oordeel van een ander. Onafhankelijkheid en op feiten gebaseerd zijn dus twee basisprocessen, en het psychologische idee is om intuïtie te vertragen. Schakel de intuïtie niet uit, maar stel het uit.
Dit soort proces dat we beslishygiëne noemen, is van toepassing op unieke beslissingen. Het vermindert niet alleen het geluid, maar als u een leidinggevende heeft die voor een beslissing staat, is er geen lawaai omdat er niemand anders is, maar alles dat herhaalde beslissingen verbetert, zou uiteraard ook unieke beslissingen verbeteren. Beslissingshygiëne is bedoeld om geluid te verminderen, ontworpen om geluid te verminderen, maar het is van toepassing op enkelvoudige beslissingen waar geluid volledig onzichtbaar is.
Laten we het hebben over de strafrechtelijke richtlijnen voor rechters, die deel uitmaakte van een lang, meerjarig gevecht. In sommige gevallen, zoals u schrijft, was het het verschil tussen een verdachte die maanden of meerdere jaren ontving voor hetzelfde misdrijf. Maar die richtlijnen, die in 1984 van kracht werden, werden in 2005 verwijderd en zijn nu adviserend in plaats van verplicht. Rechters drongen terug op de richtlijnen en zeiden dat dit mijn vermogen om mijn werk te doen wegneemt. Ik ben benieuwd naar de pushback die u kunt krijgen nadat u richtlijnen heeft geïmplementeerd om ruis te beperken. Hoe overwin je dat?
In veel situaties kunt u aanvankelijk wat terugslag verwachten. Mensen zien wat er gebeurt als een beperking van hun opties. Als mensen zich erdoor beperkt voelen, als ze dat zien als een bureaucratische inbreuk op hun rol, dan krijg je veel terugslag.
Een deel van de manier waarop een organisatie hiermee te maken heeft, is dat de medewerkers die hierdoor worden getroffen, dit moeten zien als iets dat hen helpt bij het doen van hun werk, in plaats van als iets dat hen vervangt of te veel belemmert. In sommige organisaties, zoals het rechtssysteem, is het moeilijk te bereiken, omdat de rechters vinden dat hun individuele gevoel voor rechtvaardigheid het meetinstrument is dat moet worden toegepast, en ze zullen waarschijnlijk alles weerstaan dat hen meer uniform maakt.
Hoe u rechters kunt overtuigen dat er methoden zijn die hen uniformer maken en hen daadwerkelijk helpen hun werk beter te doen - dat is tot nu toe niet gebeurd. Nadat de richtlijnen waren verwijderd, kwam het geluid ongeveer terug op het vorige niveau en waren de juryleden eigenlijk gelukkiger. Zij zagen [het schrappen van de richtlijnen] als een verbetering vanuit hun oogpunt.
Het is misschien niet verrassend dat als de beweging om ruis te verminderen door rechters wordt gezien als een manier om hun werk te doen, of als ze denken dat ze gewoon een automaat zijn geworden, je waarschijnlijk de strijd zult verliezen. Maar misschien zouden rechters door het verminderen van lawaai de kans krijgen om iets meer te doen, iets nieuws dat ze momenteel niet kunnen doen.
We willen intuïtie niet uit het proces verwijderen, en met intuïtie bedoel ik echt dat subjectieve gevoel dat het een oordeel is dat je aan het maken bent. Wat we proberen te doen, is de intuïtie vertragen en informatie verwerken voordat we uw intuïtie oefenen. Als we rechters zouden kunnen overtuigen om dat te doen - om deel te nemen aan een gedisciplineerd denkproces voordat ze een intuïtie of globaal oordeel vormen - zou dat een grote verbetering zijn.
Dit is echt essentieel. Het is duidelijk dat als je mensen belet, hen niet het gevoel geeft dat ze een intellectuele baan doen, een baan die hun geest bezighield, ze zullen je weerstaan. Ze zullen het saboteren, en dit is beslist niet de manier om te gaan.
Ik vraag me af wat de relativiteitstheorie hier is. Stel dat we beginnen met een strafverschil van drie maanden tot tien jaar, en we verminderen ruis en nu is het drie maanden tot vijf jaar. Zonder de eerdere context voelt drie maanden tot vijf jaar nog steeds erg oneerlijk, ook al is het eerlijker dan voorheen. Hoe begrijpen we dit en blijven we eraan werken om fouten te verminderen?
We moeten accepteren dat overal waar oordeel is, er ruis is. Net zoals u vertekening zou willen verminderen - zelfs als u deze niet volledig kunt elimineren - is het verminderen van ruis een goede zaak. Het verbetert de nauwkeurigheid.
Wat je zegt is echt heel interessant, omdat er een retoriek is om problemen op te lossen - alsof we vooringenomenheid willen elimineren. Welnu, je kunt vooringenomenheid niet uit het oordeel verwijderen, niet helemaal. U kunt vertekening verminderen en u kunt ruis verminderen, maar u kunt ruis niet elimineren door oordeel. Het maakt deel uit van wat het menselijk maakt, dat het luidruchtig is, dat het niet perfect nauwkeurig is. Tenzij we willen dat ons leven wordt beheerst door regels en algoritmen, zullen we daar vrede mee moeten sluiten.
We moeten accepteren dat overal waar oordeel is, er ruis is. Net zoals u vertekening zou willen verminderen - zelfs als u deze niet volledig kunt elimineren - is het verminderen van ruis een goede zaak. Het verbetert de nauwkeurigheid.
In welke gevallen moet ruisonderdrukking op dat punt niet het doel zijn? In het boek bespreek je het onderscheid tussen oordeel en smaak, meningen of waarden. Wanneer is ruisonderdrukking misschien niet de prioriteit?
We spreken echt van ruis, we definiëren ruis als ongewenste variabiliteit. De situatie waarin we naar ruis kijken, is in de eerste plaats die waarin er een organisatie is die oordelen en besluiten neemt en dat met één stem wil doen. Voor zover het dat op een luidruchtige manier doet, is dit ongewenst.
Er zijn veel situaties waarin diversiteit eigenlijk heel interessant en waardevol is. Je wilt niet dat al je filmrecensenten identiek zijn, enzovoort. Je wilt zeker niet dat een creatief proces identiek is. Bovendien zijn er situaties waarin u een team van mensen met uiteenlopende expertise samenstelt, en zij oordelen gedeeltelijk, en u wilt niet dat ze identiek zijn, maar u wilt dat ze de verschillende kenmerken van het probleem weerspiegelen.
De nuances van geluid (en andere vragen over besluitvorming)
Hoe we ons voelen na beslissingen kan erg subjectief zijn, en we kunnen ons in de loop van de tijd aanpassen aan onze beslissingen. Ik kan me een aantal mensen voorstellen die, als ze een zeer gedisciplineerd besluitvormingsproces zouden opzetten, het gevoel zouden hebben dat ze deden wat ze moesten doen om een beslissing te nemen en dat ze vertrouwen zouden hebben in hun keuze. Ik kan me andere mensen voorstellen die, als ze zouden proberen hun beslissingen wetenschappelijker te maken, de betekenis voor hen of het verhaal dat ze zichzelf zouden vertellen, zouden wegnemen. Ik ben benieuwd hoe u over deze twee benaderingen denkt.
Ik denk dat je volkomen gelijk hebt, en ik denk dat er daadwerkelijk aanwijzingen zijn van situaties waarin overleg je niet helpt. Er is een onderzoek dat, wanneer je een poster kiest, te veel tijd besteedt aan het analyseren waarom je het leuk vindt, waarom je het leuker vindt dan een andere poster, eigenlijk niet de moeite loont. Dat je misschien gelukkiger bent als je een heleboel posters hebt en je er een uitkiest. Dus, ik zou zeggen dat voor beslissingen waarbij uiteindelijk het criterium is of je het leuk zult vinden en het is eenvoudig en relatief klein, het bewijs suggereert dat intuïtief oordeel misschien beter is dan analyse.
Op iets dat heel complex is, zoals het bouwen van een huis, is het echt niet hetzelfde als leven met een poster. Of het nu een zwembad heeft, geen zwembad, of er een lange reis is of niet - je hebt geen eenvoudige houding ten opzichte van huis, het is een gecompliceerd object. Waar het een gecompliceerd object is met veel functies, is een gedisciplineerd proces waarschijnlijk de moeite waard.
Dit doet me denken aan onderzoek dat je hebt gedaan met leidinggevenden, die vonden dat ze waarde toevoegden door met hun gevoel mee te gaan. Het idee was dat ze door ervaring hun oordeel cultiveerden. Ik ben benieuwd wat ze dachten dat hun buik aan het doen was - wat vormde hun onderbuik, om zo te zeggen?
Er is een intuïtieve weging van informatie. Je wordt blootgesteld aan een verhaal en dan zijn er bepaalde elementen van het verhaal die je grijpen. We hebben de neiging om verhalen te maken, en het proces van het creëren van de verhalen die onze beslissingen sturen, daar komt veel van vandaan. Je gevoel spreekt je aan als je een eenvoudig verhaal hebt. Als alles in dezelfde richting lijkt te wijzen en je veel vertrouwen geeft, dan is de kans groot dat je gevoel de situatie vereenvoudigt.
Wat de buik doet, is dat het samenhangende verhalen creëert. Het creëert samenhangende verhalen in een onsamenhangende wereld - door een deel van de moeilijkheid weg te nemen, een deel van die complexiteit, een deel van de interne tegenstrijdigheid. Mensen voelen zich echt ongemakkelijk bij interne tegenstrijdigheden. Ze willen een eenvoudig verhaal hebben waarin alles in dezelfde richting gaat. En mensen die zeggen dat hun buik tot hen spreekt, dat hebben ze. Ze hebben eenvoudige samenhangende verhalen. Het is wat hen vertrouwen geeft, en andere mensen vertrouwen hen omdat ze veel zelfvertrouwen hebben.
Als alles in dezelfde richting lijkt te wijzen en je veel vertrouwen geeft, dan is de kans groot dat je gevoel de situatie vereenvoudigt. Wat de buik doet, is dat het samenhangende verhalen creëert ... in een onsamenhangende wereld.
Wat zijn enkele van de misvattingen over ruis of mythen over ruis die u zou willen wegnemen?
Ik denk dat de eerste misvatting die we willen wegnemen:ruis is een groot probleem. Ruis wordt over het algemeen verwaarloosd, denken we, en het mag niet worden verwaarloosd, het is de moeite waard om op te letten.
De tweede misvatting is er een die we hebben besproken, namelijk dat het verminderen van geluid betekent dat het volledig mechanistisch is of dat het geen rol laat aan het menselijk oordeel. Onze poging is om het menselijk oordeel te behouden en ruis te verminderen.
Ik bel je nu vanuit Praag, dus ik zou nalatig zijn als ik niet zou vragen naar de verschillen tussen culturen of verschillende landen met betrekking tot ruis en besluitvorming.
Dit is een heel goede vraag waarop ik geen antwoord heb, en ik zal uitleggen waarom ik geen antwoord heb. Ik vind het boek in zekere zin voorbarig. Ik begon zes of zeven jaar geleden aan ruis te denken en nu komt er een boek uit. Dat is in principe te vroeg. Dat wil zeggen, als je een relatief groot idee hebt, weet je, twintig jaar is een beter tijdsbestek dan zes. Ik begon toen ik in de 80 was, dus ik had gewoon niet de luxe. Er zijn fascinerende vragen, zoals degene die je hebt opgeworpen over ruis in een interculturele context, die ik graag had willen onderzoeken en die ik over 20 jaar zou hebben beantwoord, ik en mijn medewerkers. Dit is wat we in zes jaar hebben bereikt, maar uw vraag is goed.