De waarheidsparadox van ChatGPT
26.000+ lezers blijven up-to-date over artificial intelligence door 'Trending in Tech' te lezen.
Een nieuwe editie van Trending in Tech – dé Nederlandse nieuwsbrief over de impact van kunstmatige intelligentie op mens, werk, organisaties en samenleving.
Met hartelijke groet,
Jarno
Doorsturen aan een vriend of collega? Graag.
Ik zou graag met je connecten op Linkedin.
Ik heb inmiddels met veel plezier vele honderden, hoog beoordeelde, presentaties gegeven over AI. Meer weten? Check hier.
Paradox
Het is een merkwaardige paradox: iedereen wéét het, en toch blijft het telkens terugkomen alsof niemand het weet.
Het hardnekkigste verwijt aan ChatGPT en andere taalmodellen is dat ze niet altijd de waarheid spreken.
De gevorderde AI gebruiker krijgt nu denk ik een frons in het voorhoofd, maar lees even mee.
Het hardnekkigste verwijt is dus dat taalmodellen niet altijd de waarheid spreken.
En dat klopt. Deze modellen doen voorspellingen op basis van waarschijnlijkheid. Hun antwoorden gaan vaak verdraaid de goede richting uit, maar zijn niet feilloos zoals de uitkomst van een rekenmachine.
Ik schreef bijna drie (!) jaar geleden al een opiniestuk over ChatGPT in Trouw: “Een manke poot van deze technologie is dat de software artikelen en antwoorden maakt vanuit een stevige overtuiging, maar daarbij niet altijd de waarheid spreekt. De software is getraind met de enorme bakken data van ons internet, en daar staan ook veel onwaarheden. Hoewel de software zich presenteert als alleswetende machine, zitten er fouten in waarvan de gebruiker zich niet altijd bewust is.”
We zijn inmiddels drie jaar verder (!) en in de kern is het probleem hetzelfde. Toch blijft ditzelfde punt van kritiek steeds opnieuw opduiken, bij bedrijven, bij opdrachtgevers, op verjaardagsfeesten, in artikelen, blogs en columns.
In het Nieuws
Nog deze week: een artikel met als boodschap dat AI geen kieskompas of stemwijzer is.
Maar het meest sprekende voorbeeld kwam van de BBC. Zij deden onderzoek naar de nauwkeurigheid van taalmodellen bij het weergeven van feiten, citaten en gebeurtenissen in nieuwsberichten. De centrale vraag: hoe betrouwbaar zijn taalmodellen als het gaat om feitelijke informatie?
En wat blijkt… tromgeroffel... een taalmodel is niet altijd accuraat! (*slaat handen van schrik voor het gezicht*)
Vanzelfsprekend doken talloze media er meteen bovenop. De uitkomst werd gepresenteerd alsof het om een verrassende ontdekking ging. En zo werd het negatieve frame rond LLM’s weer een stukje verder aangescherpt. Terwijl je evengoed kunt zeggen: de BBC heeft veel tijd en geld geïnvesteerd om te bevestigen wat iedereen allang wist... Taalmodellen spreken niet altijd de waarheid.
Natuurlijk maakt het systeem fouten. Maar om dat te brengen als een onthulling, is goedkoop effectbejag. Het is alsof je iemand opzettelijk laat struikelen en vervolgens zegt: “Kijk nou, hij viel!”
Het onderzoek testte taalmodellen namelijk op aspecten waarvan men wéét dat LLM’s daar niet goed in zijn, zoals citaten en actuele informatie.
Waarheidsmachine
Wat ik helemaal ergerlijk vind, is dat sommige branches lijken te wachten op een waarheidsmachine en vervolgens niks doen. Gewoon met de armen over elkaar.
Dan zie je toch echt iets over het hoofd.
Wat zie je dan over het hoofd?
Dat taalmodellen oneindige ideeënmachines zijn.
Ze bieden nieuwe invalshoeken, onverwachte verbanden, rijke antwoorden, frisse concepten, originele scenario’s en toekomstvisies. Ze wijzen naar een richting die akelig in de buurt zit van waar je moet zijn in bewoordingen die je gedachten vormen en je ideeën aanscherpen.
Ze helpen je om anders te denken, je verbeelding te prikkelen, zaken anders te verwoorden, je gedachten te ordenen en mogelijkheden te zien die je anders misschien zou missen.
Wat een fantastische uitvinding!
Waarom kunnen sommige mensen dat niet zíen? Waarom blijven sommigen hangen in die ene, achterhaalde maatstaf — “feitelijke juistheid” — terwijl dat helemaal niet is waar de kracht van deze technologie ligt?
Je beoordeelt een goudvis toch ook niet op hoe goed hij in een boom kan klimmen?
Toch blijven we taalmodellen op die manier benaderen.
Laat me een andere metafoor gebruiken. Stel je voor: we hebben plots, bijna uit het niets, Google Maps uitgevonden. En wat is de reactie? Mensen die klagen: “Ja, maar als ik bij de brug links ga, ben ik sneller thuis dan wat de navigatie zegt.”
Misschien hebben ze gelijk.
..Maar dat verandert niets aan het feit dat we software hebben die je van Bordeaux naar Musselkanaal kan brengen — razendsnel, frictieloos, bijna foutloos, nagenoeg gratis, en altijd aangepast aan de actuele verkeerssituatie. (uitroepteken)
Re:Frame
Waarom leggen we de lat voor taalmodellen zó veel hoger dan voor andere informatiebronnen?
Als je iets opzoekt via Google, is dat óók niet per definitie betrouwbaar. De eerste vier blauwe linkjes zitten vaak vol commerciële en SEO-geoptimaliseerde content, van twijfelachtige kwaliteit.
YouTube? Wikipedia? Ook niet foutloos
En stel je een collega een vraag? Dan slik je diens antwoord toch ook niet blind voor zoete koek?
Waarom verwachten we dan van ChatGPT en collega LLM’s dat het áltijd de waarheid vertelt?
Beoordeel deze technologie op wat ze ís: een ideeënmachine.
Het probleem zit niet in de technologie. Het probleem is gemakzucht. Luiheid. En dat is van alle tijden.
Laten we dát aanpakken. Op de werkvloer. In het onderwijs. Aan de keukentafel.
Val niet de technologie aan, maar help de luie, gemakzuchtige mens.
Wie taalmodellen goed gebruikt, kan namelijk slimmer denken, sneller werken en betere resultaten leveren.
Taalmodellen zijn wat ze zijn: krachtige hulpmiddelen om creatief te denken, te ontdekken, te leren, te sparren, te formuleren en te herformuleren, connected dots te bekijken, gouden formuleringen te lezen en tot briljante vondsten te komen.
Laten we onze energie richten op het maximale eruit halen. Door mensen erop te blijven wijzen dat ChatGPT niet altijd de waarheid spreekt, en dat het waardevol en belangrijk is om zelf na te blijven denken.
En dat we taalmodellen moeten gaan zien voor wat ze werkelijk zijn: oneindige ideeënmachines.
….
Vind je dit een goede nieuwsbrief? Geef hem dan een hartje of stuur mij een reactie met je aanvullingen en ideeën, dat vind ik altijd fantastisch om te lezen. En attendeer je vrienden en collega’s om zich te abonneren!
Tot de volgende!
Met hartelijke groet,
Jarno
Wil je meer weten over AI? Wil je bij een evenement inspiratie, energie, een gezond kritische blik en je publiek op het puntje van hun stoel? Bekijk dan mijn Presentatie over AI









Enerzijds heb je gelijk, maar toch vind ik de kritiek ook niet geheel onterecht. De antwoorden die ai geeft worden gewoonlijk geformuleerd alsof ze correct zijn. Een betere antwoordformulering zou zijn: Op basis van mijn analyse van mijn
beschikbare info lijkt mij het meest waarschijnlijk dat …”. Probleem opgelost.
HI Jarno, Het fenomeen dat je schetst is herkenbaar en helaas niet alleen voor LLM's. Dit wonderlijk fenomeen heb ik in een rapport over digital twinning ooit het "toegenomen verwachtingen syndroom' genoemd. Op het moment dat we menselijk handelen vervangen door digitalisering stellen we plotseling veel hogere eisen. Ten aanzien van autonoom vervoer bijvoorbeeld werd plotseling de vraag opgeworpen rond de ethische kwestie “wat als er onvoldoende remweg is en een ongeval onvermijdelijk is: wat zijn dan de overwegingen van het autonome vervoersmiddel om ervoor te kiezen juist het oude omaatje of toch het plots overstekende kindje te raken..”? Een vraag die waarschijnlijk nog nooit aan een bestuurder van een auto is gesteld op het moment dat hij of zij het examen aflegt.
Ook bij datagedreven beleid- en besluitvorming stuitten we regelmatig op soortgelijke situaties. Terwijl jarenlang beleid is gemaakt op beperkte applicaties en onderbuikgevoel, wordt bij datagedreven beleid en besluitvorming plots de datakwaliteit ter discussie gesteld. Waar menselijke besluitvorming en menselijk beleid dus vooral uitlegbaar moet zijn op basis van beschikbare informatie, worden aan digitale twins en AI plotseling veel hogere eisen gesteld en moeten de data en de modellen plotseling onfeilbaar zijn. Het is belangrijk ons bewust te zijn van dit fenomeen en de verwachtingen rondom data- en AI- ondersteunde besluitvorming telkens goed te managen maar ook te relativeren. Laten we dan ook meteen constateren dat ook in de grote encyclopedieën (zelf de encyclopedia Britannica) de nodige onjuistheden stonden gedrukt, laat staan in de alom gerespecteerde bijbel. Onfeilbaar bestaat simpelweg niet. Het gaat erom hoe we omgaan met onjuistheden.