Enerzijds heb je gelijk, maar toch vind ik de kritiek ook niet geheel onterecht. De antwoorden die ai geeft worden gewoonlijk geformuleerd alsof ze correct zijn. Een betere antwoordformulering zou zijn: Op basis van mijn analyse van mijn
beschikbare info lijkt mij het meest waarschijnlijk dat …”. Probleem opgelost.
HI Jarno, Het fenomeen dat je schetst is herkenbaar en helaas niet alleen voor LLM's. Dit wonderlijk fenomeen heb ik in een rapport over digital twinning ooit het "toegenomen verwachtingen syndroom' genoemd. Op het moment dat we menselijk handelen vervangen door digitalisering stellen we plotseling veel hogere eisen. Ten aanzien van autonoom vervoer bijvoorbeeld werd plotseling de vraag opgeworpen rond de ethische kwestie “wat als er onvoldoende remweg is en een ongeval onvermijdelijk is: wat zijn dan de overwegingen van het autonome vervoersmiddel om ervoor te kiezen juist het oude omaatje of toch het plots overstekende kindje te raken..”? Een vraag die waarschijnlijk nog nooit aan een bestuurder van een auto is gesteld op het moment dat hij of zij het examen aflegt.
Ook bij datagedreven beleid- en besluitvorming stuitten we regelmatig op soortgelijke situaties. Terwijl jarenlang beleid is gemaakt op beperkte applicaties en onderbuikgevoel, wordt bij datagedreven beleid en besluitvorming plots de datakwaliteit ter discussie gesteld. Waar menselijke besluitvorming en menselijk beleid dus vooral uitlegbaar moet zijn op basis van beschikbare informatie, worden aan digitale twins en AI plotseling veel hogere eisen gesteld en moeten de data en de modellen plotseling onfeilbaar zijn. Het is belangrijk ons bewust te zijn van dit fenomeen en de verwachtingen rondom data- en AI- ondersteunde besluitvorming telkens goed te managen maar ook te relativeren. Laten we dan ook meteen constateren dat ook in de grote encyclopedieën (zelf de encyclopedia Britannica) de nodige onjuistheden stonden gedrukt, laat staan in de alom gerespecteerde bijbel. Onfeilbaar bestaat simpelweg niet. Het gaat erom hoe we omgaan met onjuistheden.
Het is áltijd zo dat de lat bij nieuwe tech hoger wordt gelegd dan wat de norm is. Dit is ook zo bij beveiliging. Simpel voorbeeld?
- toen we van handtekening naar PIN code gingen vond iedereen dat een PIN best onveilig was, terwijl een handtekening namaken echt beter lukt dan een 4 cijferige PIN gokken.
Dus, dit is van alle tijden. Toch goed om het te benoemen.
En wat is de waarheidsmachine? Nou, die hebben we al en die heet: "wetenschap". En dankzij wetenschap weten we dat 'waarheid' niet zo simpel is als het bijeen graaien van feiten. Elke deelselectie van feiten heet tegenwoordig 'framing'. En dat is niet onterecht. En veel feiten worden niet eens gemeten, dus we weten weinig. En de feiten die we meten, in elk geval op centraal niveau, zijn ook deels politiek gestuurd.
Voorbeeldje?
We meten wél het salarisverschillen tussen mannen en vrouwen, maar we meten níet het salarisverschil tussen lange en kleine mensen. (Want, en nu wordt het politiek, als we het wel zouden meten de salarisverschillen beter zou verklaren dan de M/V dichotomie).
Dus: de hogere eisen, da's van alle tijden, en 'de waarheid'....die is zelfs voor wetenschappers moeilijk te vinden.
Wat betreft het "uitkramen van onzin door AI". Mijn ervaring is dat de kwaliteit van de antwoorden van AI's veel beter is dan die van de mensen die ik dezelfde vragen voorleg. Maar dat heeft misschien te maken met de kwaliteit van mijn netwerk ;)
Ik weet het niet. Ik denk dat het probleem een stukje genuanceerder ligt. Ik ben inmiddels 2500+ conversaties verder met ChatGPT en Claude sinds eind 2022, AI Assisted coding NIET meegerekend, en ik denk dat het grootste probleem op dit moment "sycophancy" (confirmation bias, meepraterij) is. En dat veel mensen niet goed in staat zijn om het verschil te zien tussen hallucinatie en sycophancy. Ik vermoed overigens dat het ChatBOT "stemgedrag" een combinatie is van beiden en ook ik vind het moeilijk om aan tegeven in welke verhouding. Het hallucinatie probleem op zich is vrij goed om heen te werken net zoals jij ook aangeeft. Maar die meepraterij is erg tricky. Vooral omdat prompt engineering om dit te voorkomen slechter werkt dan de meeste denken. De complimenten worden vooral beter gemaskeerd. Ik ben nog steeds van mening dat je een ChatBOT prima kunt gebruiken voor stemadvies, maar dan moet je donders goed weten waar je allemaal rekening mee moet houden in je vraagstelling. Zonder diepgaande kennis van ChatBOT zal dat een behoorlijke uitdaging zijn. Anyway, het "meepraterij" probleem maakt dat ik een stuk voorzichtiger ben in het werken aan nieuwe ideeen mbv chatbots. Voor de wetenschappelijke wereld ligt er nog heel wat potentieel als dit probleem wordt gefixed. Maar dat zie ik voorlopig niet gebeuren want een saaie goudeerlijke bot verkoopt niet.
Ik denk ook dat het te maken heeft met angst voor het onbekende en verandering. Het is makkelijker (en wellicht comfortabeler) om vast te houden aan wat je al kent en gebruikt, dan om wéér een nieuwe stap te moeten maken. Als dan blijkt dat die nieuwe stap ook nog nadelen kent, is het verleidelijk om die uit te vergroten en te bashen, zodat je in ieder geval een 'objectieve' reden hebt om de stap nog niet te maken.
Daarnaast lijkt het ook wel dat elke vooruitgang ook direct foutloos moet zijn. Dat zie je bijvoorbeeld ook met de VAR in het voetbal. Scheidsrechters mogen fouten maken, want het zijn mensen. Maar als er ook maar een twijfelmoment is met de VAR, dan kun je het net zo goed afschaffen.
Een 77 jarige icter, die via ponskaarten ibm mainframes, 50 bits/sec , datacommunicatie, routers,internet, vertaalprogramma’s, semantische woordenboek en nu Ai en LLMs nog steeds kan genieten van software.
Twee opmerkingen de aanslag op het milieu en de uitbuiting van labelers uit de derde wereld. Online werken en databases en hadden tijd nodig evenals de pc en de mobiele telefoon. Ai kan mits collectief beheerd en gebruikt worden, een hoop goeds doen.dank voor je analyse.
Enerzijds heb je gelijk, maar toch vind ik de kritiek ook niet geheel onterecht. De antwoorden die ai geeft worden gewoonlijk geformuleerd alsof ze correct zijn. Een betere antwoordformulering zou zijn: Op basis van mijn analyse van mijn
beschikbare info lijkt mij het meest waarschijnlijk dat …”. Probleem opgelost.
HI Jarno, Het fenomeen dat je schetst is herkenbaar en helaas niet alleen voor LLM's. Dit wonderlijk fenomeen heb ik in een rapport over digital twinning ooit het "toegenomen verwachtingen syndroom' genoemd. Op het moment dat we menselijk handelen vervangen door digitalisering stellen we plotseling veel hogere eisen. Ten aanzien van autonoom vervoer bijvoorbeeld werd plotseling de vraag opgeworpen rond de ethische kwestie “wat als er onvoldoende remweg is en een ongeval onvermijdelijk is: wat zijn dan de overwegingen van het autonome vervoersmiddel om ervoor te kiezen juist het oude omaatje of toch het plots overstekende kindje te raken..”? Een vraag die waarschijnlijk nog nooit aan een bestuurder van een auto is gesteld op het moment dat hij of zij het examen aflegt.
Ook bij datagedreven beleid- en besluitvorming stuitten we regelmatig op soortgelijke situaties. Terwijl jarenlang beleid is gemaakt op beperkte applicaties en onderbuikgevoel, wordt bij datagedreven beleid en besluitvorming plots de datakwaliteit ter discussie gesteld. Waar menselijke besluitvorming en menselijk beleid dus vooral uitlegbaar moet zijn op basis van beschikbare informatie, worden aan digitale twins en AI plotseling veel hogere eisen gesteld en moeten de data en de modellen plotseling onfeilbaar zijn. Het is belangrijk ons bewust te zijn van dit fenomeen en de verwachtingen rondom data- en AI- ondersteunde besluitvorming telkens goed te managen maar ook te relativeren. Laten we dan ook meteen constateren dat ook in de grote encyclopedieën (zelf de encyclopedia Britannica) de nodige onjuistheden stonden gedrukt, laat staan in de alom gerespecteerde bijbel. Onfeilbaar bestaat simpelweg niet. Het gaat erom hoe we omgaan met onjuistheden.
Dank Jarno, voor de voorspellende woorden.
Het is áltijd zo dat de lat bij nieuwe tech hoger wordt gelegd dan wat de norm is. Dit is ook zo bij beveiliging. Simpel voorbeeld?
- toen we van handtekening naar PIN code gingen vond iedereen dat een PIN best onveilig was, terwijl een handtekening namaken echt beter lukt dan een 4 cijferige PIN gokken.
Dus, dit is van alle tijden. Toch goed om het te benoemen.
En wat is de waarheidsmachine? Nou, die hebben we al en die heet: "wetenschap". En dankzij wetenschap weten we dat 'waarheid' niet zo simpel is als het bijeen graaien van feiten. Elke deelselectie van feiten heet tegenwoordig 'framing'. En dat is niet onterecht. En veel feiten worden niet eens gemeten, dus we weten weinig. En de feiten die we meten, in elk geval op centraal niveau, zijn ook deels politiek gestuurd.
Voorbeeldje?
We meten wél het salarisverschillen tussen mannen en vrouwen, maar we meten níet het salarisverschil tussen lange en kleine mensen. (Want, en nu wordt het politiek, als we het wel zouden meten de salarisverschillen beter zou verklaren dan de M/V dichotomie).
Dus: de hogere eisen, da's van alle tijden, en 'de waarheid'....die is zelfs voor wetenschappers moeilijk te vinden.
Wat betreft het "uitkramen van onzin door AI". Mijn ervaring is dat de kwaliteit van de antwoorden van AI's veel beter is dan die van de mensen die ik dezelfde vragen voorleg. Maar dat heeft misschien te maken met de kwaliteit van mijn netwerk ;)
Misschien een aardige aanvulling
https://jeroenteelen.nl/163-waarheid-en-wijsheid-in-het-ai-tijdperk-wat-is-waarheid-in-taalmodellen/
Ik weet het niet. Ik denk dat het probleem een stukje genuanceerder ligt. Ik ben inmiddels 2500+ conversaties verder met ChatGPT en Claude sinds eind 2022, AI Assisted coding NIET meegerekend, en ik denk dat het grootste probleem op dit moment "sycophancy" (confirmation bias, meepraterij) is. En dat veel mensen niet goed in staat zijn om het verschil te zien tussen hallucinatie en sycophancy. Ik vermoed overigens dat het ChatBOT "stemgedrag" een combinatie is van beiden en ook ik vind het moeilijk om aan tegeven in welke verhouding. Het hallucinatie probleem op zich is vrij goed om heen te werken net zoals jij ook aangeeft. Maar die meepraterij is erg tricky. Vooral omdat prompt engineering om dit te voorkomen slechter werkt dan de meeste denken. De complimenten worden vooral beter gemaskeerd. Ik ben nog steeds van mening dat je een ChatBOT prima kunt gebruiken voor stemadvies, maar dan moet je donders goed weten waar je allemaal rekening mee moet houden in je vraagstelling. Zonder diepgaande kennis van ChatBOT zal dat een behoorlijke uitdaging zijn. Anyway, het "meepraterij" probleem maakt dat ik een stuk voorzichtiger ben in het werken aan nieuwe ideeen mbv chatbots. Voor de wetenschappelijke wereld ligt er nog heel wat potentieel als dit probleem wordt gefixed. Maar dat zie ik voorlopig niet gebeuren want een saaie goudeerlijke bot verkoopt niet.
Ik denk ook dat het te maken heeft met angst voor het onbekende en verandering. Het is makkelijker (en wellicht comfortabeler) om vast te houden aan wat je al kent en gebruikt, dan om wéér een nieuwe stap te moeten maken. Als dan blijkt dat die nieuwe stap ook nog nadelen kent, is het verleidelijk om die uit te vergroten en te bashen, zodat je in ieder geval een 'objectieve' reden hebt om de stap nog niet te maken.
Daarnaast lijkt het ook wel dat elke vooruitgang ook direct foutloos moet zijn. Dat zie je bijvoorbeeld ook met de VAR in het voetbal. Scheidsrechters mogen fouten maken, want het zijn mensen. Maar als er ook maar een twijfelmoment is met de VAR, dan kun je het net zo goed afschaffen.
Beste Jarno.
Helemaal eens.
Een 77 jarige icter, die via ponskaarten ibm mainframes, 50 bits/sec , datacommunicatie, routers,internet, vertaalprogramma’s, semantische woordenboek en nu Ai en LLMs nog steeds kan genieten van software.
Twee opmerkingen de aanslag op het milieu en de uitbuiting van labelers uit de derde wereld. Online werken en databases en hadden tijd nodig evenals de pc en de mobiele telefoon. Ai kan mits collectief beheerd en gebruikt worden, een hoop goeds doen.dank voor je analyse.
Ed Kool