Hallo Yours,
Uiteindelijk willen "wij" op Freethinker conversaties cultiveren tussen
mensen, niet tussen mensen en computersystemen: diegenen die dat wel willen zijn uiteraard vrij om zelf een "AI"-dienst af te nemen. Iemand komt hier om b.v. met jou te praten, niet met de "artificiële intelligentie X, Y of Z". Wij verwachten dus dat mensen participeren als mensen met hun eigen inbreng, niet als verkapte bots. Expliciete bots zullen we sowieso weren d.w.z. bannen want voor je het weet zijn verschillende bots met elkaar in discussie, met 100+ forum-pagina's
per dag als resultaat. Maar soit, doen we al jaren: spam-bots bestaan al sinds eind jaren '90.
Die zijn met name
beter geworden!

(FYI, het forum wordt geplaagd door extreem veel registraties per maand van spambots sinds 2023).
We hebben het over "AI", terwijl de huidige hype (want dat is het: gestart in 2023) draait om "
generatieve AI". Het is goed om te weten hoe dit in de praktijk werkt omdat we daarmee ook een geïnformeerde inschatting kunnen maken over de kwaliteit, "intelligentie" en "het waarheidsgehalte" van de uitvoer.
Uit de losse pols,
Ten eerste helpt het om te beseffen hoe 'oude' zoekmachines zoals Google werken: je kunt feitelijk zoeken via een vraag, en vervolgens krijg je forum-berichten, blog-berichten, Wikipedia-pagina's, Youtube-video's of artikelen die je kan relateren aan een auteur, en/of organisatie en/of instituut. Deze resultaten zijn gerangschikt volgens een algoritme (dat ons kan beïnvloeden). Dan nog neigen wij selectief te zijn: we
mogen nog selectief zijn! Als ik bijvoorbeeld besluit om te zoeken naar informatie over apenpokken dan zal ik geneigd zijn om het RIVM zoekresultaat te kiezen en niet een forum-post. Uiteraard kan ik ook direct naar de RIVM-website om informatie te vinden. Wellicht dat andere instituten (de WHO) ook informatie delen: daarom dat Google wel fijn is. In elk geval kan ik links (naar zulke bronnen, gekoppeld aan een instituut) op een forum zoals dit delen. Dan ziet iedereen waar de informatie vandaan komt, en wellicht staan op die pagina ook weer verwijzingen.
De 'oude' zoekmachines indexeren concrete menselijke bronnen zodat bronnen vindbaar zijn volgens een model. Bronnen zijn onafhankelijk beschikbaar van Google. Andere indexers (oftewel "crawlers") kunnen dezelfde informatie vinden. Een alternatief voor Google is bijvoorbeeld https://duckduckgo.com/
de huidige hype draait om "
generatieve AI", met name ChatGPT. Kort door de bocht: GPT's —
generative pre-trained transformers — zijn (net als de auto-complete van een telefoon) 'getraind' om woorden (d.w.z. "tokens") te produceren op basis van wat jij als gebruiker invoert. Dit trainen levert een "
Large Language Model op.
Large... want de modellen zijn getraind op
vrijwel alles wat op het internet te vinden is! (wellicht ook bronnen waarop copyright berust) Vergelijkbaar met auto-complete genereert het systeem het meest waarschijnlijke resultaat. Waarschijnlijkheid betekent "
meest voorkomend". Niet per definite "het meest ware", afgezien van de kwestie dat zulke modellen beïnvloed moeten worden door vele manjaren aan werk: GPT's worden ook getraind d.w.z. beïnvloed zodat ze "gewenste resultaten" produceren. Anders wordt de GPT racistisch, lomp of seksistisch

Dit wordt
Reinforcement learning from human feedback (RLHF) genoemd. Logisch, als je ziet wat er b.v. op Twitter/X of 4chan staat. Bovendien dient zo'n model plausibel en vriendelijk te
klinken; dat iemand hiervan "onder de indruk is" impliceert natuurlijk geen waarheidsgehalte, maar elke verkoper en charlatan weet dat "naar de mond praten" van een potentiële lead of sale (of slachtoffer) altijd een bijzonder goed en effectief idee is.
De 'nieuwe' "generatieve AI"-systemen zijn het resultaat van een (overigens: dure en energie-slurpende!) training op basis van concrete menselijke bronnen. De inhoud van deze bronnen worden in het resulterende model verwerkt, waarbij de koppeling met de concrete bron verloren gaat. Jouw "verzoek" leidt tot een amalgamatie van alle bronnen. Je kunt niet meer traceren welke bronnen gebruikt zijn voor deze amalgamatie. Daarnaast worden deze modellen "fine-tuned" d.w.z. beïnvloed.
De 'nieuwe' "
generatieve AI"-systemen zijn in elk geval ideaal om plausibel klinkende misinformatie en
heel veel ruis te genereren, zonder de mogelijkheid om vast te stellen waar informatie dus vandaan (en tot stand) komt. Deze systemen kunnen dat in potentie met pakweg 100+ forum-pagina's
per dag als resultaat: dat is voor een mens ondoenlijk om dat te gaan "pareren".
Zou het (toch) zo zijn (al dan niet in de toekomst) dat je iets van AI kan leren wat je vervolgens wil delen? Met name als je zaken kan aantonen (o.a. met bronnen die een AI had moeten geven) dan zou (in theorie!) een AI beter moeten zijn dan die 'oude' zoekmachine. Maar dan herformuleer je datgene wat je hebt geleerd in je eigen woorden, je onderbouwt met dezeflde bron en zo voeg
jij iets toe aan het forum. Dat is eigenlijk niet veel anders als hoe het 'vroeger' (met de oude zoekmachines) ging. Uiteindelijk discussiëren we met eigen geschreven woorden d.w.z. inhoud, niet met alleen maar links. Althans... dat is wat we (al jaren!) verwachten.
Mocht een AI bijvoorbeeld iets belangrijks genereren dat getoetst dient te worden, dan veronderstel ik dat er wetenschappelijke papers over komen onder peer review. Dat is feitelijk ook niet anders dan eerst.
Maar de kern van het issue is eigenlijk: de huidige vorm van "generatieve AI" is en blijft een "auto-complete", en sommigen worden hier blijkbaar behoorlijk door bedot.
Maar niet iedereen is (of: blijft!) onder de indruk,
Het is overduidelijk dat "generatieve AI" allerlei output
confabuleert, dat noemen ze
hallucinaties.
Dat deze systemen overduidelijk onzin kunnen produceren is (gezien hoe ze zijn opgezet en getraind) dan ook wel verklaarbaar.
Wellicht schept dit relaas wat achtergrond wat betreft de toevoeging van een regel aan de forum-regels.
“But Marge, what if we chose the wrong religion? Each week we just make God madder and madder.” - Homer Simpson.