AI-wetenschappers bezorgd over 'robo-inteelt' bij trainen van AI
De komende jaren wordt er een flinke groei in door AI gegenereerde online content verwacht. Maar de kunstmatige intelligentie daarachter wordt vaak getraind op content die op het internet staat. Sommige AI-wetenschappers zien het niet goedkomen met de ‘inteelt’ die daardoor ontstaat in het leerproces, en die volgens hen kan leiden tot een complete implosie van AI-gegenereerde content.
Tegen 2026, waarschuwde Europees wetshandhavingsbureau Europol onlangs, zal 90 procent van alle online content synthetisch gegenereerd zijn, gemaakt dus door artificieel intelligente systemen als GPT-4. En zelfs als het niet dat soort vaart loopt lijdt het geen twijfel dat we in de toekomst meer en meer tekst op websites zullen lezen die werd geschreven door een machine. Taalmodellen worden met minder en minder schroom ingezet in velden als marketing, politieke communicatie en journalistiek.
Leerproces brengt risico's met zich mee
Dat komt omdat de taalmodellen achter AI-contentgenerators als ChatGPT, Bing Chat en Bard verbluffend goed geworden zijn in het nabootsen van menselijke taal. Maar die kunde komt er niet zomaar: de taalmodellen worden getraind met massa’s aan content die door mensen wordt gemaakt, en die voor het constante ‘leerproces’ van de AI van het internet wordt geplukt. Maar wat als tekst die door mensen werd geschreven daar heel snel in de verdrukking geraakt, en machines vooral beginnen bij te leren van tekst geschreven door andere machines?
Daar komen rare dingen van, denken meerdere computerwetenschappers die zich bezighouden met de ontwikkeling van artificieel intelligente systemen. AI die traint op AI-content brengt nieuwe content naar boven die minder en minder bruikbaar wordt. Datawetenschapper Jathan Sadowski, van de Australische Monash University, noemde de output van AI-gegenereerde tekst die hij bij wijze van experiment door andere AI liet verwerken tot nieuwe tekst ‘een systeem dat zo zwaar getraind is op de outputs van andere generatieve AI dat het een inteeltmutant wordt, met overdreven, groteske kenmerken.’
I coined a term on @machinekillspod that I feel like needs its own essay: Habsburg AI – a system that is so heavily trained on the outputs of other generative AI's that it becomes an inbred mutant, likely with exaggerated, grotesque features. It joins the lineage of Potemkin AI.
— Jathan Sadowski (@jathansadowski) February 13, 2023
Sadowski betitelde het ‘Habsburg AI’, verwijzend naar takken van de Habsburg-dynastie waar volgens historici in de zestiende tot achttiende eeuw zoveel inteelt werd bedreven dat jongere telgen met ernstige misvormingen werden bedeeld. De meest bekende daarvan is Carlos II van Spanje, wiens overgeprononceerde onderbijt het lijdend voorwerp is van menig Facebookmeme.
Duffe content
Het probleem met die inteeltcontent is namelijk dat het probleem van zichzelf versnelt, zegt professor Richard G. Balanick van Rice University in de Amerikaanse stad Houston. Tegen de website Futurism vertelde hij dat er zich een ‘autofagie-lus’ zal beginnen af te tekenen. ‘Het is zelfverslindend. Denk aan een dier dat niet alleen zijn staart achtervolgt, maar die ook opeet. Als men dit generatie na generatie doet, zullen de artefacten – kleine fouten in de output – worden versterkt. De synthetische gegevens zullen wegdrijven van de realiteit. Je genereert beelden die steeds eentoniger en saaier worden. Hetzelfde zal gebeuren voor tekst.’
Een aantal van Balanicks studenten deden er al een onderzoek naar, en gaven het fenomeen daarin ook een officiële titel: MAD, of Model Autophagy Disorder. Volgens hun research zijn er slechts vijf cycli nodig van door machines gegenereerde data die door andere machines worden verwerkt om tot compleet onbruikbare resultaten te komen.
Achilleshiel
Het betekent een mogelijke achilleshiel voor het hele idee van AI-gegenereerde content. Of erger. Want het probleem kan ook uitslaan naar het hele internet, waarschuwt Balanick. ‘Het lijdt geen twijfel dat MADness de potentie heeft om de kwaliteit van de data op het internet aanzienlijk te verminderen. Als je het soort AI-systemen dat wordt gebruikt in zoekmachines traint met behulp van synthetische gegevens én echte gegevens, dalen de prestaties. Hoe meer synthetische gegevens er zijn, hoe meer de prestaties van een hele reeks tools, waaronder dus zoekmachines, kunnen verminderen.’
In samenwerking met Data News