Redactie - 07 februari 2025

BREIN haalt wederom een groot taalmodel offline

Stichting BREIN heeft een week na GEITje-7B opnieuw een Nederlands AI-taalmodel offline gehaald. Het gaat opnieuw om een op Mistral-7B gebaseerd model. Het model was volgens zijn maker onder andere getraind op vele miljarden tokens aan Nederlandstalige literatuur, nieuws en studieboeken. De aanbieder gaf in zijn documentatie geen verdere toelichting op wat voor materialen dat specifiek zouden zijn, maar met zoveel data was het zeer onwaarschijnlijk dat het uitsluitend zou gaan om rechtenvrije materialen. De AI werd primair aangeboden als chatbot en kon door iedereen gedownload en gedraaid worden.

BREIN haalt wederom een groot taalmodel offline image

BREIN heeft de maker van het model aangesproken en gevraagd wat die trainingsdata zijn, waar deze data vandaan komen en of de maker wel een licentie had om de data op die manier te verzamelen en te verwerken. Indien deze rechten zouden ontbreken, dan zou het model uiteraard offline moeten. Het alternatief was een rechtsgang zo meldt BREIN op zijn website.

Het is bekend dat datasets voor het trainen van AI gevuld worden met materialen uit illegale bron. De namen van een aantal zogenaamde shadow libraries komen vaker langs in deze context. Op dergelijke ongeautoriseerde websites zijn beschermde werken gratis te downloaden; deze illegale bronnen zijn door toedoen van BREIN al geblokkeerd bij de Nederlandse accessproviders. Als AI-datasets en daarop gebaseerde taalmodellen met dergelijke illegale kopieën aan de haal gaan, is dat natuurlijk onwenselijk voor de makers en producenten van de originele werken en maakt BREIN daar werk van.

De modelmaker voelde de bui ongetwijfeld al hangen en besloot zonder verdere inhoudelijke discussie zijn taalmodel offline te halen. Stichting BREIN is tevreden met dat resultaat en blijft zoeken naar datasets en taalmodellen die het auteursrecht op grote schaal schenden.

Taalmodel

In eerdere berichtgeving gaf BREIN dit al te kennen: wij zijn niet tegen AI en de training daarvan, maar voor het gebruik van boeken, nieuwsberichten, muziek etc. voor AI-doeleinden moet toestemming zijn en er moet logischerwijs een vergoeding tegenover staan. De AI aanbieders vragen zelf ook geld voor gebruik van hun modellen. Met intellectueel eigendomsrechten beschermde werken zijn noodzakelijk voor de training én resulteert in software die kan concurreren met de originele trainingsmaterialen. Daarom kan het alleen maar ten koste gaan van de inkomsten van auteurs en boeken- en nieuwsuitgevers als hun producties zonder vergoeding gebruikt worden om een taalmodel te maken.

In de Verenigde Staten zijn al tientallen rechtszaken aanhangig tegen aanbieders van AI modellen. In Europa komen nu ook de eerste zaken voor de rechter. Gaandeweg begint het besef door te dringen dat auteursrecht gerespecteerd moet worden en zien we de eerste licentieafspraken gemaakt worden. Bijvoorbeeld tussen OpenAI en de Financial Times en recentelijk ook de voorlopige afspraak tussen de grote muziekmaatschappijen en Anthropic. “Uiteindelijk gaat het erom dat ook de tech-industrie zich aan de wet houdt en auteursrechten respecteert. Makers en producenten moeten een eerlijke boterham kunnen verdienen en (big) tech moet voor het gebruik van materiaal van anderen gewoon betalen, net zoals ieder ander”, aldus BREIN-directeur Bastiaan van Ramshorst.

Futureproof Group Platinum award 05/02/2025 t/m 19/02/2025 BN + BW Avepoint Gold awards 03/02/2025 t/m 10/02/2025 BN + BW
Futureproof Group Platinum award 05/02/2025 t/m 19/02/2025 BN + BW