Redactie - 07 augustus 2024

Nvidia werkt aan een eigen AI model

Nvidia werkt aan een eigen AI model waarvoor het Netflix en vooral YouTube video’s schraapt. Het bedrijf ziet daar geen probleem in. De partijen die ongevraagd worden gebruikt, wel.

Nvidia werkt aan een eigen AI model image

Uit interne documenten van Nvidia, die 404 Media kon inkijken, staat dat Nvidia video’s van Netflix, YouTube en andere bronnen schraapt om ze te gebruiken om haar AI modellen te trainen. Het gaat om een nog niet aangekondigd video foundation model met de interne werknaam Cosmos.

Dat gebeurde niet toevallig of beperkt. 404 Media kon mails, interne documenten en chatberichten van Nvidia inkijken en leert hoe Nvidia een open source YouTube videodownloader gebruikt. Daarbij worden tientallen virtuele machines in AWS gebruikt waarvan het IP-adres telkens wordt vernieuwd om blokkering te vermijden. De werkwijze werd vanaf de hoogste niveaus van het bedrijf toegestaan, stellen de berichten die werden ingekeken.

Nvidia zou daarbij zowel Netflix en YouTube scrapen, maar de focus zou op YouTube liggen. Dagelijks verzamelde Nvidia zo tachtig jaar aan videobeelden van YouTube. Scraping is technisch gezien wanneer je bijvoorbeeld een schermopname maakt om het beeld te kopiëren. Al slaat het ook op het downloaden van video’s met externe tools.

Mag dit?

404 Media vroeg Nvidia om een reactie en het bedrijf ontkent de feiten niet. Al zegt het enkel dat het ‘volledig in regel met de letter en de geest van de copyrightwetgeving’ gebeurt.

De partijen wiens video’s worden gebruikt hebben daar een andere mening over. Netflix zegt dat het geen overeenkomst heeft met Nvidia hiervoor en dat haar gebruiksvoorwaarden geen scraping toelaten.

Bij Google verwijst men naar een eerder commentaar van YouTube CEO Neal Mohan over Sora, de videogenerator van openAI. Die zei toen dat als dat systeem video’s van YouTube zou gebruiken om te trainen, dat een duidelijke schending is van de gebruiksvoorwaarden van YouTube.

Niet nieuw, wel grootschalig

Dat AI-spelers volop data van populaire en grote contentplatformen gebruiken is niet verrassend. De afgelopen maanden kwam dat meermaals aan het licht. Recent nog bleek dat onder meer Anthropic, Apple, Nvidia, Salesforce en Bloomberg een dataset gebruikten die meer dan 173.000 video’s verzamelde. Al lijkt de berichtgeving van 404 Media er op te wijzen dat het bij Nvidia veel structureler gebeurde.

De vraag is hoe die verschillende spelers hierop zullen reageren. Wanneer een AI-bedrijf morgen een succesvolle tool uitbrengt die werd gebouwd met data van een ander, dan opent dat de deur voor rechtszaken, schadeclaims en vermoedelijk lange onderhandelingen over wie welk deel van de koek krijgt. De ene zal beweren dat openbare inhoud vrij te gebruiken is. De andere zal aanhouden dat dat niet het geval is en dat er moet worden betaald voor de data.

In samenwerking met Data News

Gartner BW tm 02-11-2024 Dutch IT Security Day BW tm 15-10-2024
DIC Awards BN tm 21-10-2024