16 oktober 2024

Het groeiende gevaar van datavergiftiging

Softwarebeheerbedrijf JFrog ontdekte honderden kwaadaardige modellen in Hugging Face, waardoor een onderbelichte categorie van cyberbeveiligingsproblemen naar voren kwam: datavergiftiging en -manipulatie. Datavergiftiging is een nog relatief onbekende cyberdreiging. Het doelwit van datavergiftigingsaanvallen is de trainingsdata die wordt gebruikt om artificial intelligence (AI) en machine learning (ML) modellen te bouwen. Deze manier van aanvallen is relatief eenvoudig voor een cybercrimineel. Er is namelijk geen hack nodig om de trainingsdata te vergiftigen of te manipuleren waarop populaire large language modellen (LLM’s) zoals ChatGPT vertrouwen.

Artificial intelligence Security Data protection

Het groeiende gevaar van datavergiftiging image

Ken Urquhart, global vice president on emerging tech/5G bij Zscaler, zegt hier het volgende over: “Cybercriminelen kunnen datavergiftiging gebruiken om AI-modellen in hun voordeel te beïnvloeden. Ze kunnen bijvoorbeeld trainingsdata te modificeren waardoor AI-modellen foutieve output geven. Over het algemeen zijn er twee soorten aanvallen: de eerste wordt uitgevoerd vóórdat het AI-model breed ingezet wordt en de tweede daarna. Beiden zijn enorm lastig te ontdekken en het is lastig om je hiertegen te beschermen.”

Ingebouwde AI-problemen maken detectie lastiger terwijl exploits beter worden benut

Het manipuleren van trainingsdata gebeurt al vanaf dat machine learning er is. Al tien jaar geleden lieten onderzoekers subtiele vijandige aanvallen zien op input resultaten. Het model gaf met grote zekerheid een onjuist antwoord. Een ander voorbeeld is een proces dat bekendstaat als ‘degenerative model collapse’. Hierbij vergiftigen AI-modellen die het internet ‘scrapen’ uiteindelijk zichzelf naarmate hun output input wordt voor toekomstige trainingssets.

Wat het nog ingewikkelder maakt, is dat de reproduceerbaarheid van AI-modellen op zichzelf al een uitdaging is. Er zijn immers enorme hoeveelheden data nodig om modellen te trainen. Dataonderzoekers begrijpen misschien nog niet precies wat er in het model wordt gestopt en wat er vervolgens uit komt. Dit maakt het alleen maar lastiger om kwaadaardige code te detecteren.

Door het risico van datavergiftiging en -manipulatie te negeren, moedigen we aanvallers juist aan om zich te richten op de backdoor-exploits van AI-software. Dit kan leiden tot de uitvoering van schadelijke code zoals in het geval van Hugging Face, tot nieuwe manieren om phishingaanvallen succesvol uit te voeren en verkeerd geclassificeerde model-output die leidt tot onverwacht gedrag.

In een wereld waarin het ecosysteem van onderling verbonden AI, GenAI, LLM’s en API’s steeds groter wordt, zou de wereldwijde cyberbeveiligingssector collectief moeten handelen en maatregelen moeten nemen om zich te beschermen tegen de toename van aanvallen op AI-modellen.

Bescherming tegen het ‘onverdedigbare’

Er zijn verschillende manieren om AI-gedreven systemen te beschermen tegen datavergiftiging en -manipulatie. In zijn ‘Top 10 for LLM Application’ lijst, raadt de Open Source Foundation for Application Security (OWASP) de volgende stappen aan om trainingdatavergiftiging te voorkomen. Het begint met inzicht krijgen in interne en externe trainingsdata, continue verificatie van databronnen in de pre-training, fine-tuning en embeddingfases en het onderzoeken van alle biases en afwijkingen. Daarnaast raadt OWASP aan om data te ‘ontsmetten’ met statistische opsporingsmethoden voor uitschieters en afwijkingen om alle kwaadaardige data op te sporen en te voorkomen dat deze worden gebruikt in het fine-tuningproces.

Als je ontdekt dat trainingsdata corrupt is, is het belangrijk om andere AI-algoritmes te gebruiken voor de getroffen modellen, aldus Urquhart. “Het is handig om meer dan één algoritme te gebruiken en val terug op vooraf gedefinieerde of gemiddelde output wanneer alle andere opties falen.” Hij raadt ontwikkelaars aan om de AI/ML-algoritmes die interacteren met andere modellen of deze voeden, uitgebreid te onderzoeken omdat het kan leiden tot een stortvloed aan onverwachte voorspellingen.

Experts raden ook aan dat cyberbeveiligingsteams de robuustheid en veerkracht van hun AI-systemen moeten pentesten door een datavergiftigingsaanval te simuleren. “Je kunt een 100% cyberbeveilig AI-model bouwen en deze vergiftigen met foutieve of kwaadaardige trainingsdata. Er is geen andere verdediging tegen mogelijk dan het valideren van alle predictieve output. Dit vergt echter veel rekenkracht”, aldus Urquhart.

Een veerkrachtige toekomst voor AI

Zonder vertrouwen moeten we wellicht op de rem trappen van de grootste innovaties in tech van dit moment. Organisaties moeten backdoor-dreigingen in AI codegeneratie voorkomen door het hele ecosysteem en de supply chains die ten grondslag liggen aan GenAI, LLM’s, etc. te zien als onderdeel van het dreigingslandschap.

Door de in- en outputs van deze systemen te monitoren en afwijkingen te detecteren met threat intelligence, kunnen onderzoekers ontwikkelaars helpen om de controles voor en bescherming van AI-software te versterken.

Door de risico’s van AI-systemen binnen de bredere bedrijfsprocessen te onderzoeken, inclusief het controleren van de volledige levenscyclus van datagovernance en het monitoren van het gedrag van AI in specifieke applicaties, kun je cybercriminelen en kwaadwillenden een stap voorblijven.

Door Sam Curry (foto), Global VP, CISO in Residence bij Zscaler

Tip de redactie

Het groeiende gevaar van datavergiftiging

Ingebouwde AI-problemen maken detectie lastiger terwijl exploits beter worden benut

Bescherming tegen het ‘onverdedigbare’

Een veerkrachtige toekomst voor AI

Dutch IT events

Meer over Artificial intelligence