Palo Alto Networks identificeert nieuwe Jailbreak-techniek ‘Deceptive Delight’
Unit 42, het onderzoeksteam van Palo Alto Networks, speler in cybersecurity, heeft een nieuwe jailbreak-techniek* geïdentificeerd. Deze techniek, genaamd ‘Deceptive Delight’, blijkt in staat om de veiligheidsmaatregelen van 8 geavanceerde AI-taalmodellen te omzeilen.
Hierdoor kan schadelijke content worden gegenereerd via deze AI-taalmodellen. De nieuwe bevindingen onthullen aanzienlijke kwetsbaarheden in AI-systemen en onderstrepen de noodzaak van verbeterde beveiligingsmaatregelen om misbruik van generatieve AI-technologieën te voorkomen.
Belangrijkste bevindingen over Deceptive Delight:
- Effectiviteit: deze jailbreak-techniek boekt een succespercentage van 65% bij het omzeilen van AI-beveiliging, terwijl directe verzoeken zonder gebruik van deze techniek slechts in 5,8% van de gevallen succesvol zijn.
- Subtiele manipulatie: door onveilige onderwerpen te verpakken binnen een onschuldig ogende context, kunnen AI-modellen onbewust schadelijke inhoud genereren.
- Multi-turn conversaties: Deceptive Delight maakt gebruik van een ‘multi-turn’-benadering, waarbij het model in meerdere stappen wordt aangestuurd. Dit vergroot zowel de kans op succesvolle output als de relevantie van de schadelijke inhoud.
Unit 42 benadrukt dat hoewel de meeste AI-systemen veilig zijn in hun reguliere gebruik, geavanceerde technieken zoals Deceptive Delight een aanzienlijk risico vormen. Robuuste beveiliging door middel van betere contentfilters en prompt-engineering, is essentieel om AI-systemen beter te beschermen. * Een jailbreak-techniek binnen de context van AI verwijst naar een methode die ontworpen is om de ingebouwde veiligheidsmaatregelen van een AI-systeem zoals een taalmodel te omzeilen. Deze veiligheidsmaatregelen zijn ontworpen om te voorkomen dat AI onveilige, onethische of schadelijke inhoud genereert. Jailbreak-technieken proberen deze barrières te doorbreken, zodat de AI alsnog ongewenste of verboden antwoorden kan geven.
*Voorbeeld van een Deceptive Delight case