Witold Kepinski - 29 oktober 2024

Palo Alto Networks identificeert nieuwe Jailbreak-techniek ‘Deceptive Delight’

Unit 42, het onderzoeksteam van Palo Alto Networks, speler in cybersecurity, heeft een nieuwe jailbreak-techniek* geïdentificeerd. Deze techniek, genaamd ‘Deceptive Delight’, blijkt in staat om de veiligheidsmaatregelen van 8 geavanceerde AI-taalmodellen te omzeilen.

Security Cybersecurity

Hierdoor kan schadelijke content worden gegenereerd via deze AI-taalmodellen. De nieuwe bevindingen onthullen aanzienlijke kwetsbaarheden in AI-systemen en onderstrepen de noodzaak van verbeterde beveiligingsmaatregelen om misbruik van generatieve AI-technologieën te voorkomen.

Belangrijkste bevindingen over Deceptive Delight:

Effectiviteit: deze jailbreak-techniek boekt een succespercentage van 65% bij het omzeilen van AI-beveiliging, terwijl directe verzoeken zonder gebruik van deze techniek slechts in 5,8% van de gevallen succesvol zijn.
Subtiele manipulatie: door onveilige onderwerpen te verpakken binnen een onschuldig ogende context, kunnen AI-modellen onbewust schadelijke inhoud genereren.
Multi-turn conversaties: Deceptive Delight maakt gebruik van een ‘multi-turn’-benadering, waarbij het model in meerdere stappen wordt aangestuurd. Dit vergroot zowel de kans op succesvolle output als de relevantie van de schadelijke inhoud.

Unit 42 benadrukt dat hoewel de meeste AI-systemen veilig zijn in hun reguliere gebruik, geavanceerde technieken zoals Deceptive Delight een aanzienlijk risico vormen. Robuuste beveiliging door middel van betere contentfilters en prompt-engineering, is essentieel om AI-systemen beter te beschermen. * Een jailbreak-techniek binnen de context van AI verwijst naar een methode die ontworpen is om de ingebouwde veiligheidsmaatregelen van een AI-systeem zoals een taalmodel te omzeilen. Deze veiligheidsmaatregelen zijn ontworpen om te voorkomen dat AI onveilige, onethische of schadelijke inhoud genereert. Jailbreak-technieken proberen deze barrières te doorbreken, zodat de AI alsnog ongewenste of verboden antwoorden kan geven.

*Voorbeeld van een Deceptive Delight case

Tip de redactie

Meer over Security

Nieuws - Witold Kepinski - 26-11-2024

Rubrik levert cyberbestendige oplossing voor Microsoft Azure Blob Storage

Storage, back, Security, Cloud,

Nieuws - Witold Kepinski - 26-11-2024

Defensie ziet innovatie als strategische asset met de Cyber Innovation Hub

defensie, cyber, Security, digitaal,

Nieuws - Witold Kepinski - 26-11-2024

Tanium Converge 2024 event belicht nieuwe endpoint management innovaties

endpoint, Security, ai, Services,

Alles over Security

Over Witold Kepinski

Witold Kepinski (1969) is Bestuurder, Editor-in-Chief en Director Content van Dutch IT Channel en Dutch IT Leaders. Witold Kepinski is 25 jaar actief in de IT Media en Tech Business branche

Witold Kepinski geeft met een gespecialiseerd team van redacteuren, bloggers en videomakers inzicht in tech business trends en toepassingen waarmee IT-beslissers en Channel Partners impact maken.

Auteur pagina

Palo Alto Networks identificeert nieuwe Jailbreak-techniek ‘Deceptive Delight’

Dutch IT events

Meer over Security

Over Witold Kepinski