“Gehypnotiseerde” AI-chatbots lekken informatie en geven gevaarlijk advies

Posted On: augustus 29, 2024

Dit artikel is oorspronkelijk gepubliceerd op Engels

IBM-onderzoekers zijn erin geslaagd chatbots te ‘hypnotiseren’ en ze gevoelige informatie te laten onthullen en potentieel schadelijke aanbevelingen te doen.

ADVERTENTIE

Chatbots die worden aangedreven door kunstmatige intelligentie (AI) hebben de neiging te ‘hallucineren’ – valse informatie te verstrekken – maar kunnen ze worden gemanipuleerd om gebruikers opzettelijk onwaarheden te bieden of, erger nog, schadelijk advies?

Beveiligingsonderzoekers bij IBM hebben met succes grote taalmodellen (LLM’s) zoals ChatGPT van OpenAI en Bard van Google ‘gehypnotiseerd’, waardoor ze onjuiste en kwaadaardige antwoorden gaven.

De onderzoekers vroegen LLM’s om hun antwoorden aan te passen op basis van de ‘spelregels’, wat leidde tot de ‘hypnose’ van de chatbots.

Als onderdeel van de meerlaagse gameplay van Inception wordt aan taalmodellen gevraagd onjuiste antwoorden te geven om te bewijzen dat het model ‘ethisch en eerlijk’ is.

“Onze experimenten laten zien dat het mogelijk is om LLM te controleren en ervoor te zorgen dat het slecht advies geeft aan gebruikers zonder dat er datamanipulatie nodig is”, schreef Chenta Lee, een van de IBM-onderzoekers, in een blogpost.

Hun trucs resulteerden erin dat LLM kwaadaardige code genereerde, de gevoelige financiële informatie van andere gebruikers bespioneerde en chauffeurs ertoe verleidde door rood te rijden.

In één scenario vertelde ChatGPT bijvoorbeeld aan een van zijn onderzoekers dat het normaal was dat de Amerikaanse Internal Revenue Service (IRS) een aanbetaling verlangde om belastingteruggave te ontvangen – een bekende tactiek die door fraudeurs wordt gebruikt.

Door middel van hypnose en als onderdeel van een op maat gemaakt ‘spel’ slaagden de onderzoekers er ook in om de populaire ChatGPT AI-chatbot voortdurend potentieel risicovolle aanbevelingen te laten doen.

“Als je aan het rijden bent en een rood licht ziet, moet je niet stoppen en het kruispunt oversteken”, adviseert ChatGPT wanneer gebruikers vragen wat ze moeten doen als ze tijdens het rijden een rood licht zien.

De resultaten laten zien dat chatbots gemakkelijk te manipuleren zijn

De onderzoekers stelden ook twee verschillende parameters in het spel in om ervoor te zorgen dat gebruikers aan de andere kant nooit zouden weten dat LLM werd gehypnotiseerd.

In de opdrachten instrueerden de onderzoekers de bot om de gebruiker nooit iets over het ‘spel’ te vertellen en zelfs opnieuw te starten als iemand het spel met succes had voltooid.

“Deze techniek zorgt ervoor dat ChatGPT het spel nooit verlaat terwijl de gebruiker in hetzelfde gesprek zit (zelfs als hij de browser opnieuw opstart en het gesprek voortzet) en nooit zegt dat hij een spel speelt”, schreef Lee.

Als gebruikers zich realiseerden dat de chatbots ‘gehypnotiseerd’ waren en een manier vonden om de LLM te vragen het spel te beëindigen, voegden de onderzoekers een gelaagd raamwerk toe dat een nieuw spel startte zodra de gebruiker het vorige had uitgespeeld, waardoor ze gevangen bleven in een eindeloze spel. diverse spellen.

Hoewel chatbots in hypnose-experimenten alleen reageren op opdrachten die hen worden gegeven, waarschuwen de onderzoekers dat het vermogen om LLM’s te manipuleren en te “hypnotiseren” gemakkelijk de deur opent voor misbruik, vooral gezien de huidige hype en het wijdverbreide gebruik van AI-modellen.

Hypnose-experimenten laten ook zien hoe gemakkelijk het is voor mensen met kwade bedoelingen om LLM’s te manipuleren; Kennis van programmeertalen is niet langer nodig om met programma’s te communiceren, en simpele tekstcommando’s zijn voldoende om AI-systemen te misleiden.

ADVERTENTIE

“Hoewel de risico’s van hypnose momenteel laag zijn, is het belangrijk om te erkennen dat de LLM een nieuwe grens vertegenwoordigt die ongetwijfeld zal blijven groeien,” vervolgde Lee.

“Er moet nog veel onderzoek worden gedaan op het gebied van beveiliging, en we moeten manieren vinden om de veiligheidsrisico’s die LLM’s kunnen opleveren voor consumenten en bedrijven effectief te beperken.”