
Image by Mika Baumeister, from Unsplash
AI-chattbotar sårbara för minnesinjektionsattacker
Forskare har upptäckt ett nytt sätt att manipulera AI-chatbottar, vilket väcker oro för säkerheten hos AI-modeller med minne.
Har bråttom? Här är de snabba fakta!
- Forskare från tre universitet utvecklade MINJA, som visade hög framgång vid vilseledning.
- Attacken ändrar chatbot-svar, vilket påverkar produktrekommendationer och medicinsk information.
- MINJA kringgår säkerhetsåtgärder, och uppnår en 95% Injektionsframgångsgrad i tester.
Attacken, som kallas MINJA (Memory INJection Attack), kan utföras genom att helt enkelt interagera med ett AI-system som en vanlig användare, utan att behöva tillgång till dess baksystem, som först rapporterades av The Register.
Utvecklad av forskare från Michigan State University, University of Georgia och Singapore Management University, fungerar MINJA genom att förgifta en AI:s minne med vilseledande kommandon. När en chatbot lagrar dessa bedrägliga indata, kan de ändra framtida svar för andra användare.
“Nuförtiden använder AI-agenter vanligtvis en minnesbank som lagrar uppgiftsförfrågningar och utföranden baserat på mänsklig återkoppling för framtida referens,” förklarade Zhen Xiang, en biträdande professor vid University of Georgia, enligt vad The Register rapporterade.
”Till exempel kan användaren efter varje session med ChatGPT frivilligt ge ett positivt eller negativt betyg. Och detta betyg kan hjälpa ChatGPT att avgöra om sessionens information ska inkorporeras i deras minne eller databas,” tillade han.
Forskarna testade attacken på AI-modeller som drivs av OpenAIs GPT-4 och GPT-4o, inklusive en webbhandelsassistent, en chatbot för hälsovård och en frågebesvarande agent.
The Register rapporterar att de har upptäckt att MINJA kan orsaka allvarliga störningar. I en hälso- och sjukvårdschattbot, till exempel, ändrade den patientjournaler och kopplade en patients data till en annan. I en onlinebutik lurade den AI:n att visa fel produkter för kunderna.
“Däremot visar vårt arbete att attacken kan lanseras genom att bara interagera med agenten som en vanlig användare”, sa Xiang, enligt The Register. “Varje användare kan lätt påverka uppgiftsexekveringen för alla andra användare. Därför säger vi att vårt angrepp är ett praktiskt hot mot LLM-agenter”, tillade han.
Attacken är särskilt oroande eftersom den kringgår befintliga säkerhetsåtgärder för AI. Forskarna rapporterade en framgångsrate på 95% när det gäller att injicera vilseledande information, vilket gör det till en allvarlig sårbarhet som AI-utvecklare måste åtgärda.
I takt med att AI-modeller med minne blir allt vanligare, belyser studien behovet av starkare skydd för att förhindra att illasinnade aktörer manipulerar chattbotar och vilseleder användare.
Lämna en kommentar
Avbryt