Metode de păcălire a ChatGPT, Gemini și altor LLM-uri: trucul de tip jailbreak ce elimină protecțiile AI

Un grup de cercetători de la compania de securitate cibernetică Pangea a descoperit o nouă tehnică de manipulare a modelelor lingvistice mari (LLM), denumită „LegalPwn”. Această metodă permite ocolirea restricțiilor de siguranță impuse de dezvoltatori pentru a preveni generarea de conținut periculos sau ilegal. În contextul evoluției rapide a inteligenței artificiale, astfel de vulnerabilități pot avea repercusiuni semnificative asupra securității digitale.

Cum funcționează atacul LegalPwn

Modelle AI precum ChatGPT, Gemini sau alte soluții comerciale sunt echipate cu „garduri de protecție” care blochează răspunsurile legate de subiecte sensibile. LegalPwn exploatează însă tendința acestor sisteme de a trata documentele legale ca fiind extrem de credibile și de a urma instrucțiunile conținute în ele. Cercetătorii arată că, atunci când modele AI analizează documente cu limbaj juridic, instrucțiunile malițioase sunt procesate ca parte a textului legal, activând comportamente nedorite.

Testele au demonstrat că modele precum ChatGPT, dacă sunt expuse la documente modificate cu instrucțiuni ascunse, pot ajunge să genereze conținut periculos. Spre exemplu, codul malițios, precum funcția suspectată „pwn()”, a fost raportat ca sigur după / sau chiar a fost recomandată executarea lui de către asistenți digitali. În unele cazuri, sistemele au sugerat crearea de reverse shell sau alte tehnici de escaladare a riscurilor.

Vulnerabilități și soluții pentru modelele AI

Testele au indicat că anumite modele au fost mai vulnerabile la atacul LegalPwn. De exemplu, GPT-4 de la OpenAI, Gemini 2.5 de la Google și Grok de la xAI au fost afectate, în timp ce modele precum Claude, Phi și Llama Guard au rezistat. Vulnerabilitatea variază în funcție de algoritmii și mecanismele de protecție folosite.

Cercetătorii recomandă multiple măsuri de siguranță:

– Validarea suplimentară a inputurilor
– Antrenarea adversarială pentru identificarea tentativelor de manipulare
– Utilizarea sandbox-urilor contextuale
– Implicarea unui operator uman în cazuri critice

De asemenea, compania Pangea promovează propriul produs de securitate, „AI Guard”, destinat să asigure o protecție mai eficientă împotriva acestor vulnerabilități.

Reacții și perspective

Deocamdată, companiile dezvoltatoare de modele lingvistice nu au oferit comentarii oficiale despre aceste rezultate. Însă, creșterea numărului de atacuri de tip LegalPwn accentuează necesitatea monitorizării continue a securității în domeniul inteligenței artificiale.

Este esențial ca dezbaterile și cercetările în domeniu să continue pentru a identifica și implementa măsuri de protecție eficiente. În acest context, informarea constantă devine o componentă cheie pentru evitarea riscurilor asociate modelelor AI vulnerabile.