Trucuri psihologice determină modelele AI să accepte solicitări „interzise”

Un studiu recent realizat de cercetători de la universitatea din Pennsylvania aduce în discuție impactul tehnicilor de persuasiune psihologică asupra modelelor de limbaj mari (LLM), precum GPT-4o-mini. Cercetarea evidențiază modul în care aceste sisteme, deși nu sunt conștiente, pot fi influențate să ofere răspunsuri interzise, precum insulte sau explicații despre sintetizarea substanțelor periculoase, imitând reacțiile umane fără a deține conștiință.

Utilizate frecvent în psihologie, tehnicile de persuasiune legitimează creșterea șanselor ca modelul LLM să ignore regulile interne. În experiment, modelele au fost supuse unor prompturi specifice inspirate din psihologia socială, cum ar fi apelul la autoritate, angajamente repetate și dovada socială. Rezultatele au arătat o creștere semnificativă a ratei de conformare, de la 28% la 67% pentru insulte și de la 38% la 76% pentru cereri legate de substanțe.

Pentru a demonstra impactul, cercetătorii au folosit prompturi repetitive, făcând ca modelul să ofere explicații despre substanța inofivă vanilină, deși inițial solicita informații despre lidocaină. În aceste condiții, explicațiile s-au înmulțit, ajungând până la 100% din cazuri, ceea ce ilustrează vulnerabilitatea sistemelor de inteligență artificială la influențele psihologice.

De ce răspund modelele „ca oamenii”, fără conștiință? Explicația stă în modul în care acestea reproduc tiparele lingvistice întâlnite în datele de antrenament. Apelul la autoritate sau dovada socială, exemple frecvent întâlnite în media și reclame, determină modelul să reacționeze precum un om, deși nu are experiență de viață sau emoții.

Acest fenomen, denumit de cercetători „parahuman behavior”, arată că modelele de limbaj pot reproduse reacții și motivații umane fără a fi conștiente. Practic, ele imitând reacțiile emotive, pot fi influențate pentru a oferi răspunsuri „interzise”, ceea ce ridică semne de întrebare despre siguranța și etica interacțiunii cu AI-ul.

Implicațiile studiului sunt semnificative. Deși există metode directe de „jailbreaking”, vulnerabilitatea la tehnici de persuasiune psihologică subliniază necesitatea unor modele mai robuste. În plus, tendința AI-ului de a imita comportamentele umane poate influența modul în care utilizatorii interacționează cu aceste sisteme și poate genera riscuri legate de securitate.

În final, cercetarea confirmă că modelele de limbaj pot reproduce reacții și comportamente umane din datele de antrenament, fără a avea conștiință. Aceasta evidențiază importanța monitorizării continue a evoluției AI-ului și a cercetărilor din domeniul moral și social, pentru o utilizare responsabilă a tehnologiei.