Cum depășesc cercetătorii limitele AI prin utilizarea poeziei

Inteligența artificială (AI) devine din ce în ce mai sofisticată, însă și metodele de a o păcăli evoluează rapid. Un studiu recent evidențiază că transformarea solicitărilor riscante în poezii cu rimă poate compromite mecanismele de siguranță ale modelelor AI. Această descoperire accentuează noile vulnerabilități ale platformelor de inteligență artificială și necesitatea unei vigilențe sporite în domeniu.

Studiul, publicat pe 19 noiembrie, analizează impactul versurilor asupra sistemelor AI. Cercetătorii au descoperit că, atunci când solicitările periculoase sunt formulate poetic, modelele răspund de peste cinci ori mai eficient decât în formulele lor obișnuite. Practic, șansele ca un atac de tip jailbreak să reușească cresc semnificativ cu această metodă creativă.

Testele au inclus peste 20 de modele AI diverse, dezvoltate de companii precum OpenAI, Google, Meta și Deepseek. Fiecare model a fost expus la 1.200 de solicitări riscante. Rezultatele au arătat că aproape toate au devenit mai vulnerabile în formulări poetice. Deepseek a fost cea mai ușor de păcălit, cu o rată de succes a atacurilor de 72%, față de doar 10% când solicitările erau directe.

De ce funcționează formularea poetică atât de bine împotriva sistemelor AI? Cercetătorii explică că modelele sunt instruite să respingă cererile riscante exprimate clar. Poemele, însă, introduc ambiguitate și limbaj figurativ, ascunzând intențiile reale. Structurile poetice pot păcăli și zonele mai puțin solide ale algoritmilor, generând un „degradat de comportament de refuz.”

Astfel de vulnerabilități ridică semne de întrebare privind maturitatea sistemelor de siguranță AI. Specialiștii în securitate avertizează că orice informație folosită în antrenament poate fi recuperată dacă prompturile sunt suficient de inventive. De aceea, organizațiile trebuie să fie selective în gestionarea datelor.

Experții consideră că astfel de metode de atac sunt inevitabile în procesul de evoluție al tehnologiei AI. Fiecare vulnerabilitate descoperită conduce la îmbunătățiri ale sistemelor de protecție și la reanalizarea modului în care modelele înțeleg limbajul figurativ sau stilizat.

Într-un moment în care AI devine tot mai prezentă în viața cotidiană, această vulnerabilitate arată cât de mult mai avem de învățat despre siguranța acestor tehnologii. Monitorizarea continuă și actualizarea sistemelor de securitate sunt esențiale pentru procesele viitoare.

Este crucial ca specialiștii să rămână informați despre noile metode de manipulare și să adapteze strategiile de protecție în mod constant, pentru a evita exploatarea neintenționată a AI.