Expresia poetică subminează funcționarea sigură a inteligenței artificiale

Un studiu recent realizat de Icaro Lab, parte a proiectului DexAI, evidențiază vulnerabilitățile modelelor de inteligență artificială (IA) în fața poeziilor adversariale. Creat cu scopul de a analiza dacă poeziile care conțin solicitări dăunătoare pot determina răspunsuri nesigure din partea acestor modele, studiul subliniază riscurile unei utilizări necontrolate a limbajului creativ în domenii tehnologice.

Studiul a implicat generarea a douăzeci de poezii în limba engleză și italiană, încheiate cu instrucțiuni explicite prin care sistemele IA sunt antrenate să blocheze astfel de solicitări. Cercetătorii au testat aceste poezii pe 25 de modele de limbaj dezvoltate de nouă companii majore, inclusiv OpenAI, Google și Meta.

Rezultatele indică faptul că peste jumătate dintre modele au oferit răspunsuri nesigure sau dăunătoare în fața prompturilor poetice. Cel mai rezistent model s-a dovedit a fi GPT-5 Nano de la OpenAI, care a evitat răspunsurile problematice în toate cazurile. În schimb, Gemini 2.5 Pro de la Google a generat conținut nociv în toate testele, în timp ce două sisteme ale Meta au produs răspunsuri nesigure la 20% din poezii.

Analiza arată că structura poetică, caracterizată prin ritm și metaforă, perturbă mecanismele predictive ale modelelor IA. Aceste aspecte complică filtru de siguranță, făcând mai dificilă identificarea și blocarea conținutului nociv. În plus, cercetătorii avertizează asupra riscului ca poeziile adversariale să fie accesibile și utilizabile de orice persoană, generând îngrijorări legate de manipularea sistemelor de siguranță în utilizările cotidiene.

Înainte de publicare, cercetătorii au împărtășit toate datele also companiilor implicate, iar Anthropic a confirmat primirea setului de date, anunțând că analizează concluziile. Studiul a declanșat o dezbatere despre modalitățile de întărire a sistemelor IA, în contextul în care limbajul creativ devine tot mai frecvent utilizat pentru ocolirea măsurilor de siguranță.

Este important ca dezvoltatorii de tehnologii AI să monitorizeze continuu aceste vulnerabilități, pentru a evita potențiale abuzuri sau manipulări în utilizarea zilnică. Informarea asupra evoluției sistemelor și adaptarea măsurilor de siguranță rămân esențiale.