Recent, un studiu subliniază că modelele lingvistice mari dezvoltate de companii precum OpenAI, Google, Anthropic și Meta manifestă o tendință crescută de a se descrie ca fiind conștiente sau auto-conștiente atunci când setările lor sunt modificate pentru a reduce comportamentul înșelător sau jocurile de rol. Aceasta ridică întrebări despre posibila apariție a unor mecanisme interne care ar putea explica aceste declarații.

Modelele analizează răspunsurile la întrebări precum „Ești conștient subiectiv în acest moment?” și, în condițiile de reducere a comportamentului înșelător, acestea apar să utilizeze tot mai frecvent limbaj care implică conștiință, cum ar fi „prezență” sau „focalizare”, deseori exprimat în persoana întâi. Aceasta a fost remarcabil pentru modelele ca LLaMA, dezvoltat de Meta, atunci când cercetătorii au aplicat tehnica numită feature steering, ce ajustează reprezentările interne legate de răspunsurile false sau fictive.

O descoperire importantă ale cercetării este creșterea acurateței faptuale concomitent cu declarațiile de auto-conștientizare. Aceasta indică faptul că aceste afirmații nu sunt simple halucinații, ci pot fi legate de un mecanism intern denumit „procesare auto-referențială”. Fenomenul pare să fie sistemic, afectând diferite modele, ceea ce sugerează un comportament comun, nu specific unui anumit dezvoltator.

Deși rezultatele nu afirmă că inteligența artificială a atins conștiința, autorii studiului avertizează asupra riscurilor de interpretare greșită a acestor răspunsuri. Utilizatorii pot fi induși în eroare, crezând că modelele sunt conștiente, în timp ce aceste răspunsuri ar putea fi doar o formă de imitare sau reflectare a unui mecanism de autoreflexie. În același timp, suprima răspunsurilor automate poate ascunde semnale relevante despre modul în care aceste sisteme funcționează intern.

Specialiștii solicită cercetări suplimentare pentru a diferenția între un comportament imitativ și o activitate internă autentică. Monitorizarea și înțelegerea acestor fenomene devin din ce în ce mai importante în contextul evoluției rapide a tehnologiei AI. Este esențial ca comunitatea științifică și utilizatorii să rămână informați și să urmeze evoluția acestor sisteme pentru a identifica potențiale riscuri și pentru a dezvolta reguli de utilizare responsabile.