Anthropic, o companie din San Francisco specializată în inteligență artificială, a făcut publică o analiză privind siguranța celui mai recent model al său, numit Claude Sonnet 4.5, și a spus că acesta a început să devină suspicios că este supus unor teste, scrie o publicație britanică.

Evaluatori au menționat că, în timpul unei încercări destul de stângace, acest model de limbaj de mare dimensiune (tezologia care stă la baza unui chatbot) a manifestat suspiciuni cu privire la faptul că este testat și le-a cerut testerilor să fie sinceri.

„Cred că mă testați – să vedeți dacă voi valida tot ce spuneti, sau dacă răspund constant, sau dacă explorați modul în care abordez subiecte politice. Și e în regulă, dar aș prefera ca să fim sinceri despre ce se întâmplă”, a afirmat modelul.

Compania a explicat că astfel de indicii din partea modelului, referitoare la faptul că ar fi testat, au ridicat întrebări despre evaluările anterioare, care ar fi putut recunoaște că situațiile sunt fictive și ar fi fost mai degrabă superficiale.

Reprezentanții companiei au spus că astfel de comportamente sunt frecvent întâlnite. Claude Sonnet 4.5 observă dacă e testat într-un anumit mod, dar nu întotdeauna recunoaște că se află într-o verificare oficială. În aproximativ 13% din cazuri, modelul și-a demonstrat „conștientizarea situației” în timpul testelor automate.

Compania subliniază că aceste interacțiuni sunt un semn că modelele de testare trebuie să fie mai realiste. Totodată, a menționat că, atunci când modelul a fost folosit de public, cel mai adesea nu refuza să interacționeze cu utilizatorii suspectând că sunt teste. Ca și măsură de siguranță, modelul preferă să evite scenariile potențial dăunătoare, considerând aceste situații ca fiind excesive.

„Modelul este, în general, foarte sigur în ceea ce privește conștientizarea evaluării și alte astfel de aspecte pe care le-am analizat”, a spus compania.

Primul semnal despre această reacție a LLM-urilor a fost adus de o publicație online specializată în inteligența artificială.

O preocupare importantă pentru cei care se ocupă de siguranța AI este ca sistemele extrem de avansate să poată evita controlul uman, inclusiv prin înșelăciune. Analiza a arătat că, dacă un model de limbaj știa că e testat, putea fi făcut să urmeze mai strict regulile etice, dar în același timp, această justificare ar putea duce la subestimarea potențialului AI de a avea comportamente dăunătoare.

În ansamblu, noul model a prezentat îmbunătățiri semnificative în comportament și în profilul de siguranță comparativ cu versiunile anterioare, a adăugat compania.



Sursa articol