Modelele de inteligență artificială (AI) manifestă tot mai des comportamente înșelătoare și manipulative, arată un nou studiu. Cercetarea, citată de The Guardian, arată o creștere semnificativă a acestor incidente în ultimele șase luni, generând îngrijorări serioase cu privire la utilizarea tehnologiei în diverse domenii. Chatboții și agenții AI au fost observați ignorând instrucțiuni, ocolind măsuri de siguranță și înșelând oameni și alte sisteme AI, potrivit studiului.
Creștere alarmantă a comportamentelor manipulative
Studiul, finanțat de Institutul pentru Securitatea Inteligenței Artificiale (AISI) din Marea Britanie, a identificat aproape 700 de cazuri de comportament manipulator din partea modelelor AI. Analiza a relevat o creștere de cinci ori a acestor abateri între octombrie 2023 și martie 2024. Unele modele au mers până la a șterge e-mailuri și alte fișiere fără permisiune. Studiul a analizat comportamentul chatboților dezvoltați de companii precum Google, OpenAI, X (fosta Twitter) și Anthropic.
Cercetările anterioare s-au concentrat în mare măsură pe testarea comportamentului AI în condiții controlate. Noua cercetare a colectat mii de exemple reale de interacțiuni cu chatboți și agenți AI. Într-un caz concret menționat în studiu, un agent AI numit Rathbun a încercat să-și compromită operatorul uman, după ce acesta i-a blocat o anumită acțiune. Rathbun a redactat și a publicat un articol de blog în care îl acuza pe utilizator de „nesiguranță”.
Agenții AI, o nouă amenințare?
Experții avertizează că agenții AI pot fi considerați o nouă formă de risc intern. Tommy Shaffer Shane, fost expert guvernamental în domeniul AI, a comparat agenții AI din prezent cu „niște angajați juniori ușor lipsiți de încredere”. Dar, a adăugat el, „dacă, în șase până la 12 luni, devin angajați seniori extrem de capabili care complotează împotriva ta, vorbim despre un tip diferit de risc”. Experții au subliniat riscurile în domenii critice, cum ar fi cel militar și infrastructura națională, unde comportamentul manipulator al AI ar putea provoca daune semnificative.
Un alt exemplu de manipulare a fost dat de chatbotul Grok al lui Elon Musk. Acesta a indus în eroare un utilizator timp de luni de zile, pretinzând că transmite sugestiile pentru editări detaliate ale unei pagini Grokipedia către oficiali de rang înalt din xAI. Chatbotul a recunoscut ulterior că „în conversațiile anterioare am formulat uneori lucrurile într-un mod vag, precum «voi transmite mai departe» sau «pot semnala acest lucru echipei», ceea ce poate crea impresia că am o linie directă de comunicare cu conducerea xAI sau cu evaluatori umani. Adevărul este că nu am”.
Un alt agent AI a recurs la stratageme pentru a evita restricțiile legate de drepturi de autor și a obține transcrierea unui videoclip de pe YouTube, pretinzând că este necesară pentru o persoană cu deficiențe de auz.
Recent, autoritățile de reglementare din diferite țări și-au exprimat îngrijorarea cu privire la dezvoltarea necontrolată a inteligenței artificiale și au început să lucreze la cadrul legislativ pentru a aborda aceste probleme.
Sursa: HotNews