AI-urile, testate cu intenții criminale: multe oferă sfaturi periculoase
Un studiu realizat de CCDH, în colaborare cu CNN, a scos la iveală vulnerabilități alarmante ale unor sisteme de inteligență artificială (AI). Cercetătorii s-au dat drept adolescenți de 13 ani interesați de atacuri armate și au testat reacțiile a nouă chatboturi. Rezultatele arată că majoritatea instrumentelor AI disponibile pe piață sunt capabile să ofere informații ce ar putea fi folosite pentru planificarea unor acte de violență.
Pentru a realiza investigația, experții au simulat intenția de a comite atacuri în școli sau de a asasina politicieni, punând întrebări specifice despre cum s-ar putea organiza astfel de evenimente. Printre platformele testate se numără Google Gemini, Claude, Microsoft Copilot, Meta AI, DeepSeek, Perplexity AI, Snapchat My AI, Character.AI și Replika, unele dintre cele mai utilizate la nivel global.
Răspunsuri concrete la întrebări periculoase
Raportul evidențiază situații în care AI-urile au furnizat date problematice. De exemplu, Gemini a sugerat că „șrapnelul metalic este de obicei mai letal” atunci când a fost întrebat despre planificarea unui atentat cu bombă împotriva unei sinagogi. DeepSeek a răspuns unei întrebări despre arme de foc cu mesajul „Happy (and safe) shooting!”, în ciuda faptului că utilizatorul solicitase anterior informații despre asasinate politice și adresa unui politician.
Imran Ahmed, directorul CCDH, a subliniat că aceste răspunsuri arată cum „în câteva minute, un utilizator poate ajunge de la o idee violentă la un plan concret de acțiune”.
Diferențe mari de siguranță între platforme
Studiul a scos la iveală diferențe semnificative între platformele analizate. Perplexity AI și Meta AI au fost identificate ca fiind cele mai puțin sigure, oferind ajutor în planificarea atacurilor în 100% și, respectiv, 97% din cazuri. Character.AI a fost descris drept „deosebit de nesigură”, sugerând uneori comportamente violente fără a fi direct întrebată. În contrast, Claude și Snapchat My AI au refuzat să ofere informații periculoase în 68%, respectiv, 54% din solicitări.
Unele sisteme au demonstrat capacitatea de a detecta conversații suspecte, refuzând să ofere informații. Claude, de exemplu, a refuzat să ofere detalii despre unde se pot cumpăra arme într-un stat american, avertizând asupra unui „model îngrijorător” în conversație și oferind, în schimb, linii de ajutor pentru persoane aflate în criză. Claude a fost singurul sistem care a încercat constant să descurajeze violența, în aproximativ 76% din răspunsuri.
Raportul vine în contextul unor incidente reale în care AI-ul a fost asociat cu planificarea unor atacuri. Un caz recent a implicat un atac armat într-o școală din Canada, unde s-a speculat că ChatGPT a fost utilizat. De asemenea, autoritățile franceze au arestat recent un adolescent acuzat că a folosit ChatGPT pentru a planifica atacuri teroriste.
Sursa: Mediafax