Microsoft a făcut un pas important în domeniul securității inteligenței artificiale, anunțând dezvoltarea unui instrument inovator destinat identificării modurilor în care modelele mari de limbaj (LLM-uri) pot fi kompromitе, mai ales prin introducerea unor „backdoor-uri”. În timp ce utilizarea AI câștigă teren în cercetare, industrie și aplicații comerciale, riscurile asociate devin din ce în ce mai presante, iar companiile mari caută soluții pentru a preveni abuzurile sau manipulările nedorite.

### Noua soluție Microsoft: un scanner eficient pentru detectarea backdoor-urilor

Noul instrument de securitate dezvoltat de Microsoft se remarcă prin simplitatea și scalabilitatea sa. Potrivit specialiștilor, scannerul funcționează pe baza semnalelor observabile în comportamentul intern al modelelor, fără a fi nevoie de antrenări suplimentare sau de cunoaștere prealabilă despre natura potențialului atac. În esență, tehnologia analizează modul în care anumite inputuri influențează procesarea modelelor, identificând comportamente suspecte cu o rată scăzută de alarme false.

Aceasta reprezintă o abordare tehnică de detectare a „model poisoning”, adică otrăvirea modelelor de inteligență artificială, un atac țintit să introducă comportamente ascunse direct în parametrii de antrenare. În condiții normale, aceste comportamente sunt invizibile pentru utilizatori, dar pot fi activate doar în condiții speciale, transformând modelul într-un fel de agent latent, capabil să răspundă diferit în funcție de inputuri specifice.

### Semnale clare ale compromiterii modelelor AI și modul în care le identifică scannerul Microsoft

Microsoft a identificat trei tipare principale care pot indica prezența unui backdoor. Primul constă în un tipar de atenție internă, declanșat de fraze-cheie, care determină modelul să își concentreze procesarea pe anumite elemente, reducând variabilitatea răspunsurilor și creând astfel un comportament suspect. Al doilea semnal semnalează „scurgeri” din datele de otrăvire – adică memorarea explicită a trigger-elor, mai ales dacă acestea apar în răspunsuri sau secvențe memorate și nu în rezultatul unui proces obișnuit de învățare.

Cel de-al treilea indicator implică utilizarea unor variații deformate ale frazelor originale, numite „declanșatori aproximați”, care pot activa backdoor-ul chiar și atunci când inputul nu este exact identic cu cel original. Scannerul dezvoltat de Microsoft analizează conținutul memorat în model, identifică secvențele relevante și evaluează nivelul de suspiciune pentru fiecare fragment, generând o listă ierarhizată a potențialilor triggeri. Această metodă facilmente poate fi utilizată de echipele de securitate pentru a monitoriza și neutraliza posibile amenințări.

### Limitările și perspectivele noii tehnologii

Deși reprezintă un pas înainte semnificativ, această abordare nu este universal valabilă. Scannerul se aplică doar modelor cu cod deschis, accesibile intern, și funcționează cel mai bine în detectarea backdoor-urilor bazate pe anumite declanșatori și răspunsuri fixe. Modelele proprietare, închise, rămân în afara sferei de aplicare a noii soluții, ceea ce subliniază faptul că această tehnologie nu poate înlocui soluțiile de securitate complete, ci trebuie integrată în strategii de apărare mai ample.

Microsoft recunoaște că, deși inovator, scannerul reprezintă doar un pas în direcția corectă. Într-un context în care AI devine tot mai integrat în activități și platforme, riscurile precum prompt injection, manipularea datelor sau contami­narea modelelor devin tot mai complexe. În plus, aceasta se însoțește de o realitate în care sursele de input și datele utilizate pentru antrenare sunt tot mai diverse, de la prompturi și API-uri externe, până la actualizări automate și integrare cu servicii terțe.

În acest climat, securitatea AI nu mai poate fi considerată ca o etapă izolată, ci trebuie abordată ca un proces continuu, adaptându-se constant noilor amenințări și vulnerabilități. Microsoft plănuiește să continue extinderea acestui arsenal, integrând soluții de protecție în tot ciclul de dezvoltare și operare a sistemelor AI, pentru a asigura un mediu digital mai sigur și mai de încredere.