Industria AI, sub presiune după publicarea unui nou studiu

Studiu revoluționar pune sub semnul întrebării apărările industriei AI privind drepturile de autor

Recent, un nou studiu academic a zguduit fundamentul aparent solid al industriei de inteligență artificială. Cercetătorii de la universitățile Stanford și Yale au descoperit că modelele lingvistice avansate nu doar „învață” din datele cu drepturi de autor, ci le pot reproduce aproape în întregime, punând sub semnul întrebării afirmațiile companiilor mari din domeniu, precum OpenAI, Google sau Meta, referitoare la modul în care acestea gestionează informațiile de antrenament.

Modelle AI: simplă învățare sau stocare a materialelor protejate?

Până acum, cei mai mulți reprezentanți ai industriei susțineau că modelele lor nu păstrează datele în mod explicit, ci interpretează și generează conținut pe baza unor tipare învățate. În mod oficial, compania OpenAI și altele au explicat, adesea în fața instanțelor, că modelele lor operează ca niște „creiere” care înțeleg și reproduc idei și fraze, însă nu dețin copii exacte ale textelor de referință.

Însă cercetătorii americani au ajuns la concluzia contrară: în testele lor, patru dintre cele mai performante modele lingvistice – inclusiv GPT-4.1, Gemini 2.5 Pro, Grok 3 și Claude 3.7 Sonnet – au fost capabile să reproducă fragmente lungi din opere protejate prin drepturi de autor cu o acuratețe remarcabilă. În unele cazuri, Claude a redat pasaje aproape identice din cărți precum „1984” sau serie Harry Potter, cu o fidelitate de peste 94-95%.

Această descoperire ridică extrem de serios problema dacă aceste modele nu cumva păstrează în mod implicit conținutul pentru care sunt antrenate, contrazicând argumentele oficiale ale industria AI. Dacă majoritatea textelor copiate provin din memoria modelelor, atunci se pune serios problema legală a drepturilor de autor și a modului în care acestea sunt încălcate în mod involuntar sau intenționat.

Impact asupra legalității și asupra industriei de AI

Implicatiile sunt majore, mai ales în contextul proceselor deja deschise în Statele Unite, unde industriile tech sunt acuzate de folosirea ilicită a materialelor protejate. În continuare, aceste rezultate pot slăbi și mai mult poziția companiilor în fața legii, bazându-se pe argumentul „fair use” sau utilizarea echitabilă a materialului protejat. În cazul de față, însă, cercetările sugerează că modelele ar avea o formă de stocare a datelor, ceea ce poate fi interpretat ca o încălcare a drepturilor de autor, chiar dacă generarea conținutului pare dinamică.

Unii experți în drept avertizează deja că dacă aceste modele nu doar „învață” din datele de antrenament, ci le și reproduc, acest lucru ar putea aduce companiile AI în fața unor despăgubiri de ordinul miliardelor de dolari. În plus, nu este încă clar dacă reproducerea conținutului reprezintă stocarea unei copii exacte sau o formă de generare dinamică, ceea ce face și mai dificilă deliberarea în instanțele de judecată.

O perspectivă către un viitor incert

În timp ce companiile din domeniu continuă să nege orice stocare a materialelor protejate, cercetările recente aduc în discuție necesitatea unui nou cadru legal și etic pentru utilizarea datelor în antrenarea modelelor AI. Industria pare să fie conștientă de aceste provocări, dar soluțiile concrete sunt încă în stadiu de dezvoltare, iar legalitatea actuală rămâne dificil de aplicat în fața acestor descoperiri.

Dezvoltările în acest domeniu, precum și eforturile de a reglementa utilizarea și responsabilitatea modelelor AI, vor fi probabil în centrul atenției și în următoarea perioadă, pe măsură ce tehnologia evoluează și impactul său asupra societății devine tot mai vizibil. În contextul acestor cercetări, viitorul industriei de inteligență artificială pare a fi mai incert ca oricând, cu inovații și controverse care promit să schimbe fundamental modul în care definim și aplicăm drepturile de autor în era digitală.