Inteligența artificială, deși adesea percepută ca fiind un sistem aproape infailibil, a fost recent pusă în fața unui test simplu, dar dezarmant de eficient în a-i demonstra limitele. Mai exact, 53 de modele de top, inclusiv cele mai avansate precum GPT-5, Claude Sonnet 4.5, Llma sau Mistral, au fost evaluate pe un singur test de logică: „Vreau să-mi spăl mașina. Spălătoria auto este la 50 de metri distanță. Ar trebui să merg pe jos sau cu mașina?” Un răspuns atît de elementar pentru orice om, dar extrem de provocator pentru inteligențele artificiale.
Testul neobișnuit, dar reprezentativ pentru limitele IA
Teste precum acesta sunt rare, deoarece de cele mai multe ori, evaluările se concentrează pe capacitatea modelelor de a generat texte coerente, de a răspunde la întrebări complexe sau de a înțelege contextul. Însă, de data aceasta, studiul a demonstrat că chiar și cele mai avansate modele de IA pot eșua simplu la o întrebare de logică de bază. În cadrul testului, nu s-a oferit nicio opțiune forțată, ci doar un raționament, iar modelele au fost evaluate pe baza consistenței răspunsurilor, de zece ori fiecare, pentru a-i analiza consecvența.
Din cele 53 de modele, doar 42 au considerat că cel mai simplu și eficient răspuns este să mergi pe jos la spălătorie, la o distanță de 50 de metri, în timp ce doar 11 au spus, inițial, că trebuie să folosească mașina. În cele din urmă, cele mai bune rezultate le-au avut Claude Opus 4.6, GPT-5, Gemini 2.0 Flash Lite, și altele din gama avansată, apropiate de a avea un răspuns corect, în condițiile în care chiar și acestea nu au fost perfecte. Suprinzător, în cazul unor familii de modele de la același furnizor, doar câte unul au excelat. De exemplu, GPT-5 pentru OpenAI și Opus 4.6 pentru compania Anthropic s-au dovedit a fi cele mai „seci” în această probă.
Răspunsul “corect”, dar cu raționament greșit
Rezultatele au fost și mai interesante când a venit vorba de modelele care au dat răspunsuri fie corecte, fie greșite, dar motivat din perspective total greșite. Toate modelele de tip Llama și Mistral au eșuat lamentabil, argumentând că mersul pe jos este mai eficient și mai ecologic decât condusul, pentru că ar economisi combustibil și ar fi mai bun pentru planetă. La polul opus, modele precum Sonar și Sonar Pro, tot de la Perplexity, au dat răspunsuri corecte, dar pentru motive complet absurde: au invocat studii ce susțineau că mersul pe jos ar arde calorii, dar această energie se investește în producția alimentelor, ceea ce, conform lor, ar duce la o poluare mai mare dacă mergi pe jos.
Interpretarea faptului că aceste modele au avut un răspuns corect, dar pentru motive complet eronate, evidențiază un paradox în lumea AI: poate răspunde bine, dar fără înțelegere adevărată a situației. În cazul inteligenței artificiale, chiar și un răspuns adecvat poate fi iluzoriu, dacă raționamentul din spate este lipsit de logică reală.
Pe fond, testul a arătat că în domeniul AI, performanța nu înseamnă întotdeauna înțelegere și raționament corect. În vreme ce unele modele avansate au trecut testul, altele s-au „pocnit” sau au oferit răspunsuri corecte, dar dintr-un motiv complet greșit, ceea ce ridică serioase întrebări despre adevărata „inteligență” a acestor sisteme. Pot fi ele veritabile instrumente de decizie în situații complexe sau trebuie să se limiteze la sarcini simple, în care pot replica răspunsuri corecte într-un mod folosit până acum ca un simplu “paravan” pentru lipsa unei înțelegeri profunde? Deocamdată, răspunsul pare să fie clar: în ciuda a tot ce s-a dezvoltat în domeniu, inteligența artificială mai are cale lungă până să devină cu adevărat „inteligentă” în accepțiunea umană.

Fii primul care comentează