ULTIMA ORA
Tehnologie

[ad_1] Wikimedia Deutschland a anunțat recent lansarea unui nou proiect care are scopul de a îmbunătăți modul în care modelele de inteligență artificială accesează și procesează cunoștințele din Wikipedia

Cristian Marinescu


Wikimedia Deutschland a anunțat recent lansarea unui nou proiect care are scopul de a îmbunătăți modul în care modelele de inteligență artificială accesează și procesează cunoștințele din Wikipedia. Acest proiect, denumit Wikidata Embedding Project, folosește tehnologii avansate de căutare semantică bazate pe vectori, facilitând astfel o înțelegere mai aprofundată a relațiilor și sensurilor cuvintelor de către sistemele AI.

Dezvoltarea acestui proiect aduce beneficii semnificative pentru accesul AI la Wikipedia, oferind o bază de date ce include aproape 120 de milioane de intrări din Wikipedia și platformele conexe. Spre deosebire de instrumentele tradiționale, care se bazau pe căutări după cuvinte-cheie sau interogări complexe, această soluție permite generarea de răspunsuri în limbaj natural, compatibile cu tehnici modernes precum retrieval-augmented generation (RAG). Astfel, întrebări precum „cine a fost Albert Einstein?” pot fi abordate mai precis, având la bază relații semantice și contextuale, nu doar funcții de căutare după cuvinte.

Baza de date adaugă valoare prin includerea traducerilor în mai multe limbi, imagini aprobate de Wikimedia și termeni asociați, precum „cercetător” sau „academic”. În plus, aceasta acoperă subcategorii relevante, precum „oameni de știință nucleari” sau „cercetători de la Bell Labs”, facilitând o navigare mai complexă și contextualizată a informațiilor. Dezvoltarea a fost realizată în colaborare cu Jina.AI și DataStax, și poate fi accesată public pe platforma Toolforge. Pentru dezvoltatori și cercetători, un webinar programat pentru 9 octombrie 2025 va oferi detalii suplimentare despre utilizarea acestei baze de date.

Anunțul survine într-un context în care integrarea datelor de înaltă calitate devine tot mai importantă pentru cele mai avansate modele de inteligență artificială. În timp ce seturile de date precum Common Crawl oferă volum, acestea pot fi afectate de acuratețea și verificabilitatea informației. Informațiile provenite din Wikipedia, revizuite de comunitate, oferă o bază mai stabilă pentru aplicații unde precizia este prioritară. De asemenea, inițiativele precum Wikidata Embedding pot constitui o alternativă etică și sustenabilă, mai ales în contextul discuțiilor legate de drepturile de autor și utilizarea conținutului protejat în antrenarea AI, așa cum a evidențiat cazul companiei Anthropic.

În final, inițiativa din domeniul AI și accesul mai bun la date verificabile subliniază importanța informării continue. Monitorizarea progresului și adaptarea tehnologiilor emergente rămân esențiale pentru utilizarea responsabilă și eficientă a inteligenței artificiale.