El projecte AINA, engegat dimarts pel Departament Polítiques Digitals i Territori, que lidera el vicepresident Jordi Puigneró, ja ha aconseguit, en només sis dies, recollir uns 225.000 enregistraments de veus per al diccionari oral del català, que ha d’assegurar la presència de la llengua del país en l’àmbit digital. El projecte recopila les veus de persones voluntàries amb l’objectiu de fer possible que les màquines entenguin i parlin el català. Fonts del Govern consideren un èxit la iniciativa si es té en compte que el recompte, fet fins a aquest diumenge a les 21 hores, dona una mitjana de 40.000 enregistraments al dia, i altres llengües minoritàries recullen uns 2.000 enregistraments diaris.
Cal més varietat dialectal
El projecte ha aconseguit enregistrar veus de les diferents parles territorials, però hi ha zones menys representades. El català central és el més enregistrat (76%), seguit del valencià (5%), el septentrional (3%) i el balear (1%). Un 14% no ha estat identificat. També hi ha majoria de veus d’homes, el 63% dels enregistraments.
La recollida de veus es va iniciar dimarts a través d’una pàgina web. El Govern destina tres milions d’euros al projecte. L’usuari es pot dedicar temps a llegir frases proposades o a validar altres enregistraments. Les dades de veu s’afegeixen a un corpus textual del català que ja existeix. Les persones que hi participin poden deixar les seves veus sense registrar-se, però es recomana fer-ho per poder tenir informació sobre l’edat, el gènere i la distribució geogràfica.
Que les màquines que parlen parlin en català
La cap de la unitat de Text Mining del BSC-CNS, Marta Villegas, va explicar la setmana passada que AINA ha de permetre que el català sigui inclòs a Siri o Alexa, per exemple. Es busca que la inclusió del català a les aplicacions “sigui rendible i atractiva per a empreses del sector, pensem també en les Pimes i les grans empreses i les grans tecnològiques”. L’objectiu final, va afegir Villegas, és “aconseguir que els ciutadans puguem participar en normalitat en el món digital com ho faria un parlant d’una llengua global”.
AINA és un projecte d’infraestructura que no servirà per fer aplicacions finals, això quedarà reservat a la iniciativa de la indústria. Tot i així, el vicepresident Jordi Puigneró no ha descartat que la Generalitat desenvolupi alguna aplicació de serveis pròpia basant-se en AINA. “La tecnologia necessita big data i és del que volem proveir, únicament des de la iniciativa pública el català pot garantir la quantitat suficient de dades”. El corpus més gran és el de l’anglès,que consta de 825 gigabytes de dades, i el castellà, amb 570 gigabytes. El català de moment té 10 gigabytes de dades perquè inclou només text. Hi ha 1.000 hores gravades de so i es vol doblar el nombre aquest any. “Disposar de dades de qualitat és un actiu de futur, ens garanteix l’actualització de la tecnologia”, va dir Villegas.