El Govern treballa en un projecte per fer present el català en l’entorn digital

'Aina' generarà els recursos digitals i lingüístics perquè la indústria tecnològica els incorpori a apps i serveis

El Govern ha presentat aquest dijous l”Aina’, un projecte de creació de recursos digitals i lingüístics a quatre anys vista perquè el català estigui viu en el món digital, des de les aplicacions fins als assistents de veu, traductors automàtics o agents conversacionals. El primer recurs generat és un diccionari digital, que servirà per entrenar els algoritmes d’intel·ligència artificial, amb 1.770 milions de metadades associades a paraules. Però per a què les empreses puguin “incorporar de manera fàcil” el català als seus serveis encara s’han de generar els models de la llengua, de la parla i per a la traducció, entre altres. El projecte es desenvolupa amb el Barcelona Supercomputing Center i té un pressupost de 13,5 milions d’euros.

Aina és el projecte del Govern perquè el català “esdevingui una llengua competitiva al món digital i assegurar-ne així la seva supervivència futura”, segons l’ha presentat aquest dijous el Departament de Polítiques Digitals i Administració Pública, responsable de la iniciativa. El conseller Jordi Puigneró ha comparegut per donar els detalls d’un treball que, de fet, va arrencar fa un any i ha de culminar el 2024, amb un pressupost previst de 13,5 MEUR que l’executiu vol finançar amb els fons europeus NextGenerationEU. Per ara s’hi ha invertit 2250.000 euros. El plantejament és que la ciutadania pugui “parlar i interactuar” amb el món digital en català, com ara ho fan en altres llengües, com el castellà o l’anglès. Els principals assistents de veu, agents conversacionals i traductors automàtics, no parlen avui en català, i el Govern vol “garantir la igualtat d’oportunitats” a mitjà termini. El conseller Puigneró ha considerat “molt probable” que Alexa (l’assistent de veu d’Amazon) parli català abans que hi hagi la possibilitat de parlar en català al Congrés o al Tribunal Suprem.

Jordi Puigneró

Jordi Puigneró

Amb la col·laboració del Barcelona Super Computing Center (BSC), el projecte generarà corpus i models informàtics de la llengua catalana perquè les empreses que creen aplicacions basades en intel·ligència artificial (els assistents de veu, traductors automàtics, agents conversacionals, etc., “puguin fer-ho fàcilment en català”, tal i com ho resumeix Marta Villegas, responsable del projecte Aina com a investigadora i colíder de la unitat de Mineria de Dades del BSC. No es tracta doncs de crear un suport físic o digital que reemplaci assistents de veu, com Alexa o Siri, si no de dotar les empreses tecnològiques globals o locals que hi ha el darrere amb la “infraestructura bàsica” i les dades perquè les puguin aplicar als seus sistemes. Tots els models que crearà el BSC estaran a disposició de totes aquelles empreses o entitats que les vulguin fer servir, ja que es publicaran en obert i amb llicències permissives. De moment, el que totes elles tenen a l’abast és un primer corpus textual del català, consistent en 1.770 milions de paraules, reunides en 95 milions de frases. Aquest corpus, el més gran que s’ha fet mai de la llengua catalana, s’ha obtingut a base de descarregar textos de diferents fonts digitals (planes web, arxius, etc), netejar-los i esborrar duplicitats. “Òbviament s’haurà d’anar estenent. Ara només te dades textuals. L’haurem d’ampliar primer pel que fa a les variants dialectals i usos socials de la llengua (incloent-hi el que s’empra a les xarxes socials), i també especialment amb dades de veu i imatge”, detalla Villegas.

Amb tota aquesta informació, el següent pas serà entrenar xarxes neuronals multicapa perquè “aprenguin el català” i generin models de la llengua, models de la parla i models per a la traducció. Aquests models també són molt costosos de fer perquè necessiten gran capacitat de càlcul (el que s’està construint en base al primer corpus textual farà servir 9.000 hores de GPU), i seran les bases sobre les quals es podran desenvolupar aplicacions basades en intel·ligència artificial, com assistents de veu, predictors i correctors lingüístics, xatbots, aplicacions de resum automàtic, cerques intel·ligents, aplicacions per a l’anàlisi de sentiments o motors de traducció i subtitulació automàtica, entre d’altres. El projecte AINA s’emmarca en l’estratègia digital del Govern, a través de dues iniciatives liderades pel Departament de Polítiques Digitals: el Consell de Direcció interdepartamental per a la promoció del català a Internet i en les tecnologies digitals avançades, aprovat el desembre del 2018, i l’Estratègia d’Intel·ligència Artificial de Catalunya (Catalonia.AI), aprovat el febrer del 2020.

Aina Moll

Aina Moll

El projecte ha estat batejat amb el nom d’Aina en homenatge a la filòloga menorquina Aina Moll, figura central de la promoció i la normalització del català i primera Directora General de Política Lingüística de la Generalitat de Catalunya del 1980 al 1988. Ella va ser l’artífex del llançament, el 1982, de la primera campanya institucional de sensibilització sobre l’ús de la llengua ‘El català, cosa de tots’, que, amb el popular personatge de la Norma al capdavant, tenia com a objectiu conscienciar la societat sobre la situació sociolingüística del català. Un any després, s’aprovava la primera llei de normalització lingüística. Aina conté, a més, una referència a la tecnologia (AI: Intel·ligència Artificial) “que farà possible la seva normalització en l’àmbit digital”.

Nou comentari