El català ja és la llengua amb més hores de talls de veu gravades i validades al repositori digital de veus de Common Voice després de superar aquest dijous l’anglès, que encara era la llengua amb més minuts validats. Plataforma per la Llengua va impulsar una campanya per aconseguir que el català arribara a la primera posició en el rànquing de llengües d’aquest projecte impulsat per Mozilla Foundation, i una vegada superat aquest primer objectiu, l’entitat treballa ara per arribar a llarg termini a les 10.000 hores enregistrades i validades en català, i per aconseguir més diversitat dialectal, de gènere i d’edat. Aquest repositori de veus ha de permetre que les empreses puguen incorporar el català com a llengua de reconeixement i reproducció de veus en aparells d’ús quotidià amb intel·ligència artificial.
En concret, des de dijous de vesprada, els talls de veu en català ja han superat les 3.298 hores enregistrades i les 2.438 hores validades. Aquestes xifres, en canvi, continuen lluny del nombre d’hores que es considera necessari per a tindre un corpus oral complet i fiable d’una llengua, aproximadament unes 10.000. Per això, a partir d’ara Plataforma per la Llengua continuarà treballant per fer créixer els enregistraments en català, així com les validacions de talls de veu, i també per fer augmentar, especialment, el nombre de gravacions de certs col·lectius i evitar, d’aquesta manera, que hi haja biaixos i les màquines entenguen tots els parlants. En concret, es necessiten més enregistraments de veu dels grups de població més infrarepresentats: els xiquets i menors de 25 anys, les xiques i les dones, i els parlants dels dialectes balears, septentrionals, occidentals, valencians i algueresos.
Fins ara, Plataforma per la Llengua ha combinat actes presencials amb la comunicació a les xarxes socials per fer conèixer el projecte i animar la població a donar la seua veu pel català. Després de presentar públicament la campanya en dos partits de bàsquet al Palau Blaugrana, davant de més de 14.000 persones, l’entitat ha difós vídeos en què diferents personalitats rellevants fan una crida a enregistrar-se llegint les frases proposades per Common Voice i a penjar-les al repositori a través del web latevaveu.cat. Els protagonistes d’aquests vídeos són els jugadors de bàsquet del Futbol Club Barcelona Oriol Paulí, Sergi Martínez i Ainhoa López.
A més, per arribar als parlants dels dialectes més infrarepresentats, l’entitat també ha comptat amb els influenciadors Albert Pagà (@berti_iau), Jordi Calafell (@cala.mitat) i el duet d’Anam Fent (@anamfent.podcast), parlants d’alguns d’aquests dialectes, que han fet vídeos de sensibilització específics. En aquests vídeos, els creadors animen el públic a donar la veu al repositori a través del web del projecte Aina, que és la iniciativa de la Generalitat de Catalunya i el Barcelona Supercomputing Center per impulsar la llengua a Common Voice, amb el suport del Govern de les Illes Balears.
En la línia de fer créixer la presència de veus balears, l’entitat també va fer un acte el 31 de maig a l’Espai Mallorca de Barcelona per aconseguir donants de veu entre la població mallorquina de la capital catalana. En aquella ocasió, a més d’aconseguir noves veus, l’entitat va fer conèixer el projecte a persones molt involucrades en les activitats d’aquesta comunitat, fet que permetrà, per la capacitat prescriptiva d’aquestes persones, que el projecte cresca entre els seus cercles. Per explicar bé la importància d’enregistrar-se perquè les màquines puguen entendre i expressar-se en català, l’acte va comptar amb la intervenció de Joan Montané, membre de Softcatalà, entitat impulsora de Common Voice als territoris de parla catalana. Per aconseguir més diversitat dialectal i arribar a llarg termini a les 10.000 hores, l’entitat continuarà combinant accions comunicatives a les xarxes socials amb actes presencials amb diferents col·lectius de parlants de grups infrarepresentats.
Common Voice és un projecte que vol forjar un repositori de talls de veu de totes les llengües del món a partir de la col·laboració voluntària de persones que facen la seua aportació de veu o validen l’enregistrament d’altres persones. Aquesta base de dades lliure està segmentada per gènere, edat i variant dialectal, i permet descarregar les veus a qui vulga desenvolupar i millorar programaris de reconeixement de parla, com ara robots domèstics o assistents de veu. La descàrrega d’aquestes veus es pot fer de manera gratuïta i en llicència d’oferiment al domini públic sense drets d’explotació. Creat el 2017 per Mozilla Foundation i impulsat als territoris de parla catalana per Softcatalà, el repositori ja compta amb talls de veu de 136 llengües. El 2020, amb l’impuls del projecte Aina, la presència del català creix de manera significativa a la plataforma.