El projecte Aina d’intel·ligència artificial i tecnologies del llenguatge publica, impulsat per la Generalitat de Catalunya, el primer model de síntesi de veu en les principals variants dialectals del català, que porta el nom de «Matxa». Es tracta de la primera solució tecnològica publicada com a model lingüístic en obert que ofereix interpretació de text a veu (Text To Speech/TTS) en català central, nord-occidental, balear i valencià.

Tots els usuaris poden accedir al model disponible a Hugging Face, la comunitat d’IA amb recursos d’open source o codi obert, des d’on pot ser testejat i executat. La tecnologia desenvolupada per la Unitat de Tecnologies del Llenguatge del Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) s’entrena amb diferents datasets o conjunts de dades, entre els quals es troba el Festcat, l’OpenSLR69 o el recentment creat Frescat, que inclou enregistraments en quatre variants dialectals i huit parlants diferents.

Segons els seus impulsors, «Matxa suposa un pas endavant en termes de rendiment i qualitat, ja que manté la naturalitat i les característiques de les veus escollides per a entrenar-lo». La seua composició es basa en la combinació de les arquitectures Matcha-TTS i Vocos, que destaquen per la seva novetat i temps d’execució molt baixos a través de xarxes neuronals. El sistema de dialectes ha estat configurat i entrenat a través del nou superordinador MareNostrum 5 i FinisTerrae III del Centro de Supercomputación de Galicia (CESGA).

Projecte Aina

A través de la demo pública es pot fer un primer testatge del funcionament de Matxa. El nou conjunt de dades Frescat és un desenvolupament pioner en l’àmbit dels recursos digitals en català, ja que incorpora fins a huit parlants amb diferents característiques. En total, dues veus per cada un dels principals dialectes. El dataset es farà públic a les pròximes setmanes i estarà disponible per a la seua descàrrega i ús per part de tots els usuaris. Per l’investigador del BSC, especialitzat en veu, Baybars Külebi, es tracta «d’un recurs innovador que posa a disposició de tothom recursos digitals que tenen en consideració la pluralitat del català».

El desenvolupament de les tecnologies de síntesi de veu «obre la porta a un gran volum de possibles aplicacions», expliquen els impulsors de la iniciativa, ja que «el Projecte Aina, a través del BSC, ja treballa amb empreses i institucions per oferir solucions específiques de la mà de les eines d’intel·ligència artificial desenvolupades al centre».

Comparteix

Icona de pantalla completa