Nace 'Carballo', o primeiro modelo lingüístico de Intelixencia Artificial para o galego

É o primeiro modelo lingüístico de Intelixencia Artificial para o galego e permitirá o desenvolvemento de ferramentas tecnolóxicas e sistemas intelixentes creados especificamente para a lingua propia da Galiza
proxecto nós
photo_camera (Foto: Proxecto Nós)

O Proxecto Nós, que desenvolven o Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS) e o Instituto da Lingua Galega (ILG), ambos os dous da Universidade de Santiago de Compostela (USC), vén de anunciar a creación de Carballo, un modelo de linguaxe de grande escala de alta calidade en galego que permitirá a creación de novas ferramentas e aplicacións de intelixencia artificial (IA) xerativa para a lingua propia da Galiza.

Carballo, o meirande creado nunca para o galego, é un modelo coñecido como fundacional por ser a peza básica -e esencial- para construír ferramentas versátiles e de moi alta calidade mediante IA xerativa con tecnoloxía lingüística, como chatbots, tradutores ou correctores automáticos.

Tal e como acontece con outros modelos fundacionais, Carballo precisa aínda de pequenas adaptacións técnicas para se converter nun sistema de diálogo co que poder manter unha conversa fluída e ofrecer respostas automáticas cunha interacción sinxela e intuitiva.

Carballo é froito de dous proxectos de investigación: Nós, impulsado pola Xunta da Galiza, e Ilenia, promovido polo Ministerio para a Transformación Dixital e da Función Pública para o impulso de tódalas linguas oficiais do Estado. Neste sentido, o modelo galego está baseado en Flor1.3, o modelo homólogo desenvolvido previamente para o catalán, que se desenvolve no Barcelona Supercomputing Centre (BSC-CNS).

Compre subliñar que, xunto a Carballo, foi tamén desenvolvido en colaboración coa Universidade de Évora o primeiro modelo fundacional galego e portugués, Carvalho, co obxectivo de fortalecer a nosa lingua mediante a inclusión do portugués europeo.

Carballo conta cunha arquitectura GPT de 1.300 millóns de ‘parámetros’, ou sexa, 1.300 millóns de valores axustados ao longo dun proceso de adestramento a partir de corpus de texto, encamiñado a lograr que o modelo se desenvolva cunha alta competencia no uso do galego. O seu adestramento foi un gran desafío computacional, sendo necesaria a colaboración do Cesga (Centro de Supercomputación da Galiza), que conta co segundo supercomputador máis potente de todo o territorio estatal.

Nós Diario

Para o adestramento de Carballo usouse un corpus masivo de textos en galego, chamado CorpusNós, formado por aproximadamente 2.100 millóns de palabras, o que supón o maior corpus textual en galego existente ata o día de hoxe. Unha parte significativa deste corpus foi elaborada no contexto do propio Proxecto Nós, en virtude de numerosos convenios e acordos de cesión con empresas e organizacións fornecedoras de datos textuais.

Así, neste ciclo de desenvolvemento cooperativo desde os datos ‘en bruto’ teñen participado medios de comunicación como Nós Diario, Praza Pública ou a CRTVG; as editoriais Galaxia e Laiovento; e diversas institucións públicas, como o Parlamento da Galiza, o Consello da Cultura Galega, as deputacións da Coruña e de Lugo ou a Real Academia Galega, entre moitas outras.

"O modelo fundacional Carballo para o galego é un paso máis nesta estratexia de dispoñer das capacidades científico-tecnolóxicas para non depender de grandes corporacións alleas á realidade social e cultural da Galiza, creando recursos abertos e libres para que outras empresas e institucións poidan desenvolver tecnoloxías lingüísticas en galego de amplo interese social, e mesmo económico".

Carvalho

Trátase, en suma, de axudar a crear un tecido empresarial dinámico que medre cos últimos avances da intelixencia artificial e que xire á volta da lingua galega, potenciando tamén as relacións co ámbito lusófono e, deste xeito, co mercado lingüístico do portugués, próximo aos 300 millóns de falantes. "Compre subliñar que, xunto a Carballo, foi tamén desenvolvido en colaboración coa Universidade de Évora o primeiro modelo fundacional galego e portugués, Carvalho, co obxectivo de fortalecer a nosa lingua mediante a inclusión do portugués europeo".

Carballo foi publicado en aberto, co obxectivo de que tanto persoas expertas como empresas de software poidan utilizar o modelo para desenvolver novos produtos, facer axustes ou mesmo integrar o seu uso en aplicacións de utilidade para o público xeral.

Comentarios