Addenda et Corrigenda: De inteligencia artificial para trabajar con el castellano y academias de la lengua española

jueves, 10 de octubre de 2024

De inteligencia artificial para trabajar con el castellano y academias de la lengua española

Después de diversas lecturas sobre los avances de la IA generativa en lo relativo a la lengua española/castellana y el camino por recorrer, y teniendo ya mi propia experiencia en el uso de ChatGPT4 en el trabajo textual editorial, me topé en LinkedIn con esta charla de Javier Muñoz-Basols sobre los sesgos lingüísticos digitales en el desarrollo de las IA.

Al hilo de lo que se comenta e ilustra en la charla, me atrevo a hacer algunas constataciones y reflexiones sobre el desarrollo de las herramientas de IA para trabajar con el castellano, concretamente para las labores de corrección y edición de textos. No hay mucho que decir al respecto, aparte de que está en mantillas y se le augura un avance lento y complicado.

Este retraso con respecto a otras lenguas internacionales con gran número de hablantes tiene diversas causas estructurales, financieras y técnicas (como la ausencia de una estrategia común de desarrollo entre los países donde el castellano es hegemónico, la insuficiente inversión en IA en y para el castellano, y la inexistencia de una metodología de evaluación comparativa de los modelos de lenguaje de propósito general [usos generales] y específico [usos especializados], entre otros aspectos). Pero sobre todo es la herencia de una carencia que el español viene arrastrando: la insuficiencia de datos (diccionarios, corpus, catálogos de entidades nombradas, terminologías especializadas, anotaciones, gramáticas, etc.) con los que puedan desarrollarse y funcionar los modelos que sirven para entrenar las IA. Sin ellos, no pueden entender la inmensidad de textos en español, aprender a discriminar y reconocer en estos patrones de lengua distintos y a deducir con finura qué uso es el apropiado para un determinado contexto.

Como explicamos diversos autores de El dardo en la Academia —entre otros especialistas que han incidido en este problema—, el español/castellano es una lengua deficientemente descrita y equipada. De hecho, en favor del modelo estándar de «lengua común» (ese ideal político del panhispanismo tan reñido con el avance del conocimiento lingüístico), se ha estado relegando e incluso bloqueando el estudio de los diversos registros técnicos y de la dinámica variedad lingüística social y geográfica de la lengua. Para ilustrar con un solo ejemplo el deficiente equipamiento del castellano, a un nivel lexicológico y lexicográfico es clamorosa la falta de diccionarios descriptivos integrales de las diversas variedades nacionales de lengua (sólo hay tres: el de España, el de Argentina y el de México).

Incluso limitándonos al modelo estándar de lengua correcta (el académico), no diré nada nuevo al afirmar que contiene numerosas contradicciones, inconsistencias, errores y asistematicidades metodológicas, y que presenta múltiples huecos. Dado, además, el aún insuficiente conocimiento de la llamada norma culta del español, el estándar panhispánico es incapaz de definir qué es aceptable o no en la variedad culta (escrita o hablada) de un país en un momento dado, con lo que su aportación a la nutrición de las IA para que redacten, localicen o corrijan es también muy limitada. La escasa utilidad de estas herramientas para la corrección —⁠que se reduce a la detección y enmienda de ciertos aspectos normativos de algunas variedades— es algo que puede comprobarse simplemente intentando que ChatGPT4 mejore la redacción y corrija, adecuándolo a un lector de perfil geolectal variado, un texto extenso en una de esas variedades nacionales mal descritas y con pocos equipamientos (por ejemplo, el chileno santiagueño). Aun cuando se le informe de qué variedad y tipo de texto es y de qué resultado se quiere obtener, ChatGPT4 no da pie con bola o se inventa soluciones disparatadas o fuera de lugar. Eso sí, pide reiteradas disculpas por no haber sido útil.

En este punto, hago un breve apunte sobre el papel de las academias de la lengua en el desarrollo de la IA en y para el castellano. Estas instituciones (la RAE, particularmente) sí pueden proveer corpus y otros materiales útiles para este fin, pero su celo por controlar su obra y sus derechos de explotación es bien conocido. El material que pueden ofrecer no se emplearía tal cual es, sino que pasaría procesos de revisión, modificación y refinamiento que escaparían al control de las academias y a sus fines, por lo que personalmente dudo de que vayan a ceder nada fácilmente. De hecho, el único proyecto de las academias relacionado con la IA es el proyecto Leia, patrocinado por Telefónica y en colaboración con Google, Amazon, Microsoft, Twitter y Facebook (patrocinio y colaboraciones nada altruistas) y con una dotación de 5 millones de euros por parte del Gobierno español, cuyas líneas principales son «velar por el buen uso de la lengua española en las máquinas» y «crear herramientas que fomenten el uso correcto del español [o sea, el modelo estándar escrito] en los seres humanos». A ver qué pasa si las máquinas pensantes empiezan no sólo a usar el estándar académico, sino a detectar sus fallos...

En consecuencia y recapitulando: si no se hace el trabajo lingüístico pendiente, ni se ponen los datos existentes a disposición de los proyectos públicos en marcha, ni estos se centran también en la lengua y se coordinan internacionalmente, las IAs en y para el español no evolucionarán bien —y que lo hicieran tampoco sería ni fácil ni rápido—, con lo que será imposible que resulten útiles para el trabajo con la lengua en todos sus niveles y en todos los territorios de uso del castellano.

Silvia Senz

No hay comentarios:

Publicar un comentario

Este blog no publicará los comentarios de personas no identificadas.