Al hilo de lo que se comenta e ilustra en la charla, me atrevo a hacer algunas constataciones y reflexiones sobre el desarrollo de las herramientas de IA para trabajar con el castellano, concretamente para las labores de corrección y edición de textos. No hay mucho que decir al respecto, aparte de que está en mantillas y se le augura un avance lento y complicado.
Este retraso con respecto a otras lenguas internacionales con gran número de hablantes tiene diversas causas estructurales, financieras y técnicas (como la ausencia de una estrategia común de desarrollo entre los países donde el castellano es hegemónico, la insuficiente inversión en IA en y para el castellano, y la inexistencia de una metodología de evaluación comparativa de los modelos de lenguaje de propósito general [usos generales] y específico [usos especializados], entre otros aspectos). Pero sobre todo es la herencia de una carencia que el español viene arrastrando: la insuficiencia de datos (diccionarios, corpus, catálogos de entidades nombradas, terminologías especializadas, anotaciones, gramáticas, etc.) con los que puedan desarrollarse y funcionar los modelos que sirven para entrenar las IA. Sin ellos, no pueden entender la inmensidad de textos en español, aprender a discriminar y reconocer en estos patrones de lengua distintos y a deducir con finura qué uso es el apropiado para un determinado contexto.
Como explicamos diversos autores de El dardo en la Academia —entre otros especialistas que han incidido en este problema—, el español/castellano es una lengua deficientemente descrita y equipada. De hecho, en favor del modelo estándar de «lengua común» (ese ideal político del panhispanismo tan reñido con el avance del conocimiento lingüístico), se ha estado relegando e incluso bloqueando el estudio de los diversos registros técnicos y de la dinámica variedad lingüística social y geográfica de la lengua. Para ilustrar con un solo ejemplo el deficiente equipamiento del castellano, a un nivel lexicológico y lexicográfico es clamorosa la falta de diccionarios descriptivos integrales de las diversas variedades nacionales de lengua (sólo hay tres: el de España, el de Argentina y el de México).
Incluso limitándonos al modelo estándar de lengua correcta (el académico), no diré nada nuevo al afirmar que contiene numerosas contradicciones, inconsistencias, errores y asistematicidades metodológicas, y que presenta múltiples huecos. Dado, además, el aún insuficiente conocimiento de la llamada norma culta del español, el estándar panhispánico es incapaz de definir qué es aceptable o no en la variedad culta (escrita o hablada) de un país en un momento dado, con lo que su aportación a la nutrición de las IA para que redacten, localicen o corrijan es también muy limitada. La escasa utilidad de estas herramientas para la corrección —que se reduce a la detección y enmienda de ciertos aspectos normativos de algunas variedades— es algo que puede comprobarse simplemente intentando que ChatGPT4 mejore la redacción y corrija, adecuándolo a un lector de perfil geolectal variado, un texto extenso en una de esas variedades nacionales mal descritas y con pocos equipamientos (por ejemplo, el chileno santiagueño). Aun cuando se le informe de qué variedad y tipo de texto es y de qué resultado se quiere obtener, ChatGPT4 no da pie con bola o se inventa soluciones disparatadas o fuera de lugar. Eso sí, pide reiteradas disculpas por no haber sido útil.
En este punto, hago un breve apunte sobre el papel de las academias de la lengua en el desarrollo de la IA en y para el castellano. Estas instituciones (la RAE, particularmente) sí pueden proveer corpus y otros materiales útiles para este fin, pero su celo por controlar su obra y sus derechos de explotación es bien conocido. El material que pueden ofrecer no se emplearía tal cual es, sino que pasaría procesos de revisión, modificación y refinamiento que escaparían al control de las academias y a sus fines, por lo que personalmente dudo de que vayan a ceder nada fácilmente. De hecho, el único proyecto de las academias relacionado con la IA es el proyecto Leia, patrocinado por Telefónica y en colaboración con Google, Amazon, Microsoft, Twitter y Facebook (patrocinio y colaboraciones nada altruistas) y con una dotación de 5 millones de euros por parte del Gobierno español, cuyas líneas principales son «velar por el buen uso de la lengua española en las máquinas» y «crear herramientas que fomenten el uso correcto del español [o sea, el modelo estándar escrito] en los seres humanos». A ver qué pasa si las máquinas pensantes empiezan no sólo a usar el estándar académico, sino a detectar sus fallos...
En consecuencia y recapitulando: si no se hace el trabajo lingüístico pendiente, ni se ponen los datos existentes a disposición de los proyectos públicos en marcha, ni estos se centran también en la lengua y se coordinan internacionalmente, las IAs en y para el español no evolucionarán bien —y que lo hicieran tampoco sería ni fácil ni rápido—, con lo que será imposible que resulten útiles para el trabajo con la lengua en todos sus niveles y en todos los territorios de uso del castellano.
Finalmente, yendo a mi campo profesional, la pregunta que cabe hacerse es: ¿Cómo afecta al ámbito de la edición de textos esta limitación de las herramientas de IA de uso más común? Pues de diversas maneras. Combinada con la concentración geográfica de la edición en castellano, la escasa utilidad de las IA está teniendo dos efectos: o peores publicaciones, o una revaloración del trabajo humano y la descentralización de la labor editorial. Me explico. Como es sabido, España —y concretamente Barcelona— es el centro de publicación mundial en esta lengua, y no sólo en la variedad peninsular central. Autores de todo origen, de ficción y no ficción, publican en Barcelona o en Madrid, pero los editores y correctores locales no tienen recursos para tratar sus textos adecuadamente, y las IA tampoco les son de ayuda. El resultado es o un tratamiento improvisado y chapucero de estas obras o, si se quieren hacer bien las cosas, el recurso a un colaborador nativo de la variante del texto que se edita, con lo que el trabajo editorial en España se externaliza a otros países.
En cualquier caso, las deficiencias que presentan las IA conducen, de momento, a la continuidad de una labor exclusivamente humana en este campo, seguramente durante años. Por el simple hecho de que un corrector humano bien formado conoce bien su propia lengua (al menos, diversas variedades de ella) y porque es también capaz de apreciar y analizar la complejidad de cada obra que pasa por sus manos, es a día de hoy todavía más ágil, adecuado y eficaz que la máquina pensante. Y en cuanto al editor, un profesional serio siempre conocerá mejor que una entidad digital —que ni siquiera vive en la sociedad humana— a los receptores (lectores) potenciales de cada obra y a sus autores y, por supuesto, preferirá seguir sus propios objetivos, criterios e intuiciones en cuanto al peculiar producto editorial que quiere obtener.
En fin, desde este blog, seguiremos observando.