jueves, 10 de octubre de 2024

De inteligencia artificial, corrección y edición de textos, y academias de la lengua española

Después de diversas lecturas sobre los avances de la IA generativa en lo relativo a la lengua española/castellana y el camino por recorrer, y teniendo ya mi propia experiencia en el uso de ChatGPT4 en el trabajo textual editorial, me topé en LinkedIn con esta charla de Javier Muñoz-Basols sobre los sesgos lingüísticos digitales en el desarrollo de las IA.

 


Al hilo de lo que se comenta e ilustra en la charla, me atrevo a hacer algunas constataciones y reflexiones sobre el desarrollo de las herramientas de IA para trabajar con el castellano, concretamente para las labores de corrección y edición de textos. No hay mucho que decir al respecto, aparte de que está en mantillas y se le augura un avance lento y complicado.

Este retraso con respecto a otras lenguas internacionales con gran número de hablantes tiene diversas causas estructurales, financieras y técnicas (como la ausencia de una estrategia común de desarrollo entre los países donde el castellano es hegemónico, la insuficiente inversión en IA en y para el castellano, y la inexistencia de una metodología de evaluación comparativa de los modelos de lenguaje de propósito general [usos generales] y específico [usos especializados], entre otros aspectos). Pero sobre todo es la herencia de una carencia que el español viene arrastrando: la insuficiencia de datos (diccionarios, corpus, catálogos de entidades nombradas, terminologías especializadas, anotaciones, gramáticas, etc.) con los que puedan desarrollarse y funcionar los modelos que sirven para entrenar las IA. Sin ellos, no pueden entender la inmensidad de textos en español, aprender a discriminar y reconocer en estos patrones de lengua distintos y a deducir con finura qué uso es el apropiado para un determinado contexto.

Como explicamos diversos autores de El dardo en la Academia —entre otros especialistas que han incidido en este problema—, el español/castellano es una lengua deficientemente descrita y equipada. De hecho, en favor del modelo estándar de «lengua común» (ese ideal político del panhispanismo tan reñido con el avance del conocimiento lingüístico), se ha estado relegando e incluso bloqueando el estudio de los diversos registros técnicos y de la dinámica variedad lingüística social y geográfica de la lengua. Para ilustrar con un solo ejemplo el deficiente equipamiento del castellano, a un nivel lexicológico y lexicográfico es clamorosa la falta de diccionarios descriptivos integrales de las diversas variedades nacionales de lengua (sólo hay tres: el de España, el de Argentina y el de México).

Incluso limitándonos al modelo estándar de lengua correcta (el académico), no diré nada nuevo al afirmar que contiene numerosas contradicciones, inconsistencias, errores y asistematicidades metodológicas, y que presenta múltiples huecos. Dado, además, el aún insuficiente conocimiento de la llamada norma culta del español, el estándar panhispánico es incapaz de definir qué es aceptable o no en la variedad culta (escrita o hablada) de un país en un momento dado, con lo que su aportación a la nutrición de las IA para que redacten, localicen o corrijan es también muy limitada. La escasa utilidad de estas herramientas para la corrección —⁠que se reduce a la detección y enmienda de ciertos aspectos normativos de algunas variedades— es algo que puede comprobarse simplemente intentando que ChatGPT4 mejore la redacción y corrija, adecuándolo a un lector de perfil geolectal variado, un texto extenso en una de esas variedades nacionales mal descritas y con pocos equipamientos (por ejemplo, el chileno santiagueño). Aun cuando se le informe de qué variedad y tipo de texto es y de qué resultado se quiere obtener, ChatGPT4 no da pie con bola o se inventa soluciones disparatadas o fuera de lugar. Eso sí, pide reiteradas disculpas por no haber sido útil.

En este punto, hago un breve apunte sobre el papel de las academias de la lengua en el desarrollo de la IA en y para el castellano. Estas instituciones (la RAE, particularmente) sí pueden proveer corpus y otros materiales útiles para este fin, pero su celo por controlar su obra y sus derechos de explotación es bien conocido. El material que pueden ofrecer no se emplearía tal cual es, sino que pasaría procesos de revisión, modificación y refinamiento que escaparían al control de las academias y a sus fines, por lo que personalmente dudo de que vayan a ceder nada fácilmente. De hecho, el único proyecto de las academias relacionado con la IA es el proyecto Leia, patrocinado por Telefónica y en colaboración con Google, Amazon, Microsoft, Twitter y Facebook (patrocinio y colaboraciones nada altruistas) y con una dotación de 5 millones de euros por parte del Gobierno español, cuyas líneas principales son «velar por el buen uso de la lengua española en las máquinas» y «crear herramientas que fomenten el uso correcto del español [o sea, el modelo estándar escrito] en los seres humanos». A ver qué pasa si las máquinas pensantes empiezan no sólo a usar el estándar académico, sino a detectar sus fallos...

En consecuencia y recapitulando: si no se hace el trabajo lingüístico pendiente, ni se ponen los datos existentes a disposición de los proyectos públicos en marcha, ni estos se centran también en la lengua y se coordinan internacionalmente, las IAs en y para el español no evolucionarán bien —y que lo hicieran tampoco sería ni fácil ni rápido—, con lo que será imposible que resulten útiles para el trabajo con la lengua en todos sus niveles y en todos los territorios de uso del castellano.

Finalmente, yendo a mi campo profesional, la pregunta que cabe hacerse es: ¿Cómo afecta al ámbito de la edición de textos esta limitación de las herramientas de IA de uso más común? Pues de diversas maneras. Combinada con la concentración geográfica de la edición en castellano, la escasa utilidad de las IA está teniendo dos efectos: o peores publicaciones, o una revaloración del trabajo humano y la descentralización de la labor editorial. Me explico. Como es sabido, España —y concretamente Barcelona⁠— es el centro de publicación mundial en esta lengua, y no sólo en la variedad peninsular central. Autores de todo origen, de ficción y no ficción, publican en Barcelona o en Madrid, pero los editores y correctores locales no tienen recursos para tratar sus textos adecuadamente, y las IA tampoco les son de ayuda. El resultado es o un tratamiento improvisado y chapucero de estas obras o, si se quieren hacer bien las cosas, el recurso a un colaborador nativo de la variante del texto que se edita, con lo que el trabajo editorial en España se externaliza a otros países.

En cualquier caso, las deficiencias que presentan las IA conducen, de momento, a la continuidad de una labor exclusivamente humana en este campo, seguramente durante años. Por el simple hecho de que un corrector humano bien formado conoce bien su propia lengua (al menos, diversas variedades de ella) y porque es también capaz de apreciar y analizar la complejidad de cada obra que pasa por sus manos, es a día de hoy todavía más ágil, adecuado y eficaz que la máquina pensante. Y en cuanto al editor, un profesional serio siempre conocerá mejor que una entidad digital —⁠que ni siquiera vive en la sociedad humana— a los receptores (lectores) potenciales de cada obra y a sus autores y, por supuesto, preferirá seguir sus propios objetivos, criterios e intuiciones en cuanto al peculiar producto editorial que quiere obtener. 

En fin, desde este blog, seguiremos observando.



lunes, 7 de octubre de 2024

El uso del artículo ante los años. (Píldoras de estilo editorial, 4)


 

El asunto del empleo u omisión del artículo ante los años es una cuestión que las academias han embrollado hasta lo indecible desde que se fue acercando el año 2000 y a alguien se le ocurrió formularles una duda sobre este particular en el sitio de internet de la RAE. Según comenta José Martínez de Sousa en su Ortografía y ortotipografía del español actual (OOTEA3, 2014, p. 278), como respuesta nada reflexionada a esta duda, la Academia española recomendó el uso sin el artículo para los años posteriores al 1999. Pero ante el empecinado empleo del artículo por parte del hablante y las críticas recibidas, se vio obligada a rectificar. Como particularmente la RAE no lleva bien reconocer los errores, lo que ocurrió es que rectificó a medias, y así es como se inició un camino errático sobre este asunto en la obra académica. Sigámoslo paso a paso para intentar llegar a buen puerto. 

En la primera edición del Diccionario panhispánico de dudas (DPD2005, s. v. «Fecha», § 4c), las academias decían:

a) Del año 1 al 1100 es más frecuente el empleo del artículo, al menos en la lengua hablada: Los árabes invadieron la Península en el 711. Pero no faltan abundantes testimonios sin artículo en la lengua escrita: «Ya en 206 a. de J. C. tiene lugar la fundación de Itálica»(Lapesa Lengua [Esp. 1942]). b) Del año 1101 a 1999 es claramente mayoritario el uso sin artículo:Los Reyes Católicos conquistaron Granada en 1492, si bien no dejan de encontrarse ejemplos con artículo: «Nací en el 1964» (RdgzJuliá Cruce [P. Rico 1989]). Si se menciona abreviadamente el año, suprimiendo los dos primeros dígitos, es obligatorio el empleo del artículo: En el 92 se celebraron las Olimpiadas de Barcelona. c) A partir del año 2000, la novedad que supuso el cambio de millar explica la tendencia mayoritaria inicial al uso del artículo: Fui al Caribe en el verano del 2000 o La autovía estará terminada en el 2010. Sin embargo, en la datación de cartas y documentos no son tan marcadas las fluctuaciones antes señaladas y se prefiere, desde la Edad Media, el uso sin artículo: 14 de marzo de 1420. Por ello, se recomienda mantener este uso en la datación de cartas y documentos del año 2000 y sucesivos: 4 de marzo de 2000. Esta recomendación no implica que se considere incorrecto, en estos casos, el uso del artículo: 4 de marzo del 2000. Naturalmente, si se menciona expresamente la palabra año, resulta obligado anteponer el artículo: 5 de mayo del año 2000.
 

En su OOTEA3 ( 2014, pp. 278-279), Martínez de Sousa expuso diáfanamente las evidentes objeciones que suscitan estos párrafos a cualquier mente racional (las negritas son mías):

1. «No se entiende por qué la Academia asegura que la tendencia al uso del artículo se debe a la novedad que supuso el cambio de millar. La razón no es esa, sino la mayor comodidad de los usuarios de la lengua para expresarse con el artículo que sin él. Tampoco se entiende que si la tendencia mayoritaria era el uso del artículo, la Academia colocase una nota en su sitio de Internet para recomendar el uso sin el artículo.» De hecho, como el mismo Martínez de Sousa anota, si se dice en el 3000 antes de Cristo y no en 3000 antes de Cristo, la simple analogía lleva a decir espontáneamente en el 2002 después de Cristo y no en 2002 después de Cristo.

2. «No hay ninguna razón gramatical clara por la cual esto [el uso del artículo ante el año] deba ser de una manera o de otra; solo podemos basarnos en el uso y la tradición, mayoritariamente favorables al artículo en fechas anteriores a Cristo hasta el 1100 después de Cristo y desde el 2000 en adelante».  

3. «Sorprende que la Academia hable del uso sin artículo en cartas y documentos cuando a) las cartas son también documentos; b) no se adivina cómo ha llegado a la conclusión de que, cuando se cambió de siglo y de milenio, en la datación de cartas y documentos la tendencia a la escritura con artículo fluctuó, puesto que la Academia no tuvo ni siquiera tiempo de analizar el uso. Sorprende también que diga que desde la Edad Media se prefiere el uso sin artículo, “consolidando en la práctica —dice⁠— una fórmula establecida” […] ¿Qué fórmula? ¿Quién la había establecido? ¿Qué práctica invoca la Academia y a quién la atribuye?» Y añade este eminente ortógrafo: «Hay que recordar que en la Edad Media difícilmente se dedicaba nadie a vaticinar cómo se escribirían las fechas en el cambio del siglo xx al xxi.».  

4. «Con esta última norma [“Esta recomendación no implica que se considere incorrecto, en estos casos, el uso del artículo”] habría suficiente y se habría ahorrado el marasmo creado artificial e injustificadamente en la escritura de las fechas. En cualquier caso, la fuerza de la recomendación académica (tomada como norma en forma absoluta) solo afecta a las fechas completas, no a las referencias a un determinado año en que ha sucedido o sucederá algo: La carretera se construirá en el 2008; El puente no estará terminado hasta el 2005; En el 2050 España tendrá menos habitantes que en el 2002.»

 

Dándose un poco de tiempo, las academias habrían podido confirmar que la tendencia espontánea entre los hablantes era al uso del artículo —algo perfectamente rastreable y verificable en los primeros años del nuevo milenio⁠— e incorporarlo a su obra, ya que tanto alardean de que la norma simplemente recoge el uso. Pues no sólo no lo hicieron, sino que su improvisación e incoherencia condujo a que, incluso entre profesionales de la lengua (particularmente periodistas, traductores y hasta correctores), empezara a cundir la idea (y la práctica) de que había que omitir sistemáticamente el artículo ante los años posteriores al 2000.  

Por fortuna, una de las pocas obras académicas que tienen detrás un trabajo concienzudo de estudio y análisis del uso, la Nueva gramática de la lengua española (NGLE2009), intentó poner un poco de orden y racionalidad en el asunto. Así, la NGLE14.8p) observa la falta de naturalidad en la elisión del artículo en los siguientes casos (la negrita también es mía):


14.8p La estructura del numeral que designa el año es también pertinente para la elección del artículo. Se ha observado que la presencia de artículo es más frecuente cuando se trata del año 2000 o los posteriores a él, exceptuadas las oraciones copulativas a las que se hizo referencia en el § 14.8ñ. Resultaría, en efecto, forzada la omisión del artículo que se subraya en estas oraciones:


Hablar del 2000 era hablar de un año tan remoto que el mundo tal vez estaría de cabeza para entonces (Tiempo [Col.] 7/4/1997); El2000 supuso una ruptura en la evolución creciente del nuevo empleo (Norte Castilla 6/2/2001),


o en pares como los siguientes: {1974 ~ El 2000} transcurrió sin demasiados contratiempos; Dejemos {1930 ~ el 2002} a un lado; Agradezco {a 1930 ~ al 2002} todo lo que me dejó. La variante con artículo es mucho más frecuente si el año está comprendido entre el 1 y el 1100, pero se percibe mayor alternancia en estos contextos: Algunos autores lo dan como inaugurado en el año 692 a. de C., otros en el 980, y aun en 1050 (Tagarano, San Bernardo). Cuando la referencia al año se hace por sus dos últimas cifras, se emplea siempre con artículo: Stroessner cayó en el 89.



Un año después, la también académica Ortografía de la lengua española (OLE2010) no hizo ninguna alusión a este asunto, aunque siguió omitiendo el artículo en los ejemplos de las fechas. Para rematar la confusión, la revisión en curso del DPD (s. v. «Años» § 3) obvia lo expuesto en la NGLE2009 y vuelve a sus trece:


A partir del año 2000, la novedad que supuso el cambio de millar explica la tendencia mayoritaria inicial al uso del artículo: Fui al Caribe en el verano del 2000 o La autovía se terminó en el 2010, pero hoy la mención de estos años ya se ha asimilado a la del resto y es más habitual omitir el artículo [sic]: En 2023 se espera una fuerte bajada de la inflación.

En la datación de cartas y documentos se prefiere el uso sin artículo: 14 de marzo de 1420, 5 de noviembre de 2021. Naturalmente, si se menciona expresamente la palabra año, resulta obligado anteponerlo: 5 de mayo del año 2000.


Es mucho decir que «hoy la mención de estos años ya se ha asimilado a la del resto y es más habitual omitir el artículo». Pero, desde luego, los casos en que esto se da son consecuencia del empeño académico en no rectificar sus errores. Es este, por cierto, un mecanismo de creación de nueva norma panhispánica demasiado común. Como decía un querido colaborador de este blog:

Lo malo es que mucha gente toma en serio, con total buena fe, lo primero que la RAE publica. Luego,la RAE cantará victoria diciendo: «Está en el uso». Y así se construye lo que llaman burocráticamente norma panhispánica pluricéntrica.

Ante este panorama, no sólo Martínez de Sousa sino no pocos autores, profesionales y redactores de libros de estilo optamos por la tendencia realmente más común en la lengua: utilizar el artículo el ante los años anteriores al 1101 y posteriores a 1999 (incluso en la datación no abreviada). Así:


De/en + año

el/del/en el + año

Entre 1101 y 1999:

América fue descubierta en 1492.

(Con las excepciones mencionadas por la NGLE2009 en el párrafo 14.8p, anteriormente citado.)

En fechas anteriores a Jesucristo (a. C.):

Esto sucedió en el 3000 a. C.

Entre el año 1 y el 1100:

Los árabes llegaron a España en el 711.

Desde el 2000 en adelante:

Esta ley no entrará en vigor hasta el 2002.

A 27 de noviembre del 2024.