Academia

Es la conclusión de un estudio del Instituto Leibniz para la Lengua Alemana que entrenó modelos computacionales del lenguaje en un vasto conjunto de datos que abarca miles de idiomas

Los lenguajes complejos pueden ser más eficientes para la comunicación

estudio.
Lenguaje. Textos más cortos pueden transmitir el mismo contenido en idiomas complejos. (ENVATO ELEMENTS PIC)

Los idiomas que son computacionalmente más difíciles de procesar compensan esta mayor complejidad con una mayor eficiencia: necesitan menos símbolos para codificar el mismo mensaje.

Es la conclusión de un estudio del Instituto Leibniz para la Lengua Alemana (IDS) que entrenó modelos computacionales del lenguaje en un vasto conjunto de datos que abarca miles de idiomas.

Los modelos lingüísticos son algoritmos informáticos que aprenden a procesar y generar lenguaje mediante el análisis de grandes cantidades de texto. Se destacan en la identificación de patrones sin depender de reglas predefinidas, lo que los convierte en herramientas valiosas para la investigación lingüística. Es importante destacar que no todos los modelos son iguales: sus arquitecturas internas varían, lo que determina cómo aprenden y procesan el lenguaje. Estas diferencias permiten a los investigadores comparar los idiomas de nuevas formas y descubrir conocimientos sobre la diversidad lingüística.

En su estudio, los investigadores entrenaron modelos lingüísticos con más de 6.500 documentos en más de 2.000 idiomas, que abarcan casi 3.000 millones de palabras. Los textos incluían escritos religiosos, documentos legales, subtítulos de películas, artículos de periódicos y mucho más.

Los investigadores calcularon la dificultad que tienen los modelos computacionales para procesar o producir texto, utilizándolo como medida de la complejidad del lenguaje. El trabajo se publica en la revista PLOS Complex Systems.

“Entrenamos modelos lingüísticos muy diferentes con este material textual”, afirma el coautor Sascha Wolfer. “Algunos modelos simples solo tienen en cuenta las dos últimas palabras, lo que limita su capacidad para capturar patrones gramaticales a largas distancias. Otros, como los transformadores (similares a ChatGPT), utilizan mecanismos avanzados para analizar dependencias complejas y descubrir estructuras lingüísticas más ricas”.

Sorprendentemente, los resultados fueron consistentes: a pesar de las importantes diferencias arquitectónicas, los modelos produjeron clasificaciones notablemente similares de complejidad del lenguaje.

“Si un idioma es más difícil de procesar que otro para un modelo de un corpus, esta relación se mantiene en otros modelos, tipos de texto e incluso si el modelo opera en un nivel simbólico diferente, por ejemplo, caracteres en lugar de palabras”, explica el coautor Peter Meyer. “Estos hallazgos sugieren que los resultados no solo pueden reflejar un esfuerzo computacional, sino que también podrían ofrecer información sobre la complejidad intrínseca de los idiomas humanos".

TEXTOS MÁS CORTOS PARA TRANSMITIR EL MISMO CONTENIDO

¿Por qué, entonces, algunos idiomas evolucionarían para ser más complejos, dado el mayor esfuerzo requerido para el procesamiento? Un hallazgo clave del estudio puede proporcionar una respuesta: existe un equilibrio entre complejidad y eficiencia. Los idiomas con mayor complejidad tienden a producir textos más cortos para transmitir el mismo contenido, lo que refleja un mecanismo compensatorio donde una mayor complejidad estructural se compensa con una mayor eficiencia en la comunicación.

“Por lo tanto, tal vez el esfuerzo adicional requerido para aprender un idioma complejo tenga sus beneficios”, sugiere Alexander Koplenig, autor principal del estudio.

“Una vez que se domina, un lenguaje complejo puede ofrecer más opciones para expresarse, lo que puede facilitar la transmisión de la misma idea utilizando menos símbolos. Esto es relevante, porque también demostramos que esta disyuntiva está determinada por los entornos sociales en los que se utilizan los idiomas, y las comunidades más grandes tienden a utilizar idiomas más complejos pero más eficientes".

Por lo tanto, se podría especular que en las sociedades grandes, la educación institucionalizada podría permitir una mayor complejidad lingüística al proporcionar un aprendizaje sistemático y formalizado del idioma, que apoya la adquisición y el uso de estructuras lingüísticas intrincadas. Al mismo tiempo, la importancia de la comunicación escrita en las sociedades más grandes puede crear presión para que los mensajes más breves reduzcan los costos de producción, almacenamiento y transmisión, como el papel para libros, el espacio de almacenamiento o el ancho de banda.

“Esta combinación (la educación que permite la complejidad y las necesidades prácticas que impulsan la eficiencia) podría explicar por qué los idiomas en las comunidades más grandes evolucionan de la manera en que lo hacen”, continúa Koplenig. “Probar esta hipótesis especulativa es una dirección fascinante para la investigación futura”.

Lo más relevante en México