Pensándolo bien...
Los grandes pasos dados en el ámbito del tratamiento del lenguaje natural, nos hace reflexionar sobre el avance, fuera de lo común, que fue el desarrollo del lenguaje humano. Hoy nos sorprendemos al teclear una frase incorrecta, incompleta o mal redactada y que un programa de ordenador entienda lo que queremos y lo complete. Extraordinario avance. Pero nada es comparable con el salto que dio la Humanidad al generar el primer lenguaje.
Los grandes pasos en el tratamiento del lenguaje natural (NLP, por sus siglas en inglés) han sido el resultado de avances interdisciplinares entre la lingüística, la informática y la inteligencia artificial. Los orígenes simbólicos y lingüística computacional (1950–1980). Así, en 1950 – Alan Turing publica "Computing Machinery and Intelligence" y plantea el famoso Test de Turing; en 1957 – Noam Chomsky introduce la gramática generativa, influenciando la idea de reglas formales para describir lenguajes; en la década de 1960–70 aparecen los primeros sistemas de traducción automática (como el sistema Georgetown-IBM) y programas como ELIZA de Albert Weizembaum (1966), un chatbot temprano e ilustrativo de una época; en todo caso se enfatiza en modelos simbólicos, reglas gramaticales y análisis sintáctico.
En otro ámbito se propone un enfoque estadístico (1980–2000), consignando los avances en cómputo y corpus como el British National Corpus, que permitieron aplicar modelos estadísticos. Aparecen los modelos de Markov ocultos (HMM) para tareas como el etiquetado de partes del discurso. Se populariza el uso de algoritmos de aprendizaje automático como Naive Bayes, SVM y árboles de decisión y surge BLEU como métrica para evaluar la traducción automática.
En el ámbito del aprendizaje profundo y vectores de palabras (2000–2017), cabe reseñar que en 2013 se propone Word2Vec (Mikolov et al., Google): representaciones vectoriales de palabras que capturan relaciones semánticas; en 2014–2017 ce la luz el uso de redes neuronales recurrentes (RNN), LSTM, seq2seq, y attention mechanisms y se da un gran progreso en tareas como resumen, traducción automática y preguntas y respuestas.
Como otra alternativa surgen los transformadores y modelos de lenguaje a gran escala (2018–actualidad), y cabe resaltar que en 2017 se publica el trabajo "Attention is All You Need" presenta el modelo Transformer, base de la revolución actual. En 2018 aparece BERT (Google), que introduce el aprendizaje bidireccional y mejora el rendimiento en múltiples tareas NLP. En 2019–2020 aparecen GPT-2 y luego GPT-3 (OpenAI): modelos generativos que producen texto coherente a gran escala. En 2022–2023 tiene lugar una auténticva explosión de chatbots conversacionales basados en LLMs (Large Language Models) como ChatGPT y Claude. En todo caso, el enfoque pasa de modelos entrenados para tareas específicas a modelos fundacionales y transferencia de aprendizaje.
Las tendencias actuales y futuras se centran en: multimodalidad, al combinar texto con imágenes, audio y video; modelos multilingües y adaptación cultural; IA explicable y ética en el procesamiento del lenguaje; Integración simbólica y neuronal (Neuro-Symbolic NLP) y pequeños modelos eficientes frente al costo de los modelos masivos.
En el terreno humano las cosas han sido bien diferentes y es más complicado establecer una génesis cronológica de los acontecimientos reseñables. Por un lado, la afirmación "El origen de los humanos y su dispersión geográfica es bien conocida" puede considerarse parcialmente verdadera, dependiendo del nivel de precisión y certeza que se espere.
Imagen creada con ayuda de ChatGPT con DALL-E
El consenso científico actual, basado en pruebas genéticas, fósiles y arqueológicas, sostiene que el Homo sapiens se originó en África hace unos 300.000 años, probablemente en la región del este o sur del continente y esta teoría se conoce como el modelo "Out of Africa", según el cual los humanos modernos emigraron desde África hacia el resto del mundo en varias oleadas, la más importante hace unos 60.000 años.
Se tiene un conocimiento bastante detallado de cómo se produjo esta expansión iniciándose hacia Asia y Oceanía hace unos 50.000 años, para después ir hacia Europa hace unos 45.000 años, hacia América probablemente hace más de 15.000 años, cruzando desde Siberia por el estrecho de Bering y más recientemente, hacia islas remotas del Pacífico (hace unos 3.000 años) y otras regiones de difícil acceso.
A pesar de estos avances en el conocimiento, aún hay incertidumbres y debates, sobre la interacción con otros homínidos (neandertales, denisovanos, etc.), sobre las rutas exactas y los tiempos precisos de migración, las posibles migraciones "de retorno" hacia África y los hallazgos fósiles fuera de África más antiguos de lo esperado que podrían matizar o complicar el modelo dominante. Así que, se conoce bastante bien el origen y la dispersión geográfica de los humanos, pero no de forma completa ni definitiva. Es un campo en constante revisión, donde nuevos descubrimientos (especialmente genéticos y fósiles) siguen matizando y enriqueciendo nuestro entendimiento.
Cómo surgió la lengua humana es una cuestión de mucha mayor envergadura que contemplar la evolución del tratamiento artificial de la misma. En este segundo caso, se parte de una lengua estructurada con sus componentes de gramática y palabras ya establecidas y se trata tan solo de replicar la dinámica de generación de información a efectos comunicativos. La aparición de la lengua natural ha sido objeto de muchas conjeturas y una de ellas, mantenida en el tiempo, consiste en la suposición de la existencia de una lengua antigua que fue la raíz de as lenguas modernas hoy conocidas. La idea parte en los siglos XIX y XX al descubrir los grupos lingüísticos indoeuropeos que impulsó la conjetura de una lengua protoindoeuropea surgida en torno a hace 7000 años. La cuestión es cómo evidenciar esto.
Evidentemente que los pueblos han estado unidos en el pasado, ya que el Homo Sapiens surge hace unos 230.000 años en África, pero la diseminación y el tiempo transcurrido puede haber borrado los rastros de similitud de las lenguas. Ahora se ha propuesto un enfoque diferente por investigadores del MIT, encabezados por Miyagawa, según un artículo publicado en Fronteras en psicología, basados en análisis de datos genómicos. Trazó un mapa de la diseminación geográfica humana a partir de los datos publicados en los últimos tiempos y se concreta la primera división en hace unos 135.000 años. De haber una lengua original común la capacidad del lenguaje se tuvo que desarrollar antes de ese momento y fue portada en la diseminación geográfica.
Una alternativa consiste en suponer el origen del lenguaje a la época de los primates como ancestros de los humanod modernos. Miyagawa puntualiza que no se trata de identificar cuando primates pudieron emitir un sonido, sino cuando los humanos desarrollaron capacidad cognitiva capaz de suscitar un vocabulario y construir una gramática para configurar un lenguaje. El sistema de comunicación humano conjuga palabras y sintaxis, cosa que ningún animal ha sido capaz de desarrollar y esto es o que posibilita la generación de pensamiento y establecer un sistema de comunicación con los demás. Por otro lado hay que matizar que lenguaje y uso del lenguaje no son lo mismo y Miyagawa sitúa a los humanos que generaron el lenguaje en unos 135000 años, mientras que la actividad simbólica se sitúa hace unos 100.000 años.
El lenguaje estimuló el pensamiento y configuró el comportamiento. Unos aprendimos de otros y progresivamente se ha ido avanzando, tal como ocurre en la actualidad. Lenguaje y evolución humana van de la mano condicionándose mutuamente. Afortunadamente las huellas no desaparecen en su totalidad y dejan pistas en el tiempo y en la historia. Podrán haber adaptaciones a circunstancias o situaciones sobrevenidas, pero al final la luz se abre paso se aclaran las vías por muy borrosos que queden los escenarios.
Hemos podido comprobar que mientras que podemos detallar los pasos de la evolución del tratamiento del lenguaje natural y concretar las aportaciones y los elementos de progreso y desarrollo, no ocurre lo mismo con el devenir del lenguaje natural en cuanto a la evolución humana. Los procesos naturales siempre conllevan una complejidad mayor, por mucho que las apariencias nos engañen. Pero todo se andará. Poco a poco. En esto la Ciencia y la Naturaleza van de la mano: la parsimonia como principio de la evolución.
Sopa de letras: EL LENGUAJE HUMANO
Soluciones: LA REALIDAD POSIBLE