Pensándolo bien...

null RECURRENCIA Y EMERGENCIA

Todo parece indicar que los modelos grandes de lenguaje (LLMs), que son los motores tras los chatbots de Inteligencia Artificial, hacen más cosas que las que se conocen. Y de mayor alcance. Estos modelos parten de textos, que toma como entradas y predicen lo que continúa y lo hace una vez tras otra. Solo está basado en estadísticas que permiten determinar la probabilidad de las palabras que completan la frase. Prácticamente, se trata de un “memorión” de los que se las sabe todas, porque alguna vez lo escuchó y repite como un “papagallo disimulado” lo que otros dijeron. Ciertamente los humanos empleamos muchas veces está táctica. Cada vez que enunciamos tópicos “como no puede ser de otra forma”, “a quien madruga Dios le ayuda” y tantos otros enunciados empleados en el lenguaje corriente, estamos acercándonos a lo que los chatbots entrenados hacen. Sólo nos diferencia una capacidad de memoria que supera la humana en muchos órdenes.

La expectativa se concretaba, hasta ahora, en que potencialmente el incremento de la memoria y tratamiento de una cantidad ingente de la información incidiría en el rendimiento de los modelos en las tareas conocidas. Nunca se conjeturó que los modelos pudieran producir resultados impredecibles. Recientemente se ha revelado que los modelos LLMs pueden generar habilidades que emergen de las tareas que pueden realizar y que no son accesibles a los modelos pequeños. Se ha evidenciado en casos como la generación de código informático ejecutable, hasta decodificar películas basadas en emojis. El caso más llamativo es el concurso en el que se presentaron varios emojis consistentes en una cara y varios peces que le seguían. Uno de los organizadores de la prueba fue Ethan Dyer, que trabaja en Google Research. La respuesta de las diversas categorías de modelos pasaron desde el caso de los menos complejos que dieron respuestas surrealistas, a los intermedios que identificaron la recurrencia de los elementos y se aproximaron a proponer que se trataba de The Emoji Movie hasta los modelos LLMs que adivinaron que se trataba de Encontrar a Nemo, que era la respuesta correcta.

Así pues, todo indica que hay un umbral de complejidad que superado conlleva que la funcionalidad del modelo se dispara. También se constata que conforme se incrementa la complejidad hay modelos que proporcionan resultados más inexactos e irrumpen nuevos sesgos que desvían la respuesta de la correcta. Se dan, por tanto, comportamientos emergentes que están engrosando una lista que ya no es menor en extensión.

La cuestión derivada de esta observancia es que resulta importante predecir la imprevisibilidad de los modelos. No es suficiente constatar la habilidad emergente y adicional, sino comprender por qué se produce. Se trata de aprovechar beneficios potenciales, al tiempo que reducir riesgos inconvenientes y también emergentes. Como tantas veces ocurre lo primero es que no se sabe cómo conocer en qué tipo de aplicación se puede producir la emergencia, provoque o no problemas.

La cosa no es nueva, como hemos referido en otra ocasión, porque en el ámbito de las Ciencias de la Naturaleza la emergencia describe comportamientos colectivos que desembocan en autorganización, cuando se da el paso del comportamiento individual al colectivo como una unidad. Son muchas las referencias que podemos aportar, desde que los átomos acaban concitando células vías o las bandadas de pájaros que se comportan como un ente único o como las células que conforman el corazón acaban en una unidad que late la vida. Si las habilidades emergentes se han caracterizado en sistemas que involucran muchas unidades individuales, ahora se documentan en los modelos LLMs una vez que han superado un tamaño crítico.

Imagen cre4ada con ayuda de ChatGPT con DALL-E

Las redes neuronales recurrentes han sido las más populares en el ámbito de los modelos idiomáticos. Su funcionamiento consiste en tomar un texto y predecir la próxima palabra. La recurrencia consiste en aprender de su propia respuesta, que alimenta la red mejorando el rendimiento futuro.

El paso siguiente se dio en 2017 cuando los investigadores de Google Brain presentaron una nueva arquitectura denominada transformador cuya aportación consiste en procesar todas las palabras simultáneamente, en paralelo, con lo que procesan grandes cantidades de texto. Pero el paso ha sido no solo cuantitativo, sino cualitativo. El incremento de complejidad supone un aumento del número de parámetros del modelo, implicados en las conexiones entre las palabras. Es decir, los modelos mejoran al ajustar las conexiones en el proceso de entrenamiento. Si hay más parámetros hay más conexiones que permiten mejorar la capacidad y precisión al incrementarse. Así los modelos GPT tenían 175 mil millones de parámetros o Googles PaLM que tenía 540 mil millones de ellos, Se cuenta que un ingeniero de DeepMind decía saber convencer a ChatGPT de que era un terminal de Linux y lograr que ejecutara un programa para calcular los 10 primeros números primos y, lo destacable, que podría terminar la tarea más rápido que el propio código si se ejecutara en una máquina Linux real. Lo sorprendente es que un modelo de lenguaje cuyo ámbito es predecir texto, pudiera comportarse como un terminal informático. Es un comportamiento emergente. Pero también hay que considerar que el LLMs resuelve problemas que no ha visto anteriormente. Eso es resolver sin entrenamiento específico.

Los avances se han ido dando progresivamente. La complejidad de los modelos no ha sido el uno factor determinante del comportamiento de los LLMs. Se han logrado modelos autoexplicativos, lo que se denomina razonamiento de cadena de pensamiento, capaz de resolver problemas de entidad que otros modelos no logran resolver y provoca comportamientos emergentes no identificados. Evidentemente en estos casos, la capacidad del propio sistema de explicar su razonamiento, contribuye a identificar como ocurre la emergencia. Recientemente se ha dado a conocer por Ellie Paylick, la existencia de dos posibilidades para que se dé la emergencia. Una es que, similarmente a los sistemas biológicos, los modelos más complejos pueden adquirir nuevas habilidades de forma espontánea, aprendiendo algo fundamental y diferente que no tenía cuando el modelo era de menor tamaño. La otra opción consiste en que lo que parece emerger puede ser la culminación de un proceso interno impulsado por las propias estadísticas inmersas en un razonamiento tipo cadena de pensamiento. Es decir, los modelos grandes pueden acceder a aprender heurísticas que los modelos de menor tamaño, tanto en parámetros como en datos, no pueden acceder. No resulta fácil comprender la opción que acontece realmente.

Emergencia conlleva imprevisibilidad y no resulta simple prevenir las consecuencias. Es necesario conocer la incidencia del escalado de los modelos y cómo afecta a las capacidades y qué limitaciones introduce. No están exentos estos grandes sistemas de introducir sesgo o provocar daño. Cabe pensar, también, que precisamente las propiedades emergentes podrían emplearse en la reducción del sesgo. En todo caso parece evidente que es necesaria una mejor comprensión del funcionamiento de los sistemas y que se identifiquen las habilidades diversas de los modelos de lenguaje. Es necesario tener razones suficientes para confiar en ellos.

Sopa de letras: RECURRENCIA Y EMERGENCIA

Soluciones: ALQUIMIA DIGITAL