Pensándolo bien...
Resulta interesante echar un vistazo a la trastienda de los sistemas de Inteligencia Artificial que ahora mismo figuran en el escenario y resultan ser de actualidad permanente. Recientemente, se publicita el hecho de que uno de los principales retos que afrontan los gigantes tecnológicos en este momento es encontrar la forma de rentabilizar el auge de la inteligencia artificial generativa y más concretamente: Microsoft ha movido ficha con la inclusión de anuncios en algunas respuestas del chatbot de Bing y ahora ha sido Google la que ha presentado a sus anunciantes una función que permite utilizar la IA para generar campañas publicitarias.
Un modelo de lenguaje es una distribución de probabilidad de secuencias de palabras. Para una secuencia de palabras de longitud m, se le asigna una probabilidad a la secuencia que continúa. Los modelos de lenguaje generan probabilidades, gracias al entrenamiento previo usando textos escritos en varios idiomas. Ciertamente, un lenguaje abarca una gran variedad de oraciones válidas. El modelado de lenguaje incluye la espinosa cuestión de asignar probabilidad no nula a las secuencias, lingüísticamente válidas, pero que nunca intervendrán en su entrenamiento previo. Esto se aborda de varias formas, como la aplicación de la suposición de Markov o empleando arquitecturas neuronales como las denominadas redes neuronales recurrentes o transformadores.
La suposición de Markov en los modelos de lenguaje se refiere a la idea de que la probabilidad de una palabra en una secuencia de palabras depende solo de un número limitado de palabras anteriores en la secuencia, en lugar de depender de toda la historia de la secuencia. Esta suposición se basa en el concepto de una cadena de Markov, que es un proceso estocástico en el que la probabilidad de un estado futuro depende solo del estado actual, y no de los estados anteriores. En el caso de los modelos de lenguaje, se puede considerar cada palabra en una secuencia, como un estado, y la probabilidad de la siguiente palabra en la secuencia depende solo de la palabra actual y de un número limitado de palabras anteriores, conocido como el "orden" del modelo.
Por ejemplo, en un modelo de lenguaje de orden uno, la probabilidad de una palabra depende solo de la palabra anterior en la secuencia. En un modelo de orden dos, la probabilidad de una palabra depende de las dos palabras anteriores en la secuencia. La suposición de Markov es importante en los modelos de lenguaje porque permite simplificar el cálculo de las probabilidades de las secuencias de palabras, lo que los hace más eficientes y manejables computacionalmente. Sin embargo, también puede limitar la capacidad del modelo para capturar patrones complejos en el lenguaje, especialmente en casos donde las palabras anteriores no son una buena indicación de la próxima palabra en la secuencia.
Las redes neuronales recurrentes (RNN) y los transformadores son dos tipos de arquitecturas de redes neuronales que se utilizan comúnmente en la modelización del lenguaje natural. Las RNN son redes neuronales que utilizan unidades de memoria recurrente que permiten que la información se transmita entre unidades o pasos de tiempo en la secuencia de entrada. De esta manera, las RNN pueden capturar la dependencia temporal de las palabras en una secuencia y, por lo tanto, son útiles para tareas como la generación de texto, la traducción automática y el análisis de sentimientos, incluso.
Por otro lado, los transformadores son una arquitectura de red neuronal que no utiliza unidades recurrentes, sino que se basa en una operación de atención para modelar las dependencias en los datos de entrada. La atención es una operación que se utiliza para ponderar la importancia de cada elemento en una secuencia en función de su relación con otros elementos en la secuencia. Esta operación de atención se utiliza en múltiples capas en una arquitectura de transformador, lo que permite que la red capture dependencias de largo alcance en la secuencia de entrada. Los transformadores son particularmente útiles en tareas como la traducción automática y la generación de texto.
En general, ambas arquitecturas tienen ventajas y desventajas. Las RNN son útiles para modelar secuencias de longitud variable y pueden capturar dependencias de corto plazo en la secuencia. Sin embargo, pueden tener problemas de gradientes que dificultan el entrenamiento en secuencias largas. Los transformadores, por otro lado, son eficientes en términos de memoria y pueden capturar dependencias de largo alcance, pero pueden no ser tan buenos para secuencias de longitud variable. En última instancia, la elección de la arquitectura dependerá del conjunto de datos y la tarea específica en la que se esté trabajando.
Los modelos de lenguaje se utilizan en áreas como la lingüística computacional para modelar el lenguaje natural, así como estudiar las aproximaciones computacionales propias de la lingüística. Es un área de conocimiento muy compleja, que integra informática, inteligencia artificial, matemáticas, lógica, filosofía, ciencias del conocimiento, psicología cognitiva, psicolinguistica, antropología y neurociencias, entre otras. Son cosas de muchos y aquellas áreas que, a veces, se quieren hacer protagonistas están desfasadas de la actualidad. Los modelos de lenguaje también aportan significativamente en el reconocimiento de voz, para abordar las secuencias de palabras sin sentido. Que no se predicen y que por tanto tendrán una baja probabilidad de ocurrencia. Los modelos de lenguaje, tienen un papel relevante en la traducción automática, generación de lenguaje natural para crear textos parecidos a los humanos, reconocimiento grafológico, inducción dramática o recuperación de información, entre otras aplicaciones.
Desde 2018 los modelos de lenguaje extensos (LLMs, large languade models) incluyen redes neuronales profundas con miles de millones de parámetros manejables y se entrena en conjuntos de datos masivos de textos sin marcado alguno previo, lo que le ha habilitado como una especie de herramienta de propósito general.
Una aplicación muy singular de los modelos de lenguaje son la recuperación de información en los modelos de consulta más probable (query likelihood model). En este modelo, los documentos se clasifican en función de la probabilidad de su consulta. El modelo de lenguaje más usual en este campo es el denominado unigrama. Se puede entender como una combinación de autómatas finitos de un solo estado. Por tanto, la probabilidad de acertar en una palabra solo depende de ella, con lo que tenemos autómatas finitos de un solo estado. A su vez para cada autómata solamente tenemos una forma de lograr su único estado, mediante la asignación de una probabilidad. Naturalmente el modelo global exige que la suma de todas las probabilidades de alcanzar el estado sea la unidad. Es decir, la frase posible a dar como respuesta se construye con el requisito de que la suma de probabilidades sea la unidad.
Unos datos son reveladores, como los siguientes: para calcular la probabilidad de cada palabra en la frase "mañana por la mañana lloverá", necesitaríamos conocer el contexto en el que aparece la frase, así como las frecuencias de cada palabra en ese contexto. Eso supone disponer de una amplia base de datos como la que ofrece Internet. Sin embargo, dado que, en este caso, no hay información sobre el contexto específico, podemos hacer algunas suposiciones generales basadas en la frecuencia de las palabras en español. Según el corpus de referencia CORPES XXI, que contiene una muestra representativa de la lengua española en el siglo XXI, las frecuencias de las palabras en la frase son las siguientes:
Es importante tener en cuenta que estas frecuencias son aproximadas y pueden variar según el contexto específico en el que se utilice la frase. En general, las palabras más frecuentes en español, como los artículos y preposiciones, tienen una mayor probabilidad de aparecer en la frase, mientras que las palabras menos frecuentes, como el verbo "lloverá", tienen una probabilidad más baja.
En suma, con la información propia del contexto, tenemos que determinar la probabilidad de cada palabra en el vocabulario completo del modelo, en el que deberá sumar la unidad como total. La probabilidad generada para una consulta específica, entendida como la frase completa que formula la pregunta se calcula como

Se pueden construir modelos unigram, con diferentes probabilidades de acierto de las palabras. Para diferentes documentos se generan diferentes probabilidades de acierto para cada consulta. De esta forma es posible clasificar los documentos para una consulta de acuerdo a las probabilidades de generación. En cada contexto la probabilidad será diferente.
Hay modelos de lenguajes más sofisticados como los denominados N-grama que para determinar la probabilidad de observar la i-ésima palabra en el contexto de las i-1 palabras anteriores se aproxima por la probabilidad de observarla en la historia contexto abreviada de las n-1 anteriores palabras (lo que se denomina orden enésimo en la caracterización de Markov). Hay otros modelos para describir la probabilidad de palabras, incluyendo que no necesariamente son inmediatamente adyacentes y otros más sofisticados. Los modelos posicionales o los de redes neuronales permiten tratar secuencias exponencialmente crecientes en número, que requieren el uso de la estadística para estimar las probabilidades. En las redes neuronales las palabras se representan como combinaciones lineales de sus pesos en la red neuronal. Usualmente, los modelos de lenguaje basados en redes neuronales se construyen y entrenan como clasificadores probabilísticos que aprenden a predecir una distribución de probabilidad del vocabulario global en un contexto lingüístico.
En suma, la inteligencia artificial generativa es una subárea de la inteligencia artificial que se ocupa del desarrollo de sistemas capaces de generar datos o información nueva, como texto, imágenes, música o video. En la generación de texto, los modelos de lenguaje son uno de los enfoques más comunes en la inteligencia artificial generativa. Estos modelos utilizan técnicas como el aprendizaje profundo y el procesamiento del lenguaje natural para aprender patrones en grandes conjuntos de datos de texto y luego generan texto similar a partir de esos patrones.
En cuanto a la generación de imágenes, los modelos de redes generativas adversarias (GAN) son un enfoque muy extendido, consistentes en dos redes neuronales: una red generadora que crea nuevas imágenes y una red discriminadora que intenta distinguir entre las imágenes generadas por la red generadora y las imágenes reales. La red generadora utiliza la retroalimentación de la red discriminadora para mejorar la calidad de las imágenes generadas.
La música y el video también se pueden generar mediante modelos de inteligencia artificial generativa. Por ejemplo, los modelos de redes neuronales recurrentes pueden generar melodías de música a partir de patrones aprendidos en grandes conjuntos de datos de música. Los modelos de video generativos también se han utilizado para crear videos realistas a partir de imágenes fijas.
La inteligencia artificial generativa se ha utilizado en aplicaciones como la creación de arte, la generación de contenido para juegos y la creación de música y video. Sin embargo, también ha planteado preocupaciones éticas en torno a la originalidad y el uso adecuado de los datos y obras de arte generados por máquinas. Es recomendable una alfabetización mínima que nos garantice que no solamente somos usuarios de aquélla, sino, al menos, usuarios cualificados. Recomendable. Así podemos valorar como cada párrafo de respuesta en los sistemas hoy populares, procede de una generación que, en casos, puede llegar a ser contradictoria. Sigue siendo necesario el criterio del usuario en la temática que se trate, para valorar ajustadamente las respuestas y no dejarse sorprenden por resultados, digamos, insólitos.
Un modelo de lenguaje es una distribución de probabilidad de secuencias de palabras. Para una secuencia de palabras de longitud m, se le asigna una probabilidad a la secuencia que continúa. Los modelos de lenguaje generan probabilidades, gracias al entrenamiento previo usando textos escritos en varios idiomas. Ciertamente, un lenguaje abarca una gran variedad de oraciones válidas. El modelado de lenguaje incluye la espinosa cuestión de asignar probabilidad no nula a las secuencias, lingüísticamente válidas, pero que nunca intervendrán en su entrenamiento previo. Esto se aborda de varias formas, como la aplicación de la suposición de Markov o empleando arquitecturas neuronales como las denominadas redes neuronales recurrentes o transformadores.
La suposición de Markov en los modelos de lenguaje se refiere a la idea de que la probabilidad de una palabra en una secuencia de palabras depende solo de un número limitado de palabras anteriores en la secuencia, en lugar de depender de toda la historia de la secuencia. Esta suposición se basa en el concepto de una cadena de Markov, que es un proceso estocástico en el que la probabilidad de un estado futuro depende solo del estado actual, y no de los estados anteriores. En el caso de los modelos de lenguaje, se puede considerar cada palabra en una secuencia, como un estado, y la probabilidad de la siguiente palabra en la secuencia depende solo de la palabra actual y de un número limitado de palabras anteriores, conocido como el "orden" del modelo.
Por ejemplo, en un modelo de lenguaje de orden uno, la probabilidad de una palabra depende solo de la palabra anterior en la secuencia. En un modelo de orden dos, la probabilidad de una palabra depende de las dos palabras anteriores en la secuencia. La suposición de Markov es importante en los modelos de lenguaje porque permite simplificar el cálculo de las probabilidades de las secuencias de palabras, lo que los hace más eficientes y manejables computacionalmente. Sin embargo, también puede limitar la capacidad del modelo para capturar patrones complejos en el lenguaje, especialmente en casos donde las palabras anteriores no son una buena indicación de la próxima palabra en la secuencia.
Las redes neuronales recurrentes (RNN) y los transformadores son dos tipos de arquitecturas de redes neuronales que se utilizan comúnmente en la modelización del lenguaje natural. Las RNN son redes neuronales que utilizan unidades de memoria recurrente que permiten que la información se transmita entre unidades o pasos de tiempo en la secuencia de entrada. De esta manera, las RNN pueden capturar la dependencia temporal de las palabras en una secuencia y, por lo tanto, son útiles para tareas como la generación de texto, la traducción automática y el análisis de sentimientos, incluso.
Por otro lado, los transformadores son una arquitectura de red neuronal que no utiliza unidades recurrentes, sino que se basa en una operación de atención para modelar las dependencias en los datos de entrada. La atención es una operación que se utiliza para ponderar la importancia de cada elemento en una secuencia en función de su relación con otros elementos en la secuencia. Esta operación de atención se utiliza en múltiples capas en una arquitectura de transformador, lo que permite que la red capture dependencias de largo alcance en la secuencia de entrada. Los transformadores son particularmente útiles en tareas como la traducción automática y la generación de texto.
En general, ambas arquitecturas tienen ventajas y desventajas. Las RNN son útiles para modelar secuencias de longitud variable y pueden capturar dependencias de corto plazo en la secuencia. Sin embargo, pueden tener problemas de gradientes que dificultan el entrenamiento en secuencias largas. Los transformadores, por otro lado, son eficientes en términos de memoria y pueden capturar dependencias de largo alcance, pero pueden no ser tan buenos para secuencias de longitud variable. En última instancia, la elección de la arquitectura dependerá del conjunto de datos y la tarea específica en la que se esté trabajando.
Los modelos de lenguaje se utilizan en áreas como la lingüística computacional para modelar el lenguaje natural, así como estudiar las aproximaciones computacionales propias de la lingüística. Es un área de conocimiento muy compleja, que integra informática, inteligencia artificial, matemáticas, lógica, filosofía, ciencias del conocimiento, psicología cognitiva, psicolinguistica, antropología y neurociencias, entre otras. Son cosas de muchos y aquellas áreas que, a veces, se quieren hacer protagonistas están desfasadas de la actualidad. Los modelos de lenguaje también aportan significativamente en el reconocimiento de voz, para abordar las secuencias de palabras sin sentido. Que no se predicen y que por tanto tendrán una baja probabilidad de ocurrencia. Los modelos de lenguaje, tienen un papel relevante en la traducción automática, generación de lenguaje natural para crear textos parecidos a los humanos, reconocimiento grafológico, inducción dramática o recuperación de información, entre otras aplicaciones.
Desde 2018 los modelos de lenguaje extensos (LLMs, large languade models) incluyen redes neuronales profundas con miles de millones de parámetros manejables y se entrena en conjuntos de datos masivos de textos sin marcado alguno previo, lo que le ha habilitado como una especie de herramienta de propósito general.
Una aplicación muy singular de los modelos de lenguaje son la recuperación de información en los modelos de consulta más probable (query likelihood model). En este modelo, los documentos se clasifican en función de la probabilidad de su consulta. El modelo de lenguaje más usual en este campo es el denominado unigrama. Se puede entender como una combinación de autómatas finitos de un solo estado. Por tanto, la probabilidad de acertar en una palabra solo depende de ella, con lo que tenemos autómatas finitos de un solo estado. A su vez para cada autómata solamente tenemos una forma de lograr su único estado, mediante la asignación de una probabilidad. Naturalmente el modelo global exige que la suma de todas las probabilidades de alcanzar el estado sea la unidad. Es decir, la frase posible a dar como respuesta se construye con el requisito de que la suma de probabilidades sea la unidad.
Unos datos son reveladores, como los siguientes: para calcular la probabilidad de cada palabra en la frase "mañana por la mañana lloverá", necesitaríamos conocer el contexto en el que aparece la frase, así como las frecuencias de cada palabra en ese contexto. Eso supone disponer de una amplia base de datos como la que ofrece Internet. Sin embargo, dado que, en este caso, no hay información sobre el contexto específico, podemos hacer algunas suposiciones generales basadas en la frecuencia de las palabras en español. Según el corpus de referencia CORPES XXI, que contiene una muestra representativa de la lengua española en el siglo XXI, las frecuencias de las palabras en la frase son las siguientes:
- "mañana": 2 veces (frecuencia relativa: 0.060%)
- "por": 1 vez (frecuencia relativa: 1.825%)
- "la": 1 vez (frecuencia relativa: 3.406%)
- "lluvia": 1 vez (frecuencia relativa: 0.014%)
- "lloverá": 1 vez (frecuencia relativa: 0.0004%)
Es importante tener en cuenta que estas frecuencias son aproximadas y pueden variar según el contexto específico en el que se utilice la frase. En general, las palabras más frecuentes en español, como los artículos y preposiciones, tienen una mayor probabilidad de aparecer en la frase, mientras que las palabras menos frecuentes, como el verbo "lloverá", tienen una probabilidad más baja.
En suma, con la información propia del contexto, tenemos que determinar la probabilidad de cada palabra en el vocabulario completo del modelo, en el que deberá sumar la unidad como total. La probabilidad generada para una consulta específica, entendida como la frase completa que formula la pregunta se calcula como
Se pueden construir modelos unigram, con diferentes probabilidades de acierto de las palabras. Para diferentes documentos se generan diferentes probabilidades de acierto para cada consulta. De esta forma es posible clasificar los documentos para una consulta de acuerdo a las probabilidades de generación. En cada contexto la probabilidad será diferente.
Hay modelos de lenguajes más sofisticados como los denominados N-grama que para determinar la probabilidad de observar la i-ésima palabra en el contexto de las i-1 palabras anteriores se aproxima por la probabilidad de observarla en la historia contexto abreviada de las n-1 anteriores palabras (lo que se denomina orden enésimo en la caracterización de Markov). Hay otros modelos para describir la probabilidad de palabras, incluyendo que no necesariamente son inmediatamente adyacentes y otros más sofisticados. Los modelos posicionales o los de redes neuronales permiten tratar secuencias exponencialmente crecientes en número, que requieren el uso de la estadística para estimar las probabilidades. En las redes neuronales las palabras se representan como combinaciones lineales de sus pesos en la red neuronal. Usualmente, los modelos de lenguaje basados en redes neuronales se construyen y entrenan como clasificadores probabilísticos que aprenden a predecir una distribución de probabilidad del vocabulario global en un contexto lingüístico.
En suma, la inteligencia artificial generativa es una subárea de la inteligencia artificial que se ocupa del desarrollo de sistemas capaces de generar datos o información nueva, como texto, imágenes, música o video. En la generación de texto, los modelos de lenguaje son uno de los enfoques más comunes en la inteligencia artificial generativa. Estos modelos utilizan técnicas como el aprendizaje profundo y el procesamiento del lenguaje natural para aprender patrones en grandes conjuntos de datos de texto y luego generan texto similar a partir de esos patrones.
En cuanto a la generación de imágenes, los modelos de redes generativas adversarias (GAN) son un enfoque muy extendido, consistentes en dos redes neuronales: una red generadora que crea nuevas imágenes y una red discriminadora que intenta distinguir entre las imágenes generadas por la red generadora y las imágenes reales. La red generadora utiliza la retroalimentación de la red discriminadora para mejorar la calidad de las imágenes generadas.
La música y el video también se pueden generar mediante modelos de inteligencia artificial generativa. Por ejemplo, los modelos de redes neuronales recurrentes pueden generar melodías de música a partir de patrones aprendidos en grandes conjuntos de datos de música. Los modelos de video generativos también se han utilizado para crear videos realistas a partir de imágenes fijas.
La inteligencia artificial generativa se ha utilizado en aplicaciones como la creación de arte, la generación de contenido para juegos y la creación de música y video. Sin embargo, también ha planteado preocupaciones éticas en torno a la originalidad y el uso adecuado de los datos y obras de arte generados por máquinas. Es recomendable una alfabetización mínima que nos garantice que no solamente somos usuarios de aquélla, sino, al menos, usuarios cualificados. Recomendable. Así podemos valorar como cada párrafo de respuesta en los sistemas hoy populares, procede de una generación que, en casos, puede llegar a ser contradictoria. Sigue siendo necesario el criterio del usuario en la temática que se trate, para valorar ajustadamente las respuestas y no dejarse sorprenden por resultados, digamos, insólitos.
© 2023 Academia de Ciencias de la Región de Murcia