Publicaciones

null Discurso de investidura de Darío Gil como Académico de Honor

EL FUTURO DE LA COMPUTACIÓN

En este claustro donde mentes brillantes a lo largo de los años han compartido su saber y sus creaciones para el beneficio de la ciencia, de la humanidad y de las distintas profesiones, ofrezco hoy una breve reflexión de un campo que ha transformado nuestras vidas: el mundo de las tecnologías de la información y de la computación.

“La información es la resolución de la incertidumbre”, nos dijo Claude Shannon, pionero del campo de la teoría de la información, hace ya más de 70 años. Fue Shannon el que desarrolló la base teórica con la que hemos construido el mundo digital, formalizando matemáticamente la intuición y la ambición de Leibniz, que anticipó, ya en siglo 18, el potencial de los sistemas de aritmética binarios para codificar y manipular conceptos de complejidad arbitraria. Es decir, anticipó el poder de lo digital, del mundo de los ceros y unos.

En ese mundo comenzó mi carrera profesional en IBM.

En el mundo de los bits, de la ley de Moore y de la Ley de Escalado de Dennard. Durante casi 60 años se ha mantenido un ritmo exponencial de in- novación, haciendo que los bits sean cada vez más baratos y más rápidos, ganando eficiencia y rendimiento cada vez que se duplicaba la densidad de los transistores de los chips. En consecuencia, se creaban microprocesadores cada dos años que eran el doble de potentes que la generación anterior al mismo coste. Año tras año y década tras década. Avances que han hecho posible la digitalización del mundo y que todos llevemos en nuestros bolsillos móviles con capacidades computacionales que hubieran sido la envidia de las mejores supercomputadoras del mundo hace tan sólo unas décadas.

La fabricación de estas ciudades digitales en miniatura que son los chips era mi campo y mi fascinación. Mi director de tesis doctoral, el Profesor Henry I. Smith, catedrático de Nanotecnología del Instituto Tecnológico de Massachusetts y gran pionero de la nanofabricación, fue el que me educó en las técnicas de crear estos mundos invisibles, donde las escalas se miden en intervalos de la millonésima parte de un milímetro. Gracias a estas técnicas litográficas, hoy fabricamos chips del tamaño de un sello que contienen cientos de miles de millones de transistores integrados con precisión nanométrica. Cuando integramos miles de estos chips en supercomputadoras, los sistemas más avanzados son capaces de realizar un trillón de cálculos por segundo. Si reflexionamos sobre esos números y lo que significan, vemos que es realmente extraordinario. Todo esto es el fruto del trabajo de cientos de miles de inves- tigadores e ingenieros trabajando a lo largo de décadas, el resultado de inver- siones acumuladas que se miden en billones de euros.

Podemos usar estas máquinas para ayudarnos a acelerar los descubrimientos científicos. Por ejemplo, durante la pandemia de COVID-19, usamos esta forma de computación para modelar con gran precisión el coronavirus, su proteína de la espícula y las formas específicas en que se pliegan las proteínas. Esas simulaciones computacionales nos ayudan a entender los tipos de molé- culas que pueden ligarse a la proteína para desactivarla. De hecho, en marzo

del 2020, tuve el gran privilegio de concebir y liderar una coalición internacional de centros de supercomputación para hacer disponible de manera gratuita estas herramientas extraordinarias a los mejores científicos del mundo para acelerar los descubrimientos en la lucha contra la pandemia.

Desde la idea original hasta que lo anunció el presidente de los EE. UU. en una rueda de prensa en la Casa Blanca pasaron tan solo unos días. Se unieron decenas de instituciones: la NASA, la Sociedad Nacional de la Ciencia, los Laboratorios Nacionales de EE. UU., y numerosas compañías, incluyendo a Google, Microsoft, HP, IBM, Oracle, y muchas otras. Se convirtió en la colaboración pública-privada más grande de la historia de la supercomputación, y se hizo sin un solo contrato. Un ejemplo extraordinario de la urgencia de la cien- cia. El consorcio evolucionó a lo que es hoy la Reserva Científica Internacional, una red de comunidades científicas abiertas que trabajan en la preparación y mitigación de crisis globales complejas y urgentes.

Lo que nos lleva al momento actual. La importancia de los bits en la computación continuará, pero su papel evolucionará al unirse como elemento clave en una sinfonía que también estará compuesta por la inteligencia artificial y la computación cuántica. Lo resumo en que el futuro de la computación va a estar definido por la combinación de bits, neuronas y cúbits.

Como ya hemos hablado de bits, desglosemos brevemente los dos nuevos ingredientes. Si bien el mundo de los bits integró la lógica y las matemáticas en una formalización digital, con las neuronas y los cúbits vamos a incorporar ideas de los campos de la neurobiología y de la física cuántica para expandir el horizonte de la naturaleza de la información y de su representación.

Santiago Ramón y Cajal, hace ya más de un siglo, descubrió que en los cerebros de los animales existen unas células llamadas neuronas, que contienen extensiones llamados axones, y que estos axones se conectan unos con otros a través de sinapsis, que son la base de la memoria y el aprendizaje. Fue sin mucho más que con esta inspiración biológica, que en los años cuarenta una serie de matemáticos propusieron la idea de redes neuronales artificiales.

En las redes neuronales, cada neurona tiene una función simple, activarse y enviar una señal a las siguientes neuronas, o el no hacerlo y mantenerse en silencio. En este sentido la neurona es binaria, digital. Pero la decisión de si debe activarse es fruto de la acumulación y de la suma de numerosas señales que integra de otras neuronas a las que está conectada. Este es su componente analógico.

Cuando decimos que la inteligencia artificial es capaz de “aprender”, nos referimos al proceso en el que formamos redes donde los vértices representan neuronas organizadas en capas, con conexiones entre vértices que emulan a las sinapsis, imitando la intersección entre axones que vemos en las redes neuronales de nuestro cerebro.

Veamos un ejemplo. Supongamos que queremos enseñar a un sistema a identificar una manzana.

Creamos una red neuronal y representamos los datos en esos vértices y sus conexiones. Usamos una multitud de ejemplos de todo tipo de imágenes, incluyendo también imágenes de manzanas, para variar de manera progresiva e iterativa la importancia de cada conexión entre neuronas de modo que al final haya una neurona que sólo se activa si en los datos de entrada hay una manzana. Decimos entonces que la red neuronal aprendió lo que es una manzana.

El progreso extraordinario que estamos viviendo en el campo de la inteligencia artificial es el resultado de crear redes neuronales artificiales con miles de millones de neuronas interconectadas. Cada una de esas conexiones nos permite codificar características esenciales de lo que tratamos de reconocer. Estas redes neuronales artificiales son capaces de aprender representaciones complejas de nuestro mundo ingiriendo cantidades extraordinarias de datos. Los sistemas más avanzados de procesamiento del lenguaje natural, que son, por poner un ejemplo, la base de la traducción automática entre idiomas, rea- lizan esta tarea extrayendo las relaciones latentes que están presentes en miles de millones de frases que encontramos en nuestros universos digitales y que aportamos como ejemplos a nuestras redes neuronales artificiales.

Tras décadas de desarrollo en técnicas de redes neuronales y aprendizaje automático, donde se consiguieron éxitos en varios sectores, la IA pasó a su próxima etapa de madurez en estos últimos años con una tecnología conocida como modelos fundacionales, también conocidos como grandes modelos de lenguaje.

Los modelos fundacionales funcionan aprovechando técnicas de aprendizaje profundo utilizando redes neuronales de miles de millones de parámetros mediante un aprendizaje sin intervención y auto-supervisado.

Funciona así.

Le proporcionamos al modelo, por ejemplo, 100 mil millones de frases e implementamos un juego muy sencillo para que la red neuronal aprenda los fundamentos de la estructura del lenguaje.

El juego consiste en ocultar de forma aleatoria palabras de las frases que usamos para entrenar al modelo y luego le pedimos a la red neuronal que adivine la palabra que hemos ocultado.

Por ejemplo, digamos que una de las frases es «se llevan como el perro y el gato». En este caso, ocultamos la palabra «gato» y le pedimos a la red sus pre- dicciones. En un principio se equivoca, pero seguimos optimizando la red de forma automática hasta que dé con la respuesta correcta.

Luego escogemos otra frase y repetimos el proceso. En este caso «a lo he- cho, pecho» y hacemos lo mismo con miles de millones de frases. Cuando se haya acabado de jugar a este juego, la red habrá aprendido una representación avanzada del lenguaje, incluyendo gramática, semántica y un enorme número de relaciones conceptuales.

El rendimiento del modelo también se puede aumentar mediante ingenie- ría rápida, ajuste rápido, ajuste fino y otras tácticas como el aprendizaje reforzado con retroalimentación humana (RLHF). Por poner un ejemplo sencillo, digamos que queremos crear un modelo que detecte el sentimiento de un texto (por ejemplo, si un artículo tiene un cobertura positiva o negativa sobre un determinado tema). Tan solo necesitamos unas 1,000 frases etiquetadas es- pecíficas a la tarea para ajustar un modelo fundacional creado a partir de 100 mil millones de frases sin etiquetar. Es algo increíble.

Los modelos fundacionales han hecho que los modelos de IA con capacidad de cubrir un gran número de casos de uso sean más fáciles de crear, más rápidos de implementar y más útiles para la ciencia y los negocios. Así hemos visto cómo la IA se está convirtiendo en algo fundamental en mucho de lo que hacemos. A mí me gusta explicar la importancia de la IA de esta forma: la IA es software, y donde hay software hoy, habrá IA mañana.

El tercer elemento de la ecuación del futuro de la computación son los cúbits.

Si algo está indeleblemente grabado en el ADN de los científicos es la obsesión de cuestionar. No siempre tenemos las respuestas correctas, pero in- tentamos formular cada vez preguntas mejores.

Fue así como el físico y Fellow de IBM, Rolf Landauer, entendió en los años sesenta que la información realmente es física y que debemos ver la computación como un proceso físico. Esto quiere decir que podemos representar in- formación con parámetros físicos, y que se pueden usar superposiciones mecánico-cuánticas de estados que contienen información.

Sabiendo eso, la comunidad empezó a preguntarse por qué algunos problemas son intrínsecamente difíciles de calcular, como es el caso de simular los procesos físicos y químicos que observamos en la naturaleza.

Al final de los años sesenta y a principios de los 70, aparecieron las prime- ras ideas de hacer tareas criptográficas y procesamiento de información basada en los principios de la mecánica cuántica. En 1980, Paul Benioff propuso cómo usar sistemas cuánticos como modelos de computación.

El físico Edward Teller una vez dijo que la ciencia de hoy es la tecnología del futuro. Pues bien, la ciencia de esos años es la tecnología de computación cuántica de hoy, una tecnología que promete transformaciones profundas para nuestra sociedad.

La razón es que existen problemas que ni siquiera las supercomputadoras más potentes pueden resolver porque los recursos computacionales necesarios—sea en tiempo o en bits—crecen exponencialmente con el tamaño de los problemas. Esto incluye problemas de física, de química y de creación de nue- vos materiales. Son problemas que incorporan la esencia cuántica de la natu- raleza. La idea es usar sistemas cuánticos para entender el funcionamiento de nuestro mundo, que sabemos está basado en la mecánica cuántica.

La computación cuántica no es simplemente una ganancia incremental, otro nodo en la ley de Moore. No se trata de hacer las mismas cosas mejor. Se trata de hacer cosas de manera fundamentalmente distinta, sin analogía en el mundo de la computación tradicional, y resolver lo convencionalmente irresoluble.

Un ordenador cuántico codifica información en bits cuánticos o cúbits que están en estados entrelazados cuánticamente. Esos estados son combinaciones lineales de estados de 0s y 1s. Pueden ser mucho cero y poco uno, todo uno y nada cero, igual de cero que uno, etc. Cada estado queda definido por una amplitud que pueden ser positiva o negativa.

Cúbits entrelazados cuánticamente contienen más información de la que contiene cada cúbit individualmente. De hecho, si miras a cada uno individualmente, ves solo algo aleatorio y no aprendes nada de la información del sistema en su conjunto. Tienes que observar a los cúbits en su conjunto para ver la información presente en el sistema, ya que hay información codificada en las correlaciones entre los cúbits.

La computación cuántica es el proceso de aplicar operaciones a esos esta- dos entrelazados para usar las amplitudes positivas y negativas e interferir los estados para obtener soluciones a problemas mucho más eficientemente. Nada de eso es posible con la computación convencional y nos promete gran- des ventajas; no en todos los problemas, pero sí en ciertos tipos de problemas de gran importancia para nuestro futuro.

Además de problemas de física, química y ciencias de materiales, como dije anteriormente, esperamos ventajas en problemas de datos con estructura compleja como el caso de la factorización, donde hay una estructura muy particular escondida en el problema, un patrón que se repite en una secuencia de números. Pensamos que algo similar puede pasar en ciertos casos en aprendi- zaje automático o en clasificación en grupos donde puede haber estructuras complejas. Y hay problemas como la optimización, y el análisis de riesgos, donde la ventaja que esperamos es menor, pero donde incluso ventajas me- nores en la exactitud de las soluciones pueden llevar a grandes ganancias.

Hemos visto un progreso muy rápido en esta tecnología. Pusimos el primer sistema cuántico programable en la nube de IBM en mayo del 2016, y eso le permitió a cualquier persona en cualquier parte del mundo experimentar con un sistema cuántico. En el 2019 lanzamos el primer ordenador cuántico integrado del mundo, el Quantum System One. Fue la primera vez que la computación cuántica salió de los confines de un laboratorio de investigación, en un sistema de diseño comercial que desde entonces se ha instalado alrededor del mundo.

Se ha formado una comunidad muy vibrante de usuarios a nivel mundial. Las computadoras cuánticas se han convertido ya en herramientas para el des- cubrimiento científico. Podemos así decir que la primera aplicación de alto impacto de la computación cuántica ha sido ya el I+D. Ha habido un crecimiento exponencial en el número de artículos científicos que se han publicado usando sistemas cuánticos, y vemos con entusiasmo como sigue aumentando rápidamente el número de certificaciones de desarrolladores cuánticos.

También vemos como muchas empresas han empezado a investigar el uso de la computación cuántica para crear ventajas competitivas. Estas incluyen la industria aeroespacial y la del automóvil, los servicios financieros, la alta tecnología, el sector energético, y el de la salud. En fin, estamos viendo el nacimiento de una nueva industria.

Tres tecnologías, bits, neuronas y cúbits. Y grandes avances en las tres.

Sin embargo, tal vez el aspecto menos comprendido es la implicación tan profunda que tendrá su convergencia, es decir, la unión del mundo de los bits, neuronas y cúbits. La combinación del poder de lo digital, combinado con el poder de aprender de la inteligencia artificial, aunado al poder de resolver problemas que hasta ahora eran irresolubles gracias a la computación cuán- tica.

De hecho, ya estamos empezando a ver los primeros ejemplos de esta con- vergencia. El año pasado llevamos los ordenadores cuánticos a la computación de alta precisión cuando combinamos nuestros sistemas cuánticos de Nueva York con Fugaku, la mayor supercomputadora de Japón, para hacer una simulación química de un grupo de hierro-azufre.

Es el primer ejemplo de lo que serán los superordenadores cúanticos.

Funcionan de la siguiente manera. En este ejemplo el usuario está en California y desde allí envía el problema a resolver. El problema se implementa a través de una serie de circuitos computacionales cuánticos, y esos circuitos se optimizan para ejecutarse en los sistemas cuánticos que tenemos en Nueva York. Los resultados se envían a Fugaku en Kobe, Japón, donde se hacen operaciones matemáticas de proyección y diagonalización que se ejecutan en paralelo, y el resultado final se envía al usuario en California. Así vemos que la computación cuántica no va a sustituir a la clásica, sino que funcionarán de manera conjunta.

Otro ejemplo del poder de la convergencia de tecnologías es cómo la IA nos ayuda a hacer que nuestros sistemas cuánticos sean más fáciles de usar. Utilizando los modelos fundacionales de los que hablamos antes, ya tenemos a la IA programando computadoras cuánticas. Permite al usuario usar el lenguaje natural para decir al asistente de IA el problema que quiere resolver, y el asistente le escribe el código a ejecutar. Ofrece un camino emocionante para democratizar la computación cuántica.

Imaginen las implicaciones de lo que será posible con esta convergencia de tecnologías para ampliar las fronteras de la ciencia y del conocimiento.

La historia de la computación no se ha terminado de escribir. Estamos entrando tal vez en su capítulo más fascinante, en el que espero que España juegue un papel importante.

Aunque sé que a veces nos da vértigo el progreso tecnológico, debemos recordar que no se nos han acabado los problemas a resolver en nuestra sociedad, y que la ciencia y la tecnología han de ser fuentes de soluciones a nuestros desafíos más importantes.

                    Muchas gracias por el honor que hoy me otorgan y por acompañarme en este día tan                   especial.