Pensándolo bien...
La era de los datos multimodales ha surgido progresivamente con el avance y la convergencia de diversas tecnologías de recolección y análisis de datos. No hay una fecha específica que marque el inicio exacto de esta era, pero su desarrollo se puede rastrear a lo largo de varios hitos importantes en la evolución de la tecnología y la ciencia de datos.
A finales de los años 90 y principios de los 2000, la mejora en la resolución y capacidad de los dispositivos de imagen, como los microscopios de superresolución y resonancias magnéticas avanzadas, permitió la recolección de datos visuales con mucho detalle. El desarrollo de tecnologías de secuenciación de próxima generación también revolucionó la capacidad de obtener datos genómicos y transcriptómicos. En la década de 2010, la proliferación de plataformas de big data y la adopción generalizada de la computación en la nube facilitaron la gestión, almacenamiento y procesamiento de grandes volúmenes de datos de diferentes modalidades. Durante los últimos diez años, los avances en aprendizaje automático e inteligencia artificial han permitido el análisis y la integración de datos multimodales de manera más efectiva. Algoritmos avanzados pueden ahora combinar datos de múltiples fuentes para generar conocimiento profundo más completo.
La integración de datos multimodales se ha visto impulsada por proyectos colaborativos en biología, medicina y otras ciencias. Por ejemplo, iniciativas como el Proyecto del Genoma Humano y estudios longitudinales como UK Biobank han combinado datos genómicos, clínicos y de imagen, para avanzar en la comprensión de enfermedades complejas. A lo largo de la última década, un aumento en la publicación de artículos científicos que utilizan enfoques multimodales ha puesto de relieve la consolidación de esta metodología como un estándar en la investigación avanzada. Esta era continúa evolucionando a medida que nuevas tecnologías y métodos analíticos emergen y se integran en la investigación científica y aplicaciones prácticas en diversas disciplinas.
Los datos multimodales se refieren a la integración y el análisis de datos provenientes de múltiples fuentes o modalidades diferentes, cada una de las cuales puede capturar distintos aspectos de un fenómeno o proceso. Este enfoque es crucial en diversas áreas de investigación y aplicaciones prácticas, como la biología, la medicina, y la inteligencia artificial.
Los tipos de datos susceptibles de tratamiento multimodal son muy variados. Datos visuales obtenidos de diferentes tipos de microscopía, resonancia magnética (RMI), tomografía por emisión de positrones (PET), etc. La información sobre secuencias de ADN y ARN, proporciona detalles sobre la estructura genética y la expresión génica. Los datos sobre proteínas y metabolitos, reflejan los procesos bioquímicos dentro de las células y los tejidos. Datos como electroencefalogramas (EEG) o electrocardiogramas (ECG), capturan la actividad eléctrica del cerebro o el corazón. Información sobre la salud, historia médica y características demográficas de los pacientes.
La integración y el análisis, contempla la sincronización temporal, es decir, la alineación de datos recogidos en diferentes momentos para correlacionar eventos y cambios; la fusión de datos mediante la combinación de múltiples fuentes de datos para obtener una visión más completa y coherente; el análisis multidimensional, dado que la utilización de técnicas estadísticas y de aprendizaje automático permite extraer patrones y relaciones de los datos combinados.
Imagen elaborada con ayuda de ChatGPT con DALL-E
Las aplicaciones son muy variadas. Permite aportar planteamientos a la denominada medicina personalizada, dado que la integración de datos genómicos, proteómicos y clínicos, permite una comprensión más profunda de las enfermedades y el desarrollo de tratamientos personalizados. Por ejemplo, en el caso del Alzheimer, combinar imágenes cerebrales con datos genéticos y de expresión proteica, puede ayudar a identificar biomarcadores y predecir la progresión de la enfermedad; en Inteligencia artificial y aprendizaje automático, los modelos de aprendizaje automático se pueden entrenar con datos multimodales para mejorar la precisión y la robustez de las predicciones. En el reconocimiento de imágenes, la combinación de datos visuales con información contextual (como texto) mejora el rendimiento de los sistemas de visión por ordenador; en la investigación biológica, la integración de datos de distintas modalidades permite estudiar los sistemas biológicos de manera más holística. Por ejemplo, en la investigación del cáncer, combinar datos de imágenes de tejidos, perfiles de expresión génica y datos clínicos puede revelar nuevos conocimientos, relevantes sobre la biología del tumor y su respuesta al tratamiento.
Es un área en la que no están ausentes los retos a superar, dado que, en alguna manera la investigación científica siempre ha incluido el tratamiento multimodal accesible a los investigadores que llevaban a cabo los trabajos. La incorporación de nuevas tecnologías siempre estaba condicionada a la disposición de los aparatos y a la financiación de los proyectos. Ciertamente ahora se da un salto cualitativo por la magnitud de las tecnologías que se incorporan desde el surgimiento de los grandes sistemas de tratamiento de la información y la globalidad de la investigación científica.
Uno de los aspectos relevantes es la heterogeneidad de los datos, ya que las diferentes modalidades pueden tener distintas resoluciones, formatos y escalas temporales, lo que complica su integración; el manejo de grandes volúmenes de datos diversos requiere infraestructuras consistentes de almacenamiento y procesamiento;; es importante la interoperabilidad, dado que es esencial garantizar que los sistemas y herramientas utilizadas para recolectar y analizar datos multimodales puedan trabajar conjuntamente de manera eficiente.
Hay muchos ejemplos relevantes de la utilización de la metodología, como el “Staci Group”, que utiliza datos multimodales en su investigación sobre el Alzheimer para integrar imágenes cerebrales, datos genómicos y clínicos, proporcionando una comprensión integral de la progresión de la enfermedad. Por otro lado, muchas instituciones y empresas están invirtiendo en tecnologías de “big data” para gestionar y analizar datos multimodales, mejorando así la toma de decisiones basada en datos. Los datos multimodales representan un enfoque potente para abordar problemas complejos al integrar diversas fuentes de información, proporcionando así una comprensión más completa y precisa de los fenómenos estudiados.
Staci Group ha desarrollado tecnología avanzada para identificar cómo las células y los tejidos revelan la progresión de la enfermedad de Alzheimer a través de una serie de técnicas espaciales y de imagen. Esta tecnología permite el análisis detallado de los cambios patológicos en el cerebro, proporcionando una visión más profunda de la enfermedad. Las técnicas espaciales y de imagen utilizadas incluyen: a) microscopía confocal, que utiliza láseres para obtener imágenes detalladas de las células y los tejidos, permitiendo la visualización de las placas amiloides y los ovillos neurofibrilares, que son característicos de la enfermedad de Alzheimer; b) resonancia magnética nuclear de Imagen, que permite la visualización de cambios estructurales en el cerebro, como la atrofia del hipocampo, que es común en etapas avanzadas de Alzheimer; c) tomografía por emisión de positrones (PET), que se utiliza para detectar la acumulación de la proteína beta-amiloide en el cerebro, proporcionando información sobre la progresión de la enfermedad antes de que aparezcan los síntomas clínicos; d) Inmunohistoquímica, que utiliza anticuerpos específicos para detectar proteínas asociadas con la enfermedad de Alzheimer en las muestras de tejido cerebral, y e) secuenciación de ARN, que permite el análisis de la expresión génica en las células del cerebro, proporcionando información sobre los cambios moleculares que ocurren en la enfermedad de Alzheimer. El uso combinado de estas técnicas permite a los investigadores de Staci obtener una comprensión integral de cómo la enfermedad de Alzheimer afecta a las células y los tejidos a nivel molecular y estructural, lo que puede conducir a nuevas estrategias para el diagnóstico temprano y el tratamiento de la enfermedad.
En la era de los datos multimodales, la investigación de las células y los tejidos ha evolucionado significativamente gracias a la integración de diferentes tecnologías de imagen y análisis. Esta integración permite obtener una visión más completa y detallada de los procesos biológicos y las enfermedades como el Alzheimer. La era de los datos multimodales está revolucionando la biología celular y la investigación de enfermedades, proporcionando herramientas poderosas para el diagnóstico precoz, el seguimiento de la progresión de la enfermedad y el desarrollo de nuevas terapias. Estas tecnologías, aplicadas conjuntamente, ofrecen una perspectiva multidimensional que es crucial para desentrañar la complejidad de enfermedades como el Alzheimer.
Se anuncia un nuevo trabajo en el MIT, como relata Xiao Wang, uno de los coautores. Anteriormente había trabajado con el Instituto Broad en el desarrollo de una forma de análisis de células espaciales combinando múltiples formas de imágenes celulares y expresión génica para la misma célula, al tiempo que mapeaba el lugar de la célula en la muestra de tejido de que provenía, algo que nunca se había hecho antes. Esto permite incluir nuevas formas de rastrear la evolución de enfermedades, con la dificultad de analizar la ingente cantidad de datos multimodales que se obtenían. Se incorporó para su trabajo doctoral Zhang con el objetivo de diseñar un método computacional que fuera capaz de llevar a cabo el proyecto. El diseño se formuló a partir de centrar el método de elección de imagen en la mancha debida a la tinción para visualizar estructuras celulares específicas bajo el microscopio. Los datos alimentaron a una red neuronal diseñada por Zhang, que codifica y trata grandes cantidades de datos, partiendo de una compresión y posteriormente se produce la expansión al tamaño original. En este caso el proceso fue el inverso, partió de los datos de entrada y los convirtió en un esquema de mayor dimensión, lo que permitió combinar datos de distinta procedencia. La tecnología que se utilizó es la que hemos descrito denominada STACI. El objetivo es identificar cómo las células y los tejidos revelan la progresión de la enfermedad de Alzheimer cuando se observa bajo una serie de técnicas espaciales y de imagen. El modelo también se puede utilizar para analizar cualquier otra enfermedad, dice Zhang.
Una tecnología prometedora que viene a combinar datos de distintas fuentes y análisis y tratamiento mediante redes neuronales con estrategia de expansión de datos que dé cobertura a los distintos orígenes de los datos.
Sopa de letras: LA ERA DE LOS DATOS MULTIMODALES
Soluciones: LA ENERGÍA EN LA IA