El fabricante de hardware informático Nvidia está desempeñando un papel más importante en la investigación genética a medida que experimenta un cambio transformador gracias a esfuerzos pioneros en inteligencia artificial (IA).
Desarrollado en un esfuerzo conjunto con el Laboratorio Nacional Argonne y la Universidad de Chicago, un nuevo modelo de lenguaje grande llamado GenSLMs ha llamado la atención por su capacidad para generar secuencias genéticas que reflejan fielmente las variantes del virus SARS-CoV-2 del mundo real, que causa el COVID-19. Esto sugiere que la IA puede exhibir una comprensión sofisticada de patrones genéticos complejos.
Los GenSLM también pueden distinguir entre variantes de COVID gracias a su entrenamiento en más de 110 millones de genomas, lo que le permite clasificar y agrupar secuencias de genomas.
“La capacidad de la IA para predecir los tipos de mutaciones genéticas presentes en las cepas recientes de COVID -a pesar de haber visto solo las variantes Alfa y Beta durante el entrenamiento- es una fuerte validación de sus capacidades”, dijo Arvind Ramanathan, investigador principal del proyecto en Argonne, en una declaración oficial compartida por Nvidia.
Por su parte en la investigación, Nvidia proporcionó al equipo recursos computacionales avanzados, incluidas las supercomputadoras con GPU NVIDIA A100 Tensor Core, que resultaron cruciales en el procesamiento del extenso conjunto de datos de secuencias de nucleótidos.
Impacto de los modelos de lenguaje grandes en genética
Los modelos de lenguaje grande centrados en la medicina, como GenSLM, Ankh y CancerGPT, representan avances importantes en la investigación genética moderna. Estos sistemas de IA aprenden de extensos conjuntos de datos textuales para predecir y generar patrones lingüísticos contextualmente relevantes. En genética, esto se traduce en la capacidad de analizar e interpretar secuencias genéticas complejas, muy similar al análisis lingüístico.
Esta aplicación innovadora de los LLM ha abierto un nuevo capítulo en genética, donde la comprensión profunda de las secuencias genéticas conduce a avances en la identificación de marcadores de enfermedades y el avance de la medicina personalizada.
Ankh, desarrollado en colaboración por las Universidades de Munich y Columbia con la startup biotecnológica Proteinea, profundiza en el lenguaje de las proteínas, mientras que CancerGPT, un proyecto conjunto de la Universidad de Texas y la Universidad de Massachusetts, predice interacciones farmacológicas en el tratamiento del cáncer mediante LLM. Estos estudios significan un cambio importante en el procesamiento y la obtención de conocimientos a partir de grandes cantidades de datos genéticos.
La capacidad de GenSLM para pronosticar mutaciones virales abre nuevas posibilidades para el desarrollo de vacunas y estrategias de tratamiento para enfermedades como COVID-19, afirma Nvidia. Las aplicaciones de Ankh en el desarrollo de fármacos y CancerGPT para comprender los tratamientos contra el cáncer están allanando el camino para intervenciones médicas más específicas y efectivas.
Editado por Ryan Ozawa.