La inteligencia artificial está cambiando la investigación en los laboratorios de biología y biomedicina. Ahora, un equipo científico ha logrado crear un nuevo sistema capaz de predecir el funcionamiento interno de las células, lo que podría influir en la comprensión del cáncer y otras enfermedades.
Esta nueva inteligencia artificial (IA) trabaja de manera semejante a los modelos de lenguaje, como ChatGPT, que utilizan un conjunto de datos de entrenamiento para identificar las pautas subyacentes -la gramática del lenguaje y en el nuevo caso los estados y mecanismos celulares-, y luego aplicar esas reglas inferidas a nuevas situaciones.
Para esta ocasión, se ha entrando a un modelo de aprendizaje profundo, denominado GET, con datos de más de 1,3 millones de células de 213 tipos obtenidas de tejido humano sano. Detrás de esta nueva IA hay científicos de la Universidad de Columbia, Estados Unidos, liderados por el español Raúl Rabadán, experto en biología de sistemas y genómica de cáncer.
Los detalles de GET (siglas en inglés de transformador general de expresión génica) se publicaron recientemente en la revista Nature y, tal y como confirma a EFE Rabadán, el algoritmo es público, está a disposición de toda la comunidad científica. “Estamos trabajando muy activamente en la siguiente versión de GET 2.0”.
“GET es el principio, mi grupo en Columbia está ahora expandiendo el método a más de 50 millones de células, y con aplicaciones en el estudio de distintos cánceres (tumores de cerebro, linfomas, entre otros). Las aplicaciones son enormes”, recalca el investigador.
Un paso más en la predicción
Las herramientas tradicionales de investigación en biología son buenas para revelar cómo las células realizan su trabajo o reaccionan ante las perturbaciones, pero no pueden predecir cómo funcionan las células o cómo responderían ante un cambio, como una mutación cancerígena.
“Tener la capacidad de predecir con exactitud las actividades de una célula transformaría nuestra comprensión de los procesos biológicos fundamentales”, afirma en un comunicado de Columbia el investigador, director del Programa de Genómica Matemática en la citada universidad.
En los últimos años, la acumulación de cantidades masivas de datos de células y modelos de IA potentes, como AlphaFold de Google o ESMFold de Meta, diseñados para revelar la estructura de las proteínas, están empezando a transformar la biología en una ciencia más predictiva.
De hecho, el Premio Nobel de Química de 2024 se concedió a investigadores por su trabajo pionero en el uso de la IA para predecir precisamente estructuras de proteínas, piezas fundamentales de la vida. Pero el uso de estos métodos para vaticinar las actividades de genes y proteínas dentro de las células ha resultado más difícil.
Para avanzar en este campo, Rabadán y su equipo diseñaron la nueva IA para predecir qué genes están activos en células concretas. Esta información sobre la expresión génica -proceso por el que se obtienen proteínas a partir de genes- puede indicar la identidad de la célula y cómo realiza sus funciones.
Y es que todas las células del cuerpo tienen el mismo ADN pero funciones distintas. Lo que cambia y determina su función (o cuando no funcionan) son los genes que se expresan, es decir, la cantidad de proteínas que se generan en cada célula.
“La expresión es como el volumen de cada gen, unos están apagados y otros se expresan mucho; hay genes que se expresan mucho en una célula y poco en otra. Lo que GET aprende es la ‘gramática’ de qué genes se expresan en cada célula”, explica a EFE Rabadán.
Tras entrenarse con datos de más de 1,3 millones de células humanas, el sistema fue lo bastante preciso como para predecir la expresión génica en tipos de células que nunca había visto, con resultados muy similares a los experimentales realizados después en el laboratorio.
“Podemos, por ejemplo, entrenar el modelo sin que nunca haya visto un astrocito y pedirle que haga predicciones de la expresión de todos los genes en estas células nerviosas”.
“Materia oscura” del genoma
Los nuevos métodos computacionales también deberían permitir a los investigadores empezar a explorar el papel de la “materia oscura” del genoma, un término tomado de la cosmología que se refiere a la gran mayoría de este, que no contiene genes codificadores de proteínas.
“La inmensa mayoría de las mutaciones halladas en pacientes con cáncer se encuentra en las llamadas regiones oscuras del genoma, mutaciones que no afectan a la función de una proteína y han permanecido en su mayor parte inexploradas”, describe Rabadán.
La idea es que utilizando estos modelos se puedan observar las mutaciones e iluminar esa parte del genoma.
“La IA está cambiando la investigación en biología y en biomedicina”, resume Rabadán, para quien el número de experimentos potenciales es muy alto.