Un equipo de investigadores de la Universidad de Cambridge ha desarrollado un sistema de inteligencia artificial capaz de predecir cómo reaccionan las células cuando se modifica un gen. El modelo, llamado PT-RAG, supera a enfoques anteriores y podría acelerar la investigación biomédica, el descubrimiento de fármacos y el estudio de enfermedades complejas.
El desafío de predecir cómo responden las células a cambios genéticos
Comprender cómo reaccionan las células cuando se altera un gen es uno de los problemas más complejos de la biología molecular. Cuando los científicos desactivan o modifican un gen dentro de una célula, la reacción no se limita a ese único elemento. En realidad, la modificación desencadena una cascada de cambios que puede afectar a miles de genes adicionales, alterando múltiples procesos celulares al mismo tiempo.
Este fenómeno hace que predecir el resultado de una perturbación genética sea extremadamente difícil. En laboratorio, los investigadores realizan experimentos específicos para observar estos cambios, pero cada uno requiere tiempo, recursos y condiciones muy controladas. Además, el comportamiento puede variar entre distintos tipos celulares, lo que obliga a repetir los experimentos en múltiples contextos.
En los últimos años, los modelos de aprendizaje profundo han intentado resolver este problema mediante simulaciones computacionales. La idea es entrenar algoritmos con grandes cantidades de datos de expresión génica para que aprendan a predecir cómo reaccionará una célula ante una modificación genética.
Sin embargo, los modelos anteriores tenían una limitación importante: su capacidad de generalización era baja. Funcionaban bien en escenarios similares a los datos de entrenamiento, pero fallaban cuando debían predecir respuestas en células diferentes o ante perturbaciones nuevas. En muchos casos, el problema era la falta de información contextual durante el proceso de predicción.
Resolver esta limitación es clave para avanzar en campos como la genómica, la biomedicina y la investigación farmacéutica. Aquí es donde entra en juego el nuevo modelo desarrollado por investigadores de Cambridge.
Cómo funciona PT-RAG y por qué representa un avance

El modelo PT-RAG (Perturbation-aware Two-stage Retrieval-Augmented Generation) introduce una estrategia innovadora inspirada en técnicas utilizadas en el procesamiento de lenguaje natural. En lugar de generar predicciones únicamente a partir de lo aprendido durante el entrenamiento, el sistema consulta ejemplos relevantes antes de producir una respuesta.
El funcionamiento del modelo se divide en dos etapas principales.
La primera es la fase de recuperación. En este paso, el sistema busca dentro de una base de datos de experimentos previos aquellas perturbaciones genéticas que sean más parecidas al caso que intenta predecir. Para hacerlo utiliza embeddings generados por GenePT, un modelo de lenguaje diseñado para representar genes y sus funciones biológicas.
La segunda etapa introduce el elemento clave del modelo: un refinamiento adaptativo. En lugar de usar directamente los ejemplos recuperados —como ocurre en los sistemas RAG tradicionales— PT-RAG emplea un mecanismo basado en Gumbel-Softmax que selecciona de forma diferenciable los ejemplos más útiles según el estado celular y la perturbación analizada.
Este proceso permite que el sistema adapte sus predicciones al contexto biológico específico, algo que los modelos anteriores no lograban hacer con suficiente precisión.
Los investigadores descubrieron además un detalle importante: aplicar un sistema RAG convencional sin este refinamiento consciente del tipo celular puede incluso empeorar las predicciones. Este hallazgo muestra que las técnicas de inteligencia artificial deben adaptarse cuidadosamente cuando se trasladan a dominios científicos complejos.
Resultados y posibles aplicaciones en medicina

El rendimiento de PT-RAG fue evaluado utilizando el conjunto de datos Replogle-Nadig, uno de los datasets más completos disponibles sobre perturbaciones genéticas de un solo gen en células individuales.
Los resultados muestran que el modelo supera a los sistemas considerados estado del arte en este campo. Las mejoras fueron especialmente notables en las métricas de similitud distribucional W1 y W2, que miden qué tan bien un modelo reproduce la distribución completa de expresión génica.
Esto es importante porque muchas herramientas previas solo predicen el cambio promedio en la expresión de un gen. En cambio, PT-RAG logra capturar la variabilidad natural que existe entre células individuales, un factor fundamental para comprender procesos biológicos reales.
Las posibles aplicaciones de esta tecnología son amplias. En el campo del descubrimiento de fármacos, el modelo podría ayudar a predecir cómo responderán distintos tipos celulares a la modificación de genes diana, lo que aceleraría la identificación de tratamientos prometedores.
También abre nuevas posibilidades para la medicina personalizada, ya que permitiría modelar cómo diferentes perfiles genéticos responden a ciertas intervenciones. Esto podría conducir a terapias más adaptadas a cada paciente.
Además, el sistema ofrece una herramienta poderosa para la biología fundamental, permitiendo explorar perturbaciones genéticas de manera computacional cuando los experimentos en laboratorio resultan demasiado costosos o difíciles de realizar.
El modelo PT-RAG demuestra cómo la inteligencia artificial puede transformar la investigación genética. Al predecir con mayor precisión las respuestas de las células a cambios en los genes, esta tecnología podría acelerar el desarrollo de fármacos, mejorar la medicina personalizada y abrir nuevas vías para comprender los mecanismos fundamentales de la biología.
Referencia:
arXiv / Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation. Link