Esta IA Lee tus Instrucciones de Química y Encuentra la Mejor Manera de Construirte una Molécula

En Resumen

Investigadores de la EPFL presentaron Synthegy, un framework que usa LLMs para evaluar rutas de síntesis química con un 71% de coincidencia con expertos.
El sistema permite a químicos describir objetivos en lenguaje natural y analiza decenas de rutas en 12 minutos a un costo de entre $2 y $3.
Gemini-2.5-pro obtuvo el mejor rendimiento en los benchmarks, mientras DeepSeek-r1 destacó como alternativa de código abierto ejecutable localmente.

Diseñar una molécula desde cero es uno de los problemas más difíciles de la química. No se trata solo de saber qué átomos conectar, sino de conocer el orden correcto de las reacciones, cuándo proteger las partes sensibles de la molécula y cómo evitar callejones sin salida que podrían arruinar meses de trabajo en el laboratorio.

Tradicionalmente, ese conocimiento vive en la mente de los químicos experimentados. Ahora, un equipo de la EPFL quiere incorporarlo a un modelo de lenguaje.

Investigadores liderados por Philippe Schwaller publicaron un artículo esta semana en Matter que describe Synthegy, un framework que usa Large Language Models (LLM) como motores de razonamiento para la planificación de síntesis química. La idea central es sutil pero importante: en lugar de pedirle a la IA que genere moléculas, el equipo la usa para evaluar rutas de síntesis que el software tradicional ya produce.

Así es como funciona: un químico escribe un objetivo en inglés sencillo, algo como “formar el anillo de pirimidina en las etapas iniciales”. Luego, el software de retrosíntesis existente —que trabaja descomponiendo moléculas objetivo en piezas más simples— genera decenas o cientos de rutas de síntesis posibles.

Synthegy convierte cada ruta en texto y se la entrega a un LLM, que evalúa cada ruta según qué tan bien coincide con la instrucción del químico. Las mejores suben a la cima, junto con explicaciones escritas del porqué.

“Al crear herramientas para químicos, la interfaz de usuario importa mucho, y las herramientas anteriores dependían de filtros y reglas engorrosas”, señaló Andres M. Bran, autor principal del estudio, en un comunicado de la EPFL.

El sistema fue validado en un estudio doble ciego con 36 químicos independientes que revisaron 368 pares de rutas. Sus selecciones coincidieron con las de Synthegy el 71,2% de las veces, un número que está en línea con la frecuencia con la que los químicos expertos suelen coincidir entre sí. Los investigadores más experimentados —profesores y científicos de investigación— coincidieron con Synthegy con mayor frecuencia que los estudiantes de doctorado, lo que sugiere que el sistema captura las mismas intuiciones estratégicas que se adquieren con la experiencia.

Los investigadores probaron varios modelos de IA, como GPT-4o, Claude y DeepSeek-r1. La IA lleva años abriéndose camino en el descubrimiento de fármacos, pero la mayoría de los enfoques se centran en modelos entrenados específicamente para tareas concretas. Synthegy está diseñado para ser modular: puede conectarse a cualquier motor de retrosíntesis en el backend y a cualquier LLM capaz en el lado del razonamiento. Gemini-2.5-pro obtuvo la puntuación más alta en el benchmark, mientras que DeepSeek-r1 parece ser una sólida alternativa de código abierto que puede ejecutarse de forma local.

El framework también aborda un segundo problema: la elucidación de mecanismos de reacción. Se trata de la pregunta de por qué ocurre una reacción química —qué movimientos de electrones tienen lugar en cada paso. Synthegy descompone las reacciones en movimientos elementales y hace que el LLM evalúe cada paso candidato en función de su plausibilidad química. En reacciones simples como las sustituciones nucleofílicas, los mejores modelos alcanzaron una precisión casi perfecta.

Los posibles casos de uso son amplios. El descubrimiento de fármacos es el más evidente. La IA ya ha demostrado potencial para predecir resultados de tratamientos contra el cáncer, pero el mismo enfoque aplica en cualquier contexto donde los químicos necesiten diseñar nuevos materiales u optimizar reacciones industriales. Un detalle práctico: evaluar 60 rutas candidatas con Synthegy toma aproximadamente 12 minutos y cuesta alrededor de $2–$3 en tarifas de API.

El artículo reconoce las limitaciones actuales. Los LLM a veces interpretan mal la dirección de una reacción en su representación textual, lo que lleva a evaluaciones de viabilidad incorrectas. Los modelos más pequeños no rinden mejor que el azar. Las rutas de más de 20 pasos son más difíciles de seguir de forma coherente.

El código y los benchmarks están disponibles públicamente en github.com/schwallergroup/steer.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Crédito: Enlace fuente

En Resumen

Daily Debrief Newsletter

Related Articles

Responses