2023-07-17 16:10:29
La biología es una red compleja e intrincada de sistemas interconectados. En su núcleo reside el ADN, el arquitecto de la vida, codificando proteínas responsables de ejecutar una miríada de funciones biológicas esenciales para mantener la vida en el cuerpo humano. Sin embargo, similar a un instrumento afinado, nuestro cuerpo sigue siendo susceptible a interrupciones y disonancias. En última instancia, nos encontramos en una danza implacable con un mundo natural en constante evolución: patógenos, virus, enfermedades y cáncer.
Imagina un mundo donde la producción de vacunas o medicamentos para patógenos recién emergentes pudiera ser acelerada. Supongamos que pudiéramos aprovechar la tecnología de edición de genes capaz de producir proteínas de manera autónoma para corregir errores en el ADN que conducen al cáncer. La búsqueda de proteínas con una fuerte unión a objetivos o con la capacidad de acelerar reacciones químicas es fundamental para el desarrollo de medicamentos, diagnósticos y numerosas aplicaciones industriales, pero a menudo se convierte en un esfuerzo prolongado y costoso.
Para mejorar nuestras capacidades de ingeniería de proteínas, los investigadores están trabajando en diversas estrategias.
Para mejorar nuestras capacidades en ingeniería de proteínas, los investigadores del CSAIL del MIT idearon «FrameDiff», una herramienta computacional para crear nuevas estructuras proteicas más allá de las que ha producido la naturaleza. El enfoque de aprendizaje automático genera «marcos» que se alinean con las propiedades inherentes de las estructuras proteicas, lo que le permite construir nuevas proteínas independientemente de los diseños preexistentes, facilitando estructuras proteicas sin precedentes.
«En la naturaleza, el diseño de proteínas es un proceso lento que lleva millones de años. Nuestra técnica pretende dar respuesta a problemas creados por el hombre que evolucionan a un ritmo mucho más rápido que el de la naturaleza», afirma Jason Yim, estudiante de doctorado del CSAIL del MIT y autor principal de un nuevo artículo sobre el trabajo. «El objetivo, con respecto a esta nueva capacidad de generar estructuras de proteínas sintéticas, abre un sinfín de capacidades mejoradas, como mejores aglutinantes. Esto significa diseñar proteínas que puedan unirse a otras moléculas de forma más eficiente y selectiva, con amplias implicaciones relacionadas con la administración selectiva de fármacos y la biotecnología, donde podría dar lugar al desarrollo de mejores biosensores. También podría tener implicaciones en el campo de la biomedicina y más allá, ofreciendo posibilidades como el desarrollo de proteínas fotosintéticas más eficientes, la creación de anticuerpos más eficaces y la ingeniería de nanopartículas para terapia génica.»
Encuadre FrameDiff
Las proteínas tienen estructuras complejas, formadas por muchos átomos conectados por enlaces químicos. Los átomos más importantes que determinan la forma tridimensional de la proteína se denominan «columna vertebral», algo así como la espina dorsal de la proteína. Cada triplete de átomos a lo largo de la espina dorsal comparte el mismo patrón de enlaces y tipos de átomos. Los investigadores se dieron cuenta de que este patrón puede aprovecharse para construir algoritmos de aprendizaje automático utilizando ideas de la geometría diferencial y la probabilidad. Aquí es donde entran en juego las tramas: Matemáticamente, estos tripletes pueden modelarse como cuerpos rígidos llamados «marcos» (habituales en física) que tienen una posición y una rotación en 3D.
Estos marcos dotan a cada tripleta de información suficiente para conocer su entorno espacial. La tarea consiste entonces en que un algoritmo de aprendizaje automático aprenda cómo mover cada marco para construir una espina dorsal proteica. Al aprender a construir proteínas existentes, es de esperar que el algoritmo generalice y sea capaz de crear proteínas nuevas nunca vistas en la naturaleza.
Entrenar un modelo para construir proteínas mediante «difusión» implica inyectar ruido que mueve aleatoriamente todos los fotogramas y difumina el aspecto de la proteína original. El trabajo del algoritmo consiste en mover y girar cada fotograma hasta que se parezca a la proteína original. Aunque sencillo, el desarrollo de la difusión en fotogramas requiere técnicas de cálculo estocástico en variedades riemannianas. En cuanto a la teoría, los investigadores desarrollaron la «difusión SE(3)» para aprender distribuciones de probabilidad que conectan de forma no trivial los componentes de traslación y rotación de cada fotograma.
El sutil arte de la difusión
En 2021, DeepMind presentó AlphaFold2, un algoritmo de aprendizaje profundo para predecir estructuras de proteínas en 3D a partir de sus secuencias. Al crear proteínas sintéticas, hay dos pasos esenciales: generación y predicción. Generación significa la creación de nuevas estructuras y secuencias de proteínas, mientras que «predicción» significa averiguar cuál es la estructura 3D de una secuencia. No es casualidad que AlphaFold2 también utilizara marcos para modelar proteínas. SE(3) diffusion y FrameDiff se inspiraron para llevar más lejos la idea de los marcos incorporándolos a los modelos de difusión, una técnica de IA generativa que se ha hecho inmensamente popular en la generación de imágenes, como Midjourney, por ejemplo.
Los marcos y principios compartidos entre la generación de estructuras proteicas y la predicción significaban que los mejores modelos de ambos extremos eran compatibles. En colaboración con el Instituto de Diseño de Proteínas de la Universidad de Washington, ya se está utilizando la difusión SE(3) para crear y validar experimentalmente nuevas proteínas. En concreto, combinaron la difusión SE(3) con RosettaFold2, una herramienta de predicción de estructuras proteicas muy parecida a AlphaFold2, lo que dio lugar a «RFdiffusion». Esta nueva herramienta acercó a los diseñadores de proteínas a la resolución de problemas cruciales en biotecnología, como el desarrollo de ligantes proteicos altamente específicos para el diseño acelerado de vacunas, la ingeniería de proteínas simétricas para la liberación de genes y el andamiaje de motivos robustos para el diseño preciso de enzimas.
Los esfuerzos futuros para FrameDiff implican mejorar la generalidad a problemas que combinan múltiples requisitos para productos biológicos como los fármacos. Otra ampliación consiste en generalizar los modelos a todas las modalidades biológicas, incluidos el ADN y las moléculas pequeñas. El equipo plantea que, ampliando el entrenamiento de FrameDiff con datos más sustanciales y mejorando su proceso de optimización, podría generar estructuras fundacionales con capacidades de diseño equiparables a las de RFdiffusion, todo ello conservando la simplicidad inherente de FrameDiff.
«Descartar un modelo de predicción de estructura preentrenado [in FrameDiff] abre posibilidades para generar rápidamente estructuras que se extiendan a grandes longitudes», afirma el biólogo computacional de la Universidad de Harvard Sergey Ovchinnikov. El innovador planteamiento de los investigadores supone un paso prometedor para superar las limitaciones de los actuales modelos de predicción de estructuras. Aunque aún se trata de un trabajo preliminar, es un paso alentador en la dirección correcta. De este modo, la visión del diseño de proteínas, que desempeña un papel fundamental a la hora de abordar los retos más acuciantes de la humanidad, parece cada vez más al alcance de la mano, gracias al trabajo pionero de este equipo de investigación del MIT.»
Yim escribió el artículo junto con Brian Trippe, postdoctorando de la Universidad de Columbia; Valentin De Bortoli, investigador del Centro Nacional de Investigación Científica de París; Emile Mathieu, postdoctorando de la Universidad de Cambridge; y Arnaud Doucet, profesor de Estadística de la Universidad de Oxford e investigador científico sénior de DeepMind. Los profesores del MIT Regina Barzilay y Tommi Jaakkola asesoraron la investigación.
El trabajo del equipo fue apoyado, en parte, por la Clínica Abdul Latif Jameel del MIT para el Aprendizaje Automático en Salud, subvenciones EPSRC y una Asociación de Prosperidad entre Microsoft Research y la Universidad de Cambridge, el Programa de Becas de Investigación de Posgrado de la Fundación Nacional de Ciencias, la subvención NSF Expeditions, el consorcio Machine Learning for Pharmaceutical Discovery and Synthesis, el programa DTRA Discovery of Medical Countermeasures Against New and Emerging threats, el programa DARPA Accelerated Molecular Discovery y la subvención Sanofi Computational Antibody Design. Esta investigación se presentará en julio en la Conferencia Internacional sobre Aprendizaje Automático.