OpenProteinSet proporciona datos de formación de código abierto para biología estructural a escala

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación0

2023-08-20 14:22:04

OpenProteinSet proporciona un conjunto de datos masivos de la misma calidad que el utilizado para entrenar AlphaFold 2, que no se puso a disposición de la comunidad investigadora.

Las proteínas son los caballos de batalla de la vida. Comprender sus secuencias y estructuras es clave para afrontar retos que van desde el diseño de nuevas enzimas hasta el desarrollo de fármacos que salvan vidas. En los últimos años, el sistema de inteligencia artificial AlphaFold 2 de Deepmind ha revolucionado este campo, prediciendo estructuras de proteínas con una precisión sin precedentes. Pero, según un nuevo artículo de investigadores de la Universidad de Harvard, la Facultad de Medicina de Harvard, la Universidad de Columbia, la Universidad de Nueva York y el Flatiron Institute, los avances se han visto obstaculizados por la falta de datos de entrenamiento abiertos.

Ahora, una base de datos de código abierto llamada OpenProteinSet pretende cambiar esta situación proporcionando datos de alineación de proteínas a gran escala.

OpenProteinSet proporciona 16 millones de alineaciones de secuencias múltiples

La función de una proteína está codificada en su secuencia de aminoácidos. A lo largo de la evolución, se acumulan pequeños cambios en estas secuencias, mientras que la estructura y la función generales siguen siendo las mismas. Los alineamientos de secuencias múltiples (MSA) son conjuntos de secuencias de proteínas relacionadas evolutivamente que se alinean insertando huecos para que los aminoácidos coincidentes acaben en las mismas columnas. El análisis de los patrones de estos MSA permite comprender mejor la estructura y la función de una proteína.

Los MSA han sido esenciales para la investigación de proteínas durante mucho tiempo, pero su utilidad explotó en 2021 con AlphaFold2, que predice estructuras proteicas con una precisión casi experimental basándose en cantidades masivas de datos MSA. Aunque AlphaFold 2 es de código abierto, sus datos de entrenamiento siguen siendo privados.

OpenProteinSet proporciona ahora 16 millones de MSA y datos asociados, todos de código abierto. Incluye MSA de las 140.000 proteínas del Banco de Datos de Proteínas (PDB), la base de datos definitiva de estructuras de proteínas determinadas experimentalmente. También incluye secuencias de la base de conocimientos UniProt, agrupadas por similitud.

Para las proteínas PDB, OpenProteinSet proporciona MSAs en bruto de múltiples bases de datos de secuencias. También incluye proteínas estructuralmente similares identificadas mediante búsquedas en el PDB. Se incluyen estructuras predichas a partir de AlphaFold2 para 270.000 grupos UniProt diferentes.

Los investigadores recrean AlphaFold 2 con un conjunto de datos de código abierto

Los desarrolladores también utilizaron OpenProteinSet para entrenar OpenFold, una recreación abierta de AlphaFold 2. Según ellos, OpenFold rinde a la par que el original, lo que demuestra la suficiencia de estos datos abiertos.

«Con OpenProteinSet, hemos aumentado enormemente la cantidad y calidad de MSA precalculados disponibles para las comunidades de aprendizaje automático molecular», afirma el equipo. «El conjunto de datos tiene aplicaciones inmediatas para diversas tareas en biología estructural».

OpenProteinSet está alojado y disponible en AWS.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo