“Los modelos de lenguaje operan sobre unidades discretas o tokens. Para crear uno que pueda razonar sobre tres de las propiedades biológicas fundamentales de las proteínas (secuencia, estructura y función), tuvimos que transformar la estructura y la función tridimensionales en alfabetos discretos y construir una forma de escribir cada estructura tridimensional como una secuencia de letras. Esto permite entrenar ESM3 a escala, desbloqueando capacidades generativas emergentes. El vocabulario de ESM3 une secuencia, estructura y función, todo dentro del mismo modelo de lenguaje”, señala EvolutionaryScale.

“ESM3 se entrena con un objetivo simple. Para cada proteína, se extraen, tokenizan y enmascaran parcialmente su secuencia, estructura y función. La tarea de ESM3 es predecir las posiciones enmascaradas utilizando el objetivo de modelado de lenguaje enmascarado inspirado en los modelos de procesamiento del lenguaje natural. Para lograr esta tarea, ESM3 debe aprender a comprender en profundidad la conexión entre la secuencia, la estructura y la función en los datos a escala evolutiva. Cuando se escala en miles de millones de proteínas y miles de millones de parámetros, ESM3 aprende a simular la evolución“, agregan.

La IA creó una proteína, ¿y luego?

Una capacidad como esta, dicen los expertos, “exige un compromiso con los principios del desarrollo responsable”, por lo que la compañía está compartiendo sus datos, códigos y hallazgos en su sitio constantemente y también a través de revistas en lenguaje científico, apelando al beneficio público.

“Nuestra misión es desarrollar IA para comprender la biología en beneficio de la salud humana y la sociedad, a través de la colaboración con la comunidad científica y una investigación abierta, segura y responsable”, manifestaron.

Con IAs como estas, los científicos podrían comprender mejor los complejos sistemas de la biología, y a partir de allí, encontrar curas para enfermedades, por ejemplo.