就像chatgpt通过预测最有可能按顺序遵循的单词来生成文本一样 ,一个新的 人工智能 (AI)模型可以编写并非自然而然地从头开始的新蛋白质。
他们在7月2日发布的一项关于预印本的研究中说,科学家使用了新模型ESM3创建一种新的荧光蛋白,该荧光蛋白仅与天然发生的荧光蛋白共享58%的序列 。 Biorxiv数据库。由前元研究人员成立的一家公司的代表 ,也概述了6月25日的详细信息 陈述。
研究小组发布了 型号的小版本 根据非商业许可证,将使商业研究人员可以使用大版本的模型 。根据EvolutionaryScale的说法,该技术在从药物发现到设计新化学物质降解的领域可能很有用。
ESM3是一种大型语言模型(LLM),类似于OpenAI的GPT-4 ,它为Chatgpt Chatbot提供动力,科学家在27.8亿蛋白上训练了他们最大的版本。对于每种蛋白质,他们提取了有关序列(构成蛋白质的氨基酸构建块的顺序) ,结构(蛋白质的三维折叠形状)和功能(蛋白质的作用)的信息。他们随机掩盖了有关这些蛋白质的信息,并要求ESM3预测缺失的碎片 。
他们从同一团队仍在Meta时进行的研究缩放了这一模型。在2022年 宣布Emsfold —ESM3的前体,预测了未知的微生物蛋白结构。那年 ,字母 深态 还 预测的蛋白质结构 2亿蛋白 。
有关的: DeepMind的AI程序AlphaFold3可以预测宇宙中每种蛋白质的结构;并展示它们的运作方式
科学家随后指出,有 这些AI模型预测的局限性 并且需要验证蛋白质预测。但是,这些方法仍然可以大大加快搜索蛋白质结构的速度 ,因为另一种选择是使用X射线绘制蛋白质结构一一绘制蛋白质结构;这是缓慢而昂贵的。
但是,ESM3不仅可以预测现有的蛋白质 。使用从7710亿个关于结构,功能和序列的独特信息收集的信息 ,该模型可以生成具有特定功能的新蛋白质。它被EvolutionaryScale的支持者之一描述为“生物学的习惯时刻 ”。
在新研究中,研究人员询问该模型以生成一种新的荧光蛋白—一种蛋白质可捕获光线并以更长的波长释放,使其在新的绿色阴影下发光 。这些蛋白质对于将它们附加到他们有兴趣研究和形象的分子的生物学研究人员中很重要。他们的发现和发展赢得了 诺贝尔化学奖 在2008年。
该模型产生了96种具有可能产生荧光的序列和结构的蛋白质 。然后,研究人员选择了一个与自然荧光蛋白共同序列最少的序列。尽管该蛋白质的明亮50倍 ,而天然绿色荧光蛋白的亮度则低50倍,但ESM3产生了另一种迭代,导致新序列增加了亮度&mdash。结果是一种绿色荧光蛋白 ,与自然界中的任何一种不同,被称为“ ESMGPF”。EvolutionaryScale团队估计,这些迭代在AI瞬间进行的 ,将需要5亿年的演变才能实现 。
“现在,我们仍然缺乏对蛋白质(尤其是科学新手”的蛋白质的基本理解,在引入一个生命系统时表现出色 ,但这是一个很酷的新步骤,它使我们能够以新的方式处理合成生物学。像ESM3这样的AI建模将使新蛋白质的发现能够发现自然选择的新蛋白质,从而使自然选择的限制永远不会允许在Protein in Innerov中创造Innerof in Innerof in Innerov in Innerov in Innerove in Innerece in Inverne Engroment et evolution noffect and evolution。
但是 ,模拟5亿年进化的主张仅着眼于单个蛋白质,这并不能说明自然选择的许多阶段,从而创造了我们今天所知道的生活的多样性 。AI驱动的蛋白质工程很有趣,但是我可以帮助我们感觉我们可能会过分自信 ,假设我们可以超越数百万自然选择的复杂过程。 ”