【科学家利用 AI 模型模拟五亿年进化,产生前所未见的新荧光蛋白】
八位 Meta FAIR 蛋白质团队前科学家去年成立生物 AI 模型开发新创公司 EvolutionaryScale,携手非营利性生医科学与技术研究机构 Arc Institute 开发 ESM3 AI 模型。研究员透过模型模拟五亿年蛋白质进化,创造出自然界未有的新荧光蛋白。论文发表于《科学》期刊。
过去的研究显示,合成蛋白质可以为自然蛋白质的结构与功能提供独特的洞见。目前,大多数这类蛋白质都是自然界已有蛋白质的复制品,但新发表研究却模拟产生现实世界未见的新型蛋白质。
团队用现有蛋白质的资料为产生新蛋白质的基础,以 ESM3 AI 模型(为一种类型聊天机器人模型的多模态生成式语言模型)对从 3.15 亿条蛋白质序列、2.36 亿个蛋白质结构,以及 5.39 亿个蛋白质注解所产生的符元(token)训练。
研究员指出,这相当于为模型灌输五亿年进化知识,使从基本程序码开始,在虚拟时间进化成现代虚拟蛋白质。虚拟蛋白质透过标准蛋白质合成技术转化为现实世界的人工蛋白质。最终产生基因序列与其他已知蛋白质不同的全新蛋白质。
团队以 ESM3 模型产生新绿色荧光蛋白,命名为 esmGFP。此类蛋白在紫外光下会发出荧光,通常用做标记物。
可预见的是,生成式人工蛋白质无疑能为今后研究开启新途径,不仅更深入了解蛋白质本质与用途,还能开发各种新应用。团队表示,ESM3 模型可制造用于医学、环境研究及其他各种应用领域的新型蛋白质。