蛋白质生成大模型NewOrigin亮相WAIC 许锦波：将满足蛋白生成全流程需求

(资料图)

7月7日，在2023世界人工智能大会（WAIC）上，首个AI蛋白质生成大模型“NewOrigin”（中文名为“达尔文”）正式亮相。NewOrigin大模型的研发领军人许锦波教授表示，AI蛋白质生成大模型瞄准创新药设计、合成生物学等真实产业应用需求，将用一个模型满足蛋白质生成全流程需求，未来大分子药、新生物材料等蛋白质设计可实现“一键定制”。

据介绍，NewOrigin大模型通过学习千亿级多模态大数据，可实现多模态定向生成，单模型就能满足序列生成、结构预测、功能预测、从头设计等蛋白质生成全流程需求，解决产业应用所需的特定功能蛋白质生成难题，并在真实的产业环境中评估效果与价值。

“大模型的出现将大大加速蛋白质生成技术的发展进程，并推动其在生物医药、合成生物学等领域应用，进而改变生物经济的格局。”许锦波在演讲中表示。当下自然语言大模型的表现，让各界对大模型机制信心倍增。但在蛋白质生成等专业垂直领域，通用的自然语言大模型能力十分有限。究其原因，生物领域的复杂数据、专业知识与应用场景，都与自然语言交互的通用场景相差甚远，能力要求也更高。

因此，研发蛋白质生成大模型，除了必备的算法、算力、数据等基础条件，还需要具备两大专业进阶能力：一是融合计算机、生物、物理等多学科，熟识AI、分子动力学、量子计算等多种方法，且能在实践中并行考虑序列与结构、主链与侧链、进化与组学的跨领域融合能力；二是走出实验室，下沉至真实的产业环境，在需求、验证、落地上贴近真实产业需求的能力。“具备这些能力和条件的团队非常稀缺”，许锦波认为。

许锦波团队从2019年开始使用预训练机制研发蛋白质设计算法，通过整合结构预测、侧链预测、蛋白-蛋白对接等多种技术，结合多种场景需求，目前已在改造或从头设计蛋白质上取得了重要的突破。

分子之心使用AI从头设计的荧光蛋白

在此基础上，分子之心开发了融合自然语言和蛋白语言的AI蛋白质生成大模型NewOrigin，它具备5重优势：可以根据特定需求定制化生成蛋白质，比如针对某个靶点生成抗体，或针对某个底物生成特异性的酶等，实现“按需定制”；基于数千亿多模态数据，NewOrigin可以进行多模态的输入、输出，比如生成具备某种特定功能的蛋白质序列，或生成某个蛋白质的三维结构信息等，满足不同层次的应用所需；同时，为了评估生成效果，NewOrigin融合AI、分子动力学、量子计算等多种方法，形成多维反馈机制，来实现快速验证和迭代。为了降低交互门槛，NewOrigin使用了融合自然语言交互的蛋白质生成模式，以满足广大不具备AI技术背景的生物学家的应用需求。更重要的是，NewOrigin大模型是真正面向产业需求的AI蛋白大模型，可基于工业级的应用反馈持续迭代，解决真实的产业需求。

为了更好的满足应用所需，分子之心将在一站式蛋白质预测、优化、设计平台“MoleculeOS”中集成NewOrigin大模型能力，并以NewOrigin为底层基础，面向药物设计、合成生物学等应用场景打造产业级的解决方案，进一步将NewOrigin大模型的能力在药物设计、生物育种、环境保护、高性能材料等多个领域广泛落地，驱动多领域创新。

许锦波表示，AI和生物科技是当下全球科技竞争的重要战略领域，蛋白质技术作为生物科技的底层技术，与AI融合创新是必由之路。AI蛋白质生成大模型的开发只是起点，更具价值的是将其真正应用于产业中，实现可编程、可预测的创新药设计和生物制品开发，通过底层技术突破驱动生物经济变革。

关键词：

责任编辑：Rex_08