经济观察网 记者 沈怡然 实习记者 葛璇 3月23日,生命科学平台公司百图生科对外发布了一款AIGP平台,这也是基于其自研的AI大模型“xTrimo”开发的、能帮助解决生命科学问题的工具。
百图生科(BioMap)是中国首家生物计算引擎驱动的创新药物研发平台,由百度创始人李彦宏于2020年创立。“xTrimo”是一个AI大模型,也是全球首个针对生命科学领域的多模态预训练模型,相当于“大脑”。该公司基于“xTrimo”研发的AIGP平台,则是一个与用户交互的窗口,它可以理解基本的生命科学语言并据此推理和自主设计,例如用户向AIGP输入蛋白质或酶的一些参数、功能,就能得到一个相应的蛋白质或酶的设计方案。
百图生科CEO刘维表示,与以ChatGPT为代表的自然语言处理AI大模型相比,基于“xTrimo”的AIGP平台,更像是一个基于生命科学语言大模型开发而得的交互界面,它生成的不是文本和语言,而是一个个蛋白质、酶、细胞等的设计方案,可以提供蛋白质结构预测、DNA序列比对、细胞代谢分析等。
在没有AI大模型之前,生命科学领域的研究者主要通过实验和观察等方法开展研究,这需要花费大量时间和精力,且结果存在不确定性和局限性。刘维表示,如今,基于AI大模型“xTrimo”的AIGP平台,尝试为科研人员提供一个生命科学技术的基础版本,让研究者可以在基础版本上进行创造,节约了一定的实验时间和实验费用。
该公司正试图将其融入整个医药研发链条上。刘维表示,公司曾帮助国内研究者推进人工设计蛋白进化的速度,传统蛋白质研究中常用动物筛选实验法,例如小鼠筛选实验,一次实验时间可能需要很多天,而AI在虚拟空间生成一个方案只需要几个小时,一些常用动物实验法的生命科学公司正成为公司的合作伙伴,AI大模型和AIGP平台可以帮助他们解决一些动物实验中的时间成本和不可控性。
建立一个AI大模型需要大量的数据和参数,这些参数包括但不限于序列比对、蛋白质结构预测、RNA折叠预测、化学计量学建模等方面。刘维表示,目前大模型参数已经破千亿级,还需要使用深度学习算法和优化技巧来处理这些海量数据,以提高模型的性能和效率。
为了预训练大模型,该公司还构建了一个大型生命科学知识图谱,其中很多数据来自于公开数据和半公开数据的整理,相当于一个数据集,然后向大模型输入。大模型研发的过程,也得益于数据、算力、模型本身的充分发展。刘维表示,训练过程也是很艰难的,需要数百个GPU来支撑分析过程中所需的巨大算力。
目前,全球范围内的生命科学领域AI大模型还处于发展阶段。在疾病预测、基因组学等方面,DeepMind、IBM Research都建立了自己的AI大模型,一些开源平台和社区也在不断推动该领域的发展,如TensorFlow-Hub、PaddlePaddle、BioDynaStax等。
刘维表示,国内外生物医药产业存在差距,但随着技术的换代,其实有跨越式发展的机会,国外的生命科学在过去几十年围绕实验筛选的方法积累了很多的方法,而百图生科现在做的,其实利用了跨界能力,包括将AI、前沿生物传感器、高速蛋白打印、合成生物学新技术等等新技术的结合。此外,研发大模型和推动AIGP迭代所需资金量很大,公司2023年新一轮融资也在推进之中。