ChatGPT引爆全网之前,上一次人工智能引起全民围观的,还是AlphaGO战胜韩国棋手李世石。同样,AIGC背后的生成式模型也在革新人们对于AI的认知。
最近,能写方案会作诗的ChatGPT再次引发全民轰动,在生命科学领域,一系列问题也被带到眼前:
由此,智药局邀请了多位业内人士交流关于ChatGPT在生命科学中的应用与看法,他们中既包含生物医药、TMT基金的投资人,也有企业创始人和AI+蛋白质平台开发负责人。
问题没有标准答案。希望以下观点和回答,能为各位读者带来启发。
01、BV百度风投 投资副总裁 刘强
关键词:数据质量、AI与生命科学深度结合、技术与时间维度
BV百度风投是最早定位于人工智能领域的投资机构之一,我们在医疗方向的布局很多也都跟AI相关。回到正题,ChatGPT爆火并不是一夜之间产生的,AIGC已经孕育发展很多年,包括谷歌2017年推出的transformer模型。但当时大家的反响不如预期,直到去年12月ChatGPT推出后,才真正认知到了AI发展的程度更进一步。
目前比较新兴的概念是,将AI用于蛋白质的从头设计。所以在ChatGPT火之前,其实在结构层面(无论小分子还是大分子),AI或者生成式AI的应用已经开始落地。
那么由ChatGPT引发而来,大家更多讨论的是基于预训练语言大模型思路能不能对生命科学有一个变革,尤其是在于大模型当中的变革,包括Salesforce公司做的 ProGen大模型对特定功能蛋白质的生成,或者大模型来解决组学的问题,而不仅仅是说生成模型的变革。
当然大模型不是谁都能够做成的。
从AI的三要素来看,算法算力在生命科学的限制现阶段还较小,因此生命科学里面最重要的仍然是数据问题。当然这里并不是指简单的数据数量问题,而是数据质量。
因为疾病的产生不光是基因组在发挥作用,蛋白组、代谢组、外部因素等都在调控它,如果忽略了很多的参数,难以训练出一个优秀的模型。就好比构建ChatGPT的时候,也要把文本内容参数化,最后才能训练出来。
我们是技术驱动来投资的,很多时候更考虑技术的前景,不太考虑它的周期长短,但是我们相信它在发展的过程当中会逐步落地。
现在用ChatGPT这种模式产生的蛋白到底能不能直接用?我认为会有一段距离,但是它能生成有活性的蛋白,也就代表了它能生成可以合成的蛋白,能生成没有毒性的蛋白,能生成有很好的成药性的蛋白,这些可以一步一步解决。
在落地时间的判断上,只要不要投进去过于早期,就能够看到一些较好的效果。所以技术一定是在它刚刚起来的时候投,大家都怀疑的时候投资是最有价值的。
我相信将人工智能和生命科学结合得最好的公司,是一家有前景的公司。生命科学的人才能够提供高质量数据,而人工智能让医疗数据价值最大化,两个维度缺一不可,一定要结合好才行。
02、某风投基金 医药组 执行副总裁
关键词:新技术与公司的匹配度、干湿试验结合、数据制造和利用、蓄力阶段
ChatGPT的出现在生命科学领域的确是新机会。很多公司虽然未公开表现出对相关技术的兴趣,但据我们了解,他们会成立专门课题组或者研发团队去跟进目前最新的技术,例如前段时间问世的蛋白质语言模型ProGen。
上述公司的算法工程师可能只要几个月就能复现这些开源的技术,如果只是做个Demo,耗费的时间将会更短。所以他们一定会去验证这些新技术与公司的匹配程度如何,并决定之后会不会去布局。
而且,语言生成模型在生命科学领域可想象的空间很大,比如蛋白结构生成、专家系统、靶点推荐等方面,这几块其实都是挺好的方向。
关键在于公司团队要把这些新工具与自己的强项进行匹配,并生成对应的数据,最终产生积极的效果。我觉得这样才能够使工具真正发挥作用。
AI在现阶段的落地过程中,最大挑战还是数据问题。
相较于蛋白质的多样性,目前数据量还是太少,因此导致通过生成模型制造新的蛋白质在特定条件下是有效的,但扩展到通用环境,很可能会由于数据缺失使得预测准确度不够。仍然需要通过实验来判断。
沿着这个逻辑,我们在投资AI制药公司时,核心指标首先是干湿实验的结合能力。相关公司在这方面理解程度的不同,最后会导致在管线/项目的管理上出现时间和效率上的巨大差距,所以我觉得这是团队应该重点发力的部分。
第二个核心指标是数据制造和利用能力。生物数据存在非常明显的特性,即变异度大,重现性很差,不同实验室获得的数据区别大。所以如何稳定地获取、清洗及利用数据等问题就变得非常重要。
因此每次接触相关公司时,我都会去问数据方面的问题,如果团队能够在这方面思考得非常清楚,对我来说就很具有吸引力。
现阶段AI制药在整个生物医药的占比其实很小,但AI技术就像一辆驶来的火车,我认为它仍然需要一个阈值,当数据积累到一定程度,就会迎来爆发式增长的奇点,不过当前生物医药的发展还在蓄力阶段。
03、天壤XLab负责人 苗洪江博士
关键词:蛋白质设计、AI三要素、算法布局、工作台、多方合作
在我看来,从AlphaGo、AlphaFold2到生成式AI是一个从分析工具走向解决方案、并落地解决实际问题的过程。
同样在生命科学领域,人工智能也从算法开发走向了实际应用。比如AlphaFold2,2021年开源代码,隔周便发布了大型结构数据库,它预测的100万个结构中包含了人类全蛋白组的所有序列。
如今的生成式AI更进一步,从功能需求出发,自动探索巨大的蛋白质空间,生成全新的序列和结构。
以蛋白质设计领域为例,我们已经看到了AI在其中的阶段性突破。早期,蛋白质的可设计性较低,比如生成一个与天然蛋白质完全不同的全新结构,对于这个设计蛋白质的功能几乎做不到调控。如今是用模型对蛋白质的理解替代了人为经验的理解。
再往后走向应用的话,现阶段仍需加大在算法研发上的投入,同时打造好用的工作台,帮助更多的研究者在AI+生命科学的课题上取得突破。
算法方面,虽然部分国外团队的算法已经开源,但是科学研究不应该只停留在如何使用的阶段,还要把技术推向解决更深层次问题。只有从头掌握核心技术能力,才能破解在实际应用中遇到的难题。
当然,这项研发的进行也离不开算力的支持。数据方面,我们的设计方法是基于结构的一种生成模式。在预训练时,模型理解了蛋白质折叠的原理,就能够很好的把原理应用到蛋白质设计过程中。
在医药领域的AI应用,随着研发阶段的推进,对数据的需求快速增加。其中,有一些通过算法的开发可以缓解,例如蛋白质预训练大模型,有一些则要从数据产生、收集、清洗做起,用增大的数据集训练才能获得更好的解决方案。
所以我们在开发过程中,包括去年推出的AI蛋白质设计工作台xCREATOR,也希望能在这个领域里面帮大家将研发项目快速往后推进。
我们非常关注数据问题,同时也希望大家能用平台的算法进行尝试。研发人员不需要懂任何算法,平台后端会自动将计算验证全都跑完,将最终结果展示给用户去验证,而研发更后端的问题我们也在不断开发和上线新的能力去逐步解决。
所以在这个领域里面,大家仅靠自己的能力,有算力又有人才、数据来做这个事情,不管是大药企还是互联网公司都是比较困难的。天壤目前在推进、也希望未来能看到的其实是合作共赢的方式。
AI团队、药化专家包括投资人在每个领域发挥各自的核心能力,起到一个1+1>2的作用,我们相信这是未来的趋势。
04、某AI+蛋白质技术公司 创始人
关键词:ChatGPT成果可预期、数据尚存痛点、干湿试验迭代
相较于AlphaGo战胜李世石,AlphaFold2的出现,ChatGPT最主要的是生成式模型。也就是它除了我们训练时打的标签(label)的基础上,来生成一些新的超越现有的label。包括它生成的内容,都需要有一定创造性。
而相较于以往的模型,生成式AI其实没有标准答案,我们对它的预期并不是AlphaFold2预测蛋白质结构,再用实验结构对比验证就行。生成式模型没有绝对的预期,只能做到相对的预期。
因为我们团队是做蛋白质相关的,所以更加关心生成式AI在蛋白质等大分子领域的应用,例如它可以生成一些自然界中不存在的蛋白质,这些蛋白质符合我们对它的一些功能上的或者结构上的某些要求,广泛用于制药或者合成生物学等领域。
当然一个很大的问题仍然是数据。生物医药的数据基本上都是依赖实验产生的,所以说它的成本非常高,而不像ChatGPT这样更容易获得的文字信息,必须通过实验仪器测出来。
也就是说,目前应用比较好的仍然是数据量比较大的方向,已经有一些不错的效果,但是在数据稀少的领域,尤其对于通用模型而言,它的表现其实还并没有那么理想。因为它本身就没有在特定细分的领域,数据也不足,模型的表现一般也是可以理解的。
这也并非没有解决方案。我们实际应用的时候,可以通过干湿迭代的方式来做,例如我们关注的某个蛋白或者功能上现有数据不足,可以结合一些湿实验去产生数据,再在这种对应的任务上进行模型调优。
简而言之,ChatGPT本身的成果是可以预期的,因为在这之前OpenAI就已经有了非常多积累。但我们不能过高期待说他就能解决一切问题,落到具体垂直领域上,仍然需要一定时间。
—The End—