导读
想象一下,未来某一天的清晨,你和往常一样来到工作岗位,只需要将想法用关键词描述出来,就能在几分钟内自动生成项目......
最近,随着ChatGPT和DALL·E2的火爆出圈,我们越来越能感受到:生成式人工智能正在走进我们的生活。
从图像和音乐生成到新的机器学习算法的开发,生成式人工智能正在被添加到无数新的应用程序中,在生物技术领域的应用,它也被很多人看好,目前有数十家公司在这个领域耕耘,未来将会开启生物医学一个全新的时代。
石子桑 | 撰文
01
生成式人工智能强大的自我创作能力
“ChatGPT可以帮我写论文吗?”、“ChatGPT会抢走我的工作吗?”
近期,生成式人工智能ChatGPT突出的表现能力和巨大的社会价值,引起了各个领域的广泛关注。它颠覆了既往人们对人工智能的认知,展现出AI强大的“创作”能力。
打个比方来说,我们只需要告诉这位AI厨师我们的口味偏好,它就会自动创造菜谱,完成一道我们从未品尝过的菜品。
ChatGPT和DALL·E2是生成式人工智能的优秀代表。
据Open AI的官网介绍,ChatGPT是一种生成对话的语言模型。我们可以通过与它对话来生成文本。ChatGPT不仅能回答我们的问题,还能像朋友一样记住我们曾经与它交流过的内容。如果我们问了错误的问题或者提出了不恰当的请求,它还会提出质疑和拒绝回复。
ChatGPT的训练流程
而DALL·E2是基于GLIDE扩散模型、神经网络CLIP和扩散模型制作的一种可以根据自然语言的描述创建逼真的图像和艺术。
图片由DALL·E2生成
DALL·E2堪称神奇的艺术家,它能将各种毫无关联的元素以意想不到的方式组合在一起,模仿出你想要的画风,同时考虑阴影、反射和纹理等元素。
02
生成式人工智能在生物领域大有用武之地
生成式人工智能只是用来创造图片和文字吗?实际上,它未来在基础科学和生物医学领域也有广泛的前景。
对于科学家和生物技术公司来说,这些新的生成式人工智能工具有很大潜力,它在生物医学的各个领域都能大显身手。
传统的蛋白质研究中,科学家有时会从头设计所需的结构和序列特异性的蛋白质,不过它的复杂性会让整个研究过程变得困难。
但生成式人工智能有可能让从头生成人工蛋白质序列变得更简单。Profluent创始人兼首席执行官阿里·迈丹尼(Ali Madani)和他的同事开发了ProGen语言模型,在经过已知蛋白质家族2.8亿个序列的训练后,能够生成具有可预测功能的蛋白质序列。
Ali Madani,图源https://madani.ai/
对制药公司来说,生成式人工智能模型将会推动小分子药物研发领域的发展。
目前,进入FDA审批程序的候选药物被批准用于临床的比例小,但人工智能模型具有发现更多有潜力的化合物。比如Generate Biomedicine这家早期生命科学公司就使用生成式人工智能来创建蛋白质,这些蛋白质可以用于新型疗法,能够更好地适应特定的条件,并且更容易生成。
图源generatebiomedicines.com
同样,2015年推出的Standigm这家公司,也使用了类似的生成式人工智能,通过查询大型生物医学数据库,在短短2个月内创造了数百种新分子。
图源https://www.standigm.com/main
生成式人工智能还为研究人员和学生提供了福音。例如一个一个由 Stability AI 支持的、名为OpenBioML的“开放研究实验室”项目已经被开发出来,该实验室致力于将人工智能和生物学结合起来,从最新的前沿项目合作,再到复制过往的研究结果,寻求最大限度地发挥人工智能在生命科学中的作用。
图源https://openbioml.org/
目前,OpenBioML有两个首批项目,包括将自然语言处理应用于计算生物学和化学的BioLM,以及从文本提示生成DNA序列的人工智能DNA- diffusion。
由此看来,生成式人工智能的前景的确是不可估量,但发展如此迅猛的它是否有一定缺陷?
03
生成式人工智能在生物领域的短板
目前,生成式人工智能的确存在许多局限性。此前ChatGPT的开发者也表示,“这还是一个初始阶段的版本”。
ChatGPT有时也会写出似是而非的或无意义的答案,DALL·E2可能会创造暴力、仇恨或色情图像,生成式人工智能在生物领域也碰到了诸多难题。
同时这样的系统也容易过度拟合学习数据库中隐含的“噪声”,就好像用音质很好的耳机去听充满杂音的音乐,依然会听到一片杂音。
常见混淆的例子图像
另外,就是成本上的问题,这些技术都很昂贵,而且需要专门的硬件和软件来实现。并且它们需要投入大量的时间和资源来训练和使用,留下的大量碳足迹还不利于环保。
那么,我们要怎样克服生成式人工智能的不足,它又将会有怎样的未来呢?
04
生成式人工智能在生物领域的未来
2022年,至少有20亿美元投资于生成型人工智能公司,随着人工智能在生物医学领域中的表现,这一数字还会持续增加。
AIGC领域至少有上百家公司,生命科学及医学至少有数十家公司
有专家预测,到2040年,生成式人工智能可能会为医疗行业带来1万亿美元的价值。
当然,我们仍然需要改进训练数据以避免误差,使它们更适合用户的需求。未来这项技术有潜力影响癌症检测、预测疾病变异和减缓气候变化。
图源OPENAI
由此可见,虽然现在生成式人工智能还只是一个“孩童”,但它正在迅速成长,未来会为各个领域带来意想不到的可能性,也将为我们的工作生活开创一个全新的时代。
参考资料
青科沙龙 | 剪接因子SRSF10在小鼠精子发生过程中的功能和调控机制