用AIGC搞药物发现，大分子那种，来自Bengio核心团队教授唐建新成果

作者：量子位发布时间：2023-07-01

AIGC 智源

衡宇发自凹非寺

量子位 | 公众号 QbitAI

又一名AI大牛，为AI制药领域带来了新进展——

AlphaFold2仅仅是蛋白质结构建模迈出的第一步，现在可以 基于结构进行蛋白质设计了！

最近在智源大会AI+生命科学论坛上，来自Mila实验室的教授唐建介绍了团队的最新成果，一同受邀参会的还有诺贝尔化学奖得主Arieh Warshel等知名学者。

相关论文《Protein Representation Learning by Geometric Structure Pretraining》已经被顶会ICLR’23接收，还在GitHub上开源。

研究团队由深度学习三巨头之一 Yoshua Bengio的 Mila实验室、蒙特利尔大学、剑桥大学、IBM Research等机构组成。

在MILA这个学术界最大AI研究中心之一里，唐建任终身教授，同时也是该实验室创办以来唯一的华人教授。

其研究方向主要包括几何深度学习、深度生成模型、知识图谱以及这些方法在药物发现中的应用。

AI 2.0浪潮下，唐建想做的事，是加速AI参与药物设计逐渐走向 从drug discovery（发现自然界存在的drug）到drug design（直接通过AI设计drug分子）的演变。

于是，延续之前的发展路线，所创AI驱动型生物制药公司 百奥几何，近期将重点落到构建 寻找新分子结构的生成式模型上。

蛋白质大分子的基础模型，搞它！

唐建团队的目标，是利用生成式AI，向药物设计更进一步。

大分子药物（蛋白质、抗体）在生物医药领域扮演着越来越重要的作用，有着广泛的应用前景。

蛋白质的功能有三种不同的表示：一级序列，二级结构，三级空间结构。

大多数已有的蛋白质建模的方法是基于序列的方法。蛋白质的序列决定其3D结构，而结构决定功能。

因此，想要更好地理解蛋白质的功能，从基于结构的角度出发，是一条更好的技术路径。

But！AlphaFold2只是在基于蛋白质结构的建模方向上走出了第一步。

唐建团队做的事，是基于AIGC，进一步推进基于结构的大分子药物设计。

首先基于蛋白质3D结构的表征学习，得到预训练模型，在此基础上就能做更精准的功能预测。

也就是前面介绍到的发表在ICLR’23的论文。

团队首先提出 GearNet和 GearNet-edge，它们依赖稀疏边缘消息（sparse edge message）的传递，来增强蛋白质图中的序列和结构信息的捕获。

在功能预测和折叠分类任务上，这个方法和最先进的基于序列预测蛋白质表征的方法相当（或优于），而且使用的预训练数据更少。

第二步是更精准的结构预测。AlphaFold2主要是对主链进行了预测，对侧链的预测不是很准确。

团队提出 扭转扩散模型DiffPack，通过在扭转空间上扩散和去噪，来学习侧链扭转角的联合分布。

侧链是蛋白质结构的构成部分之一，它的差异会带来蛋白质结构和功能的差异。

搞清楚侧链结构，能够更精准地帮助药物设计流程更快更准地抓住药物和受体该在什么点位结合。

DiffPack包含了一个自回归扩散过程，对准确度和速度的限制有所缓解。

实验结果显示，新方法在CASP13和CASP14上的角度和精度，分别提高了11.9%和13.5%，双双取得SOTA，且模型参数却能减少60倍。

接下来，基于精准结构预测结果，就能更好完成蛋白质设计。

这部分用到了扩散模型。已有的工作如华盛顿知名教授David Baker组的工作RFDiffusion采用的是两阶段算法，首先生成结构，然后根据结构设计蛋白质序列。

唐建团队提出了一个新算法，能够同时对结构和序列进行设计。

也就是说，只需要利用同一个算法，就可以对大分子蛋白质的氨基酸序列和三维结构进行建模和设计，并展示二者之间的相互关系，从而生成具有特定功能的蛋白质。

迄今为止，团队已经实现了 抗体CDR Loop结构和序列的生成，还设计了 具有指定个数的α螺旋跨膜蛋白。

其实唐建团队这段征程里的主角，即蛋白质3D结构大模型，无论是模型参数和训练数据量都远不如最热门的ChatGPT。

但因其用于垂直领域，还是生物制药领域——人类的语言词汇量多大几千万，而蛋白质的词汇表只有20个——不那么庞大的参数和训练量已经能够满足实际需求，达到比较好的生成效果。

而对训练数据细究来处，有三个源头：生物制药领域公开数据、AlphaFold2等预测出的大分子结构、实验室的自有数据。

来自最后两个实验室的训练数据，被唐建团队视为壁垒之一。

Bengio所领导的实验室核心团队唯一华人教授

2014年，唐建博士毕业于 北京大学信息科学技术学院，其研究方向主要包括几何深度学习、深度生成模型等。

而后，唐建远赴美国，在 CMU以及密歇根大学进行博士后研究。

2013年，恰逢深度学习兴起，一直专注传统机器学习领域的他在关注到ImageNet、Word2Vec等在深度学习领域取得了非常不错的效果。

“当时我觉得自己的研究遇到了一定的瓶颈，所以也开始想转向深度学习领域。”

唐建称自己做了很多层面的思考，即便是要真的做出研究方向的调整，也 想做自己能drive、相对独立的研究，而不是随大流进行“follow”。

最后，他寻找的的机会是用深度学习解决图结构数据，成为国内利用DL研究图结构数据的最早的一批人。

他作为一作的理论工作《Understanding the Limiting Factors of Topic Modeling via Posterior Contraction》获得ML顶级会议ICML 2014的最佳论文。

此后，他在图表示学习领域的工作LINE（《Line: Large-scale information network embedding》）引用次数超5300次，并多次在计算机顶会ICML、NeurlPS担任领域主席。

再后来，因为对“21世纪是生物的世纪”这句话的深信不疑，他的研究逐渐 集中在AI和生物交叉领域，在分子性质预测、结构性质预测上进行探索。

2017年12月起，唐建成为Mila实验室（加拿大魁北克省人工智能研究中心）20余名教授中的一员，与深度学习三巨头之一Yoshua Bengio一起，致力于推进AI for Science。

投身创业前，唐建团队已经发布了药物研发机器学习平台 TorchDrug。

并在一年后，即2022年9月，联合英伟达、英特尔、IBM等公司，发布了针对大分子药物研发的开源机器学习平台 TorchProtein。

平台开源了深度学习对大分子建模的一个通用框架、基于蛋白质三维几何结构的第一个预训练大模型、以及专门用于评价深度学习对蛋白质建模效果的标准数据集。

唐建坦然表示，在接下来的进展中，这些公司也将成为百奥几何在大模型研究中的 国际合作伙伴，“这是我们与同行相比的优势所在”。

TorchProtein发布的同时，公司宣布完成千万美元天使轮融资。

现在，唐建白天醉心百奥几何的技术研究，夜晚为远在大洋彼岸的学生们指导。但这样的工作模式并没有让他疲于应对或感到苦恼：

在两者间取得平衡并不是难事，这反而让公司团队更具国际化优势。

近期资讯

西门子油烟机评测：外观设计与性能兼具的厨房好帮手

而说到油烟机，西门子这个品牌常常被提到。那么，西门子油烟机到底怎么样呢？此外，许多型号还配备了多档风速调节，用户可以根据实际需要选择合适的档位，既能满足快速吸烟的需求，又能在轻松烹饪时保持低噪音。总的来说，西门子油烟机在市场上占有一席之地，凭借其卓越的性能和设计，一直以来都能获得消费者的好评。

新报观察 2024-12-25

2K直屏骁龙8E神机！iQOO 13海外卖爆：创历史最强销售记录

快科技12月25日消息，iQOO 13上市后非常火爆，是非常极致的骁龙8至尊版旗舰，主打2K直屏游戏神器，而且各方面都不偏科。值得注意的是，除了在国内首欢迎之外，iQOO 13在海外也销售火爆，创造了

建嘉 2024-12-25

品牌首款中大型智能旗舰家轿！宝骏享境有望12月26日亮相

快科技12月25日消息，宝骏汽车宣布，其全新轿车宝骏享境将于12月26日亮相，预计2025年上半年上市。宝骏享境定位为旗舰级轿车，提供纯电和插电混动两种版本。外观设计流畅简洁，纯电版采

王略 2024-12-25

你今年A股赚钱没！四大行涨疯了：宇宙第一大行扛起大A

快科技12月25日消息，A股新的市值一哥诞生了，宇宙第一大行工商银行超越了中国移动、贵州茅台。今天上午，工商银行、建设银行、中国银行、农业银行齐涨，盘中再度集体创历史新高，今年以来累计

雪花 2024-12-25

科技金融盛会！2024京津冀科技成果直通车在石家庄召开

12月24日，2024京津冀科技成果直通车暨科技产业金融对接大会在石家庄成功举办。科技部门、高校院所、创投机构、行业组织、科技企业等近两百位嘉宾齐聚活动现场，就耐心资本促科技创新分享成果、贡献智慧。本次对接大会由河北省科学技术厅主办，河北省科技金融发展促进中心、河北省科技成果展示交易中心、中国技术交易所等承办。

央广网 2024-12-25

OPPO ColorOS 全新游戏助手亮相：支持闪电启动、沉浸模式等功能

IT之家12月25日消息，一加手机官方今日发文宣布，ColorOS15全面焕新的游戏助手将随一加Ace5系列手机一同登场。据介绍，ColorOS15全新游戏助手采用全新视觉风格设计，支持全新消息盒子（通知信息收纳）、闪电启动（一键直达游戏大厅）、赛事沉浸模式等功能。

IT之家 2024-12-25

车企纷纷“上贡”！丰田将为特朗普就职典礼捐赠100万美元

财联社12月25日讯（编辑卞纯）丰田汽车公司发言人周二表示，该公司将向当选总统唐纳德·特朗普 1月20日的就职典礼捐赠100万美元，此前一天，福特汽车和通用汽车也表示将捐赠同样数额的资

2024-12-25

载72人坠毁客机现场残骸曝光！航空博主解析25人生还原因

12月25日消息，阿塞拜疆航空公司的一架客机在哈萨克斯坦西部的阿克套坠毁，引发关注。事发时，这架阿塞拜疆航空的飞机正从巴库飞往格罗兹尼。坠机前，机组人员请求紧急迫降，机上有67名乘客

朝晖 2024-12-25

马斯克再次炮轰亚马逊创始人贝佐斯前妻：令人担忧！

快科技12月25日消息，据媒体报道，近期，美国亿万富翁埃隆·马斯克再次对亚马逊创始人贝佐斯的前妻斯科特的慈善捐赠提出了质疑。据了解，马斯克本周分享了一篇批评斯科特的帖文。该贴文

秋白 2024-12-25

铭凡推出UN1250迷你主机：酷睿i5-1250P首发1599元起

快科技12月25日消息，铭凡推出新款迷你主机UN1250，首发到手1599元起。据悉，新款迷你主机搭载的是英特尔酷睿i5-1250P处理器，基于Alder Lake-P芯片，共有12个核心和16个线程，也就是4P+8E的配

鹿角 2024-12-25

用AIGC搞药物发现，大分子那种，来自Bengio核心团队教授唐建新成果

推荐体验

相关资讯

用AIGC搞大分子药物发现，来自Bengio核心团队教授唐建新成果

Nature：人工智能在大分子药物发现方面的公司格局

快速准确定位识别生物大分子中国团队基于人工智能研究提出新方法

Mila唐建：搭建生命科学领域ChatGPT，用生成式人工智能开发药物

人工智能技术及在生物分子活性预测、药物发现中的应用

近期资讯

西门子油烟机评测：外观设计与性能兼具的厨房好帮手

2K直屏骁龙8E神机！iQOO 13海外卖爆：创历史最强销售记录

品牌首款中大型智能旗舰家轿！宝骏享境有望12月26日亮相

你今年A股赚钱没！四大行涨疯了：宇宙第一大行扛起大A

科技金融盛会！2024京津冀科技成果直通车在石家庄召开

OPPO ColorOS 全新游戏助手亮相：支持闪电启动、沉浸模式等功能

车企纷纷“上贡”！丰田将为特朗普就职典礼捐赠100万美元

载72人坠毁客机现场残骸曝光！航空博主解析25人生还原因

马斯克再次炮轰亚马逊创始人贝佐斯前妻：令人担忧！

铭凡推出UN1250迷你主机：酷睿i5-1250P首发1599元起

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响