「行业图谱系列」是清华大学国家金融研究院资本市场与公司金融研究中心基于科技成果转化研究的一项子课题,聚焦于科技成果这一核心要素,从技术链视角切入展开的研究项目。通过行业图谱的研究,既为科技成果转化提供了专业性知识体系支撑,也有助于指导城镇产业化发展布局、推动产业链融通创新、引导创业投资基金对“硬科技”的积极性及鼓励金融支持创新体系的建设。本报告为行业图谱的第一个系列——生物医药领域:人工智能在药物发现与研发中的应用。
药物发现和研发是制药企业和化学科学家的重要研究领域。人工智能和机器学习技术使制药领域实现了现代化。机器学习和深度学习算法已被应用于多肽合成、虚拟筛选、毒性预测、药物监测和释放、药效团建模、定量构效关系、药物重定位、多药理和生理活性等药物发现过程。
新药研发存在周期长、费用高和成功率低等特点,人工智能作为药物研发领域的一个热点方向,已被应用到药物研发的各个阶段。本研究从人工智能在药物发现与研发中的应用出发,剖析人工智能在药物发现与研发中的应用技术和方法流程,并探讨该领域下国内外的市场竞争情况和最新研究成果。
人工智能在药物发现与研发中的应用
人工智能(Artificial Intelligence,AI),指的是计算机系统从输入或过去的数据中学习的能力。根据《人工智能:现代方法》中的讨论,人工智能有七种分类(图1-1)。
图1-1 人工智能的分类
如图1-2所示,在新药研发中,第一步也是最重要的一步是确定与疾病病理生理学有关的适当靶点(如基因、蛋白质),然后找到可以干扰这些靶点的药物或类药物分子。人工智能的发展可以帮助提取这些大型生物医学数据集中存在的有用特征、模式和结构。在确定和验证了合适的靶点之后,下一步是寻找合适的药物或类药物分子,这些分子可以与靶点相互作用并引起所需的反应。在大数据时代,通过支配海量的大型化学数据库,协助寻找针对特定靶点的完美药物。
图1-2 大数据在药物设计和发现中的应用
人工智能在药物发现与研发中的应用技术和方法流程
在新药研发过程中,常遇到的瓶颈问题有:①寻找合适的、具有生物活性的药物分子;②药物分子难以通过第二阶段临床试验和其他监管批准。利用基于人工智能的工具和技术,提升药物研发的效率,解决上述所面临的药物研发问题。为此,下面将详细介绍人工智能在药物发现与研发中的应用技术和方法流程,如图2-1所示。
图2-1 人工智能在药物发现与研发中的应用
肽合成与小分子设计
多肽是一种由大约2至50个氨基酸组成的生物活性小链,由于它们具有跨越细胞屏障的能力并可以到达所需的靶点,因此越来越多地被用于治疗。深度学习于肽合成与小分子设计的应用概念图如图2-2所示。
图2-2 人工智能在肽合成与小分子设计的应用
分子通路的鉴定与多重药理学
人工智能和最大似然算法在药物发现和开发中的重要成果之一是预测和估计疾病网络、药物—药物相互作用和药物—靶点关系的总体拓扑和动力学。如图2-3所示,数据库如DisGeNET、STRTCH、STRING分别被用于确定基因—疾病关联、药物—靶标关联和分子途径。
图2-3 人工智能在分子通路的鉴定与多重药理学的应用
蛋白质折叠和蛋白质相互作用的预测
分析蛋白质—蛋白质相互作用(Protein-Protein Interaction, PPI)对于药物开发和发现至关重要,如图2-4所示。比如使用贝叶斯网络(Bayesian Network,BN)预测PPI,其本质是利用基因共表达、基因本体(Gene Ontology ,GO)和其他生物过程相似性,集成数据集产生精确的PPI网络。
图2-4 人工智能在蛋白质折叠和蛋白质相互作用的预测
基于结构和基于配体的虚拟筛选
在药物设计和药物发现中,虚拟筛选(Virtual Screening,VS)是CADD的重要方法之一,是从化合物库中筛选出有前景的治疗化合物的有效方法(如图2-5所示),以针对目标筛选具有所需活性的化合物。
图2-5 人工智能在药物虚拟筛选的应用
药物重定位
在新药研发中,先导化合物的筛选是至关重要的,人工智能在识别新的和潜在的先导化合物方面发挥着巨大的作用。在化学空间中有大约1.06亿个化学结构,他们来自不同的研究,如基因组研究、临床和临床前研究、体内分析和微阵列分析。利用机器学习模型,根据活性位点、结构和靶结合能力可以筛选出这些化学结构。
定量构效关系建模与药物再利用
在药物设计和开发中,研究化学结构和理化性质与生物活性之间的关系是至关重要的。定量构效关系(Quantitative Structure-Activity Relationship,QSAR)建模是一种计算方法,通过它可以在化学结构和生物活性之间建立定量的数学模型,并针对其他疾病情况进行重新定位(如图2-6所示)。
图2-6 人工智能在定量构效关系建模与药物再利用的应用
化合物的作用方式和毒性预测
药物毒性是指化学分子由于化合物的作用方式或新陈代谢方式而对生物体产生的不利影响。如图2-7所示,人工智能可以预测药物分子与靶点结合和未结合时的效应,以及体内安全性分析。
图2-7 人工智能在化合物的作用方式和毒性预测的应用
理化性质和生物活性的预测
众所周知,每一种化合物都与溶解度、分配系数、电离度、渗透系数等物理化学性质有关,这可能会阻碍化合物的药代动力学特性和药物靶向结合效率。因此,在设计新的药物分子时,必须考虑化合物的物理化学性质。为此,已经开发了不同的基于人工智能的工具来预测这些性质(如图2-8所示),包括分子指纹、SMILES格式、库仑矩阵(Coulomb matrices)和势能测量,这些都用于深度神经网络(Deep Neural Networks,DNN)训练阶段。
图2-8 人工智能在理化性质和生物活性的预测的应用
药物剂量和给药效果的识别
给病人任何不适当剂量的药物都可能导致不良和致命的副作用,多年来,确定能够以最小毒副作用达到预期效果的药物的最佳剂量一直是一个挑战。随着人工智能的出现,许多研究人员正在借助ML和DL算法来确定合适的药物剂量,如图2-9所示。
图2-9 人工智能在药物剂量和给药效果的识别应用
生物活性物质预测与药物释放监测
最近研究已经开发了多种在线工具来分析药物释放,以及选定的生物活性化合物作为载体的可行性,其概念图如图2-10所示。利用人工智能研究人员可以确定用于与疾病相关的特定靶点的生物活性化合物。
图2-10 人工智能在生物活性物质预测
与药物释放监测的应用
病毒疫苗的制备及抗体检测
由于数据量巨大,并且需要自动抽象特征学习,人工智能在疫苗发现领域有着重大贡献(图2-11)。COVID-19冠状病毒疾病疫苗的深度学习和机器学习模型主要集中在人工神经网络、梯度提升决策树和深度神经网络等预测算法模型中。
图2-11 人工智能在病毒疫苗的制备及抗体检测的应用
人工智能在制药行业开发新药中的应用
最近对药物开发人工智能的大量投资意味着这些初创公司拥有开发技术的人力和资源。与医疗成像领域的人工智能相比,总投资已经增长了四倍多,尽管两个行业的初创企业数量相当。图3-1显示了基于人工智能的新药研发所需要的条件及关键性技术竞争点。
人工智能成为国际竞争的新焦点。针对基于人工智能的新药研发,企业必须把人工智能发展放在企业战略层面系统布局,打造竞争新优势、开拓市场新空间。
图3-1 基于人工智能的新药研发所需要的条件
及关键性技术竞争点
①数据质量:构建有效且可解释的药物发现模型的方法之一是使用与药物相关的实体来构建神经网络模型。
②算法设计:大多数研究中使用的低水平穷举对接算法在寻找具有局部最小值的受体—配体相互作用时遇到困难,导致高度的亲和力可变性。因此,对接算法的选择、算法结构的设计和评价标准的设置都需要系统地改进。
③临床试验:药物或疫苗开发与临床应用的计算工作之间的转化差距是计算生物学和医学领域的一个主要且被广泛认可的瓶颈。许多预测的药物和疫苗尚未进入临床试验。
④硬件设施:目前,云端和边缘设备在各种人工智能应用中通常是配合工作的,随着边缘设备能力不断增强,越来越多的计算工作负载将在边缘设备上执行。新型人工智能芯片主要包括神经形态芯片、近内存计算芯片等,目前仍处于探索研发阶段。
国际顶级医疗公司在人工智能新药研发的最新研究成果
全球已上市的制药企业见下表3-1,重点关注美国、德国、英国和中国。
表3-1 全球已上市或进入临床的人工智能制药企业
国外相关技术早在2000年左右即开始进行院校的科技成果转化。相对而言,我国该领域的研发跟随国际,在新冠疫情之后研究团队开始增加,并注重成果转化的同步进行。基于中国国内院校学者的调研及文献报道,国内学者的研究重点同样集中在递送系统上,如表3-2所示:
表3-2 AI制药中国学者定位
作者:
朱雅姝:清华大学国家金融研究院资本市场与公司金融研究中心高级研究专员
安 砾:清华大学五道口金融学院副教授、清华大学国家金融研究院资本市场与公司金融研究中心副主任
邮 箱:rccmcf@pbcsf.tsinghua.edu.cn
感谢资本市场与公司金融研究中心的实习生许喜远(清华大学医学院2022级博士生)对本报告的助研工作。
免责声明
本文节选自研究报告《人工智能在药物发现与研发中的应用》,由清华大学五道口金融学院、清华大学国家金融研究院资本市场与公司金融研究中心编写。报告仅供研究使用,并非为提供咨询意见而编写。报告中的信息均来源于研究中心认为可靠的已公开资料,但研究中心及其关联机构对信息的准确性及完整性不做任何保证。