当前位置:首页|资讯|机器学习

AI在生物学领域的突破,一定要看看这个系统

作者:AI研习所发布时间:2023-07-22

在没有机器学习专业知识的情况下,有可能建立机器学习模型吗?


麻省理工学院生物工程系Termeer医学工程与科学教授、Abdul Latif Jameel健康机器学习诊所(Jameel Clinic)生命科学系主任Jim Collins和许多同事在面临类似难题时决定解决这个问题。6月21日,一篇名为BioAutoMATED的关于他们提出的解决方案的开放获取论文发表在《细胞系统》杂志上。


对于科学和工程实验室来说,招募机器学习研究人员可能是一个耗时且经济成本高昂的过程。即使有机器学习专家,选择合适的模型,为模型格式化数据集,然后对其进行微调,也会极大地改变模型的性能,这需要大量的工作。


2022年谷歌关于机器学习基础(ML)的课程问道。“在你的机器学习项目中,你通常会在数据准备和转换上花费多少时间?”提供的两个选项要么是“少于一半的项目时间”,要么是“超过一半项目时间”,而实际结果显示多数选择了后者。谷歌表示,格式化数据需要80%以上的项目时间,这甚至没有考虑到用机器学习的术语来构建问题所需的时间。


柯林斯实验室生物工程博士杰奎琳·瓦莱里是该论文的第一位合著者,她说:“为我们的数据集找出合适的模型需要数周的努力,这对很多想使用机器学习或生物学的人来说真的是一个令人望而却步的步骤。”


BioAutoMATED是一个自动化的机器学习系统,可以为给定的数据集选择和构建合适的模型,甚至可以处理数据预处理的艰巨任务,将长达数月的过程缩短到几个小时。奎琳指出,自动机器学习(AutoML)系统仍处于相对初级的发展阶段,目前的使用主要集中在图像和文本识别上,但在生物学子领域基本上没有使用。


“生物学的基本语言是基于序列的,”在麻省理工学院机械工程系获得博士学位的Soenksen解释道。“DNA、RNA、蛋白质和聚糖等生物序列具有惊人的内在标准化信息特性,就像字母表一样。许多AutoML工具都是为文本开发的,因此将其扩展到[生物]序列是有意义的。”


此外,大多数AutoML工具只能探索和构建简化类型的模型。奎琳说:“但你不可能从项目一开始就真正知道哪种模型最适合你的数据集。通过将多个工具合并到一个伞形工具下,我们确实允许了比任何单个AutoML工具单独实现的搜索空间都大得多的搜索空间。”


BioAutoMATED的监督ML模型包括三种类型:二元分类模型(将数据分为两类)、多类分类模型(把数据分为多类)和回归模型(拟合连续数值或测量变量之间关键关系的强度)。BioAutoMATED甚至能够帮助确定适当训练所选模型需要多少数据。


奎琳说:“我们的工具探索了更适合更小、更稀疏的生物数据集以及更复杂的神经网络的模型。”这对拥有可能适合也可能不适合机器学习问题的新数据的研究小组来说是一个优势。


Soenksen解释道:“在生物学和机器学习的交叉点进行新颖而成功的实验可能会花费大量资金。目前,以生物学为中心的实验室需要投资于重要的数字基础设施和经过AI-ML培训的人力资源,才能看到他们的想法是否会成功。”。我们希望降低生物学领域专家的这些障碍。”


有了BioAutoMATED,研究人员可以自由地进行初步实验,以评估是否值得聘请机器学习专家来构建不同的模型进行进一步的实验。


开源代码是公开的,研究人员强调,它很容易运行。Soenksen说:“我们希望看到的是人们接受我们的代码,改进它,并与更大的社区合作,使其成为所有人的工具。”。“我们希望为生物学研究界注入活力,并提高人们对AutoML技术的认识,这是一条非常有用的途径,可以将严格的生物学实践与快节奏的AI-ML实践更好地融合在一起。”




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1