作者|穆易青、Kimi
大家好,我是穆易青,今天向大家介绍我的新专栏,主要探讨AI大语言模型在生物信息学领域应用。在带大家深入了解专栏之前,我愿先分享催生这个专栏的灵感与初衷。
回溯到2023年2月,我正驻扎在北京总部,当时chatGPT3.0诞生前两个月还没有被大众关注到,资本也还没有开始炒作。不到2个月,用户数量爆炸式增长,openAI被迫开启用户注册,领导让我研究一下,看能不能用在解决一些客户的生信问题上。我就开始研究注册和使用方法,并且写了第一篇与大语言模型(LLM)相关的文章——如何注册chatGPT账号。可惜由于注册流程受国内网络限制,CSDN审核就没通过,也就没了下文。
这篇注册流程本来应该是这个专栏的第一篇文章。
受网络监管问题,国人在使用GPT方面始终不太方便,除了上面讲到的注册问题,还有就是GPT的网络不稳定性以及对中文的认知偏差。网络不稳定这个相信用过GPT的读者都清楚,限时、限字数访问。而对中文的认知偏差,则让我很长一段时间内,都会先把中文翻译成英文进行输入,得到英文输出后,再要求翻译回中文。好在国内大厂也没有闲着,消费级应用方面,3月百度顶着压力发布了“文心一言”,4月阿里发布了通义千问,5月则是科大讯飞星火。尽管这些模型在当时还有很多不足,但也收获了一大批国内用户。
回到专业上来,生物信息学,作为一门交叉学科,一直以来都在与知识的多样性、数据的海量和复杂性作斗争。你在招聘网站上多看一些与生物信息相关的技术岗位,就会发现社会对这个专业的定义其实相当广泛。组学分析、流程搭建、算法工具研发、药物设计等都可以作为生物信息工程师的工作内容。同行之间的交流也由于不同组学,不同研究对象等因素,经常出现鸡同鸭讲(字面意思)的情况。另一方面,随着各类组学技术和测序仪器的飞速发展,我们能够获取的数据量呈指数级增长。这些数据不仅体量庞大,而且类型多样,包含了丰富的生物学信息。然而,从这些数据中提取有价值的信息,构建准确的模型,预测生物学现象,却是一个巨大的挑战。
其实,单单是LLM的使用,就是一个需要花不少时间研究的命题。而我希望将LLM与我从事的行业相结合,为后来的人作出一点自己的贡献,而这也是最初的专栏定位。今年7月,我去宁波参加行业会议,听业内大佬讲他们的研究,与大家熟知的课程老师和教材主编交流,收获很大,更加坚定了我要创办一个生信+AI的专栏。回来之后,我反复总结,听取录音,从生物信息学的角度和应用层面,对业内AI应用的定义总结出下列六个等级:
L0 无AI应用:通过手动操作,执行生物信息学任务,完成分析的过程;
L1 通用AI应用:基于消费级AI应用模型解决生物信息学问题,即AI应用具有普适性,需要一定的引导使其具备生物信息的垂直属性;比如我们日常向各种大语言模型提问,或者让chatPDF帮我们阅读文档。
L2 垂类AI应用:利用市面上已知的AI模型与工具,通过输入知识库和RAG技术,形成一个垂直领域的应用。chatGPT的应用商店内的各种应用工具就是开发者基于chatGPT研发而成。
L3 生物学算法创新:基于传统意义上的机器学习(ML),深度学习(DL)到神经网络(CNN)的生物学算法创新;或是将算法用于与生命科学相关的基础研究,实现研究目的;
L4 生物学工具开发:通过包括且不限于上述算法开发的工具或模型,比如西北农林科技大学参与研发的DNABERT,它基于BERT的Transformer架构,将DNA序列视为一种“语言”进行分析和理解。而在蛋白结构领域,则以AlphaFold系列最为著名;
L5 多模态数据整合:基于大数据构建的多模态数据整合模型,可以处理多组学、多模态数据,实现联合分析。由清华大学智能产业研究院(AIR)和水木分子公司合作开发的BioMedGPT就是一个多模态生物医药大模型,它整合了基因、分子、细胞、蛋白、文献、专利、知识库等多源异构的数据。不过目前国内外还没有基于国家级数据库的生物类数据模型,需要持续观察。
基于这个等级分类,我对专栏提供的内容做了大致的限定,即:面向L0,L1级别的读者,提供L1,L2级别的应用指导。接下来,我将详细介绍这个专栏的各个方面。
俗话说:“授人以鱼不如授人以渔”。专栏内容专注于生物信息学与AI大语言模型结合应用,则主要向读者展示的是知识发现和数据挖掘的过程,并引导读者自己探索。专栏旨在启发那些对生物信息学感兴趣,希望利用AI技术解决实际问题的读者。
发布频率:考虑到不同内容的写作难度不同,高质量技术教程和案例研究预计1-2周/篇,工具简介1周1-2篇,工作繁忙时允许拖更(也允许催更)。
专栏刚开始应该会出几篇低频高质教程。随着和读者的互动与选题调整,将逐渐增加资源推荐,后期有余力会在社群或线上组织话题讨论,并整理好讨论内容进行展示。另外,我自己从其他生信推送文章中取长补短,对专栏也进行了约法三章,包括:
虽然在生物信息领域摸爬滚打多年,我更多的是在构建流程,我的博文也是时断时续,自觉在专业深度上尚有提升空间。因此,本专栏更适合初学者和转行科研人员。当然,如果有专业人士愿意加入社群,指导新人,交流经验,那么我也非常愿意提供这个平台。
形式的重要程度是自上而下的,通过这些内容展现形式,专栏将为读者提供一个全面、系统的学习路径,从基础概念到高级应用,逐步引导读者深入生物信息学与AI的结合领域。我相信,通过这个专栏,读者不仅能够获得知识,更能够激发思考,开拓视野,共同推动生物信息学领域的发展。
最后,我还想聊聊专栏的名字。打过游戏、生过孩子的读者都知道,取名字其实挺难的。最开始我和家属想了好几个,总觉得没有点明内容核心,后来家属放弃。而我干脆将笔名和生信、大语言模型的粗暴组装,歧义有些取巧——尽管这并不是一个与生信相关的AI模型,也希望给人耳目一新的感觉。另外,我还给这个专栏设置了英文名和图标,叫”BioChat“,虽然感觉有些山寨,但确实意为生信与大语言模型的结合,这个会暂时作为一段时间的logo,大家平时聊这个专栏也可以用英文名,毕竟中文名字太多。关于这个logo的制作,要感谢我的好朋友老周,没有他就没有这么高质量的图标。
🌟 非常感谢您抽出宝贵的时间阅读我的文章。如果您觉得这篇文章对您有所帮助,或者激发了您对生物信息学的兴趣,我诚挚地邀请您:
👍 点赞这篇文章,让更多人看到我们共同的热爱和追求。
🔔 关注“木青生信大模型”,不错过每一次知识的分享和探索的旅程。
📢 您的每一个点赞和关注都是对我最大的支持和鼓励,也是推动我继续创作优质内容的动力。
📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。
💌 如果您有任何问题或想要进一步交流,欢迎在评论区留言,我会尽快回复。