原文刊载于《中国科学院院刊》2023年第4期专题:技术经济安全理论与实践
庄昱1,2 周程1,3*
1 北京大学 哲学系
2 北京大学第三医院
3 北京大学 医学人文学院
近年来,人工智能(AI)正在加速融入医疗健康相关研究中。医院是我国医疗健康领域重要的人工智能研究基地与产出基地。目前,对医院主导人工智能研究现状调查尚不充分。本文对医院主导人工智能研究的现况进行研究,分析医院主导人工智能研究需要面对和跨越的技术性难题,并针对性地提出管理建议。
1.政策推动医院开展人工智能研究
我国高度重视人工智能在医学中的研发与应用,将其作为新一轮科技革命和医疗健康产业变革的核心驱动力,并力图在新一轮科技竞争中抢占主导权。2022年,国家卫生健康委员会与各省份签订的《共建高质量发展试点医院合作协议》中明确,要聚焦数字赋能,加强大数据、人工智能等跨行业新技术应用,建设医疗、服务、管理“三位一体”的智慧医院。“十四五”期末,试点医院形成中国智慧医院样板;“十五五”期末,面向世界提供智慧医院建设中国解决方案。
医院采用人工智能技术开展研究,有机会产出引领性、颠覆性的科技进步。人工智能研究范式可扩展纳入研究的数据模态,增加数据量,并加速信息采集过程。与此同时,医院是医疗健康数据的重要生产基地;医院研究者更加贴近患者,更容易提炼出具有重大科学意义的医学问题及技术需求。
人工智能临床应用研究已成为国际医学研究的重点方向和竞争热点。国际一流医院也在努力布局人工智能的研发与应用。2022年,美国《新闻周刊》(Newsweek)和德国Statista调查公司发布了“世界智能化程度最高的300家医院”榜单。该榜单中排名前10位的医院中,有5家医院被特别地标注了以“人工智能”为代表性领域。
2.医院人工智能研究数量及质量分析
样本医院
本研究选择北京协和医院、北京大学第三医院、四川大学华西医院、香港大学深圳医院等14家国家公立医院高质量发展试点医院作为样本。这14家医院感受到的政策推动更强,因而具有典型性,也具备一定程度的代表性。
研究方法
本文采用定量研究方法,对发表文章和申请专利2个维度开展了研究。
发表论文方面,研究者对样本医院发表人工智能相关文章进行了统计,采用关键词法在前述文章中识别人工智能相关文章,中英文关键词包括“人工智能(artificial intelligence)”“机器学习(machine learning,ML)”“神经网络(neural network)”“支持向量机(support vector machine,SVM)”“卷积神经网络(convolutional neural network,CNN)”“残差网络(residual network)”等。
专利申请方面,研究者从国家知识产权局网站“专利检索及分析”系统检索了相同时间段内获批的、包含“人工智能”关键词的相关发明、实用新型专利项目,并对其数量进行统计。
发表论文分析
1)论文数量
样本医院在2018—2019年、2021—2022年共发表人工智能相关研究文章3002篇,占比仅为2.25%。样本医院参与人工智能研究文章数从2018年的222篇逐年增长至2022年1434篇(图1),但2022年的同比增速(53.70%)远低于2019年的同比增速(86.04%)。结果提示,医院参与人工智能研究可能遇到了一系列挑战,发展可能进入瓶颈期。
图 1 14家样本医院发表人工智能相关研究论文总数量及在总发表论文数中的占比
2)发表语言
以中文作为发表语言的论文数占比从35.59%逐年下降至15.34%,且各年占比均低于全部领域文章中中文语言占比(图2)。结果提示,医院的人工智能研究更倾向于发表在国际期刊上。
图 2 14 家样本医院发表医学领域和人工智能相关研究中文论文占比对比
3)第一作者
本文以第一作者单位是样本医院的文章数量作为衡量医院主导人工智能研究的指标。样本医院主导发表了1728篇人工智能研究论文,占参与人工智能研究数的57.56%。结果提示,相当多的研究并非由医疗机构主导。
表1 样本医院主导人工智能研究发表论文数及在总发表数中的占比
4)研究层次
约55%的研究(67.29%的中文文章和45.92%的英文文章)仅以“人工智能”或“深度学习”或“机器学习”作为关键词(图3)。结果提示,这些文章大多尚停留展望、讨论人工智能可能应用于某领域的较浅的研究层次上。
图 3 样本医院发表中文(a)和英文(b)论文的人工智能关键词占比
人工智能相关专利
2021年以来,多家试点医院人工智能专利授权数实现了0的突破,总量也从2018—2019年的2件提高到了2021—2022年的46件(表2)。结果提示,人工智能研究转化专利数量较少且不稳定,并未形成稳定的人工智能研究计划及产出。
表 2 样本医院人工智能相关授权专利数(单位:件)
3.医院主导深度人工智能应用研究的挑战分析
学习曲线陡峭
1)系统学习深度神经网络范式
深度神经网络范式由一系列相互关联的技术路线和细节构成,知识容量较大。医院研究者完成深度神经网络范式的系统性学习,往往只能利用工作之外的业余时间自学或参加相关培训班。
2)学习程序编写
1. 编程环境配置的挑战。人工智能的框架处在快速的更迭之中,前一代的功能可能在后一代版本中被直接取消。初学者需要花费很长的时间,才能找到对应的解决方案。
2. 编程和排除编程错误的挑战。人工智能研究则需要研究者从零撰写程序,包括导入中层框架,加载必要基础模块等;排除程序错误通常会花费比编写程序更多的时间。
3. 多模态数据挑战。研究者不得不学习将这些数据导出、输入到人工智能程序中需要的编程技能。
计算机相关英语语言能力
当前,高质量的人工智能入门书籍都以英文书写,由于翻译、出版存在周期,这些著作中援引的学习资源甚至中层框架都发生了变化。这也从侧面印证了前文的发现,即越来越多的人工智能研究成果以英语语言发表在国际期刊上。
迭代计算产生时间和硬件成本
迭代成本主要可以分为时间成本和硬件成本2类,且这2类成本可以在一定程度上相互转化。
1)时间成本
机器学习算法通过自动迭代计算来获得神经网络模型的最优参数解,使用成本较低、普及度较高的中央处理器(CPU)计算需要耗费较长的时间。
2)硬件成本
相比CPU,使用价格更高的图形处理器(GPU),可以大幅减少计算需要付出的时间成本。由于多数医学图像的辨析度较高、图层数较多,医院主导人工智能研究几乎难以避免地需要添置GPU,有时还需要添置与之匹配的专门的计算平台。对医院的人工智能技术潜在研究者而言,获取与研究设想相匹配的计算硬件资源是一项难度相当大的挑战。
将临床数据转化为高质量研究数据
1)临床生产的数据同质化水平不高
在质量同质化较低的医院中,生产图像的平台科室只需确保图像中包含有助于医师诊断疾病的部分即可。在人工智能技术中,图像的背景、亮度、色温,乃至研究兴趣区在画幅中的位置、大小、角度等因素都可能产生噪声,干扰信号的提取。
2)储存、脱敏、提取、传输等数据处理相关问题
靠近采集端的数据的体量远大于经过提取后的结构化数据,对数据进行提取、传输、备份等操作会产生可观的成本,因此,医疗机构往往不愿在挖掘数据中进行更多的投入。
3)数据标记
缺乏大规模高质量标注训练数据集是现阶段制约我国人工智能临床应用研究发展的关键因素。实际上,在传统的数理统计方法的研究中,研究者也需要花费相当多的工作量识别和标记图像关键点。因此,固然标注数据是当前人工智能技术应用中需要关注的问题,却不是伴随人工智能技术而新出现的问题。
人工智能的可解释性较弱,使临床应用信心不足
1. 深度神经网络的研究结果往往由一系列对模型拟合能力的指标和预测能力构成,对熟稔传统数理统计的医院研究者而言,对人工智能结果进行解释和阐释的难度较大。
2. 一些旨在解决可解释性挑战的可视化算法(例如GradCAM)的技术难度很高。医院研究者及团队很难依靠自身力量将这些技能内部化。
掌握团队资源、确定团队技术路线的团队带头人,面对人工智能可解释性较弱的特性,将很难下决心组织开展深层次研究与应用。
4.从政策推动到研究产出的管理建议
抓住研究范式转变机遇,引导投入研究资源
虽然人工智能面临着可解释的挑战,但也应认识到,没有一种研究方法是完美的。只有面向人工智能研究投入资源才可能逐步克服和优化解释问题。
国家层面,应面向人工智能发展过程中的难点和痛点,通过设置综合医院的国家人工智能医学研究中心,设置互联网医院、智慧医院等样板医院,培育公立医院在发展人工智能中的良好的竞争文化,实现“弯道超车”的政策推动目标。
医院层面,优化人工智能研究领域的资源投入,通过开设人工智能课堂、组建院级人工智能计算共享平台,设置专门孵育项目等方式,面向人工智能的技术性挑战,审慎组织,跨越人工智能技术性障碍。
面向人工智能技术,布局多模态数据资源
医院应主动布局多模态数据资源结构,采取更加开放的态度,允许研究项目获得小规模的患者数据作为数据集。创新条件较好的医院可搭建人工智能数据平台,允许经研究团队标注的小规模样本集对院内研究者开放,供研究者熟悉和优化改进数据集。
医院内的研究团队可根据研究资源主动参与多模态数据布局。资源较丰富的医院研究者团队可尝试使用无监督学习聚类等机器学习算法,提前对数据进行小规模尝试性归类与标记。掌握研究资源不丰富的研究者可在使用传统统计方法进行病例研究的同时,留意收集该病例的多模态数据,逐步尝试纳入多模态数据并应用人工智能方法拓展研究。
培养人工智能协调员,推动人工智能研究走向深入
部分高质量发展试点医院也已启动了高校、科研院所和医疗机构之间的合作。但无论是研究建议还是实践,均未聚焦担任团队间“桥梁”的院内工作角色。医院应着力培养了解人工智能的基础框架、知识点,具备初步的人工智能研究能力的人工智能协调员,更好地沟通研究需求与研究方法,不断推动人工智能研究走向深入。
5.结语
医院参与和主导的人工智能研究数量正在逐年增加,医院研究者对人工智能研究范式的热情越来越高涨,投入也越来越多。医院主导人工智能研究仍面临重要的技术性挑战:人工智能技术学习曲线陡峭、迭代成本高、高质量多模态研究数据难得和可解释较弱。医疗机构应当主动响应政策推动,调动内部资源,主导人工智能技术内部化。未来,可通过培养人工智能协调员,培育人工智能高端人才,面向人工智能技术布局多模态数据资源,促进研究产出。
庄 昱 北京大学第三医院管理助理研究员,北京大学哲学系在读博士。主要研究领域:科学技术哲学。
周 程 北京大学哲学系教授、医学人文学院院长。国务院学位委员会科学技术史学科评议组成员。研究领域为科学社会史、科学技术与社会、创新管理与科技政策。
文章源自:
庄昱, 周程. 从政策推动到研究产出——浅析医院主导人工智能研究的技术性挑战. 中国科学院院刊, 2023, 38(4): 643-653. DOI:10.16418/j.issn.1000-3045.20230111001