作者:中关村水木医疗
国家药监局器审中心(CMDE)曾发布《人工智能医疗器械注册审查指导原则》。本文首先从整体层面上介绍了框架目录,其次针对指导原则的重点内容进行解读,最后简列了一些相关的规范性文件简介,供大家参考。
一、指导原则框架
《人工智能医疗器械注册审查指导原则》(以下简称《指导原则》)主要是基于深度学习的审评要点,同时结合了审评工作中的经验,参考国际监管进展,综合制定出台。
表1指导原则框架
《指导原则》从三个方面介绍了智能医疗企业监管的三条基本原则,从五个方面介绍了人工智能医疗器械的生存周期过程要求,从十六个方面的专题设计了技术考量。
《指导原则》主要是在深度学习软件审批要点的基础之上进行了进一步细化,并且新增部分内容说明。一是要求更为细致,主要体现在人工智能医疗器械类型、人工智能医疗器械生存周期过程、自动标注、在线标注、算法性能评估结果比较分析、算法性能综合评价、迁移学习、第三方数据库、白盒算法、注册申报资料补充说明等方面;二是内容更为全面,新增压力测试、对抗测试、生成对抗网络、集成学习、强化学习、联邦学习、持续学习/自适应学习、人工智能算法框架、人工智能芯片、注册单元与检测单元、算法研究资料、人因与可用性等说明。
二、重点内容解读
(一)适用条件
《指导原则》适用于人工智能医疗器械的注册申报,包括第二类、第三类人工智能独立软件和含有人工智能软件组件的医疗器械(包括体外诊断器械),也适用于自研软件的注册申报,现成软件组件参照执行,不适用于外部软件环境。因此,《指导原则》取代了《深度学习辅助决策医疗器械软件审评要点》非临床部分的要求,可用作人工智能医疗器械体系核查的参考,质量管理软件若采用人工智能技术亦可参考适用要求。
(二)基本原则
1、基于算法特性
人工智能算法的类型不同,其算法特性、适用场景也不同,评价重点亦有所侧重;同时,不同类型的人工智能算法可组合使用,需结合各算法特性和算法组合形式进行整体评价。需重点关注算法泛化能力、数据质量控制,兼顾算力不足与失效的影响。
2、风险导向
人工智能医疗器械的风险水平用软件安全性级别进行表述,基于产品的预期用途、使用场景、核心功能进行综合判定,监管要求取决于软件安全性级别(轻微<中等
人工智能医疗器械的主要风险从算法角度包括过拟合和欠拟合,从用途角度主要包括假阴性和假阳性,其中假阴性即漏诊,可能导致后续诊疗活动延误,特别是要考虑快速进展疾病的诊疗活动延误风险,而假阳性即误诊,可能导致后续不必要的诊疗活动。此外,进口人工智能医疗器械还需考虑中外差异风险,如人种、流行病学特征、临床诊疗规范等差异。
3、全生命周期质控
重点关注技术审评、体系核查、不良事件监测、产品召回要求,进行全生命周一条线的质控。
(三)主要概念
1、人工智能医疗器械
人工智能医疗器械是基于“医疗器械数据”,采用人工智能技术实现其预期用途(即医疗用途)的医疗器械。医疗器械数据是指医疗器械产生的用于医疗用途的客观数据;基于医疗器械数据包括医疗器械数据的生成、使用等情况。
人工智能是指机器表现出与人类智能相关行为的能力,通常是指通过感知周围环境做出合理行动以达到预期目标的计算机软件或系统。机器学习是指与人类学习行为相关的人工智能,通常是指通过整理现有数据和/或获取新数据以提升性能的计算机软件或系统。机器学习虽是人工智能的子集,但却为人工智能的核心领域,当前二者对于医疗器械而言含义基本相同。
此外,基于知识管理的医学人工智能产品不属于人工智能医疗器械。
2、人工智能医疗器械类型
从医疗器械软件角度,人工智能医疗器械可分为人工智能独立软件和人工智能软件组件。
人工智能医疗器械从用途角度可分为辅助决策类和非辅助决策类。其中,辅助决策是指通过提供诊疗活动建议辅助用户进行医疗决策,相当于用户的“助手”。反之,仅提供医疗参考信息而不进行医疗决策即为非辅助决策,相当于用户的“工具”。
人工智能医疗器械从功能角度大体上可分为处理功能、控制功能、安全功能。其中,处理功能又可分为前处理功能和后处理功能,前处理功能是指采集人体解剖、生理信息生成医疗器械数据过程的处理功能,如成像流程简化、成像质量改善、成像速度提高等;后处理功能是指利用医疗器械数据生成诊疗信息或进行医疗干预过程的处理功能,如诊疗流程简化、自动测量等。控制功能是指控制/驱动医疗器械硬件运行的功能,如闭环控制、机械臂运动控制等。安全功能是指保证医疗器械安全性的功能,如风险预警、急停控制等。
人工智能医疗器械从算法角度具有多种类型划分维度。从学习策略角度可分为有监督学习和无监督学习,区别在于是否需要对训练数据进行标注。从学习方法角度可分为基于模型的算法和基于数据的算法。从可解释性角度可分为白盒算法和黑盒算法,前者特征提取需要人为干预,可与现有医学知识建立关联,后者自动完成特征提取,难与现有医学知识建立关联,前者可解释性优于后者。
上述类型划分维度相互交叉,同一纬度不存在严格划分线。
同样,人工智能医疗器械从成熟度角度可分为成熟和全新两种类型,其中成熟是指安全有效性已在医疗实践中得到充分证实的情形,全新是指未上市或安全有效性尚未在医疗实践中得到充分证实的情形。人工智能医疗器械的算法、功能、用途若有一项为全新则属于全新类型,反之属于成熟类型。
3、人工智能医疗器械更新
人工智能算法更新属于软件更新范畴,故遵循软件更新的基本原则及要求:人工智能算法更新若影响到人工智能医疗器械的安全性或有效性则属于重大软件更新,应申请变更注册;反之,人工智能算法更新若未影响到人工智能医疗器械的安全性和有效性则属于轻微软件更新,通过质量管理体系进行控制,无需申请变更注册,待下次变更注册时提交相应注册申报资料。
人工智能算法更新可分为算法驱动型更新和数据驱动型更新。其中,算法驱动型更新是指人工智能医疗器械所用算法、算法结构、算法流程、算法编程框架(详见后文)、输入输出数据类型等发生改变,通常属于重大软件更新。此外,算法重新训练即弃用原有训练数据而采用全新训练数据进行算法训练,亦属于算法驱动型更新。
数据驱动型更新是指仅由训练数据量增加而发生的算法更新。数据驱动型更新是否属于重大软件更新原则上以算法性能评估结果(基于相同的测试集和算法性能评估指标)为准,算法性能评估结果若发生显著性改变则属于重大软件更新,即算法性能评估结果与前次注册(而非前次更新)相比存在统计学差异,反之属于轻微软件更新。
软件版本命名规则原则上应涵盖算法驱动型更新和数据驱动型更新,明确并区分重大软件更新和轻微软件更新,其中重大软件更新列举常见典型情况。软件版本命名规则的基本要求详见医疗器械软件指导原则、医疗器械网络安全指导原则。
(四)人工智能医疗器械生存周期过程
有监督深度学习是当前人工智能医疗器械的主流算法,故《指导原则》以有监督深度学习为例详述人工智能医疗器械生存周期过程质控要求,其他类型的人工智能算法可参照执行。主要环节包括需求分析、数据收集、算法设计、验证与确认、更新控制等阶段,需重点关注体系记录、数据质控、算法更新、算法可追溯分析,增强透明度。
此外,人工智能医疗器械所含的每个人工智能算法或算法组合,均需独立开展质控活动,同时考虑人工智能算法组合的整体评价要求,以保证产品的安全有效性。前期已开发的人工智能医疗器械若不满足本指导原则的适用要求,应开展差距分析并予以记录,明确产品使用限制和必要警示提示信息。必要时采取补救措施,以满足质量管理体系要求,并保证产品的安全有效性。
1、需求分析
需求分析以用户需求与风险为导向,结合产品的预期用途、使用场景、核心功能考虑。
为保证数据质量和控制数据偏倚,数据收集需考虑数据来源的合规性、充分性和多样性,数据分布的科学性和合理性,数据质控的充分性、有效性和准确性。
算法性能需结合医疗实际和产品定位,综合考虑假阴性与假阳性、重复性与再现性、鲁棒性/健壮性、实时性等性能指标的适用性及其要求,兼顾不同性能指标的制约关系,如假阴性与假阳性等。同时,结合当前医疗水平情况,考虑金标准或参考标准的确定依据、实现方法和质控要求,以保证算法性能评估的准确性,必要时纳入数据收集过程。
使用限制需考虑产品禁用、慎用等场景,准确表述产品使用场景,提供必要警示提示信息。
2、数据收集
数据收集基于合规性要求,主要考虑数据采集、数据整理、数据标注、数据集构建等活动的质控要求,以保证数据质量和算法训练效果。
数据采集需考虑采集设备、采集过程、数据脱敏等质控要求,并建立数据采集操作规范。数据整理基于原始数据库考虑数据清洗、数据预处理的质控要求。数据标注作为有监督学习数据质控的关键环节,需建立数据标注操作规范,明确标注资源管理、标注过程质控、标注质量评估等要求。
数据集构建是指基于标注数据库构建训练集(用于算法训练)、调优集(若有,用于算法超参数调优)、测试集(用于算法性能评估);为解决样本分布不满足预期的问题,可对训练集、调优集小样本量数据进行扩增,原则上不得对测试集进行数据扩增。
3、算法设计
人工智能算法作为人工智能医疗器械的核心,其设计主要考虑算法选择、算法训练、算法性能评估等要求。
算法选择提供所用算法的名称、类型(如有监督学习、无监督学习,基于模型、基于数据,白盒、黑盒)、结构(如层数、参数规模)、输入输出数据类型、流程图、算法编程框架、运行环境等基本信息,并明确算法选用依据,包括选用的理由和基本原则。
算法训练需基于训练集、调优集进行训练和调优,考虑评估指标、训练方式、训练目标、调优方式、训练数据量-评估指标曲线等要求。
算法性能评估作为软件验证的重要组成部分,需基于测试集对算法设计结果进行评估,综合考虑假阴性与假阳性、重复性与再现性、鲁棒性/健壮性、实时性等适用评估要求,以证实算法性能满足算法设计目标,并作为软件验证、软件确认的基础。亦可基于第三方数据库开展算法性能评估。
4、验证与确认
软件验证是指通过提供客观证据认定软件开发、软件更新某一阶段的输出满足输入要求,包括软件验证测试(单元测试、集成测试、系统测试)、设计评审等系列活动。
软件确认是指通过提供客观证据认定软件满足用户需求和预期目的,包括软件确认测试(用户测试)、临床评价、设计评审等系列活动。根据产品实际情况,软件确认方式可单一使用,亦可组合使用。软件确认测试基于用户需求,由预期用户在真实或模拟使用场景下予以开展,亦可基于测评数据库予以开展。临床评价基于核心功能或核心算法,结合预期用途和成熟度予以综合考虑。同时,开展算法性能比较分析,若各类测试场景(含临床评价)算法性能变异度较大,详述原因并基于分析结果明确产品使用限制和必要警示提示信息。最后,结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价,针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况,对产品的适用范围、使用场景、核心功能进行必要限制。
5、更新控制
按照质量管理体系,开展与算法更新、软件更新的类型、内容和程度相适宜的验证与确认活动,将风险管理、可追溯分析贯穿于更新全程,形成记录以供体系核查。
对于算法更新,无论算法驱动型更新还是数据驱动型更新,均应开展相应验证与确认活动,如算法性能评估、临床评价等,以保证算法更新的安全有效性。
(五)技术考量
1、注册单元与检测单元
人工智能医疗器械的注册单元与检测单元划分原则详见医疗器械软件指导原则,人工智能独立软件、人工智能软件组件分别参照独立软件、软件组件的要求。
若软件核心功能(即软件在预期使用场景完成预期用途所必需的功能)相同,但核心算法(即实现软件核心功能所必需的算法)类型不同,则每类核心算法所对应的核心功能均需检测,即检测对象为核心功能而非核心算法。
2、网络安全与数据安全
数据转移需明确转移方法、数据污染防护措施、数据销毁等要求。数据整理、数据集构建、算法训练、算法性能评估、软件验证等内部活动需在封闭或受控的网络环境下开展以防止数据污染。数据标注、软件确认等涉及外方的活动需明确数据污染防护措施,特别是在开放网络环境下。各数据库(集)均需进行数据备份,明确备份的方法、频次、数据恢复方法。数据采集、上市后使用需考虑医疗机构关于网络安全与数据安全的接口要求。
3、移动计算与云计算
人工智能医疗器械若使用移动计算、云计算等技术,则遵循相关指导原则要求。具体而言,移动计算相关要求详见移动医疗器械指导原则,云计算相关要求详见医疗器械软件指导原则,移动计算与云计算的网络安全相关要求详见医疗器械网络安全指导原则。
4、人因与可用性
建议加强人工智能医疗器械的人因设计以提升可用性,将用户错误使用的风险降至可接受水平,特别是软件用户界面。具体要求详见医疗器械人因设计相关指导原则。
5、白盒算法
白盒算法的特征提取需要人为干预,可与现有医学知识建立关联,可解释性高,通常为基于模型的算法。对于此类算法,有监督学习的模型/数据质控要求参照有监督深度学习执行,不适用内容详述理由并予以记录。同理,无监督学习的模型/数据质控要求亦参照有监督深度学习执行,其中数据标注不适用,其余不适用内容详述理由并予以记录。
此类算法无论有监督学习还是无监督学习,均需明确特征信息,如特征分类(如人口统计学、生物学、形态学)、特征属性(如形态、纹理、性质、尺寸、边界)、特征展现方式(如形状、尺寸、边界、颜色、数量)等信息。
6、压力测试与对抗测试
压力测试是指采用罕见或特殊的真实数据样本开展的算法性能测试,侧重于评估算法泛化能力的极限。注册申请人需根据产品实际情况开展压力测试,以全面深入评估算法性能,必要时可引入对抗样本开展对抗压力测试。若未开展相应测试或测试结果不佳,均需对产品的适用范围、使用场景、核心功能进行必要限制,并在说明书中明确产品使用限制和必要警示提示信息。
对抗测试是指基于真实数据样本利用数据扰动、生成对抗网络等技术产生对抗样本,并采用对抗样本开展的算法性能测试,侧重于评估算法的鲁棒性/健壮性若条件具备,建议注册申请人开展对抗测试,以全面深入评估算法性能。若未开展相应测试或测试结果不佳,均需明确产品使用限制和必要警示提示信息。
7、人工智能新技术
人工智能算法包括集成学习、迁移学习、强化学习、联邦学习等,需要明确算法的名称、类型、输入输出、流程图、运行环境等基本信息以及算法选用依据。并且根据算法类型及算法特性提供算法验证与确认(或系统与用户测试)资料。
此外,还包括持续学习/自适应学习。用户亦成为产品开发者,需与注册申请人共同承担产品质量责任和法律责任;同时,此种更新对于产品安全有效性的影响具有高度不确定性,特别是基于数据的无监督学习。
因此,在当前法律法规体系和技术水平条件下,持续学习/自适应学习应关闭自学习功能,或者虽开放自学习功能但不得投入使用,即用户始终使用产品原有功能,自学习功能仅用于算法训练或医学科研。
注册申请人应按照质量管理体系要求,对自学习功能所产生的产品更新的安全有效性进行验证与确认,必要时申请变更注册,待批准后方能将自学习功能所产生的产品更新投入使用。
8、算法编程框架与人工智能芯片
算法编程框架从开发者角度可分为自研算法框架和现成算法框架,其中自研算法框架即注册申请人自行研发的人工智能算法框架,属于自研软件;现成算法框架是指注册申请人所使用的由第三方开发的人工智能算法框架,视为现成软件,现成算法框架开发者视为医疗器械供应商。
算法框架更新包括产品更新、版本更新、补丁更新,其中产品更新、非效率型版本更新对于人工智能医疗器械而言属于重大软件更新,效率型版本更新、补丁更新对于人工智能医疗器械而言通常属于轻微软件更新,除非影响到人工智能医疗器械的安全性或有效性。
人工智能芯片作为计算资源的组成部分,本身不属于监管对象,根据其所属的计算平台类型考虑监管要求。对于独立软件,人工智能芯片作为通用计算平台的组成部分,不属于产品结构组成,按照运行环境予以考虑。对于软件组件,人工智能芯片作为医用计算平台的组成部分,属于产品结构组成,与产品进行整体评价。
9、第三方数据库
第三方数据库可用于算法性能评估,但其类型、用途等情况各不相同,未必能够完全满足软件确认测试的要求。因此,使用第三方数据库进行软件确认测试,需评估其满足软件确认测试的充分性、适宜性和有效性。
可用于软件确认测试的第三方数据库即为测评数据库。测评数据库除满足数据库通用要求(如数据管理、网络安全与数据安全、可扩展性)外,还应满足权威性、科学性、规范性、多样性、封闭性、动态性等专用要求。
基于测评数据库,利用数据扰动、生成对抗网络等技术,可衍生出对抗测评数据库。若条件具备,建议基于测评数据库建设对抗测评数据库,以全面深入评价算法性能。
公开数据库因不具备封闭性而不能用作测评数据库,但可用于算法性能评估,若用于算法训练需重新进行质量评估。使用公开数据库需根据其使用情况开展必要评估工作,并在注册申报资料中予以说明。
(六)算法研究资料
算法研究报告适用于人工智能算法或算法组合的初次发布和再次发布,包括算法基本信息、算法风险管理、算法需求规范、数据质控、算法训练、算法验证与确认、算法可追溯性分析、结论等内容,不适用内容详述理由。
表2算法研究资料
算法更新研究报告仅适用于人工智能算法或算法组合的再次发布,在算法研究报告相应内容中明确算法更新情况。考虑到算法更新具有累积效应,算法更新研究报告需涵盖人工智能医疗器械自前次注册(延续注册除外)以来算法更新的全部内容。
(七)注册申报资料补充说明
注册申报资料在符合医疗器械注册申报资料要求等文件要求基础上,满足医疗器械软件、医疗器械网络安全、移动医疗器械等相关指导原则要求,同时重点关注以下要求。
1、产品注册
一是注册证信息:包括人工智能独立软件/人工智能软件组件、产品名称、结构组成(体现人工智能算法名称)、适用范围。
二是研究资料:对于软件安全性级别为中等、严重级别的产品,全新类型在软件研究资料中以算法为单位,提交每个人工智能算法或算法组合的算法研究报告;成熟类型在软件研究资料中明确算法基本信息即可,无需提供算法研究资料。
三是用户培训方案:对于软件安全性级别为严重级别、预期由患者使用或在基层医疗机构使用的产品,原则上需单独提供一份用户培训方案,包括用户培训的计划、材料、方式、师资等。
四是产品技术要求:适用于基于测评数据库测试的产品。
五是说明书:根据算法性能综合评价结果,对产品的适用范围、使用场景、核心功能进行必要限制,并在说明书中明确产品使用限制和必要警示提示信息。若适用,明确数据采集设备和数据采集过程相关要求。对于辅助决策类产品,说明书需明确人工智能算法的算法性能评估总结、临床评价总结、决策指标定义等信息。此时若采用基于数据的人工智能算法,说明书还需补充算法训练总结信息。若产品采用人工智能黑盒算法,则需根据算法影响因素分析报告,在说明书中明确产品使用限制和必要警示提示信息。
3、变更注册和延续注册
(1)变更注册
对于软件安全性级别为中等、严重级别的产品,全新类型在软件研究资料中以算法为单位,根据人工智能算法的更新情况,提交每个人工智能算法或算法组合的算法更新研究报告,;成熟类型在软件研究资料中明确算法基本信息即可,无需提供算法研究资料。
对于软件安全性级别为轻微级别的产品,在软件研究资料中明确算法基本信息即可,无需提供算法研究资料。
(2)延续注册
延续注册通常无需提交算法相关研究资料。若适用,根据注册证“备注”所载明的要求提交相应算法研究资料。
三、规范性文件简介
以下是人工智能医疗器械相关的主要规范性文件,帮助大家在产品开发中进行参考。
表3 规范性文件
本文转载自其他网站,不代表健康界观点和立场。如有内容和图片的著作权异议,请及时联系我们(邮箱:guikequan@hmkx.cn)