【摘要】建立AI大模型的可信数据空间(Data-trust-space),提供集风险分级、数据全流程管理、多用户微隔离于一体的可信数据空间即基础设施(DaaI,Data-trust-space as a Infrastructure),保护行业数据和模型参数,打通上下游产业链,更好地服务大模型企业和行业生态。
上文《浅谈AI大模型的数据特点和应用问题》中曾提到:“基于共享弹性计算资源的云计算模式,更适合多租户访问、随用随训随训随取的场景,有效解决大模型成本高昂的问题。可信计算、隐私计算在大模型时代迎来全新机遇,将在数据安全方面发挥更大的作用。各地政府鼓励的大模型产业园,也有望推动大模型数据产品化,缓解商业变现和生态构建的压力。”那么,如何挖掘大模型中的数据要素价值,提升风险检测和安全防护能力,发展负责任、可信任、受控的人工智能呢?
数篷科技提出可信数据空间即基础设施(DaaI),是指在共享资源的云计算服务模式中,基于可信数据空间,结合大模型风险分级、数据全流程管理、多用户微隔离等特点,为大模型提供安全、可靠、高效且灵活的数据运行环境,实现跨云叠加和跨产业链打通,有助于进一步解决大模型的成本、安全和商业生态问题。
图1 可信数据空间即基础设施(DaaI)特点
首先,DaaI根据大模型的不同风险级别,设置不同等级的可信数据空间,对不同敏感级别的数据实施相应的安全保护措施,比如涉及跨境数据流动、敏感行业应用等的大模型,其可信数据空间的风险等级相对较高,从而监控跨境跨云大模型的数据“投喂”行为,避免触碰数据跨境流动等的监管红线。
其次,可信数据空间针对不同数据进行精准管理,覆盖数据采集、训练、推理、应用等在大模型中运行的各个阶段,有效跟踪数据流转、防止数据泄露,使得可信空间中流转的都是可信数据,确保数据的完整性和合规性。
再次,可信数据空间对多用户进行微隔离防护,使得多个用户在同一物理环境中独立运行其大模型,提高了资源利用率和系统效率,间接降低了使用成本。通过对东西向访问进行持续检测和内网设备的细粒度访问控制,精准识别访问主体和客体,有效阻止攻击者的横向移动,消除企业用户对于大模型数据开发利用的后顾之忧,保障了企业对于数据的可信使用和可信交易。
建设数据融合的可信空间,可以使多个主体在可信空间内进行数据流转、使用,保证数据在软件定义的边界内“可用不可拿”、“共享但不外泄”。数据在上下游产业链之间流动,连接了数据提供者、数据使用者、算法开发者、大模型数据平台方等产业链上的各个主体,形成完整的生态体系。数据提供者可以放心地提供高质量数据、生成模型参数;大模型数据平台方则利用平台的集聚效应,可以放心地开放平台能力,让高价值数据更好地存储、使用和流转;数据使用者利用产生的行业大模型、边缘大模型成果,优化改善生产生活中的实际问题,体现大模型赋能千行百业的落地效果(如图2所示)。
图2 可信数据空间(Data-trust-space)示意图
DaaI构建端到端的可信数据空间,可以APP、SDK、API等多种形态,部署在本地设备或公有云上,以小切口嵌入IaaS、PaaS算力平台和SaaS应用中。数据在异构云环境之间流动,打破了不同云服务商之间的壁垒,实现了数据和计算资源的跨平台共享和协同工作。
如何缓解大模型的商业生态问题呢?公共政务数据一般具有较高的数据质量和数据价值,包括政法、医疗、税务、教育、商业等数据。地方政府通过建设大模型产业园,并以此为载体依托汇聚上下游产业生态,可以在充分信任的基础上开展这些数据的价值运营。应用DaaI,有助于更高频次利用公共数据,撮合各行业的公共数据交易,挖掘产业应用中的数据要素价值,助力实现数据要素的资产化和资本化,打通商业生态的闭环。
图3 大模型产业园的场景应用
大模型的快速发展,加速了数据要素流动,使得行业应用场景愈发复杂,数据安全风险倍增。未来,数篷科技将持续拓展可信数据空间即基础设施DaaI,提供“风险分级”、数据“全过程”、“多用户”微隔离、“跨云跨产业链”打通的云上解决方案,解决大模型的数据安全问题,保障大模型平台、开发方、使用方、监管方等多元主体的权益,促使数据转化为可量化、可交易、可持续增值的资产,推动大模型产业和更广泛的数据要素市场发展。