今天分享的是AIGC系列深度研究报告:《AIGC专题:AIGC数据安全与算法治理报告》。
(报告出品方:赛博研究院)
报告共计:20页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
近年来,随着大数据、云计算、人工智能等为代表的数字技术带来全球性的科技革命和产业变革以“算力新基建、数据新要素、AI 大模型”为核心特征的算力经济发展浪潮为人工智能全面发展注入了强大动能。算力新基建成为人工智能新发展的坚实底座和基础支撑。数据新要素成为人工智能新发展的核心动能和强新引领和产业机遇。
AIGC 领域技术迅速突破。人工智能相关技术发展经过三个阶段,“图灵测试”为代表性事件的早期萌芽阶段 (20 世纪 50 年代至 90 年代中期)从实验性向实用性转变的沉淀积累阶段 (20 世纪 90年代中期至 21世纪 10 年代中期) ,依托 NLP/ 多模态预训练大模型、深度生成模型、生成式对抗网络(GAN) 、语言模型 (Transformer) 等 A 技术的快速发展阶段 (21世纪 10 年代中期至今)。
目前,重点领域的技术突破催生了 AIGC人工智能应用,在大模型、算力及 AI 技术的支撑下,AIGC应用呈现出“专用人工智能”“通用人工智能”两个发展方向,前者具有任务单一、需求明确、应用边界清晰、传统领域知识丰富和功能建模相对简单等特征,已进入快速的商业化应用阶段,后者基于理解、计划和问题解决能力,在不同的应用场景或任务领
AIGC 产业生态初步成型。人工智能产业链已形成包括智能芯片、传感器、智能设备厂商的硬件层,数据分析处理、算法模型、软件开发和关键技术厂商的技术层,行业应用、解决方案、产品服务开发厂商的应用层等三大层级体系,整体产业结构进一步优化。
同时,AIGC 产业作为万众瞩目的蓝海,市场规模持续增长。根据对 610 个国内外应用的统计.AIGC 约包含 48 个分类。根据应用场景,可以分为文本对话、文案写作、图像生成、视频创作、音乐创作、特定实验 (蛋白质序列) 模拟类以及代码编写协助等特定人工智能类型。其中,全球范围内的图像生成文案写作和代码编写三类 AIGC 产品年营收均已超过1亿美元,Stability、Jasper.ai 等 AIGC 独角兽估值大幅上升。
一方面,人工智能发展加剧了传统数据安全风险。人工智能的新发展必然伴随着数据总量的井喷式爆发,各类智能化数据采集终端数量的加快增长,数据在多种渠道和方式下的流动更加复杂,数据利用场景更加多样,整体数字空间对于人类现实社会各个领域的融合渗透更趋于深层,这将使得传统数据安全风险持续地扩大泛化。
另一方面,人工智能催生了各种新型的数据安全和算法风险。人工智能通过训练数据集构造和优化的算法模型,因其对于数据资源特有的处理方式将带来更多的隐私保护忧患、智能代替人工造成的就业担忧、算法对于市场竞争带来的不公平以及科技伦理等一系列问题。同时,人工智能在自动化网络攻击、数据黑产的应用,使得网络安全和数据安全威胁更加复杂,对国家和企业现有的安全治理能力形成巨大冲击。
AIGC 等新一代人工智能应用在模型训练阶段所需的数据呈现指数级增长趋势,因此通过数据采集获取海量数据是人工智能发展的重要前提。从数据采集方式来看,目前主要包括现场无差别采集、直接在线采集和商务采购等方式。现场无差别采集时,由于难以提前预知采集的数据对象和数据类型,因此在公开环境尤其是公共空间进行现场采集时,将不可避免地因采集范围的扩大化而带来过度采集问题,当采集的对象为用户时,也难以获得用户的充分授权同意。直接在线采集时,由于是通过技术手段对于网络公开数据进行扫描爬取,而人工智能系统通常由训练好的模型部署而成,需要对数据进行连续性的处理分析,因此很难保障数据所有者的修改、撤回等权益,并且可能涉及知识产权问题。数据交易时,由于目前数据交易和流通的市场化机制不健全,因此存在一部分企业通过灰色渠道获得数据,数据收集存在违法问题。最后,随着 AI 生成技术的发展,有效网络数据的增长将跟不上训练模型所需数据量的增速,与此同时数据获取的成本也不断上涨,因此合成类数据 (Synthetic Data) 将是未来人工智能企业主要的数据源之一。
数据污染可能导致人工智能算法模型失效。数据污染产生的原因包括训练数据集规模过小、多样性或代表性不足、异构化严重、数据集标注质量过低、缺乏标准化的数据治理程序、数据投毒攻击等。在数据与模型算法适配度极低的情况下,在进行算法训练时将会明显带来反复优化、测试结果不稳定等问题,使得人工智能运行的成本大大提高,严重的数据污染甚至直接导致人工智能算法模型完全不可用。
数据投毒可能导致人工智能决策错误。在自动驾驶、智能工厂等对实时性要求极高的人工智能场景中,恶意攻击者人为地在训练数据集中定向添加异常数据或是篡改数据,将通过破坏原有训练数据的概率分布导致模型产生分类或聚类错误,从而连续性引发人工智能的决策偏差或错误。数据投毒对人工智能核心模块产生的定向干扰还可能扩散到智能设备终端 (如智能驾驶汽车的刹车装置、智能工厂的温度分析装置等),产生灾难性事故后果。
数据偏差可能导致人工智能决策歧视。人工智能算法决策中所使用的训练数据和样本数据,因地域数字化发展不平衡或社会价值的倾向偏见而存在难以消除的偏差时,将造成最终决策结果的歧视性。比如在对话生成场景中,chatGPT 等应用可能因为训练数据的不足,生成带有政治偏见的信息,在金融征信、医疗教育和在线招聘领域,可能因为边远也区、弱势群体和少数族裔的数据量不足、数据质量不高等因素,导致自动化决策的准确率会基于人群特征形成明显的分化,从而产生实质性的歧视影响。
海量数据在存储及交互中泄露和滥用隐患。部分人工智能企业采取委托第三方或众包的方式进行海量数据的采集、标注、分析和算法优化,数据在供应链的各个主体之间形成复杂、实时的交互流通链路,考虑到各主体数据安全能力的参差不齐,可能产生数据泄露或滥用的风险。此外,人工智能初创企业对于开源框架、第三方软件包、数据库和其他相关组件等均存在较大的依赖性,但由于缺乏严格的测试管理和安全认证,因此将面临不可预期的系统漏洞、数据泄露和供应链断供的安全风险。
数据孤岛和流通壁垒导致人工智能数据供给不足。底层数据资源的竞争是人工智能企业最关键的市场竞争力体现。以GPT-3 为例,该模型有 1750亿个参数,预训练数据量高达 45TB。然而,数据需求和供给之间的不对称、成熟的数据要素市场尚未形成,这些因素都严重影响了行业的发展。同时,在政府与企业之间、大企业与小企业之间、行业与行业之间,因数据确权、数据安全等问题也存在着诸多法律和技术上的数据流通壁垒,间接形成了数据黑产滋生的经济动因。
AIGC 应用导致的数据出境流动合法性问题。在全球数字经济发展不均衡的大背景下,大型科技巨头在人工智能领域的数据资源供给、数据分析能力、算法研发优化、产品设计应用等环节分散在不同的国家,而小型初创企业也需要诸多第三方平台和数据分析公司的支撑。因此,无论是出于企业自身需要还是第三方合作,在人工智能技术研发和场景应用中均需要常态化、持续性、高速率、低延时的跨境数据流动。在各国日益趋严的数据出境安全评估要求下,数据出境流动而面临极大的政策障碍,更将对主权国家的国家安全、数据主权等带来复杂的挑战。
在当下的安全实践中,隐私计算通常是指在数据全程保密或无接触的情况下,确保合作双方能够对数据进行计算、比对、运行等并读取和利用结果,并保证任何一方均无法得到除应得的计算结果之外的其他任何信息。隐私计算的技术方向包括:
同态加密:对加密数据进行处理从而得到一个输出,将此输出进行解密,其结果与用同一方法处理未加密原始数据得到的结果一致。在同态映射下先运算后加密和先加密后运算,得到的结果相同。
多方安全计算:针对无可信第三方情况,安全地进行多方协同计算。从计算场景上,可以将安全多方计算分为特定场景和通用场景。前者是指针对特定的计算逻辑,比如比较大小,确定双方交集等.后者则可以采用多种不同的密码学技术设计协议。当前,多方安全计算的主要适用场景包括: 1) 数据安全查询。2) 联合数据分析。
差分隐私:通过对数据添加千扰噪声的方式保护数据中的隐私信息。在许多场景下机器学习涉及基于敏感数据进行学习和训练,例如个人照片、电子邮件等,差分隐私技术能够提供强大的数学保证,保证模型不会学习或记住任何特定用户的细节。
联邦学习: 联邦学习是指本地进行 AI模型训练然后仅将模型更新的部分加密上传到数据交换区域并与其他各方数据的进行整合。联邦学习主要应用于 A 联合训练。通过利用联邦学习的特征,为多方构建机器学习模型而无须导出企业数据,不仅可以充分保护数据隐私和数据安全,还可以获得更好的训练模型,从而实现互惠互利。
组织建设: 设立负责人工智能安全治理工作的组织机构和专职人员,进行明确的职责分配。制定组织内部的数据安全制度规范、数据安全风险管理、算法治理策略等,对组织内部的大规模数据训练、数据处理活动、算法设计等进行指导和监督。
技术能力:根据企业自身情况,通过内部研发、外部采购、托管服务等方式,部署必要的安全产品和服务,通过技术手段辅助数据安全制度规范、数据安全风险管理、算法治理策略的实施。
人员能力:通过内部培训、外部招聘等多种方式提升组织内部相关人员的安全意识和能力,构建一支覆盖企业管理、人工智能发展、数据合规处理数据安全运维、算法测试等多个专业能力的安全队伍。
企业文化:人工智能开发企业要将公平透明数据安全融入企业组织文化建设,要以此为理念开展模型设计、人工智能产品的研发和测试,人工智能系统应用企业要以此为理念管理好应用过程中产生的数据。
报告共计:20页
海量/完整电子版/报告下载方式:公众号《人工智能学派》