8月19日,在2024北京人工智能生态大会上,高价值语料可信流通基础设施正式启动建设。在区块链、隐私计算等前沿信息技术的护航下,支撑人工智能大模型高质量成长的语料数据将告别无序流通,转入规范运行的“高速公路”。这对于加快形成人工智能大模型训练高地,推动我国人工智能实现弯道超车和跨越式发展具有重要意义。
近年来,人工智能技术快速发展,在国民经济运行关键领域发挥日益重要的作用。而大模型训练所使用的高价值语料数据,如同人工智能大模型发展中的重要“燃料”。但是,高价值语料数据存在跨单位、跨行业、跨地区分布的特点,缺乏足够的隐私安全保障和有效的流通激励机制,使得高价值语料数据拥有者往往“不敢分享”“不愿分享”。大量高价值语料数据“供给难、流通难、使用难”,已经成为我国人工智能进一步发展的瓶颈。
据悉,高价值语料可信流通基础设施由国家区块链技术创新中心、北京能源集团牵头,联合新华社国家重点实验室、人民网、高等教育出版社、中国通用技术集团等10余家我国语料数据重点单位共同打造。以区块链、隐私计算为代表的新一代信息技术,凭借着可信存证、不可篡改、易确权、充分保护数据隐私安全等特点,可以保障语料数据可信安全地流通、使用和管理,有效破解上述难题。
国家区块链技术创新中心相关负责人介绍,高价值语料可信流通基础设施将运用我国自主可控、性能领先的区块链软硬件技术,搭建起覆盖全国的分布式语料数据互联互通桥梁,链接语料供给方、加工方、需求方,实现全国分布式语料数据可信接入,跨地域可发现、可访问,形成高质量语料数据集;同时,运用创新隐私计算技术,通过“数据不出域、可用不可见”的方式,保障大模型高价值语料数据在处理加工和模型训练过程中无法二次非授权传播;此外,该基础设施还将通过智能合约开展链上激励,为语料资源供给与流转提供持续性的内生动力。
在高价值语料可信流通基础设施的支撑下,国家语料数据的重点单位还将开展基于区块链与隐私计算的语料数据可信安全流通规范制定,形成高价值语料数据流通与增值的可持续生态。
来源:北京日报客户端
记者:孙奇茹