数据是大模型竞争关键要素之一,关注中国 AI 大模型数据发展AI 的突破得益于高质量数据,我们认为数据是大模型竞争关键要素之一:1)训练大模型需要高质量、大规模、多样性的数据集;2)优质中文数据集稀缺,数字中国战略将促进数据要素市场完善,助力数据集发展。近期欧洲议会议员《人工智能法案》提案、网信办《生成式人工智能服务管理办法(征求意见稿)》对大模型训练数据的版权披露、合法性提出要求,对于数据产业链的投资机会,我们认为:1)数据资产储备公司的商业化进程值得关注;2)行业数据价值高,具有优质数据和一定大模型能力的公司或通过行业大模型赋能业务;3)关注卡位优质客户、技术降低人力成本的数据服务企业。
中文开源数据集数量少、规模小,看好数字中国战略激活数据要素产业链与国外类似,国内大模型的训练数据包括互联网爬取数据、书籍期刊、公司自有数据以及开源数据集等。就开源数据集而言,国内外的发布方都涵盖高校、互联网巨头、非盈利机构等组织。但国内开源数据集数量少、规模小,因此国内大模型训练往往使用多个海外开源数据集。
关注公众号:报告自由
获取完整报告,精选100+行业专题报告。
报告节选:
关注公众号:报告自由
获取完整报告,精选100+行业专题报告。
近期分享:
2023 AI人工智能算力报告
2023 年中国有色金属行业报告
2023 半导体设备发展研究报告
2023 年新能源汽车及动力电池发展格局
2023 世界储能行业市场研究报告