【汇正财经】大模型训练数据付费，关注出版板块修复机会

作者：汇正财经发布时间：2023-12-25

近期，新闻出版巨头施普林格出版集团（ Axel Springer）与ChatGPT 开发机构 OpenAI 签署协议，成为全球第一家与OpenAI 合作将新闻业与人工智能技术进行更深入整合的出版机构。 ChatGPT 用户将收到 Axel Springer 旗下品牌的新闻报道摘要以及原始报道来源的归属和链接，充分优化 OpenAl 的模型在其聊天机器人的回答结果。 Axel Springer 还将提供其媒体品牌的内容来作为 OpenAl 大型语言模型的训练数据，帮助训练 Open AI 旗下的人工智能模型GPT-4。

大模型训练数据付费，有望创造新收入： Open AI 与 AxelSpringer 签订的协议表明，人工智能在使用媒体品牌内容进行大模型训练时将需要向媒体品牌付费，这意味着 AI 大模型向数据提供方的知识产权付费或将成为行业趋势。对于拥有高质量数据资源的出版行业公司来说，这一付费模式有望帮助它们利用现有的“尘封”版权资源，创造高质量的数据集以服务 AI 大模型厂商，从而创造新的营收增长点。

大模型数据需求旺盛，利好版权出海概念：据 News MediaAlliance 发布报告内容表明，用于训练热门人工智能模型的数据集“显著”更多地依赖于出版商内容，与通用网络内容相比，其比重范围从 5 倍多到近 100 倍。我们认为，在训练数据集付费即将成为大趋势的前提下，海外大模型训练需要的高质量数据集将通过版权出海的方式实现。因此，具有高质量、高稀缺性数据资源的出版公司将有望通过版权出海的方式开辟新业务增长点。

大模型训练数据版权政策出台，凸显优质训练数据价值：年内多地出台促进 AI 技术发展的政策文件，如《北京市促进通用人工智能创新发展的若干措施》和《深圳市加快推动人工智能高质量发展水平应用行动方案》，其中均提到“高质量数据集”。此外，国家网信办等七部门联合发布的《生成式人工智能服务暂行管理办法》规定了生成式 AI 服务提供者不得侵害他人知识产权。当前 AI 政策密集出台，高质量数据集和训练数据版权问题得到重视，未来优质训练数据库的价值将得到凸显。

投资建议：

出版行业公司大多拥有丰富的电子化的图文资源，这可以作为国内外大模型训练的重要数据集。出版行业公司在版权和 IP 上的资源优势有望助力其作为海内外 AI 大模型研发的重点助力。叠加当前出版行业本身整体估值相对较低。

建议关注行业内拥有大量可数字化的优质内容和独有素材的公司：中原传媒（ 000719.SZ ）、中国出版（ 601949.SH ）、凤凰传媒（ 601928.SH）、中信出版（ 300788.SZ）、山东出版（ 601019.SH）等。

参考资料：2023年12月14日中国银河证券《传媒行业动态点评》

市场有风险，投资需谨慎。本文仅为投资者教育使用，不构成任何投资建议，投资者据此操作，风险自担。力求本文所涉信息准确可靠，但并不对其准确性、完整性和及时性做出任何保证，对投资者据此进行投资所造成的一切损失不承担任何责任。

免责声明

本文由汇正财经的投资顾问：顾晨浩（登记编号：A0070620080002）进行编辑，仅供参考，请自主决策，风险自担。投资有风险，入市需谨慎!