数据，真的是 AI 大模型市场化的「壁垒」吗？

作者：雷锋网发布时间：2023-07-12

数据的重要性之于人工智能技术发展长期存在。但在大模型以前，鲜少有人能预见它背后巨大的想象力。

作为智能飞跃中的关键一环，ChatGPT 火爆全球后，“模型-用户数据-模型迭代-用户数据”的飞轮式迭代，令人们对数据的热情上了一个新台阶。据OpenAI 披露，此前 GPT-3.5 的文本语料多达 45TB，相当于 472 万套中国四大名著，而 GPT-4 在 GPT-3 和 GPT-3.5 训练数据集的基础上又增加了多模态数据。

大小企业对数据的火热反映到实际的市场环境上，是数据库企业融资数量的增加、向量数据库的用量陡然增长、以及细分赛道模型的批量推出......数据壁垒，成为大模型落地故事里企业竞争力的代名词。

不过，在经历近半年的浪潮后，市场对大模型的感知正在降温。近日，知名投资人朱啸虎和傅盛在朋友圈的一番隔空争论，给大模型行业再添了盆冷水。在朱啸虎看来，基于大模型做应用，护城河太低、价值非常单薄。

当市场回归冷静，人们终于有时间开始思考：数据真的是大模型的壁垒吗？

「卷」起来的数据

归根结底，大模型在今天展现出强大的能力，得益于背后的海量数据、蕴含了丰富的“人类”知识和智能，通过大模型技术将其提炼出来，用神经网络去表达复杂数据的背后规律。

而 GPT 系列开启了一个新的时代，即我们不再需要提前标注数据了，只需将大规模的语料准备好，神经网络就能自己调整参数、并学习到一个稳定状态。

就目前来看，几乎每一次大模型能力的提升，预训练数据的数量、质量、数据类型等多个方面都起到了关键性作用。

2020 年，一个重要的研究工作发现，模型效果与模型的参数量、数据量和计算量之间存在幂律发展规律“Scaling Laws”，模型参数量、数据量指数性增长、计算量增加，模型在测试集上的 loss 呈现指数性降低，模型性能效果越好。

也即是说，在给定计算量且参数规模较小的情况下，增大模型的参数量对模型性能的影响，远高于数据和训练步数对模型的贡献。

图源：Large Language Models: A New Moore's Law?

因此，业界对大模型性能形成了一种普遍的认知，即模型的参数越多、容量越大，模型的性能表现越好。

而事实上，前段时间所发布不少大模型的表现，正在不断挑战这一“参数”定律。

比如 Meta 在 2 月份开发的 LLaMA，其训练数据是 GPT-3 的 4.7 倍，其中 LLaMA-13B 虽然在规模上相较于 OpenAI 的 GPT-3.5（175B）和 Meta 复现的开源大模型 OPT 小了十几倍，但其表现能力在大部分基准上均超过后者；而LLaMA-65B 更是与 DeepMind 的 Chinchilla-70B、以及谷歌 5400 亿参数的 PaLM-540B 在表现上旗鼓相当。

可以看到，更多的数据对大模型性能的影响有关键性作用。

不仅如此，智源研究院副院长兼总工程师林咏华曾向 AI科技评论表示，模型性能取得阶段性突破，最重要的还有数据质量的提升，模型的训练语料在一定程度上会影响 AIGC 应用、微调后模型等内容生成的合规、安全以及价值观等问题。清华大学副教授、聆心智能创始人黄民烈在向 AI 科技评论回忆参与智源大模型工作时，也强调了数据质量对于模型的性能影响非常之大。

当前，国外的大模型和国内部分模型会选用许多国外开源数据集进行训练，如 Common Crawl、 RedPajama、BooksCorpus、The Pile、ROOT 等等。但源于互联网的数据虽然多、质量却良莠不齐，从获得海量数据到高质量数据，数据的清洗仍面临着很大挑战。

数据显示，智源通过对 100 万条 Common Crawl 网页进行分析，共提取出中文网页数量近 4 万个；从站源角度来看，可提取出中文的网站共有25842 个，其中 IP 显示中国内地的只有 4522 个，占比仅为 17%，不仅中文数据的准确性大打折扣，数据安全性也很低。

如今不仅是数据量，数据清洗方式也已成为各家的核心竞争力之一。比如对数据集中污点数据的定义和发现，有行业人士指出，这或许还需要社会学、伦理学等多个交叉领域专业人士的介入，在专业知识和经验积累的基础上，加入对污点数据处理算法的迭代。

除了数据质量，数据的多样性也是影响模型能力表现的关键因素之一。

Sony AI 高级科学家吕灵娟向 AI 科技评论指出，数据量的增加有利于提高模型的智能水平，但更精准的说法是，数据在多样性和质量上的提高，才能够实现整个数据值智能的飞跃，而非是单纯数量的增加。举个例子，如果是简单的同类型数据反馈，单条数据反馈和十条同类型数据反馈，虽然在数据的数量上增加了 10 倍，但模型的智能并没有得到拓展和增加。

以 GPT 系列模型的能力跃进来看：

GPT-1使用的训练语料以书籍为主、如BookCorpus 等
GPT-2则使用了如 Reddit links 等新闻类数据，文本规范质量高，同时又包含了部分人们日常交流的社交数据
GPT-3时期，模型的数据规模呈数十倍增长，Reddit links、Common Crawl、WebText2、Wikipedia 等数据集的加入，大大提高了数据的多样性
GPT-4阶段更引入了 GitHub 代码、对话数据以及一些数学应用题，进一步提高了模型的思维链推理能力

不仅如此，模型训练时所使用到的不同类型的数据，甚至能够影响最终训练所得的模型类型。

行业大模型的研发离不开通用大模型的能力，但从技术上看，行业大模型也并非只是简单地将数据喂给通用大模型、进行微调，就能获得解决专业领域问题的能力。此前有研究表明，拥有金融行业私有数据的 BloombergGPT 在多个任务上的表现，并未比通用大模型的表现更好。

香港科技大学（广州）信息枢纽院长陈雷告诉 AI科技评论，“大模型解决了基础的语言理解问题，也即是说，大家在使用它、问它的时候，它能知道大家问了什么问题。但得到什么样的答案，需要我们数据科学、AI 模型把前端做好。”

例如之前港科大推出的校园GPT，就将智慧校园中的知识库放入GPT或ChatGPT中，让它具备了回答校园导航、餐厅菜单、课程安排等具体学校场景中的问题。陈雷表示，“大模型是通用的，但做vertical domain (垂直领域）大模型、最重要就在于，前端如何让数据ready，如果数据表现不好，想让大模型回答你的问题非常难。”比如做一个智慧城市相关的行业大模型，就需要对应的维基百科、企业数据等等。

可以说，今天数据之于大模型，既是“炼丹”的原材料，决定了最终“烹饪”出哪个菜系的大模型，同时，数据的数量、质量、多样性乃至清洗能力，也是影响大模型性能表现的关键性要素。

数据「壁垒」，是护城河还是悖论？

很长时间以来，数据被视为大模型落地的入场券，甚至是军备竞赛中的竞争护城河。关于数据“壁垒”的本质、是否存在等问题，极少有人去思考。

众所周知，在今天的公开互联网数据中，高质量的、中文数据样本是偏少的，一个现实的情况是，大模型任意领域的问答生成表现都非常好，但面对专业领域问题的表现不佳，甚至会出现模型“一本正经地胡说八道”的幻觉。

业内人士同 AI 科技评论交流时也坦言，数据标注可以通过找人、花钱来完成，真正困难的是原始数据的获取，“在国内，高质量、经梳理过的数据短缺是一大问题，特别是有效的中文数据更是稀缺。”

因此，当国内各家大模型厂商将目标瞄准在追赶GPT-3.5 时，其差距大多只有 1 到 2 个月的时间差，很快就能追平，很难有哪一家能显著拉开差距。同时，由于缺少行业数据的投喂，对容错率更低的生产环节而言，大模型所能释放的生产力也更加有限。

一部分人的看法是，数据壁垒将长期存在，并且随着大模型的体量向万亿级规模迈进，数据壁垒还将持续扩大。

可以看到，当前的互联网的数据存在一定的大厂割据的现象，比如在百度上搜索不会弹出来抖音的视频推荐，阿里也拿不到微信里的数据，虽然中文语料海量，但几经切割后，投喂出来的大模型效果也会大打折扣。这也意味着，数据的壁垒会不断加高大模型的围墙，使其成为仅限于大厂或拥有海量数据资源玩家的垄断性技术。

一位大厂数据优化工程师也向 AI 科技评论表达了相同的看法，大模型本身的泛化能力仍受限于数据，如果说 ChatGPT 要取缔某个职业或岗位的话，最简单的一个判定标准即是，是否具备数量足够多、质量非常好的数据。

为此，自带场景、数据和用户的产业、企业客户成为了大模型公司相互争夺的资源。不仅如此，有知情人士告诉 AI 科技评论，为了抢占这部分企业客户拿到数据，一些大模型厂商还愿意自降身价，以比竞争对手更低的低折扣、甚至免费的方式为企业部署大模型，以求得后续进一步深度合作。

而另一边，也有人对数据壁垒的观点持相反看法。

有业内人士就表示，数据壁垒、数据垄断去搭建企业自己的护城河这一方式并不存在，更多是持有数据公司来拉高自身估值的一个说辞。现阶段，数据泄露、数据买卖的事件频频发生，灰色地带衍生的产业链成为直指数据壁垒的矛，“一个关键性问题就在于，你怎么证明别人盗用了你的数据？我又要怎么防止别人盗用我的数据？”

不仅如此，数据信息也是存在于一定时间周期中的数据，一方面，短时间内的数据累计能否发生质变，从数据转化为有效信息还尚未可知；另一方面，有部分行业数据还会定期进行信息披露，也就是说，今天信息的私密不意味着未来数据信息的私密。

而站在技术革新的角度上，一位从事自然语言处理方向研究的高校教授也告诉 AI 科技评论，语言大模型之所以涌现，是多种技术积累沉淀和极致的工程化的结果，事实上并没有什么革命性的跨越，而是一个技术工程、对参数的掌握，“底座技术决定了大模型整体性能的80%，数据、场景等等其他东西只占20%。因此，我们关注的核心还是在于，尽快先把里边的机理弄清楚，再从底座模型入手、想怎么进行革命性的提升。”

总体而言，随着市场化的深入，将大模型用在业务里，一套被寄予厚望的商业模式是，收集更多的数据做成数据黑洞，模型也能变得更强。但同时我们也要看到，数据壁垒之于技术创新的局限性。

数据的「达摩克利斯之剑」

OpenAI 在对未来 AGI 发展的预测中提到了两个重要方向，其中之一就是收集尽可能多的有效数据。可以看到，从 GPT-3 的文本数据，到 GPT-4 文本加图片的多模态数据，有业内人士预测，GPT-5 将是文本、图片加视频的数据汇合。

作为工程化落地的关键一环，数据还有很多问题没有得到足够重视，面临着极大的挑战，首当其冲就是数据安全问题。

将 GPT 家族视为一个不断迭代的大模型版本，必然存在一大部分数据共享，再引入新的数据和机制训练，模型的训练效率和生成内容质量受技术、数据等方面影响发生改变，而无论是哪个方面，数据存在安全隐患是毋庸置疑的。

吕灵娟告诉 AI 科技评论：“这些数据未经授权、也没有好的制约机制，即便在早期训练过程中，企业或研发人员会对有害数据进行筛除，但从完整的训练流程来看，模型仍会不可避免地继承或者加重部分污点数据。”其中，模型的可解释性与数据量呈高度相关性，模型越大、黑盒子越难解释。

不仅如此，当前的现状是，大部分企业公司并不愿意公布自身大模型的训练数据来源，数据当中涉及到隐私、公平性、偏见和环境等多方面问题，站在商业立场上，容易引发激烈讨论的数据集风险程度更高，企业出于经营风险将数据隐藏起来也无可厚非，但在这个过程中，外界也无法获知该数据对个人及社会造成的具体危害有多大。

不同规模大小的企业资源差距较大，面对数据安全问题的解决方法也不同：小公司没有足够的财力和人力，一般多采用现有的开源数据集；大企业采用的方式，更多是以雇佣人力做数据标注来对数据进行深度清洗、提高数据质量。

专业人士指出，数据清洗作为大模型训练中一个最基本的数据环节，虽然可以过滤掉部分隐私或有害信息，但总的来说效果并不够，没有办法将数据集中的偏见消除干净，模型训练数据清洗能达到怎样的程度，也并不能解决根本问题。对此，吕灵娟表示，解决问题的关键还是应该从前期导入数据阶段就做好防范措施，从而在后期运维上也能节省更多的开支。

IDEA 研究院首席科学家张家兴博士告诉 AI 科技评论，在开源层面，开发者也面临着诸多的数据安全问题，其中就涉及到有些行业数据是否适合开源，因此从开源角度上看，也限制了部分模型只能部署在少数行业内做尝试。

而着眼于当下，用于训练 ChatGPT、GPT-4 等模型的数据，均源于人类发展过程中所积累下来的书籍、文章、图片、网站信息、代码等，是在没有 AI 帮助生成的情况下创造的，伴随着生成式内容和数据越来越多，或许在不久的将来，可能会出现大模型用 AI 生成的数据进行训练的事件发生。

此前，牛津大学、剑桥大学等研究人员就在“The Curse of Recursion: Training on Generated Data Makes Models Forget”工作中提出了一个令人担忧的结论：“模型崩溃”（Model Collapse），也即是说，当大模型生成的数据最终污染后续模型的训练集时，模型会出现一个退化的学习过程，随着时间的推移，由于模型被自己对现实投射内容所毒化，模型会在这个过程中开始遗忘不可能发生的事件。

当这些由 AI 生成的数据转化为大模型的原材料，使模型对现实的认知产生扭曲，从而产生的内容进一步污染网络世界，未来，我们通过互联网获取高质量数据训练模型将会愈加困难。正如 Michael Keaton 在 1996 年电影《丈夫一箩筐》（Multiplicity）的银幕中，制作了一个又一个自己的克隆人，最终导致后代克隆人的智力水平呈指数级下降，愚蠢程度不断增加。

其次，企业的私有数据也面临着安全隐患。

通用大模型在任意领域的问答生成表现都非常好，但它在专业知识领域的问答上仍有不足。相较于公开数据集，专业知识数据在网上不好获取，这部分属于核心机密的数据往往掌握在企业自己手中，数据越多、质量越高，价值也就越大，企业想要大模型部署效果表现好，离不开企业提供足量、质量够高的数据来支撑模型训练要求。

但是，由于企业和大模型厂商之间存在的天然的信任障碍，企业担心核心数据泄露，因此私有化部署成为了现阶段大模型在企业端落地的主要选择。

2017 年，《经济学人》杂志在所发表的封面文章中称，世界上最具价值的资源不再是石油、而是数据，从那之后，“数据是新时代的石油”这一说法被广泛接受。

而六年后的今天，大模型将数据的重要意义推向了又一个巅峰，“以数据为中心”成为从事大模型研发和应用的行业人士的共识，但同时，我们也要看到数据领域中存在的不足，提高数据安全性、稳健性，减少偏见和毒性。AI 模型规模迈进万亿时代，数据已经成为全新生态突围的关键卡点，在大模型走向场景落地的当下，一个清楚的事实是：对数据的需求量将越来越大。

参考链接：

1.https://huggingface.co/blog/large-language-models

2.https://arxiv.org/abs/2001.08361

（雷峰网雷峰网）

数据，真的是 AI 大模型市场化的「壁垒」吗？

推荐体验

相关资讯

AI大模型真的引领了国内的“资本盛宴”吗？是，也不是

ChatGPT是大模型商业化的火炬吗？

大　发彩票里的计划是真的吗

电子科大周涛：数据定价最终将走向完全市场化，被AIGC“夺走”的职位永不会还给我们

吴晓求：中国资本市场第一次真正走向了市场化

近期资讯

TypeScript 设计模式 - 建造者模式

Qml 中实现毛玻璃效果

React 结合实际项目深度优化：提升性能与开发体验的最佳实践

解决 iframe 嵌入项目中的常见问题与技术方案

Solid.js 最新官方文档翻译（15）—— Refs

Cesium 基础教程：从入门到航线绘制

Flutter 开发速成（三）——开发一个 TodoMVC 应用

虚拟列表的简单实现以及现有库的使用

写给前端,学习项目如何用Docker部署?

面试官：聊聊单点登录（SSO）

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响