我们在网上吹的牛，成了大模型的香饽饽

作者：科技狐发布时间：2024-06-04

OpenAI

就在前两天，OpenAI 发布的 GPT-4o，又一次震撼了整个互联网科技行业。

GPT-4o 融合了所有模态，可以识别并生成文字、语音和图像内容，还能根据人的语气判断对方情绪变化……电影《her》里面的情节，似乎就要变成现实。

而且，GPT-4o 还免费给所有用户使用，这一决策也在促使大模型开始往免费、低价这个方向卷。

最近，又有新闻爆出，OpenAI 与 Reddit 达成了一项协议，OpenAI 将使用 Reddit 的帖子内容来训练大模型。

可能很多人没听过 Reddit 这个网站，它是一个社交新闻网站，上面有许多社区板块，由用户发布的帖子构成，简单来说，咱们可以将它理解为美国版的“贴吧”或是“虎扑”。

根据最新财报，Reddit 日活用户超过 7000 万，每个月有 12 亿独立用户访问 Reddit，这也使得 Reddit 上聚集了各种各样的社区，什么体育、游戏、音乐、新闻事件……

在 Reddit 上，就有一个关于李子柒的社区。

这些由上亿用户创建的内容，本身就是一个非常宝贵的资源，跟贴吧一样，Reddit 帖子内容涉及到方方面面，回复里是用户对各种事物真实的反馈，而且还紧跟时事。

用 Reddit 的内容训练，能让大模型更好的理解人类世界的语言逻辑，在不同主题的对话里生成更接近真人的反馈内容。

打个比方，如果大模型不接触中文互联网，大概率不知道“YYDS”是什么意思，也无法在回答里输出“uzi，YYDS”。

事实上，这不是 Reddit 第一次跟人工智能企业合作，早在今年 2 月份，Reddit 就与谷歌达成了协议，允许谷歌使用 Reddit 的帖子内容训练大模型。Reddit 能从这里面每年获得 6000 万美元。

Reddit 又能从跟 OpenAI 合作里获利多少，媒体没有报道，双方聊得应该很愉快，毕竟 OpenAI 现在的 CEO 山姆·奥特曼也是 Reddit 的大股东。

值得一提的是，腾讯也是 Reddit 的大股东之一。

扯远了，OpenAI 用 Reddit 数据训练大模型还是一件新闻，但在国内，用贴吧、知乎的帖子数据训练大模型，早已不是什么新鲜事。

今年 4 月初，弱智吧又火了一把，说是一个团队用弱智吧训练出来的大模型，评分远超知乎豆瓣小红书的。

一个号称是“弱智”的贴吧，内容的文本质量“爆杀”知乎豆瓣小红书这些平台，看起来简直是一部爽文，天才主人公扮猪吃老虎，让人热血沸腾。

毕竟弱智吧，平常看起来就很不着调，每个帖子的标题五花八门，但短短几个字里，玩出了欧亨利小说那样出人意料的结尾，甚至包含深刻的人生哲理。

于是网友惊讶地发现，弱智吧的人不仅不弱智，还可能是最睿智的群体。

不过，后来该团队成员对这件事进行了澄清：

虽然团队选取了知乎、豆瓣、小红书还有弱智吧的语料来训练大模型，但该团队在选取弱智吧点赞数最高的 500 个帖子时，只保留了标题。回答内容因为有冒犯性表述和实质性错误，都被排除了。

团队于是采用 GPT-4 生成回答，并经过人工挑选、优化，获得了 240 组样本。其他平台比如知乎、豆瓣，则保留了高赞回答。

因此，在投喂语料训练大模型时，弱智吧语料本身更符合 GPT-4 的要求，而最终评分也来自 GPT-4，这可能就是弱智吧训练数据评分高的原因。

虽然最终的解释给不少人浇了一盆冷水，但也反映了一个事实，那就是国内的大模型团队会在各大网络平台收集训练数据。

有很大可能，咱们在网上吹牛获得高赞的内容，已经被人工智能团队拿来训练大模型，甚至赞数越高，越被认为是优质的语料。

不过，这样的数据使用也引来了争议。比如在 Reddit 上，曾经有许多大模型团队通过免费的 API 接口引用 Reddit 的语料来训练数据，其中就包括 OpenAI 和谷歌。

苦于为营收增长发难的 Reddit，从中发现了商业机会，开始对 API 收费，这才有了后来与谷歌和 OpenAI 的合作。

另一边，Alphabet（谷歌母公司）的 CEO 则公开警告OpenAI，对方不要用 YouTube 的数据训练生成视频的人工智能模型。

皮查伊指的就是早些时候 OpenAI 发布 sora，之前 OpenAI 的技术负责人被问到 sora 的训练数据来源时，表达很模糊，被认为用了 YouTube 的视频数据，

作为全球最大的视频创作平台，如果能够用 YouTube 的视频来训练，对大模型水平的提高有很大帮助。

在大模型这波浪潮下，企业之间卷的不仅是硬件资源，用户创作的内容正成为越来越珍贵的机器食料。

Reddit 已经成为当下最大的受益者，而国内的知乎、豆瓣、虎扑也有受益的可能，改变自身当下商业化难的困境。

只希望他们能借此机会，减少广告投放，改善用户的使用体验吧。

参考资料：

The Verge、科学网、新浪科技、Reddit

编辑：木易

近期资讯

力辰邦西仪器取得一种可调角度电动搅拌器专利，方便对搅拌叶进行调节

金融界2024年12月25日消息，国家知识产权局信息显示，力辰邦西仪器（常州）有限公司取得一项名为“一种可调角度电动搅拌器”的专利，授权公告号CN222196599U，申请日期为2023年12月。

金融界 2024-12-25

华为申请一种通信方法及相关设备专利，能够避免终端设备信号无法在指定时延要求内完成传输

金融界2024年12月25日消息，国家知识产权局信息显示，华为技术有限公司申请一项名为“一种通信方法及相关设备”的专利，公开号CN119172861A，申请日期为2023年6月。

金融界 2024-12-25

中国移动申请旁链路 SL 定位鉴权专利，能够实现旁链路定位

金融界2024年12月25日消息，国家知识产权局信息显示，中国移动通信有限公司研究院、中国移动通信集团有限公司申请一项名为“旁链路SL定位鉴权方法、装置及介质”的专利，公开号CN119172860A，申请日期为2023年6月。专利摘要显示，本发明提供了一种旁链路SL定位鉴权方法、装置及介质，属于通信技术领域。

金融界 2024-12-25

华为申请通信方法与装置专利，有效降低信道质量对数据传输的影响

金融界2024年12月25日消息，国家知识产权局信息显示，华为技术有限公司申请一项名为“通信方法与装置”的专利，公开号CN119172856A，申请日期为2023年6月。专利摘要显示，本申请提供了一种通信方法与装置，该方法提供一种能够有效降低信道质量对数据传输的影响的方案。

金融界 2024-12-25

江苏正赫通申请基于深度卷积神经网络指纹定位专利，实现指纹定位

金融界2024年12月25日消息，国家知识产权局信息显示，江苏正赫通信息科技有限公司申请一项名为“基于深度卷积神经网络指纹定位方法、设备及介质”的专利，公开号CN119172854A，申请日期为2024年11月。

金融界 2024-12-25

融科智汇取得混合机滚筒清料专利，可有效清理混合桶内壁延长设备使用寿命

金融界2024年12月25日消息，国家知识产权局信息显示，融科智汇（天津）新材料科技有限公司取得一项名为“一种混合机滚筒清料装置”的专利，授权公告号CN222196604U，申请日期为2024年1月。

金融界 2024-12-25

华为技术申请一种数据传输方法及装置专利，有利于提高数据接收性能

金融界2024年12月25日消息，国家知识产权局信息显示，华为技术有限公司申请一项名为“一种数据传输方法及装置”的专利，公开号CN119172863A，申请日期为2023年6月。专利摘要显示，本申请提供了一种数据传输方法及装置。该方法包括：第一装置根据第一时间段是否包含一个完整同步信号和物理广播信道SSB，确定第一上行数据的时域资源。

金融界 2024-12-25

佐竹机械取得通用型升降搅拌机专利，提升搅拌效率

金融界2024年12月25日消息，国家知识产权局信息显示，佐竹机械装备(大连)有限公司取得一项名为“一种通用型升降搅拌机”的专利，授权公告号CN222196592U，申请日期为2024年5月。

金融界 2024-12-25

先禾新材料取得用于导热胶生产的原料快速反应装置专利，保证原料更快混合，提高反应效率

金融界2024年12月25日消息，国家知识产权局信息显示，先禾新材料（苏州）有限公司取得一项名为“一种用于导热胶生产的原料快速反应装置”的专利，授权公告号CN222196596U，申请日期为2024年4月。将罐体内部的各种原料都翻拌起来，从而保证其内的原料能够。

金融界 2024-12-25

恒力泰取得一种带有喷吹结构的搅拌机专利，降低成本与能耗

金融界2024年12月25日消息，国家知识产权局信息显示，佛山市恒力泰科技有限公司取得一项名为“一种带有喷吹结构的搅拌机”的专利，授权公告号CN222196598U，申请日期为2023年12月。

金融界 2024-12-25

我们在网上吹的牛，成了大模型的香饽饽

推荐体验

相关资讯

Meta、Google 争相示好，雷朋眼镜为什么成了香饽饽？

OpenAI、A16z等AI顶流纷纷下注，日本为什么成了“香饽饽”？

百万年薪，AIGC人才成为大厂必抢的香饽饽

怎么在网上发帖赚钱

薪资最高的2个专业揭露：毕业就业香饽饽，未来10年人才缺口大

近期资讯

力辰邦西仪器取得一种可调角度电动搅拌器专利，方便对搅拌叶进行调节

华为申请一种通信方法及相关设备专利，能够避免终端设备信号无法在指定时延要求内完成传输

中国移动申请旁链路 SL 定位鉴权专利，能够实现旁链路定位

华为申请通信方法与装置专利，有效降低信道质量对数据传输的影响

江苏正赫通申请基于深度卷积神经网络指纹定位专利，实现指纹定位

融科智汇取得混合机滚筒清料专利，可有效清理混合桶内壁延长设备使用寿命

华为技术申请一种数据传输方法及装置专利，有利于提高数据接收性能

佐竹机械取得通用型升降搅拌机专利，提升搅拌效率

先禾新材料取得用于导热胶生产的原料快速反应装置专利，保证原料更快混合，提高反应效率

恒力泰取得一种带有喷吹结构的搅拌机专利，降低成本与能耗

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响