就在前两天,OpenAI 发布的 GPT-4o,又一次震撼了整个互联网科技行业。
GPT-4o 融合了所有模态,可以识别并生成文字、语音和图像内容,还能根据人的语气判断对方情绪变化……电影《her》里面的情节,似乎就要变成现实。
而且,GPT-4o 还免费给所有用户使用,这一决策也在促使大模型开始往免费、低价这个方向卷。
最近,又有新闻爆出,OpenAI 与 Reddit 达成了一项协议,OpenAI 将使用 Reddit 的帖子内容来训练大模型。
可能很多人没听过 Reddit 这个网站,它是一个社交新闻网站,上面有许多社区板块,由用户发布的帖子构成,简单来说,咱们可以将它理解为美国版的“贴吧”或是“虎扑”。
根据最新财报,Reddit 日活用户超过 7000 万,每个月有 12 亿独立用户访问 Reddit,这也使得 Reddit 上聚集了各种各样的社区,什么体育、游戏、音乐、新闻事件……
在 Reddit 上,就有一个关于李子柒的社区。
这些由上亿用户创建的内容,本身就是一个非常宝贵的资源,跟贴吧一样,Reddit 帖子内容涉及到方方面面,回复里是用户对各种事物真实的反馈,而且还紧跟时事。
用 Reddit 的内容训练,能让大模型更好的理解人类世界的语言逻辑,在不同主题的对话里生成更接近真人的反馈内容。
打个比方,如果大模型不接触中文互联网,大概率不知道“YYDS”是什么意思,也无法在回答里输出“uzi,YYDS”。
事实上,这不是 Reddit 第一次跟人工智能企业合作,早在今年 2 月份,Reddit 就与谷歌达成了协议,允许谷歌使用 Reddit 的帖子内容训练大模型。Reddit 能从这里面每年获得 6000 万美元。
Reddit 又能从跟 OpenAI 合作里获利多少,媒体没有报道,双方聊得应该很愉快,毕竟 OpenAI 现在的 CEO 山姆·奥特曼也是 Reddit 的大股东。
值得一提的是,腾讯也是 Reddit 的大股东之一。
扯远了,OpenAI 用 Reddit 数据训练大模型还是一件新闻,但在国内,用贴吧、知乎的帖子数据训练大模型,早已不是什么新鲜事。
今年 4 月初,弱智吧又火了一把,说是一个团队用弱智吧训练出来的大模型,评分远超知乎豆瓣小红书的。
一个号称是“弱智”的贴吧,内容的文本质量“爆杀”知乎豆瓣小红书这些平台,看起来简直是一部爽文,天才主人公扮猪吃老虎,让人热血沸腾。
毕竟弱智吧,平常看起来就很不着调,每个帖子的标题五花八门,但短短几个字里,玩出了欧亨利小说那样出人意料的结尾,甚至包含深刻的人生哲理。
于是网友惊讶地发现,弱智吧的人不仅不弱智,还可能是最睿智的群体。
不过,后来该团队成员对这件事进行了澄清:
虽然团队选取了知乎、豆瓣、小红书还有弱智吧的语料来训练大模型,但该团队在选取弱智吧点赞数最高的 500 个帖子时,只保留了标题。回答内容因为有冒犯性表述和实质性错误,都被排除了。
团队于是采用 GPT-4 生成回答,并经过人工挑选、优化,获得了 240 组样本。其他平台比如知乎、豆瓣,则保留了高赞回答。
因此,在投喂语料训练大模型时,弱智吧语料本身更符合 GPT-4 的要求,而最终评分也来自 GPT-4,这可能就是弱智吧训练数据评分高的原因。
虽然最终的解释给不少人浇了一盆冷水,但也反映了一个事实,那就是国内的大模型团队会在各大网络平台收集训练数据。
有很大可能,咱们在网上吹牛获得高赞的内容,已经被人工智能团队拿来训练大模型,甚至赞数越高,越被认为是优质的语料。
不过,这样的数据使用也引来了争议。比如在 Reddit 上,曾经有许多大模型团队通过免费的 API 接口引用 Reddit 的语料来训练数据,其中就包括 OpenAI 和谷歌。
苦于为营收增长发难的 Reddit,从中发现了商业机会,开始对 API 收费,这才有了后来与谷歌和 OpenAI 的合作。
另一边,Alphabet(谷歌母公司)的 CEO 则公开警告OpenAI,对方不要用 YouTube 的数据训练生成视频的人工智能模型。
皮查伊指的就是早些时候 OpenAI 发布 sora,之前 OpenAI 的技术负责人被问到 sora 的训练数据来源时,表达很模糊,被认为用了 YouTube 的视频数据,
作为全球最大的视频创作平台,如果能够用 YouTube 的视频来训练,对大模型水平的提高有很大帮助。
在大模型这波浪潮下,企业之间卷的不仅是硬件资源,用户创作的内容正成为越来越珍贵的机器食料。
Reddit 已经成为当下最大的受益者,而国内的知乎、豆瓣、虎扑也有受益的可能,改变自身当下商业化难的困境。
只希望他们能借此机会,减少广告投放,改善用户的使用体验吧。
参考资料:
The Verge、科学网、新浪科技、Reddit
编辑:木易