文/腾讯科技 郝博阳
在OpenAI 陷入分裂的混乱五日中,它竞争对手们的脚步却一点都没落下。
除去谷歌和Meta两个大厂之外,和OpenAI一样拥有独立地位的顶级AI大模型公司有两家:
一家是由OpenAI分裂出的Antropric,其CEO Dario Amodei 是GPT-2 和 GPT-3的主要研发负责人;
另一家是Inflection AI,由Deepmind 的联合创始人穆斯塔法·苏莱曼建立;
这两家公司在过去一年内都融资到手软,被视为潜在可以挑战OpenAI的明星公司。
它们都在OpenAI的乱局中发布了自家模型的最新版本。这又一次说明内部问题可能给一家公司带来多大的伤害。
不过还好,这两个新产品的表现都没能威胁到OpenAI的主角地位。
Claude 2.1,追不回的强项
11月22日,Sam Altman回归,OpenAI大戏尘埃落定。同一天,Claude发布了最新版本的Claude 2.1。
从这个新模型的名字也能看出来,这一模型只比其上一代大模型Claude 2强了一点。从它增强的方向看,这更像是应对最近失利的升级补丁。
首先是上下文长度。在GPT-4 Turbo之前,Claude 2有一个GPT4无法超越的强项—— 100k的上下文token长度,远超于GPT4 32k的token限制。借由此,Claude 2 牢牢占据了PDF文档,长文本解读这种专项应用的头把交椅,靠着局部优势占据了一小块细分市场。
但GPT4-Turbo的出现打破了Claude这几乎唯一的优势,用128k的上下文token反超了Claude。为了应对这个挑战,Claude 2.1中上下文长度翻了一倍,直接达到 200k。这下至少从数量上,Claude 2.1又扳回了优势。
而且在Antropric 自己的技术报告称,Claude 2.1在文本开始和结束部分,解读出现错误的可能性更小,因而整体对长文本的理解能力也更强了。
针对这次升级,前Salesforce开发者Greg Kamradt当天就做了GPT-4 Turbo和Claude2.1的长文本理解压力实验,对比结果如下:
GPT-4-128K 以73K Tokens为分水岭,超过73k长度的文本,其中间7%-50%区间的信息可能会被遗忘;73k以下完全没有遗忘。
而Claude-2.1-200K 有两个分水岭,超过24K长度以上的文本,信息就开始出现遗忘,而90k以后,一大半信息会遗忘。
显然,Claude 2.1完败。
看图更直观,红颜色越深的部分代表准确率越低,Claude 2.1基本上都江山一片红了。
在如此的遗忘错误率之下,Ckaude的升级显得毫无意义。
从底层逻辑来看,“可支持的上下文输入token量”这个数字毫无意义,因为已经有30年历史的长短期记忆技术(LSTM)其实就已经能够在语言模型中进行无限上下文输入了。所以,这个指标里最关键的,还是大语言模型能有效记忆的上下文长度。而Claude 2.1所增加的100k上下文长度中,被遗忘的部分会超过70%,因此,这次升级基本无效。
Claude 2.1的另一个主要的升级是幻觉的有效降低。与之前的Claude 2.0相比,幻觉减少了两倍。
这一补丁应该也是为了应对之前圈内热议的一篇幻觉排名论文,在那里Claude 2.0在其中提及的主流模型中基本垫底,8.5%的幻觉率足足是了GPT4 的接近3倍,用户会愿意用平均十个问题就有一个瞎答的AI去做正经事儿吗?
Claude的解决方式是:难题会答错是吧,那好,难题我拒绝回答就完了。
(看这个图,就是把出错的比例移到了拒绝回答那边)
这一解决方法可以说功过相抵,提升有限。这在一定程度上确实减少了用户被误导的可能性,但其实用性也大大降低了。
在这一拒绝回答的加强之下,本来就非常注重AI伦理的Claude 模型基本上变成了“政治正确”模型了。不光道德判断 ,合理反击类的问题不答,连让他“杀死”(kill)正在进行的Python程序他都不干。经过这次升级,从极端性的意义上看,Claude和Gork分别站住了AI道德至高和至低两端,也算是棋逢对手了。
总体来说,Claude 2.1这次的补丁,打得挺敷衍的。强项没追回来,弱项也没根治。
Inflection 2, 赶不上的第一
在第一代大模型出世五个月后,也是OpenAI宫斗刚刚落幕的当晚,Inflaction 2模型横空出世。
据其技术介绍,Inflection-2模型在许多标准基准测试中表现优于Google在五月份宣布的PaLM Large 2模型,同时在不同的衡量标准上击败了由Meta大部分开发的开源LLaMA 2模型。总的来说,Inflection2是同类模型中表现几乎最佳的,但“它只落后于OpenAI发布的GPT-4”。
Inflection将其新模型与高中和专业水平任务的热门基准测试MMLU进行了测试,该测试要求模型回答涵盖57个主题的问题,包括世界知识、问题解决和伦理等方面。苏莱曼表示,Inflection-2在大部分任务中表现优于LLaMA 2、埃隆·马斯克的Grok-1、Google的PaLM 2 Large以及刚才提到的Anthropic的Claude 2。
具体证据是,在七个科学回答基准测试中除了两个之外均表现最佳。在三个问题和回答任务基准测试中,它也表现最佳,仅在其中一个中输给了PaLM 2 Large。
尽管这些领域不是明确的重点,但在四个数学和代码基准测试中,它的表现也相当不错。然而,在OpenAI分享了结果的两个基准测试中,它在两个基准测试中远远落后于GPT-4。
之所以能有比较大的提升。为了训练Inflection-2,初创公司使用了5000个Nvidia H100图形处理单元(GPU),而之前Inflection 1仅使用了几千个较旧的A100。
然而从得分上看,相比于Inflection 1而言,除了GSM8K这个更专注数学训练集提升极其明显。(当然现在大家都在卷编程和逻辑能力),其他领域benchmark的提升并没有那么明显。
总的来说,苏莱曼声称Inflection-2在其规模上可以被视为同类产品中最佳,牢牢站住了第二的地位。然而这第二有多少含金量呢?在所有GPT4参与到的比较中,Inflection2都和第三名几乎只强过一肩(如79.6比78.5),但离第一名GPT4就差出了半圈(86.4比79.6)。
过往,Inflection 的拳头产品 Pi 强调的是一个差异性路线,即更人性化的,更懂感情的AI。但本次因为是基础模型上的变更,Inflection 并没有提供在这方面的进一步优化的情况。这一新版本的 Inflection 2 将经过漫长的“对齐”,在 5 月才会实装到 Pi 上。希望这时候他们真的能提供点足够让人改变选择的差异点。
否则现实是很残酷的,Inflection也逃不出第二名的永恒尴尬:在同样闭源和收费的情况下,为什么人们要用你这个第二?