这两天hugging face的榜单出现了一个异数。一个名为Falcon 40B的模型,突然成为了hugging face“开源”大模型排行榜的第一名。
这一成绩直接将一众大咖加持的开源的模型踩在脚下,包括但不限于扎克伯格同学旗下的LLaMA、新晋明星独角兽Stability AI等公司。其中,LLaMA的模型规模甚至更大,达到了65B——比Falcon-40B大出了50%。
按照国际通用惯例,网友们少不了又要拉踩一把扎克伯格。
Hugging Face过去一直被认为是大模型领域GitHub,在人类大模型的开源事业的道路上不遗余力,被一些观察者认为是OpenAI最具潜在挑战能力的平台。因此Hugging Face的榜单,被从业者给予了很高的参考价值。
按照Hugging Face方面表示,其整个榜单使用Eleuther AI Harness的评估框架,被分成四个标准:
25个小样本的推理逻辑测试(ARC:AI2 Reasoning Challenge)、10个样本的尝试推理测试(HellaSwag)、5个样本的多任务准确性测试(MMLU)以及诚实测试(TruthfulQA)
而在全部四项打分中,如图一所示,除了诚实测试表现相对一般外,其他三项都大幅领先对手。而在新推出的instruct版本中,诚实性能力也跟上来了。
Falcon备受外界关注,原因主要有几点。
一方面,如果仅以这个榜单数据来看,Falcon相比于友商的提升幅度很大。LLaMA-65B之后的排序的分差往往在0.3分以内,但Falcon-instruct直接提升了3.4分。
另一方面,Falcon与马斯克的火箭重名,但其实是目前为数不多的非西方国家实验室开发的开源大模型产品。Falcon背后的研发方来自阿联酋的阿布扎比技术创新研究所(TII),这也是中东首个世界顶级的大模型产品。
TII的背后则是阿布扎比先进技术研究委员会(ATRC),因此是阿联酋政府官方扶持技术创新项目。
而根据阿联酋通讯社的报道,Falcon-45B使用了1万亿个token进行训练,可以用更少的训练计算能力实现更优的效果,其仅相当于OpenAI GPT-3训练计算的75%,DeepMind Chinchilla人工智能的40%,谷歌PaLM-62B训练计算的80%。
阿联酋通讯社进一步表示,作为开源的大模型工具,Falcon-45B的出现:
“强化了阿联酋作为全球AI领导者的角色”。
目前来说,Falcon-40B虽然是开源大模型的第一名,但是和“不Open”的OpenAI相比,还有相当大的差距。而在越来越公司对开源保持谨慎态度的情况下,Falcon获得“开源大模型第一”其实也算是“捡了个漏”。
不过很快有从业者发推特质疑Hugging Face的评价体系。
有Inflection AI员工发推认为Hugging Face得出的数据与论文的评分有一定的差异。在这条质疑下面,前特斯拉AI负责人、OpenAI元老级人物(founding member)Andrej Karpathy跟进评论:
“这就是我目前避免评论falcon的原因”。
Andrej Karpathy曾经是李飞飞的高徒、全球顶尖的AI科学家,对OpenAI的发展起到了很大的作用,也一手推动了特斯拉自动驾驶项目的发展,可以说是特斯拉autopilot之父。
当他对hugging face的标准提出质疑时,这并不能被认为是一个轻飘飘的指控。
果然hugging face联合创始人Thomas Wolf闻风而至,对同行进行了友善的科普,表示他们的使用的评价工具的准确性是可靠的。
这其中诡异的点在于,hugging face的榜单不是一天发出的,Eleuther AI Harness也是一个主流的评价体系。但当Falcon冲榜后,却出现了两位对评价体系“不理解”、“不确定”的“外宾”。
看来硅谷还不是很适应来自中东的神秘科技力量,对这种“新鲜事物”条件反射地用审视的眼光去打量。
不过,Falcon-40B最大的争议或许不是来自于能力,而是来自于其对“开源”事业的“诚心”。
因为Falcon对商业化开源留了一个“后手”,虽然使用者原则上免费,但如果收入超过100万美金,依然需要缴纳10%的授权费用。
但由于falcon的许可证其实部分基于 Apache License Version 2.0。后者来自 Apache 基金会,对商业开源是友好的。那如果falcon拿着免费开源的许可协议,未来依然会收取一定的商业化费用,这似乎依然算不上真的“开源”。
大模型确实很烧钱,即便贵如中东土豪,也不希望彻底的开源。
而根据TII方面的消息,阿联酋方面预计将很快发布新的Falcon-108B的千亿级大模型。
无论是开源和闭源、西方和东方、科技投资和石油资本,届时围绕大模型的科技竞争可能会变得更有意思。
本文来自微信公众号“品玩”(ID:pinwancool),作者:大模型机动组,36氪经授权发布。