出品 | 搜狐科技
作者 | 梁昌均
编辑 | 杨锦
近日,斯坦福研究团队大模型套壳清华系创业公司面壁智能一事,引发广泛关注。
遭受质疑的是斯坦福研究团队推出的一款名为Llama 3-V的大模型,号称比OpenAI、谷歌等领先的模型都要好,一经发布便在开源社区受到追捧。
但随后,不少网友和面壁智能官方实锤,其在模型结构、代码等方面套壳了面壁的“小钢炮”模型。最新进展显示,该团队发文致歉,并将有关模型从开源社区撤下。
这一事件也让国外更多关注到了中国开源大模型的能力,以往更多是中国团队套壳国外产品居多,如李开复创办的零一万物此前就被质疑套壳Llama。
有业内人士对搜狐科技表示,国内开源模型差距与国外已不是很大,或即将赶超Meta的Llama 3,而中国已成为AI科技创新的关键推动者。
开源的事儿,能叫抄袭吗?
在这次事件中,答案是确定的。
FutureLabs未来实验室首席专家胡延平表示,模型开源本身就意味着开放给他人使用,可以说所有基于开源大模型的微调等二次开发都是在套壳。
判定是否“抄袭”的关键在于,是否标明了基于别人的开源大模型来做——一个比较流行的规范做法是明示:同时感谢或致敬。
斯坦福团队的Llama3V显然没有这些明示。这次事件的起因还要追溯到5月底,该团队推出了一款名为Llama 3-V的开源多模态大模型。
这款模型尺寸比GPT-4小100倍,但号称比GPT-4、Gemini Ultra和Claude Opus 等模型能力更强,而且训练成本只需要500美元。这使得其很快就受到广泛关注,在全球知名开源社区HuggingFace上,Llama 3-V很快冲上趋势榜首页。
但有网友发现,该项目使用的模型结构、代码、配置文件,与清华系大模型创业公司面壁智能不久前发布的MiniCPM-Llama3-V2.5惊人相似,只是斯坦福AI团队将其中的变量名称做了更改。
随后该团队还试图辩解,但有网友更是直接将相关的关键证据一一截图,进行列举证明。换句话说,Llama3-V被质疑抄袭面壁智能的MiniCPM-Llama3-V 2.5。
该模型由面壁智能在今年5月20日发布,定位于端侧多模态模型,仅用8B参数,综合性能在评测榜单上就击败了Gemini Pro、GPT-4V,展现了小参数、高性能的多模态大模型的潜力,因而也被称为面壁“小钢炮”。
在被质疑后,Llama3-V页面很快就被删除,在HuggingFace、GitHub等开源社区已不可见,社交平台上宣传的Llama3-V的内容页面也被删除。
与此同时,面壁智能方面也提出新证据,提到斯坦福大模型项目与MiniCPM一样,可以识别出“清华简”战国古文字,“不仅对得一模一样、连错得都一模一样”,且两个模型在清华简上的高斯噪声也高度相似。
这一古文字数据为面壁智能研究团队花费数月从清华简上逐字扫描并人工标注得来,并未对外公开,进一步证实Llama3-V抄袭属实。
面壁智能首席科学家、清华大学计算机系长聘副教授刘知远也对此发文回应称:“已经比较确信Llama3-V是对我们MiniCPM-Llama3-V 2.5套壳。”
据了解,Llama 3-V项目成员主要包括斯坦福大学计算机系本科生Aksh Garg、Siddharth Sharma,以及就本硕毕业于南加州大学的Mustafa Aljadery。Aksh和Siddharth发表过多篇深度学习论文,前者曾在SpaceX、斯坦福、南加大等机构实习,Siddharth曾在牛津大学访问,并在亚马逊实习过。
面对各方质疑,6月3日上午,斯坦福该团队成员Aksh在社交平台上发文回应质疑,并艾特了另外两名成员Siddharth和Mustafa,首先向MiniCPM原团队诚挚道歉,称原本希望另一位作者Mustafa发布声明,但一直无法联系到他。
“我和Siddharth都忙于自己的全职工作,Mustafa为该项目编写了所有代码。我们都对多模态模型感到非常兴奋,并且喜欢他向我们描述的架构扩展,我们帮助他推广该产品。”Aksh提到,在注意到抄袭指控后,与Mustafa讨论了Llama3-V的原创性证明,并要求提供训练代码,但到目前为止还没有看到任何证据。
“我们对自己没有尽职尽责地验证其作品的原创性感到非常失望,我们有责任将我们的工作与以往研究进行对比验证,却未能做到这一点,对此负全部责任。”Aksh表示,尊重原始工作,已删除所有对Llama-3V的引用,并再次表示歉意。
这一自证说明又遭网友质疑,认为团队不应该将责任推给一个人。6月4日凌晨,Aksh和Siddharth又分别发文就这一学术不端行为正式道歉,并表示已撤下Llama3-V原始模型。目前,Mustafa尚未发声,社交账号也已设为隐私状态。
这一事件也引发多方讨论,斯坦福大学人工智能实验室主任Christopher David Manning发文谴责这一抄袭行为。
此次被套壳的面壁智能则是成立于2022年8月的公司,创始团队主要来自于清华大学自然语言处理实验室,公司CEO李大海是知乎CTO,CTO曾国洋则是刘知远的学生,并获得知乎、智谱AI、春华创投、华为哈勃、北京市人工智能产业投资基金等机构投资。
李大海对此次事件也发文称,技术创新不易,每一项工作都是团队夜以继日的奋斗结果,也是以有限算力对全世界技术进步与创新发展作出的真诚奉献。
“我们希望团队的好工作被更多人关注与认可,但不是以这种方式。一方面感慨这也是一种受到国际团队认可的方式,也呼吁大家共建开放、合作、有信任的社区环境。”李大海称。
美国顶级高校为何要抄袭中国产品?
实际上,自去年大模型浪潮席卷全球以来,自带贬义的套壳就是争议不断的话题,多家公司此前均因涉嫌套壳而受到质疑,并发出澄清。
不过,大模型套壳如何定义,具体什么行为算套壳,业内还没有统一共识。搜狐科技梳理发现,此前被质疑套壳公司的原因主要集中在两个方面,其中之一是在预训练阶段“抄袭”开源模型架构,此次被实锤套壳的Llama 3-V就属于此。
零一万物发布的Yi-34B模型此前也被质疑使用了Llama3的架构,却更改了张量命名。当时该公司回应称,因实验执行需要对代码做了更名,在推出发行版前没有把名字换回来。
阿里巴巴前副总裁贾扬清当时直言,某国内大厂的新模型完全就是Llama3的架构,但为了表示不一样,把代码里面的名字从Llama改成了他们的名字,然后换了几个变量名。
另一个重灾区则是“偷”数据进行训练或微调。百度文心一言文生图功能就曾被质疑采用英文标注的开源图片素材进行训练,百度当时回应称大模型训练使用互联网公开数据,符合行业惯例。
字节跳动也在去年底被爆出“秘密”使用OpenAI的API及其模型生成的数据来开发自家大语言模型。此外,谷歌大模型Gemini也被质疑过中文训练语料采用了文心生成的数据,并被爆料曾使用GPT生成的数据进行训练。
AI助手Monica联合创始人Suki曾分享了大模型套壳的四重进阶:一是直接引用 OpenAI接口,做出跟ChatGPT一样的回答;二是套壳产品构建自己优质的Prompt,卷质量和分发;三是把特定数据集向量化,便于进行语义相似度的比较,获得更专业的回答;四是微调,使用原有的优质问答数据进行二次训练。
但这四种做法是否被普遍认为是套壳,业内意见不一。AI公司算法负责人刘聪对搜狐科技表示,现在套壳和抄袭现在本身界定很模糊,如用Llama3去做增量训练,然后SOTA(在某领域或任务上达到最佳效果),给了引用,算不算套壳就不好定义。
“我理解的套壳是直接拿开源模型来用,就是直接调用接口,如果有自己的产品理念,然后真的有去做微调,就不算套壳。”刘聪表示。
开源中国董事长马越则对搜狐科技表示,套壳肯定是代码,代码直接剽窃自然架构也剽窃了,而数据集到处都有开源的,拿来训练不算剽窃。
零一万物曾在面对质疑时提到,其研模型结构设计借鉴了行业顶尖水平的公开成果,但模型结构仅是模型训练其中一部分,数据工程、训练方法、评估方法、AI infra等,往往比基本结构能起到更大的作用跟价值。
刘知远表示,人工智能的飞速发展离不开全球算法、数据与模型的开源共享,让人们始终可以站在SOTA的肩上持续前进,面壁智能开源的MiniCPM-Llama3-V 2.5就用到了最新的Llama3作为语言模型基座。
“但开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V团队无疑严重破坏了这一点。”刘知远说。
刘聪也强调,用了别人东西,按道理应该给引用,不给引用就是学术不端,这不需要质疑。
对于如何规避套壳问题,马越认为,自有开源以来,套壳争议就没停止过。随着开源生态的成熟,套壳越来越难混淆视听,但总有机会主义者铤而走险,可能还是要靠大家的自觉,但被揪出来就会名誉扫地,商业上也可以打官司。
在对套壳缺乏共识的情况下,大家对自研的看法也会有所差异。“ChatGPT让大众真切感受到AI领域国内外的差距,特别是2023年Llama等国际开源模型发布后,开始有国外一开源、国内就自研的说法。”刘知远提到。
实际上,不少号称自研大模型的企业,正是借助了开源的力量,如通过Meta的Llama做微调、二次训练等;有企业直接基于开源模型做应用开发,也有企业通过调用OpenAI的API,向其投喂数据,利用GPT模型生成的数据去训练优化自家模型,即所谓的蒸馏法。
这些做法研发成本更低,不少模型还能在测评榜上刷出好成绩,但却缺乏技术壁垒和应用价值。OpenAI CEO奥特曼就曾警告过创业者不要套壳ChatGPT,认为这些仅在成本和速度上与OpenAI一较高下的公司,竞争优势并不会长久持续。
不过,此次面壁智能被套壳,也让国外AI社区更多关注到国内开源模型。
谷歌DeepMind一位研究员就表示,这件事里有意思的地方是,相比造假的Llama3-V,MiniCPM是如此强大能力的开源模型,但它获得的关注是如此之少,就因为不是来自常青藤大学,“我们都显得太难堪了”。
HuggingFace平台和社区负责人Omar Sanseviero则表示,社区一直在忽视中国机器学习生态系统的工作,他们正在用有趣的大语言模型、视觉大模型、音频和扩散模型做一些令人惊奇的事情。
刘聪认为,目前开源模型Llama3还是全球最好,但国内差距已不是很大,阿里Qwen、Yi等开源模型都不错,马上会开源的Qwen2系列模型可能会超过Llama3。
刘知远也提到,现在国内大模型团队,正在通过持续的开源共享,在国际上受到广泛的关注和认可。“这次事件也算侧面反映我们的创新成果也一直受到国际关注。”
他认为,横向来看,国内仍与国际顶尖工作,如Sora和GPT-4o有显著差距。“但纵向来看,我们已经从十几年的nobody,快速成长为人工智能科技创新的关键推动者。面向即将到来的AGI时代,我们应该更加自信积极地投身其中。”