当前位置:首页|资讯|AI大模型|旷视

抄袭大模型?零一万物回应争议:模型结构设计基于GPT,借鉴行业公开成果|钛媒体焦点

作者:钛媒体APP发布时间:2023-11-15

原标题:抄袭大模型?零一万物回应争议:模型结构设计基于GPT,借鉴行业公开成果|钛媒体焦点

创新工场创始人兼CEO、零一万物CEO李开复(图片来源:创新工场)

一周前刚完成大模型首秀的零一万物,今日却成为风口浪尖上的焦点。

11月14日上午,一位国外开发者在Hugging Face开源主页上评论称,创新工场董事长兼CEO、零一万物CEO李开复旗下 AI 公司“零一万物”开源大模型Yi-34B,完全使用Meta研发的LIama开源模型架构,而只对两个张量(Tensor)名称进行修改。

几乎同时,前阿里副总裁、Lepton AI公司创始人兼CEO 贾扬清以“不具名”、“大厂”等说明方式质疑抄袭LIama对行业的影响,从而将这次事件推向了“高潮”。

针对开发者的指控和相关传闻,11月14日下午,钛媒体App向零一万物进行求证,零一万物方面对外公布了一份官方回应:

零一万物表示,GPT是一个业内公认的成熟架构,Llama在GPT上做了总结。零一万物研发大模型的结构设计基于GPT成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时基于零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。

声明称,模型结构仅是模型训练其中一部分。Yi 开源模型在其他方面的精力,比如数据工程、训练方法、baby sitting(训练过程监测)的技巧、hyperparameter设置、评估方法以及对评估指标的本质理解深度、对模型泛化能力的原理的研究深度、行业顶尖的 AI infra 能力等,投入了大量研发和打底工作,这些工作往往比起基本结构能起到更大的作用跟价值,这些也是零一万物在大模型预训练阶段的核心技术护城河。

零一万物在声明中强调,“在大量训练实验过程中,由于实验执行的需要对代码做了更名,我们尊重开源社区的反馈,将代码进行更新,也更好的融入Transformer生态。我们非常感谢社区的反馈,我们在开源社区刚刚起步,希望和大家携手共创社区繁荣,Yi Open-source会尽最大努力持续进步。”

事实上,整个指控事件历经短短数十个小时,就从行业传闻到舆论发酵,让开源模型是否存在“抄袭”这件事成为了大家的一个关注焦点。而开源的大型语言模型(LLMs)是否存在抄袭,仍是一个“模糊”的答案。

一场超150小时的舆论转变:大模型独角兽被指控“抄袭”

整个事件要从8个月前开始讲起。

2023年3月下旬,李开复发文宣布,将以Project AI 2.0入局大模型行业,计划孵化大模型公司。今年7月,“AI 2.0”公司零一万物(01.AI)上线。创新工场当时表示,这是其“撸起袖子”亲自带队,“塔尖孵化”了一家AI 2.0公司。

2023年中关村论坛上,李开复就对钛媒体App等表示,以GPT-4等大模型为代表的生成式 AI 热度在全球蔓延,意味着AI 2.0时代已经到来,它将带来比移动互联网时代大十倍的机会,穿透各行各业极大地提振生产力。“我们预测,全新的 AI 2.0平台将能有效帮助提升人类生产力,创造巨大的经济价值及社会价值。”

“大模型的技术门槛很高,非常需要整合一个兼具科研能力和开发实力的高效团队,制定贯彻公司的技术和产品战略,从上到下一致执行。”李开复认为,零一万物将专注打造AI 2.0时代的平台及生产力应用生态。

11月6日,李开复团队召开了一场重要的线上会议,而在此之前,其“Yi”系列开源模型信息已经在官网披露。

此次一个多小时的线上会议中,零一万物正式发布首款开源中英双语大模型“Yi”系列,包括Yi-6B(参数规模为60亿基础模型)和Yi-34B(参数规模为340亿的基础模型)两个版本。

与此同时,有消息称,零一万物已完成新一轮融资,由阿里云领投,公司估值超过10亿美元,从而跻身成为“独角兽”行列。

事实上,零一万物主要围绕精进模型、预训练框架技术等七个方向进行研究,团队拥有多个中外科技大厂、博士学位等背景。其中,零一万物技术副总裁及AIInfra负责人戴宗宏,曾就职于阿里、华为,曾担任华为云 AI 领域CTO;零一万物技术副总裁及Pretrained负责人黄文灏则毕业于北京大学博士学位,曾在微软研究院担任高级研究员,并曾任职于北京智源 AI 研究院。

官方信息显示,零一万物新的Yi-34B模型在多项评测基准中全球领跑,基于超强Infra下模型训练成本实测下降40%,模拟千亿规模训练成本可下降多达50%,并以更小模型尺寸的基准结果超过LLaMA2-34B/70B、Falcon-180B等大尺寸开源模型。

而且,包括Hugging Face平台和C-Eval中文评测榜单等,Yi-34B取得了多项 SOTA 国际最佳性能指标认可,成为全球开源大模型“双料冠军”,击败了Llama2和Falcon等开源竞品,称是“全球最强开源模型”。

“随着团队到位,今年6、7月份开始写第一行代码,短短四个月做了非常自豪的产品。我们是‘不鸣则已,一鸣惊人’。所以‘一鸣惊人’之后,如果我们过半年甚至过一年回头看,今天对我们来说只是刚刚开始,我们还会不断的去开发、推动、宣布更多令人惊艳的成果。”李开复对钛媒体App等表示。

在李开复看来,34B的大模型是他心目中基础模型的黄金尺寸,其刚好达到了涌现的门槛,但又没有过大,既满足了精度的要求,又对训练推理成本友好。

该模型在发布后引起了国内外很多研究者、开发者的关注。然而,新品发布会的余温还未完全结束,如今,零一万物再次被拱上了风口浪尖。

11月14日,在零一万物预训练大模型Yi-34B的Hugging Face开源主页上,一位名为ehartford的国外开发者质疑,该模型使用了Meta Llama的架构,只对两个张量(Tensor)名称进行了修改,分别为 input_layernorm 和 post_attention_layernorm。据悉,所谓张量,是深度学习中的多维数组,用于创建更高维度的矩阵和向量。

“Yi-34B,感谢您提供的优秀模型。据我们了解,除了两个张量被重命名之外,Yi完全使用了Llama架构。由于 llama 架构有大量投资和工具,因此对张量使用相同的名称是有价值的。开源社区肯定会重新发布 Yi,并重命名张量,以获得符合 llama 架构的版本。我们希望您在模型获得大量采用之前考虑将这一更改应用到您的官方模型中,以便它最终能够获得应有的采用。”ehartford在文中表示。

几乎同时,年初从阿里云离职创业的贾扬清发表了一个朋友圈,以“国内大厂”之名表示,国内一款新的大模型事实上是LLaMA架构,但是为了表示不一样,把代码里面的名字从LLaMA改成了他们的名字,然后换了几个变量名。

尽管贾扬清没有点名这个模型为“零一万物”,也没有具体说明这是哪款新模型,且零一万物也不是“大厂”。但在这一“巧合”的时间点,人们就会自然而然“想象”成是Yi模型。

11月4日下午,随着这场大模型“改名”风波持续发酵,除了开头的这份公开中文声明外,零一万物团队同时在事发的源头Hugging Face网站做了一份公开回应。

Yi 团队开源总监Richard Lin表示,ehartford对张量名称的看法是正确的,团队将把它们从 Yi 重命名为 Llama。对Yi团队来说,重要的是对这些事情的准确和透明。

“这个命名问题是我们的疏忽。在大量的训练实验中,我们对代码进行了多次重命名以满足实验要求。但是,我们有点失败了,在发布版本之前没有将它们切换回来。我们对此很抱歉,对于造成的混乱我们深表歉意。我们正在努力加强我们的流程,这样这种失误就不会再发生了。您的反馈给了我很大的帮助。我们还将再次检查所有代码,以确保其他一切都按顺序进行。如果您和社区给予更多关注,我们将不胜感激。”Yi 团队开源总监表示。

截至发稿前,ehartford已回应称,谢谢团队的回复。而也有网友在下面评论,“这是一件小事,很容易(得到)解决。”

开源代码“抄袭、侵权”规范界定仍较为模糊

今年6月的一场关于大模型的圆桌会议上,中国人民大学高瓴人工智能学院教授卢志武直言,国内很多企业创业者都沉不下心去把底座做好。

“什么国产大模型的春天,都是假的,因为它都是在GPT、LLaMA上微调的。我看到了很多大模型,一测10分钟就知道虚假,当然也有一些少量的大模型,愿意在底座上投入很多精力,但大部分还是很浮躁。这是最大的一个问题,我反而觉得语言模型上面这个差距会越来越大......你看到好像很多一堆模型出来,只是因为这个语言模型的架构solution(解决方案)已经公布了而已,但如果你没有公布,为什么前面做不出来,都是3月、4月、5月才出来,这不是很奇怪的事情吗?我觉得不符合逻辑的,大家都不愿意去做底座。”卢志武表示。

而昆仑万维CEO方汉则现场反驳,“我是坚决反对(这个说法的),我们自己是做大模型训练的,我可以很清楚的告诉你们,我们跟LLaMA一毛钱关系都没有,因为我们从20年就开始做(大模型)。所以我觉得你也不能一棒子把所有中国大模型的创业者们(人)都‘打死’。”

事实上,目前对于开源的模型与代码协议“各式各样”,不同开源项目的协议均有所不同,协议规则与法律界定部分仍比较“模糊”。

普遍而言,开源并不代表没有版权,任何第三方使用都应该遵循其开源许可协议,如果企业需要用开源代码进行商业化,需要与开源项目所有者进行授权或提交一定的费用。而在法律层面上,大模型所有者可以通过专利、商标、版权等方式保护自己的大模型知识产权。

早在今年7月中下旬,Meta宣布开源了Llama 2模型。据Llama2官网挂出的相关使用许可和限制声明显示,“该模型可以用于商业用途,除非你的产品的月活跃用户数超过7亿。需要填写一个表格才能获得访问权限,这个表格也会让你从HuggingFace的网站上下载模型。”

换句话说,只要你填写表格申请,就可以下载、使用这一模型并实现二次开发,不存在“抄袭”问题,因为Llama模型本身就是开放的。

而这种开源、开放、友好的方式,使得很多 AI 大模型公司和应用商解决掉了训练成本问题,且让数据和模型生态开放,包括阿里云、旷视科技等多家中国企业均表示已支持Llama2开源技术,所以大家使用Llama2进行再训练、推理输出成Chat产品就不足为奇了。

一位行业专家对钛媒体App表示,使用开源项目,主要有两点,一是要声明原作者是谁,你用的是哪个项目,而且要遵循开源项目里的开源协议、作者声明,不能修改且不能删除;二是关注项目对商业化的友好程度,有些是表明可用于商业项目,还有一种不允许商业化、二次开发等因素的开源项目,这部分需要开发者重新去沟通与评估。

实际上,大模型是典型赢家通吃领域。需要更多的钱,需要更多的算力,以及更优秀人才。因为更好的算力意味着更多人用,更多人用意味着更多数据,更多数据意味着更好的算力结果。由于大模型必然是巨头必争之地,因此如果早做开发,在市场中更容易抢得先机。

针对零一万物回应事件,在钛媒体App获得的一份微信聊天截图中,一位 AI 领域的学者表示,Llama这个架构与chinchilla、Gopher、GPT-3关联度很高,也可以说是“抄袭”。而Hugging face上一模一样但名字不同的模型比比皆是,大部分改动的是训练方法数据配比,而不反映在架构上。以没改架构而批评国内的模型没有创新,不论是Yi还是其他模型,这样的批评是不公正的。

盛景嘉成董事总经理刘迪曾对钛媒体App表示,目前 AI 大模型底层主要是数据、算力、算法,核心技术难度较低——算力需要堆英伟达显卡、算法也可以用开源的,数据则有法规限制,所以投资人的兴趣降低了。

未知资本常务董事william wong表示,“现在很多初创公司,后台接入ChatGPT,前端做了个UI设计,就上架苹果商店鼓吹自己在做AIGC创业了。”而他认为,这种AIGC项目没有技术壁垒和商业逻辑,只是“蹭热度”。

钛媒体App了解到,下一步,Yi系列也将推出专长代码和数学的训练模型。另外,目前零一万物已经启动100B(1000亿)参数的训练,有望近几个月内发布,未来零一万物还有望推出基于 AI 2.0 的超级应用等技术产品。

“实际上,(大模型创业)大家的起跑线是一致的,那么水平差距就不大。”刘迪告诉钛媒体App表示。

(本文首发钛媒体App,作者|林志佳)


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1