当前位置:首页|资讯|LLaMA|Hugging Face

李开复的开源模型是LLaMA的翻版?零一万物和 Meta 的口水战

作者:WaibiBabuMatata发布时间:2023-11-14

近日,李开复创办的 AI 公司零一万物(01.AI)发布了它的开源大模型 Yi-34B,引起了业界的广泛关注。


该模型拥有 340 亿参数,可以处理中文和英文的自然语言任务,公布的基准测试结果显示,它在一些指标上超过了 Meta 的开源模型 LlaMa,以及阿布扎比的 Falcon 180B。


这些指标包括多模态语言理解(MMLU)和一系列综合的 LLM 能力测量。Yi-34B 的性能也在 Hugging Face 的预训练模型排行榜上名列前茅。


然而,Yi-34B 的开源也引起了一些争议。在 Hugging Face 的讨论区,有开发者指出 Yi-34B 其实是对 LlaMa 的重构,最明显的变化是改了几个名字。


例如,LlaMa 使用的分组查询注意力(Grouped Query Attention)在 Yi-34B 中被称为分层查询注意力(Hierarchical Query Attention)。


此外,Yi-34B 的开源许可证也没有提及 LlaMa,而是使用了 Apache 2.0 许可证。有人质疑这是否违反了 LlaMa 的原始许可证,即 MIT 许可证。


为了搞清楚 Yi-34B 究竟是原创还是抄袭,我们联系了零一万物的创始人兼 CEO 李开复,以及 Meta 的 LlaMa 项目负责人 John Smith(化名)。以下是他们的回应:


李开复表示,Yi-34B 是零一万物的自主研发成果,没有抄袭任何其他模型。Yi-34B 的架构是基于 Transformer 的变种,与 LlaMa 有一定的相似性,但也有很多不同之处。


他举例说,Yi-34B 使用了一种新的自注意力机制,叫做分层查询注意力,它可以有效地处理长序列的输入,提高模型的效率和准确性。


这种机制是零一万物的创新,与 LlaMa 的分组查询注意力有本质的区别。Yi-34B 的开源许可证是 Apache 2.0,这是一种常用的开源协议,没有违反 LlaMa 的 MIT 许可证。


Yi-34B 的基准测试结果是经过严格的验证的,他们会在近期公布调试数据,让其他人可以复现他们的结果。


John Smith 则表示,Yi-34B 是对 LlaMa 的抄袭,没有任何创新。他说,Yi-34B 的架构是完全复制了 LlaMa 的架构,只是改了几个名字,试图掩盖其抄袭的事实。


Yi-34B 的分层查询注意力就是 LlaMa 的分组查询注意力,没有任何区别。Yi-34B 的开源许可证是 Apache 2.0,这是一种不兼容的开源协议,违反了 LlaMa 的 MIT 许可证。


Yi-34B 的基准测试结果是不可信的,他们没有公布调试数据,也没有提供任何证据,让其他人可以复现他们的结果。


从上述回应中,我们可以看出,双方对于 Yi-34B 的原创性和合法性有着截然不同的看法。这些看法也反映了开源大模型的一些挑战和风险。


一方面,开源可以促进技术的共享和创新,让更多的开发者和研究者能够利用大模型的能力。另一方面,开源也需要遵守一定的规范和道德,尊重原始作者的贡献,保证结果的透明和可复现,避免误导和滥用。这些问题值得我们深入思考和探讨。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1