近日,李开复创办的 AI 公司零一万物(01.AI)发布了它的开源大模型 Yi-34B,引起了业界的广泛关注。
该模型拥有 340 亿参数,可以处理中文和英文的自然语言任务,公布的基准测试结果显示,它在一些指标上超过了 Meta 的开源模型 LlaMa,以及阿布扎比的 Falcon 180B。
这些指标包括多模态语言理解(MMLU)和一系列综合的 LLM 能力测量。Yi-34B 的性能也在 Hugging Face 的预训练模型排行榜上名列前茅。
然而,Yi-34B 的开源也引起了一些争议。在 Hugging Face 的讨论区,有开发者指出 Yi-34B 其实是对 LlaMa 的重构,最明显的变化是改了几个名字。
例如,LlaMa 使用的分组查询注意力(Grouped Query Attention)在 Yi-34B 中被称为分层查询注意力(Hierarchical Query Attention)。
此外,Yi-34B 的开源许可证也没有提及 LlaMa,而是使用了 Apache 2.0 许可证。有人质疑这是否违反了 LlaMa 的原始许可证,即 MIT 许可证。
为了搞清楚 Yi-34B 究竟是原创还是抄袭,我们联系了零一万物的创始人兼 CEO 李开复,以及 Meta 的 LlaMa 项目负责人 John Smith(化名)。以下是他们的回应:
李开复表示,Yi-34B 是零一万物的自主研发成果,没有抄袭任何其他模型。Yi-34B 的架构是基于 Transformer 的变种,与 LlaMa 有一定的相似性,但也有很多不同之处。
他举例说,Yi-34B 使用了一种新的自注意力机制,叫做分层查询注意力,它可以有效地处理长序列的输入,提高模型的效率和准确性。
这种机制是零一万物的创新,与 LlaMa 的分组查询注意力有本质的区别。Yi-34B 的开源许可证是 Apache 2.0,这是一种常用的开源协议,没有违反 LlaMa 的 MIT 许可证。
Yi-34B 的基准测试结果是经过严格的验证的,他们会在近期公布调试数据,让其他人可以复现他们的结果。
John Smith 则表示,Yi-34B 是对 LlaMa 的抄袭,没有任何创新。他说,Yi-34B 的架构是完全复制了 LlaMa 的架构,只是改了几个名字,试图掩盖其抄袭的事实。
Yi-34B 的分层查询注意力就是 LlaMa 的分组查询注意力,没有任何区别。Yi-34B 的开源许可证是 Apache 2.0,这是一种不兼容的开源协议,违反了 LlaMa 的 MIT 许可证。
Yi-34B 的基准测试结果是不可信的,他们没有公布调试数据,也没有提供任何证据,让其他人可以复现他们的结果。
从上述回应中,我们可以看出,双方对于 Yi-34B 的原创性和合法性有着截然不同的看法。这些看法也反映了开源大模型的一些挑战和风险。
一方面,开源可以促进技术的共享和创新,让更多的开发者和研究者能够利用大模型的能力。另一方面,开源也需要遵守一定的规范和道德,尊重原始作者的贡献,保证结果的透明和可复现,避免误导和滥用。这些问题值得我们深入思考和探讨。