逐浪AIGC丨百川智能发布2代开源大模型王小川：LLaMA作为开源模型的时代已过

作者：21世纪经济报道发布时间：2023-09-07

21世纪经济报道记者白杨北京报道

9月6日，百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本，并且均为免费可商用。

今年4月，王小川在离开搜狗一年半后创办了百川智能，开启了新的创业征程。王小川说，百川智能刚成立时，原计划是今年三季度发布500亿规模参数的模型，四季度发布对标ChatGPT 3.5的模型，在明年一季度发布超级应用。

但在6月份，王小川看到中国市场存在做开源模型的需求。6月15日，百川智能发布国内首款开源可免费商用的70亿参数量大语言模型Baichuan-7B；7月11日，百川智能又发布了参数量130亿的大语言模型Baichuan-13B以及对话模型Baichuan-13B-Chat。

据王小川透露，Baichuan-7B、Baichuan-13B这两款开源大模型目前的下载量已经突破500万，其中近一个月的下载量突破了300万。除开发者之外，也有200多家企业申请部署开源大模型。

而百川智能这次发布的Baichuan2-7B和Baichuan2-13B，均基于2.6万亿高质量多语言数据进行训练，两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。

其中，Baichuan2-13B相比上一代13B模型，数学能力提升49%，代码能力提升46%，安全能力提升37%，逻辑推理能力提升25%，语义理解能力提升15%。

王小川表示，Baichuan2-7B和Baichuan2-13B两个模型在MMLU、CMMLU、GSM8K等几大权威评估基准中，以绝对优势领先LLaMA2。其中，根据MMLU等多个权威英文评估基准评分，Baichuan2-7B以70亿的参数在英文主流任务上与130亿参数量的LLaMA2持平。

在国际市场，OpenAI和谷歌都选择了闭源来保证自家大模型的优势地位，而Meta率先走上了开源的道路。LLaMA开源后，迅速吸引了大量开发者，基于LLaMA开发的很多产品，也已经能够达到匹敌GPT3.5的性能。

但王小川指出，LLaMA的开源存在一些弊端，首先是如果用户超过7亿，就不提供开源支持，另外就是LLaMA开源仅适用于以英文为主的环境，如果开发者做的模型更多是使用中文场景，那也拿不到开源协议。

而百川智能想做的，就是弥补中国开源生态的短板，让中国开发者能够用上对中文场景更友好的开源模型。王小川说，“Baichuan2开源模型发布之后，用LLaMA2作为开源模型的时代就已经过去了。”

另外值得关注的是，百川智能这次在发布开源模型的同时，也公开了Baichuan 2的技术报告。该报告详细介绍了Baichuan 2 训练的全过程，包括数据处理、模型结构优化、Scaling law、过程指标等。这也是国内首次有公司选择公开这样的训练过程，它将帮助更多大模型学术机构、开发者和企业用户更深入了解大模型训练过程。

除了开源产品外，8月初，百川智能还发布了闭源大模型Baichuan-53B，这意味着百川智能已完成了“开源+闭源”大模型并行布局。8月31日，百川智能通过了《生成式人工智能服务管理暂行办法》备案，可以正式面向公众提供服务。

更多内容请下载21财经APP