百川智能发布130亿参数的大语言模型：部分能力超ChatGPT，完全开源免费可用

作者：搜狐科技快讯发布时间：2023-07-11

7月11日消息，百川智能正式发布参数量130亿的通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本。

这是百川智能发布的第二款通用大语言模型。此前6月15日，百川智能就已经推出了首款70亿参数量的中英文语言模型Baichuan-7B，并一举拿下多个世界权威Benchmark榜单同量级测试榜首。

据介绍，此次发布的Baichuan-13B中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身，是目前所有33B以下尺寸开源模型中效果最好的可商用大语言模型。

百川智能在发布预训练模型Baichuan-13B-Base的同时，还发布了其对话模型Baichuan-13B-Chat，Baichuan-13B-Chat部署简单、开箱即用，极大降低了开发者的体验成本。

相比此前发布的Baichuan-7B，Baichuan-13B在1.4万亿token数据集上训练，超过LLaMA-13B 40%，是当前开源13B尺寸下训练数据量最大的模型，

在语言模型中，上下文窗口长度对于理解和生成与特定上下文相关的文本至关重要。Baichuan-13B上下文窗口长度为4096，不同于Baichuan-7B的RoPE编码方式，Baichuan-13B使用了ALiBi位置编码技术，能够处理长上下文窗口，甚至可以推断超出训练期间读取数据的上下文长度，从而能够更好的捕捉文本中上下文的相关性，做出更准确的预测或生成。

作为一款中英文双语大模型，Baichuan-13B采用了相对平衡的中英文语料配比和多语言对齐语料，从而在中英两种语言上表现均很优异。在同等参数量的开源模型中堪称实力担当，能更好满足商业化场景需求。

中文领域，在权威评测C-EVAL中，Baichuan-13B性能一骑绝尘，在自然科学、医学、艺术、数学等领域大幅领先LLaMA-13B、Vicuna-13B等同尺寸的大语言模型，在社会科学、人文科学等领域甚至超越了ChatGPT。

英文领域，在英文最权威的榜单MMLU上，Baichuan-13B超过了所有同尺寸开源模型，并且在各个维度都具有显著优势。

作为同级最好的开源可商用中英文预训练语言模型，Baichuan-13B-Base 不仅对学术研究完全开放，所有开发者均可通过邮件向百川智能申请授权，在获得官方商用许可后即可免费商用。

此外，为了尽可能降低模型的使用门槛，百川智能同时开源了Baichuan-13B-Chat的INT8和INT4两个量化版本，在近乎无损的情况下可以很方便的将模型部署在如3090等消费级显卡上。

百川智能方面表示，未来大模型生态闭源与开源并存已是行业共识。尽管中文世界不乏优秀的开发者、出色的创新能力和广泛的应用场景，但由于缺少高性能和高定制性的开源基座模型，在大语言模型领域的相关研究和应用上仍存在较大的挑战。中国急需优质开源可商用大模型补齐相关领域的空白，与开发者和企业共同推动中国人工智能应用的创新生态发展。

本次百川智能发布的Baichuan-13B中英文大语言模型，凭借百亿参数量已经展现出可以媲美千亿模型的能力，大大降低企业部署和调试的使用成本，让中国开源大模型商业化进入真正可用阶段，实现了国内开源大模型对美国大模型开源领域的追赶。