当前位置:首页|资讯|OpenAI|GPT-4

百川智能Baichuan2-192发布,上下文窗口达35万字,一次读完《三体》| 最前线

作者:36氪发布时间:2023-10-31

原标题:百川智能Baichuan2-192发布,上下文窗口达35万字,一次读完《三体》| 最前线

文 | 虞景霖

编辑 | 尚恩

大模型发展到现在,上下文窗口的长度成为如今追逐的热点:OpenAI的GPT-4-32k的文字处理量约2.5万字,Anthropic的Claude 100k大约能处理8万字的文本,而前段时间杀出的黑马Kimi Chat的文字处理量达到了20万字。

百川智能一举超过所有对手,可以说“遥遥领先”。

10月30日,百川智能发布Baichuan2-192K大模型,上下文窗口高达192k,能够处理约35万个汉字,是大模型Claude2的4.4倍,更是GPT-4的14倍,是目前全球最长的上下文窗口。

百川创始人:王小川。来源:企业供图

除了长度,Baichuan2-192K在文本生成质量、长上下文理解以及长文本问答、摘要等方面也表现亮眼。

全球最长,拿下7个SOTA

LongEval是由加州大学伯克利分校联合其他高校发布,用于衡量模型对长窗口内容的记忆理解能力的测评榜单,属于业内公认的长上下文窗口理解权威评测榜单。

LongEval评测结果显示,Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,取得了7项SOTA,超越了其他长窗口模型。

来源:LongEval

众所周知,窗口长度的增长会导致模型性能的下降,即使是“Claude2”在窗口长度超过80K后,回答效果也会直线下降。而Baichuan2-192K在窗口长度超过100K后仍然能够保持强劲性能,长窗口内容记忆和理解能力较其他开源商用大模型更优秀。

来源:LongEval

而上下文窗口扩大的背后是“算力需求”和“显存压力”的增加。不同于业内滑动窗口、降采样、小模型等会伤害大模型性能的上下文扩展方法,百川智能通过优化算法和工程,实现窗口长度和性能之间的平衡。

百川智能提出了一种针对RoPE和ALiBi动态位置编码的外推方案,能够对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插,在不损害模型性能的情况下实现了窗口长度的提升。

简单说就是,Baichuan2-192K在保证分辨率的同时增强了模型对长序列依赖的建模能力。

根据DeepMind发布的长文本困惑度标准评测数据PG-19,Baichuan2-192K在窗口长度扩大的同时,序列建模能力不断增强。

来源:PG19 Perplexity

工程方面,百川智能在自主开发的分布式训练框架基础上,整合了包括张量并行、流水并行、序列并行、重计算以及Offload功能等在内的优化技术,独创一套全面的4D并行分布式方案。该方案能够根据模型负载自动匹配合适的分布式策略,降低了长窗口训练和推理过程中的显存占用。

目前,Baichuan2-192K现已正式开启内测,以API调用的方式开放给了核心合作伙伴,未来将面向传媒、金融、法律等行业开放。

一次读完《三体》

那么这个长文本能力到底怎样呢?

以《三体》为例,面对近20万字的文稿,Baichuan2-192K对答如流,不仅能够提取关键信息回复细节问题,还能对长文档进行统计总结。

来源:Baichuan2-192K

此外,它还可以帮助基金经理总结和解释财务报表,分析公司的风险和机遇;帮助律师识别多个法律文件中的风险,审核合同和法律文件;帮助技术人员阅读数百页的开发文档,并回答技术问题;还能帮助科员人员快速浏览大量论文,总结最新的前沿进展。

成立于2023年4月的百川智能,在距离公司成立仅6个月时间,便接连发布了Baichuan-7B/13B,Baichuan2-7B/13B四款开源可免费商用大模型,以及Baichuan-53B、Baichuan2-53B两款闭源大模型。

大模型更新频率基本上保持着一月一更新。这一次,则带着刷新行业纪录的192K上下文窗口来袭。

长按添加「智涌」小助手入群

👇🏻 添加请备注:公司+职务 👇🏻

来源:公众号【智能涌现】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1