文 | 虞景霖
编辑 | 尚恩
大模型发展到现在,上下文窗口的长度成为如今追逐的热点:OpenAI的GPT-4-32k的文字处理量约2.5万字,Anthropic的Claude 100k大约能处理8万字的文本,而前段时间杀出的黑马Kimi Chat的文字处理量达到了20万字。
百川智能一举超过所有对手,可以说“遥遥领先”。
10月30日,百川智能发布Baichuan2-192K大模型,上下文窗口高达192k,能够处理约35万个汉字,是大模型Claude2的4.4倍,更是GPT-4的14倍,是目前全球最长的上下文窗口。
百川创始人:王小川。来源:企业供图
除了长度,Baichuan2-192K在文本生成质量、长上下文理解以及长文本问答、摘要等方面也表现亮眼。
全球最长,拿下7个SOTA
LongEval是由加州大学伯克利分校联合其他高校发布,用于衡量模型对长窗口内容的记忆和理解能力的测评榜单,属于业内公认的长上下文窗口理解权威评测榜单。
LongEval评测结果显示,Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,取得了7项SOTA,超越了其他长窗口模型。
来源:LongEval
众所周知,窗口长度的增长会导致模型性能的下降,即使是“Claude2”在窗口长度超过80K后,回答效果也会直线下降。而Baichuan2-192K在窗口长度超过100K后仍然能够保持强劲性能,长窗口内容记忆和理解能力较其他开源商用大模型更优秀。
来源:LongEval
而上下文窗口扩大的背后是“算力需求”和“显存压力”的增加。不同于业内滑动窗口、降采样、小模型等会伤害大模型性能的上下文扩展方法,百川智能通过优化算法和工程,实现窗口长度和性能之间的平衡。
百川智能提出了一种针对RoPE和ALiBi动态位置编码的外推方案,能够对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插,在不损害模型性能的情况下实现了窗口长度的提升。
简单说就是,Baichuan2-192K在保证分辨率的同时增强了模型对长序列依赖的建模能力。
根据DeepMind发布的长文本困惑度标准评测数据PG-19,Baichuan2-192K在窗口长度扩大的同时,序列建模能力不断增强。
来源:PG19 Perplexity
工程方面,百川智能在自主开发的分布式训练框架基础上,整合了包括张量并行、流水并行、序列并行、重计算以及Offload功能等在内的优化技术,独创一套全面的4D并行分布式方案。该方案能够根据模型负载自动匹配合适的分布式策略,降低了长窗口训练和推理过程中的显存占用。
目前,Baichuan2-192K现已正式开启内测,以API调用的方式开放给了核心合作伙伴,未来将面向传媒、金融、法律等行业开放。
一次读完《三体》
那么这个长文本能力到底怎样呢?
以《三体》为例,面对近20万字的文稿,Baichuan2-192K对答如流,不仅能够提取关键信息回复细节问题,还能对长文档进行统计总结。
来源:Baichuan2-192K
此外,它还可以帮助基金经理总结和解释财务报表,分析公司的风险和机遇;帮助律师识别多个法律文件中的风险,审核合同和法律文件;帮助技术人员阅读数百页的开发文档,并回答技术问题;还能帮助科员人员快速浏览大量论文,总结最新的前沿进展。
成立于2023年4月的百川智能,在距离公司成立仅6个月时间,便接连发布了Baichuan-7B/13B,Baichuan2-7B/13B四款开源可免费商用大模型,以及Baichuan-53B、Baichuan2-53B两款闭源大模型。
大模型更新频率基本上保持着一月一更新。这一次,则带着刷新行业纪录的192K上下文窗口来袭。
长按添加「智涌」小助手入群
👇🏻 添加请备注:公司+职务 👇🏻
来源:公众号【智能涌现】