当前位置:首页|资讯|医疗|GPT-4|人工智能|大语言模型

百川智能发布超千亿参数大模型Baichuan 3,医疗能力逼近GPT-4

作者:蓝鲸财经发布时间:2024-01-29

原标题:百川智能发布超千亿参数大模型Baichuan 3,医疗能力逼近GPT-4

图片来源:视觉中国

1月29日,中国人工智能创业公司百川智能发布超千亿参数的大语言模型Baichuan 3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan 3都展现了出色的能力。而在CMMLU、GAOKAO、HumanEval和MBPP等多个中文评测榜单上,更是超越GPT-4展现了其在中文任务上的优势。

与百亿、几百亿级别参数模型训练不同,超千亿参数模型在训练过程中对高质量数据,训练稳定性、训练效率的要求都高出几个量级。为更好解决相关问题,百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案,有效提升了Baicuan 3的各项能力。

高质量数据方面,传统的数据筛选依靠人工定义,通过滤重筛选、质量打分、Textbook筛选等方法过滤数据。而百川智能认为,数据的优化和采样是一个动态过程,应该随着模型本身的训练过程优化,而非单纯依靠人工先验进行数据的采样和筛选。为全面提升数据质量,百川智能设计了一套基于因果采样的动态训练数据选择方案,该方案能够在模型训练过程中动态地选择训练数据,极大提升数据质量。

百川智能的医疗知识水平也有突破。Baichuan3的医疗数据集Token数超千亿,医疗能力逼近GPT-4。为了给Baichuan3注入丰富的医疗知识,百川智能在模型预训练阶段构建了超过千亿Token的医疗数据集,包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。该数据集涵盖了从理论到实际操作,从基础理论到临床应用等各个方面的医学知识。

目前,百川智能没有透露模型参数量,只是公布Baichuan3是超千亿参数的大模型。相比之下,GPT-3.5是1750亿参数。

百川智能由王小川和茹立云联合创立,成立于2023年4月,以搜狗团队为基础。据报道,公司成立之初就已获得5000万美元启动资金。

百川智能的速度一直很快。百川智能成立不到100天,便发布了Baichuan-7B、Baichuan-13B两款开源可免费商用的中文大模型。从Baichuan 1.0到如今3.0,只用了9个月。

就在一个月前,2023年12月19日,百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo,在支持192K上下文窗口的基础上,还增加了搜索增强知识库的能力。

相比于Baichuan2-192K,Baichuan3的允许输入文本长度有缩水。Baichuan2-192K上线时,允许用户输入文本最长达35万字,宣称可以一次读完一本《三体2》,是全球处理上下文窗口长度最长的大模型。目前Baichuan3允许输入不超过4096个字符的文本,相当于2000个汉字或者3000个英文单词。

在过去一年的大模型创业中,通过行业数据训练行业垂直大模型,被认为是大模型在B端落地的主要路径。但百川智能选了另一条方向,据甲子光年报道,百川智能将向量数据库升级为搜索增强知识库,提升了大模型获取外部知识的能力;把搜索增强知识库和超长上下文窗口结合,让模型可以连接全部企业知识库以及全网信息。

去年年底的媒体沟通会上,王小川透露,百川智能的C端产品第一重心是医疗方向,产品预计会在2024年上线。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1