百川智能超千亿大模型Baichuan 3:中文评测超越GPT-4

作者：IPO早知道发布时间：2024-01-30

百川智能超千亿大模型Baichuan 3:中文评测超越GPT-4

亦在多个评测中被认为是中文医疗任务表现最佳的大模型。

本文为IPO早知道原创

作者｜Stone Jin

据IPO早知道消息，百川智能日前发布超千亿参数的大语言模型Baichuan 3。

在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中，Baichuan 3都展现了出色的能力，尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色，证明了Baichuan 3在自然语言处理和代码生成领域的强大实力。

此外，与百亿、几百亿级别参数模型训练不同，超千亿参数模型在训练过程中对高质量数据，训练稳定性、训练效率的要求都高出几个量级。为更好解决相关问题，百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案，有效提升了Baicuan 3的各项能力。

从实际落地的角度来看，鉴于大模型的全能特性能够在医疗领域发挥着至关重要的作用，诸如OpenAI、谷歌等头部大模型企业都将医疗作为模型的重点训练方向和性能评价的重要体系。百川智能亦如此。

而为了给Baichuan3注入丰富的医疗知识，百川智能在模型预训练阶段构建了超过千亿Token的医疗数据集，包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。该数据集涵盖了从理论到实际操作，从基础理论到临床应用等各个方面的医学知识，确保了模型在医疗领域的专业度和知识深度。

针对医疗知识激发的问题，百川智能在推理阶段针对Prompt做了系统性的研究和调优，通过准确的描述任务、恰当的示例样本选择，让模型输出更加准确以及符合逻辑的推理步骤，最终不仅提升了Baichuan 3在多项医疗考试上的成绩，并且在真实的医疗问答场景下也能给用户提供更精准、细致的反馈。

逻辑推理方面，Baichuan 3在数学和代码等多个权威评测上中文任务超越GPT-4的优异成绩，已经充分证明了其强大的基础逻辑推理能力。在拥有丰富高质量专业医疗知识，并能通过调优后的Prompt对这些知识进行充分激发的基础上，结合超千亿参数的推理能力，Baichuan 3在医疗领域的任务效果提升显著，在各类中英文医疗测试中的成绩提升了2到14个百分点。

Baichuan 3在多个权威医疗评测任务中表现优异，不仅MCMLE、MedExam、CMExam等中文医疗任务的评测成绩超过GPT-4，USMLE、MedMCQA等英文医疗任务的评测成绩也逼近了GPT-4的水准，是医疗能力最强的中文大模型。

此外，Baichuan 3还突破“迭代式强化学习”技术，进一步提升了语义理解和生成能力，在诗词创作的格式、韵律、表意等方面表现优异，领先于其他大模型。

整体而言，作为参数规模超过千亿的大语言模型，Baichuan 3不仅英文效果达到接近GPT-4的水平，还在多项通用中文任务的表现上实现了对GPT-4的超越，是百川智能的全新里程碑。Baichuan 3全面的通用能力以及在医疗领域的强大表现，将为百川智能打造“超级应用”，把大模型技术落地到诸多复杂应用场景提供有力支撑。

百川智能超千亿大模型Baichuan 3:中文评测超越GPT-4

百川智能超千亿大模型Baichuan 3:中文评测超越GPT-4

推荐体验

相关资讯

百川智能发布超千亿大模型Baichuan 3，中文评测超越GPT-4

号称中文评测超越 GPT-4，百川智能发布超千亿参数大模型 Baichuan 3

百川智能发布超千亿参数大模型 Baichuan 3，号称中文评测超越 GPT-4

王小川旗下百川智能发布超千亿大模型Baichuan 3，中文评测超越GPT-4

近期资讯

专家探讨：办好科技期刊需要一个久久为功的过程

2024“打卡中国古韵潮音——你好，大湾区！”网络国际传播活动正式启动

雷神推出26999元黑武士·Shark主机：酷睿Ultra7 265K + RTX 4090D

福建新诺机器人自动化有限公司被认定为高新技术企业

2024世界机器人大赛总决赛官宣牵手郑州高新区

余承东怒赞华为Mate 70：兄弟们做得好一起去找下一个未来！

AI+教育：Meta Dot携手GPTBots，打造教育行业智能化新标杆

华为官翻机打响第一炮，最高降4000元，定价逻辑令人深思

微美全息开发出一种基于量子技术的随机存取存储器结构QRAM

一加Ace 5系列发布：搭载骁龙8系处理器，2299元起售

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响