超越Claude 3.5紧追o1，DeepSeek-V3-Base开源，编程能力暴增近31％

作者：机器之心发布时间：2024-12-26

在 2024 年底，探索通用人工智能（AGI）本质的 DeepSeek AI 公司开源了最新的混合专家（MoE）语言模型 DeepSeek-V3-Base。不过，目前没有放出详细的模型卡。

HuggingFace 下载地址：https://huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main

具体来讲，DeepSeek-V3-Base 采用了 685B 参数的 MoE 架构，包含 256 个专家，使用了 sigmoid 路由方式，每次选取前 8 个专家（topk=8）。

图源：X@arankomatsuzaki

该模型利用了大量专家，但对于任何给定的输入，只有一小部分专家是活跃的，模型具有很高的稀疏性。

图源：X@Rohan Paul

从一些网友的反馈来看，API 显示已经是 DeepSeek-V3 模型。

图源：X@ruben_kostard

同样地，聊天（chat）界面也变成了 DeepSeek-v3。

图源：X@Micadep

那么，DeepSeek-V3-Base 性能怎么样呢？Aider 多语言编程测评结果给了我们答案。

先来了解一下 Aider 多语言基准，它要求大语言模型（LLM）编辑源文件来完成 225 道出自 Exercism 的编程题，覆盖了 C++、Go、Java、JavaScript、Python 和 Rust 等诸多编程语言。这 225 道精心挑选的最难的编程题给 LLM 带来了很大的编程能力挑战。

该基准衡量了 LLM 在流行编程语言中的编码能力，以及是否有能力编写可以集成到现有代码的全新代码。

从下表各模型比较结果来看，DeepSeek-V3-Base 仅次于 OpenAI o1-2024-12-17 (high)，一举超越了 claude-3.5-sonnet-20241022、Gemini-Exp-1206、o1-mini-2024-09-12、gemini-2.0-flash-exp 等竞品模型以及前代 DeepSeek Chat V2.5。

其中与 V2.5（17.8％）相比，V3 编程性能暴增到了 48.4％，整整提升了近 31％。

另外，DeepSeek-V3 的 LiveBench 基准测试结果也疑似流出。我们可以看到，该模型的整体、推理、编程、数学、数据分析、语言和 IF 评分都非常具有竞争力，整体性能超越 gemini-2.0-flash-exp 和 Claude 3.5 Sonnet 等模型。

图源：reddit@homeworkkun

HuggingFace 负责 GPU Poor 数据科学家 Vaibhav (VB) Srivastav 总结了 DeepSeek v3 与 v2 版本的差异：

根据配置文件，v2 与 v3 的关键区别包括：

vocab_size：v2: 102400 v3: 129280

hidden_size：v2: 4096 v3: 7168

intermediate_size：v2: 11008 v3: 18432

隐藏层数量：v2：30 v3：61

注意力头数量：v2：32 v3：128

最大位置嵌入：v2：2048 v3：4096

v3 看起来像是 v2 的放大版本。

图源：X@reach_vb

值得注意的是，在模型评分函数方面，v3 采用 sigmoid 函数，而 v2 采用的是 softmax 函数。

网友热评：开源模型逼近 SOTA

众多纷纷网友表示，Claude 终于迎来了真正强劲的对手，甚至在一定程度上 DeepSeek-V3 可以取代 Claude 3.5。

还有人感叹道，开源模型继续以惊人的速度追赶 SOTA，没有放缓的迹象。2025 年将成为 AI 最重要的一年。

参考链接：

https://aider.chat/docs/leaderboards/

https://www.reddit.com/r/LocalLLaMA/comments/1hm4959/benchmark_results_deepseek_v3_on_livebench/

本文来自微信公众号“机器之心”，编辑：杜伟、小舟，36氪经授权发布。

超越Claude 3.5紧追o1，DeepSeek-V3-Base开源，编程能力暴增近31％

网友热评：开源模型逼近 SOTA

推荐体验

相关资讯

DeepSeek发布DeepSeek-Coder-V2：数学能力超越了GPT-4-Turbo

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI，估值180亿初创3年颠覆硅谷

Claude 3.5编程收入增10倍，反杀OpenAI！3年估值180亿颠覆硅谷

新V观海外：o1模型的开源复现和智商测试

ChatGPT两周年，国产o1大模型们紧追不舍

近期资讯

React第二十章(useMemo)

稀土掘金社区2024年度影响力榜单正式公布

鸿蒙开发：自定义一个英文键盘

5个开源RAG框架对比

2024年度总结-考研-就业-其他可能-NEXT--..2025

块级格式化上下文-BFC

Rust 优化 js 工具函数实践

新能源车企“血战”2024：出圈or出局

鸿蒙开发：实现键值数据库存储

趁着手头业务不忙，简单记一次封装 console.log 的奇葩经历😶

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响