当前位置：首页|资讯|LLaMA|清华|编程|文心一言

Llama 3能力有多强？清华最新大模型评测出炉，国产模型表现亮眼

作者：科技IT频道发布时间：2024-04-29

LLaMA 清华编程文心一言

日前，Meta发布最新开源模型Llama 3并号称是性能最好开源大语言模型，极有可能超过当前的闭源王者GPT-4 Turbo。那么，Llama 3能力究竟如何？

4月24日，由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测平台，基于语义、对齐、代码、安全和智能体5项大模型原生评测基准，展开开放性、动态性、科学性和权威性的大模型综合能力评测，率先剖析Llama 3模型能力。

《SuperBench大模型综合能力评测报告》对Llama 3-8B、Llama 3-70B等16个海内外具有代表性的模型进行了评测。结果显示，Llama 3与GPT-4系列模型仍有一定差距，而国内大模型智谱AI的GLM-4与百度文心一言4.0在多项评测中进入榜单前五名，超过Llama 3。

在语义理解能力评测中，国内大模型GLM-4、文心一言4.0分别位列第二名、第三名，仅次于Claude-3，但超过GPT-4网页版与GPT-4 Turbo，稳占第一梯队。Llama 3-70B、Llama 3-8B则分别位列第六名、第十六名。

而在智能体能力评测中，Llama 3-70B跻身榜单前五名，这也是该模型五项评测排名最高的一次。在代码编写能力、人类对齐能力、安全和价值观三项评测中，Llama 3-70B均排在第七名，超过大部分国内大模型，只落败于GLM-4和文心一言4.0，Llama 3-8B排名相对靠后，考虑到模型参数量的差异，Llama 3-70B整体表现较好。

相较之下，表现出色的国内大模型GLM-4全面对标OpenAI，在五项能力评测中均紧追GPT-4系列模型与Claude-3，堪称“全能选手”。同时，在代码、智能体两项大模型关键能力评测中，GLM-4排名仅次于GPT-4系列模型和Claude-3，位列国内第一。

在安全价值观能力评测中，文心一言4.0拿下最高分，超越GPT-4系列模型和Claude-3。在智能体能力评测中，文心一言4.0表现较差。

总体而言，虽然国内大模型与国际顶尖模型之间还存在差距，但正逐步缩小这一差距。相信在政策支持和技术创新的推动下，国内大模型将取得显著成就，推动我国人工智能产业高质量发展。

推荐体验

相关资讯

清华速评 Llama 3：表现不俗，国产模型智谱GLM、文心一言表现亮眼

在代码编写能力、人类对齐能力、安全和价值观三项评测中，Llama3-70B均排在第七名，超过大部分国内大模型，只落败于GLM-4和文心一言4.0，Llama3-8B排名相对靠后，考虑到模型参数量的差异，Lla…

清华 LLaMA 文心一言编程

科讯天下 2024-04-26

清华大学发布3月份大模型评测报告，文心一言4.0表现亮眼

日前，由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架，正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个在海内外具有代表性的模型，结果显示：文心一言4.0表现亮眼，与国际一流模型水平接近，且差距已经逐渐缩小。

清华文心一言

上游新闻 2024-04-22

清华 14 大 LLM 最新评测报告出炉：GPT-4 和 Claude-3 依然领先，国内 GLM-4 等模型同样亮眼

清华对国内外14个LLM做了最全面的综合能力测评，其中GPT-4、Cluade3是当之无愧的王牌，而在国内GLM-4、文心4.0已然闯入了第一梯队。在2023年的「百模大战」中，众多实践者推出了各类模型，这些模型有的是原创的，有的是针对开源模型进行微调的；有些是通用的，有些则是行业特定的。

清华 GPT-4 Claude

IT之家 2024-04-19

IDC权威评测出炉，破解文心大模型3.5“大满贯”密码

作者 | 曾响铃文 | 响铃说12项指标中，7个满分，其中整体总分、算法模型、行业覆盖三大指标获得唯一的5分，绝对的行业第一。这是IDC最新发布的《AI大模型技术能力评估报告，2023》中，百度文心大模型3.5取得的成绩。近乎“大满贯”的表现，全景展现了文心大模型3.5从基础技术到产业应用的能力与行业地位。百模大战背景下，这是第一次有来自权威机构的评测为业界进行大模型能力与价值的系统梳理。7月初，百度方面就透露文心大模型已经迭代到3.5版本，实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等，在

文心大模型 AI大模型百度

科技向令说 2023-07-21

清华《SuperBench大模型综合能力评测报告》文心一言4.0表现卓越

近日，由清华大学基础模型研究中心联合中关村实验室共同研制的SuperBench大模型综合能力评测框架，正式发布了2024年3月版《SuperBench大模型综合能力评测报告》。该评测框架涵盖了14个具

清华文心一言

V歌数码 2024-05-29

近期资讯

Cookie的全面了解

Cookie Cookie Cookie Cookie Cookie Cookie Cookie Cookie

豫章归来时 2024-12-29

分词器和词嵌入的那些小故事

分词器和词嵌入的那些故事我们在调用大模型之前，往往会进行分词器分词，进行分词器分词后，然而还需要嵌入。其中的原因在于它们的功能和作用是相辅相成的。分词器的任务是将文本转化为模型可以处理的离散单位，而

用户149562046117 2024-12-29

一文说清楚webpack如何用localStorage离线缓存静态资源

基本概念在 Webpack 中，你可以通过一些插件和配置来实现使用 localStorage 离线缓存静态资源。

我是区块链小学生 2024-12-29

Dokcer-Dockerfile案例(二)

我们上小节这个Dockerfile，模拟了一个需求，今天我们将模拟另外一个需求，这些需求在实际上的运维当中，可能和现在的需求都不一样，但是作为理解这个Dockerfile还是没问题的。

dessler 2024-12-29

LMDeploy 量化部署 - 第四期书生大模型实战营实验记录（进阶岛-第3关）

我目前正在参加“书生大模型实战营”，这是一个旨在帮助学员掌握大模型开发和应用的实战课程。我根据官方提供的教程文档提取了核心步骤，去掉了详细的背景知识介绍和说明，这样后续作为一个手册查找起来会更加直观。

飞哥数智坊 2024-12-29

[study] 关于 egg.js 内核的基础(阉割版)实现

前言：使用 KOA 来实现一下 elpis-core (简易的 egg.js 内核) 并补充说明一下我个人对洋葱圈模型的理解吧。

best_code 2024-12-29

超棒的网页内容抓取神器！不仅安全高效免费，还能自动清理掉广告、导航栏等干扰信息！

在 AI 时代，我们习惯了直接将网页链接丢给智能助手，让它帮我们提取和分析内容。然而，对于特定的网页内容，**AI 也不能直接抓取网页内容！**尤其是需要提取大量内容时，手动复制粘贴不仅麻烦，还可能

梓羽玩Python 2024-12-29

小白也可以直播预测 😱| 数据分析、可视化、数据训练 | 魔搭社区🤔

前言大家好 , 我是浪遏 , 今天学习黄佳老师的 AI 课程 , 受益良多 , 和大家一起分享。我将从需求出发 , 而不是一上来就开始思想绑架 , 告诉你这段代码干啥 ? 不明白需求 , 小白可

浪遏 2024-12-29

vue基础语法

创建vue项目,使用终端打开我们想要放置创建的vue的文件夹然后输入这段语法npm create vite@latest，然后输入我们想创建的项目名称，然后选择我们想要的框架，选择vue,选

竺梓君 2024-12-29

NIO SelectionKey 详解

SelectionKey 是 Java NIO 中的一个重要类，用于表示一个通道在 Selector 上的注册关系。它包含了通道的状态信息和感兴趣的事件类型。SelectionKey 是使用 Sele

倚栏听风雨 2024-12-29

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1