腾讯推出 Hunyuan-Large 开源大模型：389B 总参数、52B 激活参数

作者：IT之家发布时间：2024-11-05

IT之家 11 月 5 日消息，腾讯今日宣布推出 Hunyuan-Large 大模型，官方表示这是目前业界已经开源的基于 Transformer 的最大 MoE 模型，拥有 3890 亿总参数（389B）和 520 亿激活参数（52B）。

腾讯今日在 Hugging Face 开源了 Hunyuan-A52B-Pretrain 、 Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。并发布了技术报告和训练推理操作手册，详细介绍了模型能力和训练与推理的操作。

其中模型技术优势如下：

高质量合成数据：通过合成数据增强训练，Hunyuan-Large 能够学习到更丰富的表示，处理长上下文输入，并更好地泛化到未见数据
KV 缓存压缩：采用分组查询注意力（GQA）和跨层注意力（CLA）策略，显著减少了 KV 缓存的内存占用和计算开销，提高了推理吞吐
专家特定学习率缩放：为不同专家设置不同的学习率，确保每个子模型都能有效地从数据中学习，并为整体性能做出贡献
长上下文处理能力：预训练模型支持高达 256K 的文本序列，Instruct 模型支持 128K 的文本序列，显著提升了长上下文任务的处理能力
广泛的基准测试：在多种语言和任务上进行广泛实验，验证了 Hunyuan-Large 的实际应用效果和安全性

▲ Hunyuan-Large 预训练模型与具有相似激活参数大小的 Dense 和 MoE 竞争对手相比

IT之家附相关链接如下：

论文：https://arxiv.org/pdf/2411.02265
Github：https://github.com/Tencent/Tencent-Hunyuan-Large
Huggingface：https://huggingface.co/tencent/Tencent-Hunyuan-Large
腾讯云：https://cloud.tencent.com/product/hunyuan

相关资讯

智谱新发开源大模型：9B参数，覆盖编程场景

“过去几年智谱的商业实践为我们积累了非常多的经验，不敢说是 best practice，但是 better practice。”张鹏在演讲中如是说。

编程

李冬梅 2024-07-06

颤抖吧，70B以下的LLM——314B参数Grok开源了

还记得2月份，无数新闻传媒争相报道OpenAI殿堂级的Sora模型发布（至今PPT），就连胡主编和周老板都感叹中美的在这一领域的差距相当富有挑战。胡锡进：Sora的出现是人类AI技术新的里程碑我们

OpenAI Sora

DisonTangor 2024-03-18

北大团队推出aiXcoder-7B：7B参数超越百亿级模型的代码生成能力,兼具企业适配和开源优势

前言对 AI 而言,代码生成技术无疑是近年来最引人瞩目的领域之一。从OpenAI推出的Codex,到谷歌DeepMind的AlphaCode,再到HuggingFace的StarCoder,这些代码

北大编程 OpenAI 谷歌

努力犯错玩AI 2024-04-16

b站最全stable diffusion启动参数

官方文档：https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/来源申明：本文由极客飞兔大佬翻译于官方文档环境变量PYTHON：设置 Python 可执行文件的自定义路径VENV_DIR：指定虚拟环境的路径COMMANDLINE_ARGS：主程序的附加命令行参数IGNORE_CMD_ARGS_ERRORS：忽略命令行参数错误，不中断退出REQS_FILE：默认为 requirements_versions.txt，设置运行时安装具有依

Stable Diffusion GitHub Stable Diffusion WebUI

极客飞兔 2023-07-22

通义千问推出千亿级参数模型Qwen1.5-110B

通义千问首次推出千亿级参数模型Qwen1.5-110B，在MMLU、TheoremQA、GPQA等多个基准测评中展现出卓越性能。目前Qwen1.5系列已累计开源10款大模型，通义千问开源模型下载量超过700万。

通义千问

金融界 2024-04-29

近期资讯

雷军辟谣“偷喝员工酸奶”：纯属谣传，我也烦得不得了

雷军辟谣“偷喝员工酸奶”：纯属谣传，我也烦得不得了三言科技2024-11-01 22:48发布于北京三言财经官方账号三言科技11月1日消息，今日，雷军在直播时回应“偷喝员工酸奶”一事称，此事纯属谣

三言科技 2024-11-01

月薪均2.4万！韩国人吃不起泡菜了：一颗白菜80元还不止

11月2日消息，据韩国媒体报道称，截至10月29日，一个四口之家在传统市场采购制作泡菜的15种原材料，平均需要花费近42万韩元（约合2200元人民币），比去年增加19.6%；如果在超市采购，则需要花费

2024-11-02

换1.5T发动机可加92号汽油新款奥迪A3上市：16.59万起

快科技11月2日消息，昨晚，新奥迪A3正式上市，共推出4款车型，限时惊喜价区间为16.59-19.39万元。此番上市的为第四代奥迪A3的中期改款车型，外观、内饰、配置上迎来多项升级，同时动力系统

2024-11-02

SU7研发费130亿！雷军让小米汽车卖80万我们赚钱为大家好

快科技11月2日消息，在昨晚视频直播中，雷军公开表示，小米SU7研发费用达130亿。雷军透露，关于小米SU7 Ultra的定价问题，公司内部进行了数月的讨论，“最终大家还是听从了我的意见。SU7

2024-11-02

被福特CEO猛夸的小米：跑赢的不只有纽北的保时捷

麻了兄弟们，已经被小米刷了三天屏了，天天都有大新闻。先是雷总在微博上表示， SU7 Ultra 的原型车在德国纽伯格林北环破了记录， 6 分 46 秒 874 的逆天成绩直接成了纽北最快的四门车，领先了

2024-11-02

双11怎么买到全网最低价？

双11怎么买到全网最低价？IT时报2024-11-01 22:15发布于上海IT时报官方账号全文2355字，阅读约需7分钟，帮我划重点划重点01双11购物节来临，各大电商平台推出各种优惠玩法，消

IT时报 2024-11-01

不能自己登月吗！美国求中国借月壤我们不借：这是真相

11月2日消息，近日美国航空航天局（NASA）公开表示，他们还在申请研究中国月壤样本。随后，发现月壤可制水的中科院宁波材料所王军强研究员公开回应此事称：“月壤是极其珍贵的，它需要一

2024-11-02

印度教牧师自称会飞当众展示时摔死：事发全程被记录

快科技11月2日消息，相信很多人小时候都曾幻想过像鸟一样飞翔，甚至还会勇敢地从高处跳下去，假装自己会飞，这些其实是童趣，无可厚非，然而当成年人还认为自己可以不借助任何物品就能飞翔，那就

2024-11-02

京东杀向即时零售战场

京东杀向即时零售战场全天候科技2024-11-01 21:16发布于上海全天候科技官方账号全文1235字，阅读约需4分钟，帮我划重点划重点01京东七鲜超市和前置仓已完成融合，加大力度扩张自营零售

全天候科技 2024-11-01

科学研究表明，不聪明的人有这 12 个特征

记住，这些仅是一般观察，智力的奇妙之处绝不该被一份清单框住

神译局 2024-11-02

腾讯推出 Hunyuan-Large 开源大模型：389B 总参数、52B 激活参数

推荐体验

相关资讯

智谱新发开源大模型：9B参数，覆盖编程场景

颤抖吧，70B以下的LLM——314B参数Grok开源了

北大团队推出aiXcoder-7B：7B参数超越百亿级模型的代码生成能力,兼具企业适配和开源优势

b站最全stable diffusion启动参数

通义千问推出千亿级参数模型Qwen1.5-110B

近期资讯

雷军辟谣“偷喝员工酸奶”：纯属谣传，我也烦得不得了

月薪均2.4万！韩国人吃不起泡菜了：一颗白菜80元还不止

换1.5T发动机可加92号汽油新款奥迪A3上市：16.59万起

SU7研发费130亿！雷军让小米汽车卖80万我们赚钱为大家好

被福特CEO猛夸的小米：跑赢的不只有纽北的保时捷

双11怎么买到全网最低价？

不能自己登月吗！美国求中国借月壤我们不借：这是真相

印度教牧师自称会飞当众展示时摔死：事发全程被记录

京东杀向即时零售战场

科学研究表明，不聪明的人有这 12 个特征

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响