逐浪AIGC丨腾讯混元大模型迭代：新增“文生图”能力

作者：21世纪经济报道发布时间：2023-10-26

AIGC 腾讯大语言模型

21世纪经济报道记者白杨北京报道

10月26日，腾讯宣布混元大模型迎来升级，将正式对外开放“文生图”功能。腾讯表示，升级后的腾讯混元中文能力已整体超过GPT3.5。

今年9月，腾讯混元大模型正式亮相。根据当时披露的信息，腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预训练语料超2万亿tokens。而在此次升级后，腾讯混元大模型加入了对图像的处理能力，也意味着模态进一步丰富。

文生图是AIGC领域的核心技术之一，也是体现通用大模型能力的试金石，对模型算法、训练平台、算力设施都有较高的要求。

据悉，大模型文生图的难点体现在对提示词的语义理解、生成内容的合理性以及生成图片的效果。针对这三个技术难点，腾讯通过专项技术研究，提出了一系列原创算法，来保证生成图片的可用性和画质。

比如在语义理解方面，腾讯混元采用了中英文双语细粒度的模型，并通过优化算法提升了模型对细节的感知能力与生成效果，有效避免多文化差异下的理解错误。

在内容合理性方面，AI生成人体结构和手部经常容易变形。混元文生图则通过增强算法模型的图像二维空间位置感知能力，将人体骨架和人手结构等先验信息引入到生成过程中，让生成的图像结构更合理，减少错误率。

而在画面质感方面，混元文生图则基于多模型融合的方法，提升生成质感。数据显示，经过模型算法的优化之后，混元文生图的人像模型，包含发丝、皱纹等细节的效果提升了30%，场景模型，包含草木、波纹等细节的效果提升了25%。

目前，腾讯混元文生图能力已经被用于素材创作、商品合成、游戏出图等多项业务中。此外，在广告业务下的多轮测评中，腾讯混元文生图的案例优秀率和广告主采纳率分别达到86%和26%。

除了文生图能力，这次升级中腾讯混元大模型的代码和数学能力也得到提升。腾讯方面表示，经过对32种主流语言代码文件、各类计算机书籍和博客的学习增训，腾讯混元代码处理水平提升超过20%。

现在，腾讯内部有多个开发平台接入了腾讯混元大模型，工程师们已经在使用腾讯混元来进行代码生成、代码补全、代码漏洞检测和修复、表格数据处理、数据库查询等工作。

实际上，自腾讯混元大模型亮相之后，腾讯也在积极推动其在公司内部及外部的落地。官方数据显示，截至目前，有超过180个腾讯内部业务已接入腾讯混元，包括腾讯会议、腾讯文档、企业微信、腾讯广告和微信搜一搜等。

在外部，则有来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户，通过腾讯云调用腾讯混元大模型API，应用领域涉及智能问答、内容创作、数据分析、代码助手等多个场景。

腾讯表示，大模型多模态交互能力是通往通用人工智能的必由之路，也是不断扩充大模型能力象限的一个重要方向。现在，腾讯混元大模型正在不断强化图片、视频、音频等各类模态的处理能力，相关成果也将很快面向外界推出。

更多内容请下载21财经APP

相关资讯

逐浪AIGC⑤丨大模型狂飙

编者按：1956年，人工智能（AI，ArtificialIntelligence）的概念首次提出，迄今已逾六十载。2022年，AI行业再度迎来新的节点，人工智能生成内容（AIGC，AIGeneratedContent）后来居上，以超出人们预期的速度成为科技革命历史上的重大事件。

AIGC 人工智能

21世纪经济报道 2023-03-16

升级对标Sora，腾讯混元开源文生图大模型

升级对标Sora，腾讯混元开源文生图大模型市界2024-05-14 18:58发布于北京市界官方账号5月14日，腾讯宣布旗下的混元文生图大模型全面升级并对外开源，目前已在 Hugging Face

Sora Hugging Face 腾讯

市界 2024-05-14

腾讯混元大模型开放AIGC文生图这些上市公司也在强力布局

腾讯混元大模型开放AIGC文生图这些上市公司也在强力布局《科创板日报》10月27日讯（记者张洋洋）自9月7日简单亮相后，鲜少公开露面的腾讯混元大模型，昨日公布了最新的研发新进度。本次新

腾讯 AIGC

财联社 2023-10-27

中文原生文生图大模型来了！腾讯混元推出，Sora 同架构

宣布旗下的混元文生图大模型全面升级并对外开源，目前已在HuggingFace平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。混元文生图模型效果远超开源的StableDiffusion模型，是目前效果最好的开源文生图模型；整体能力属于国际领先水平。

腾讯 Sora Hugging Face GitHub Stable Diffusion

时代周报 2024-05-14

腾讯混元文生图大模型开源：Sora 同架构，更懂中文

旗下的混元文生图大模型宣布对外开源，目前已在HuggingFace平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。混元已布局文/图生3D，单图仅需30秒即可生成3D模型。问：为什么在今年这个节点做开源？

腾讯 Sora Hugging Face GitHub

极客公园 2024-05-17

逐浪AIGC丨腾讯混元大模型迭代：新增“文生图”能力

推荐体验

相关资讯

逐浪AIGC⑤丨大模型狂飙

升级对标Sora，腾讯混元开源文生图大模型

腾讯混元大模型开放AIGC文生图这些上市公司也在强力布局

中文原生文生图大模型来了！腾讯混元推出，Sora 同架构

腾讯混元文生图大模型开源：Sora 同架构，更懂中文

近期资讯

英伟达年终大礼，最强AI GPU曝光，全新B300让o1/o3推理性能上天算力爆表

国产之光DeepSeek把AI大佬全炸出来了，671B大模型训练只需此前算力1/10，细节全公开

从「天才少年」到被迫「追赶者」：诺奖得主、AlphaGo之父Demis Hassabis眼中的AI未来

从联合国精英到阿联酋王妃，“高人设”生意不好做了

新华保险再出手，今年收了7座万达广场

电商+文化+乡愁：土特产如何成为年货经济的新C位？

李佳琦董宇辉们集体“摸高”

聪明的钱 | 中欧基金：重点关注政策加码，抓住投资AI三大机会

脑机接口和 AI，一个硬币的两面

消费金融2024：增资热潮重塑行业版图

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响