5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布。混元文生图包含了模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。
过去,视觉生成扩散模型主要基于的是U-Net 架构,但随着参数量的提升,基于Transformer 架构的扩散模型展现出了更好的扩展性,有助于进一步提升模型的生成质量及效率。
升级后的腾讯混元文生图大模型采用的是全新的DiT架构(DiT,即Diffusion With Transformer),这也与此前OpenAI旗下的Sora和著名开源大模型平台Stability最新的文生图模型Stable Diffusion 3使用了同款架构和关键技术,是一种基于Transformer架构的扩散模型。
升级后的混元文生图大模型不仅可支持文生图,也可作为视频等多模态视觉生成的基础。
中文原生也是此次腾讯混元文生图大模型的一大亮点。此前,Stable Diffusion等主流开源模型核心数据集以英文为主。混元文生图则具备更强的中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。
据了解,从2023 年 7 月起,腾讯混元文生图团队便明确了基于DiT架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型全面升级为DiT架构,并对原有模型进行了改进:新一代DiT模型具备了更长的文本理解能力,支持最长256个字符(业界主流是77个)的图片生成指令。增加了中文原生的理解能力;并增加了多轮对话的能力。
据了解,目前腾讯已开源了超 170 个优质项目,均来源于腾讯真实业务场景,已覆盖了微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块。(赵子坤/文 李原/编辑)