当前位置:首页|资讯|腾讯|Sora|Hugging Face|GitHub

国产开源文生图大模型来了!腾讯混元自研类Sora架构模型

作者:证券时报发布时间:2024-05-14

无论是“画一匹青花瓷的马”这种有点离谱的提示词,还是以特定物体为核心的黑白连环漫画风,已经都可以在腾讯混元文生图模型这个国产开源文生图大模型中实现了。

5月14日,腾讯宣布旗下混元文生图大模型全面升级,并对外开源。这是首个中文原生的类Sora架构开源模型。

据悉,腾讯混元文生图大模型主要实现了三大升级,包括更大参数的DIT模型、原生中文理解能力和双语编码能力、增强了多轮对话能力等。由此,模型实现了更稳定的训练过程,更好的生态兼容,支持多分辨率生成、多轮绘画能力等效果。

具体来看,该模型参数量15亿,目前已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,企业与个人开发者可免费商用。该模型支持文生图功能且可作为视频等多模态视觉生成的基础。

随着腾讯混元文生图大模型入局,采用DiT架构(Diffusion Models with Transformers)的大模型玩家再增一名。DiT是融合Diffusion和Transformers的架构之一,OpenAI的视频生成模型Sora也采用DiT架构。

腾讯方面介绍,混元文生图大模型是业内首个中文原生的DiT架构文生图模型。

目前,主流的文生图开源生态基本围绕英文建设,像Stable Diffusion等主流开源模型,虽然一定程度支持中文输入,但其核心数据集仍以英文为主,对中国的语言、美食、文化、习俗都理解不够,更容易因翻译而产生语义分歧乃至生成错误。建设自主可控且中文原生的大模型以及相应的开源生态迫在眉睫。

腾讯混元文生图大模型,就是腾讯从零开始训练,从模型算法、机器学习框架到人工智能基础设施全链路自研的实用级大模型。

混元文生图以中文原生为基础,支持中英文双语输入及理解,更理解中文语境,对中国的古诗词、俚语、美食、文化、习俗等都有更好的生成效果。

据悉,腾讯混元的文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。

这得益于广告、游戏、社交等庞大的腾讯生态。今年初,腾讯广告基于腾讯混元大模型,发布了一站式AI广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具。多家主流媒体也已经将腾讯混元文生图用于新闻内容的辅助生产。

腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,共建中文文生图开源生态,加速大模型行业发展。”

据介绍,基于腾讯此次开源的文生图模型,开发者和企业无需从头训练,即可直接用于推理,并可基于混元文生图打造专属的AI绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也让模型的安全性和可靠性得到保障。同时,基于开放、前沿的混元文生图基础模型,在以英文为主的文生图开源社区之外,可以丰富以中文为主的文生图开源生态,形成更多样的原生插件,推动中文文生图技术研发和应用。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1