当前位置:首页|资讯|腾讯|AIGC|人工智能

能画画了!混元大模型开放文生图功能

作者:北京日报发布时间:2023-10-27

原标题:能画画了!混元大模型开放文生图功能

北京日报客户端 | 记者 袁璐

10月26日,腾讯宣布,腾讯混元大模型迎来全新升级,并正式对外开放“文生图”功能。腾讯方面称,升级后的混元大模型中文能力整体超过GPT3.5,代码能力大幅提升20%。作为实用级的通用大模型,目前,超过180个腾讯内部业务已接入该模型。

此外,今年9月首批通过备案后,混元大模型也已经面向消费端用户陆续开放体验,用户通过小程序或网页端,就能与该大模型对话。

文生图是AIGC(生成式人工智能)领域的核心技术之一,也是体现通用大模型能力的试金石,对模型算法、训练平台、算力设施都有较高的要求。自首次公开亮相以来,混元大模型进入了加速升级的轨道。记者注意到,文生图能力是此次混元大模型升级开放的最大亮点之一,据介绍,相比其他大模型,其文生图应用在人像真实感、场景真实感上有比较明显的优势,同时,在风景、动漫游戏等场景等生成上有较好的表现。

人脸画像生成在业界公认难度较高,但记者看到,输入提示词“生成可爱的亚洲4岁女孩穿着棉质连衣裙,大眼睛,古代中国,摄影风格,汉服”,混元大模型生成如下:

另外一个例子中,输入提示词“ 一个城市CBD办公楼,现代化设计,高层建筑,玻璃幕墙,近景拍摄,摄影风格,摄影照片”,混元大模型交出了如下作品:

更简单一些,输入提示词“轻舟已过万重山,水墨画风格”就可以得到下面的图片:

据悉,大模型文生图的难点体现在对提示词的语义理解、生成内容的合理性以及生成图片的效果。针对这三个技术难点,团队进行了专项的技术研究,提出了一系列原创算法,来保证生成图片的可用性和画质。

此外,在内容合理性方面,AI生成人体结构和手部经常容易变形,该大模型通过增强算法模型的图像二维空间位置感知能力,并将人体骨架和人手结构等先验信息引入到生成过程中,让生成的图像结构更合理,减少错误率。经过模型算法的优化之后,该大模型文生图的人像模型,包含发丝、皱纹等细节的效果提升了30%,场景模型,包含草木、波纹等细节的效果提升了25%。

大模型多模态交互能力被认为是通往通用人工智能的必由之路,也是不断扩充大模型能力象限的一个重要方向。记者获悉,目前混元大模型也正在不断强化图片、视频、音频等各类模态的处理能力,相关成果也将很快面向外界推出。

图片来源:混元大模型


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1