阿里云AI绘画创作大模型来了!我们测了测“通义万相”的神通
潮新闻客户端 记者 祝梅
“通义千问”不能文生图?这可能是它“兄弟”的技能。7月7日,在上海召开的2023世界人工智能大会上,阿里云宣布AI绘画创作大模型通义万相开启定向邀测。(官方网址:https://wanxiang.aliyun.com/)
据介绍,该模型可辅助人类进行图片创作,未来可应用于艺术设计、电商、游戏和文创等应用场景。阿里云智能集团CTO周靖人表示,这是阿里云大模型全面掌握多模态能力的关键一步,该能力将逐步向行业客户开放。
记者了解到,通义万相首批上线三大能力:
其一,基础文生图功能,可根据文字内容生成水彩、扁平插画、二次元、油画、中国画、3D卡通和素描等风格图像;
其二,相似图片生成功能,用户上传任意图片后,即可进行创意发散,生成内容、风格相似的AI画作;
其三,在业内率先支持图像风格迁移,用户上传原图和风格图,可自动把原图处理为指定的风格图。
乍看起来这些描述有些模糊,记者拿到了邀请码,先帮大家测一测——
先看功能一,记者特意写了很长的文字描述,有61个字,系统显示可读字数达到500字。底下可以选择画风以及画面比例。
可以看到,生成结果包含四张图,对选择困难症患者还是……很友好的?
除了画面主人公姿态的变换,在宠物的数量、宠物与人大小对比等方面,通义万相给出了不同答案。
你也可以选择“复用创意”,微调文本或选择生成其他画风。
记者给出的第二题,是看看杭州西湖——
“雨后夏天的杭州西湖,湖面微风飘过、水波荡漾,游船游人如织,画面采用新海诚风格或者油画风。”
看起来,核心要素都体现了,就是画面风格还是自己选更靠谱。
下一题,“各色奥特曼环成一圈,举手欢呼的场景”。
这道题,以前记者也测试过百度的文心一言,结果很离谱。通义万相的理解相对接近,虽然和记者脑补图不是一回事,但初次测试表现来看还算是很出彩。
通过语义文字的不断细化、调整,还可以让画风更接近心目中的理想型。
素描风(通义万相)
3D卡通风(通义万相)
百度文心一言的生成结果——
最后一题,“城市核心商业区的摩天大楼,仰视视角,二次元风。”
从四张结果里选了相对满意的——
再来手动切换一下素描画风,基本上是跟记者描述这句话的脑补场景比较吻合的——
再切换看看功能二,记者从手机相册里选了几张自己拍的照片来生图,效果如下——
原图1
生成图1,貌似有点普通,像加强了滤镜的效果。
原图2
生成图1、2,emmm,有点演绎感了,意外地还不错?
最后再看看功能三,从相册里选了两张画风差异度较明显的图,这个“嫁接”效果你觉得如何?
再试试赛博朋克风的“嫁接”——
怎么样?你觉得三大功能中哪一个更实用?
无论是哪个大模型,都需要在不断地学习和训练中“变强”。据悉,基于阿里研发的组合式生成模型Composer,通义万相可通过对配色、布局、风格等图像设计元素进行拆解和组合,提供高度可控性和极大自由度的图像生成效果,仅需一个模型即可支持多类图像生成类任务能力,该研究成果已在国际AI顶会ICML 2023上发表。
作为业内最早布局大模型的科技公司之一,在去年的世界人工智能大会上,阿里云“通义”大模型系列首次亮相。此后,通义千问、通义听悟等模型和产品相继推出,家族新成员通义万相的亮相,意味着阿里云在大模型领域已经具备处理或生成文本、语音和图片等模态的能力。
阿里云方面的数据显示,目前已有超过30万企业申请测试通义千问,通义听悟累计用户数达到36万。
在大会演讲中,阿里云CTO周靖人表示:“阿里云将把促进中国大模型生态的繁荣作为首要目标,向大模型创业公司提供全方位的服务,包括最强大的智能算力和开发工具,并在资金和商业化探索方面提供充分支持。”
“多模态是大模型演进的必然路径,我们希望用不同模态的能力服务千行百业,帮助企业全面拥抱智能化时代。”周靖人表示。
“转载请注明出处”