7月7日,阿里云在世界人工智能大会(WAIC2023)上宣布AI绘画创作大模型“通义万相”开启定向邀测。这也是一款基于阿里研发的组合式生成模型Composer的产品,可辅助人类进行图片创作,未来可应用于艺术设计、电商、游戏和文创等应用场景。也是继聊天机器人“通义千问”和聚焦音视频处理的“通义听悟”之后,阿里云通义大模型家族的第三位成员。而这距离第一款产品“通义千问”的发布,仅过去了5个月。从2022年9月通义大模型的推出到现在,也不过过去了10个月。
阿里云智能集团首席技术官(CTO)周靖人透露,这是阿里云大模型全面掌握多模态能力的关键一步,该应用将逐步向行业客户开放。
自chatgpt上线以来,国内各大公司也纷纷在人工智能领域发力,在这次大会上,百度的“文心一言”、科大讯飞星火认知大模型、华为云盘古大模型、阿里云通义千问、京东云言犀大模型、清华大学ChatGLM、360智脑大模型等各大厂商研发的基础应用大模型也都集体亮了相。
引发大众关注的是,“通义万相”是继百度推出的“文心一格”后国内第二款文生图智能工具。此前,文心一格率先发布时国内关注度很高,但文心一格最初的表现并不算太好,在文字生成图片上,出现了令人啼笑皆非的“驴肉火烧”、“夫妻肺片”等错误理解,图片处理能力无法令大众满意。
时隔一年,“通义万相”会做成什么样引起网友们的好奇。从获取到定向邀测资格博主的评测中,记者了解到,其首发功能都是现在国外大火的AI绘画模型Stable Diffusion和Midjourney所具有的,但由于刚上线,其完善性还无法与国外的同领域产品相比较。同时因为是闭源产品的缘故,可能在后续功能的自由及丰富度上远难及开源的Stable Diffusion。
“通义万相”首批上线了3大功能:在基础文生图功能中,可根据文字内容生成水彩、扁平插画、二次元、油画、中国画、3D卡通和素描等风格图像;在相似图片生成功能中,用户上传任意图片后,即可进行创意发散,生成内容、风格相似的AI画作。值得注意的是,该模型还在业内率先支持图像风格迁移,用户上传原图和风格图,可自动把原图处理为指定的风格图,而相似图片生成和风格迁移这两大功能,都是“文心一格”目前尚不具备的。
AI技术迭代飞快,一年前的文字智能生成图片功能在如今来看已经不够令人惊喜,更多刷新认知的功能在不断出现,尽管目前而言各类AI文图处理工具要完全应用到商业领域尚且还有一段距离,但技术的累积速度确实令人惊叹,蝶变或许就在下一个瞬间。
扬子晚报/紫牛新闻记者 沈昭 薛雅文(实习)
校对 盛媛媛