当前位置:首页|资讯|谷歌|Midjourney

多模态AI层出不穷 谷歌放连招 最新文生图模型“拍死前浪”

作者:金融界发布时间:2023-12-15

原标题:多模态AI层出不穷 谷歌放连招 最新文生图模型“拍死前浪”

在多模态这条路上,谷歌已全面出击。谷歌有意强调了Imagen 2的营销用途——可用于logo生成、制作商品广告页。目前并没有向所有人开放,仅供许可名单上的Vertex AI客户使用。

多模态AI年末有多卷?谷歌用实际行动回答你。

12月6日,谷歌上线原生多模态大模型Gemini单挑GPT-4,随即其媲美Gen-2、比肩Pika的文生视频模型W.A.L.T面世。就在12月14日,谷歌又上线了文生图模型Imagen 2,该模型被称为DALL•E 3和和Midjourney的最强竞品。

在多模态这条路上,谷歌已全面出击。

据谷歌介绍,基于谷歌最先进的文本到图像扩散技术,Imagen 2不需要复杂、专业的提示词,可根据自然语言提示生成高质量、逼真、高分辨率、美观的图像;具备强大的图像理解能力,可进行视觉问答,即为图像创建详细的长文标注,并对图像内元素提出的问题给出详细答案;可理解复杂抽象的概念(如诗歌、文学作品),并将这些描写可视化。

效果如何?

一直以来,AI绘画的一个缺陷在于不会画“手”,而Imagen 2的数据集和模型进步,让其能够生成逼真的手部和脸部图像,且对光线的处理堪称完美。

在理解抽象的文学作品上,Imagen 2同样出色,精确表述出了藏于文字中的意境之美。

Imagen 2还有哪些亮点?

功能上,Imagen 2还支持图像编辑功能,如修复(inpainting)和扩图(outpainting)。

用inpainting技术直接在原始图像中生成新内容

除了英语之外,Imagen 2还支持另外六种语言(中文、印地语、日语、韩语、葡萄牙语、西班牙语),另有许多其他语言计划于2024年初接入该模型。

应用上,谷歌有意强调了Imagen 2的营销用途——该模型可用于logo生成、制作商品广告页。

Imagen 2可以在生成含有特定文字或短语的物体图像时,确保输出图像中包含正确短语

Imagen 2能为品牌、产品等生成多种创意和逼真的Logo

安全性上,Imagen 2集成了SynthID——用于加水印和识别 AI 生成内容的工具包,其生成的图片可添加不可见的数字水印;Imagen 2接受了数据安全训练,内嵌安全过滤器可防止生成潜在有害内容,如暴力、冒犯或色情内容。

值得注意的是,Imagen 2目前并没有向所有人开放,仅供许可名单上的Vertex AI客户使用。Vertex AI是谷歌云上集成多种工具的托管式AI平台,可以理解为谷歌为客户提供的AI应用训练场。

这正体现了谷歌在AI业务上的战略——依托谷歌云打造AI生态,更多地面向开发者。在8月份的谷歌云Next大会上,谷歌云的CEO透露,自从今年年初Vertex AI支持生成式AI技术,Vertex AI用户数量同比增长了15倍以上。

来源:科创板日报


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1