在 24 小时前,OpenAI 故意抢先发布 GPT-4o,通过实时的语音、视频和人机交互震撼了全世界!
在 2024 年 5 月 14 日举行的 Google I/O 大会上,Google 发布了全新文本转图像模型 Imagen 3 以及视频生成模型 Veo,展现了其在人工智能领域的领先实力。被认为是 Google 对 OpenAI 日前发布的 Dall-E 3 和 Sora 的有力回应;谷歌展示的 Project Astra,直接对标了目前 OpenAI 领先的 GPT-4o。
两大 AI 巨头在语言模型、图像和视频生成领域的竞争日趋白热化。此外,Google 还推出了名为 Music AI Sandbox 的工具,专为音乐创作而设计。
现在,谷歌宣布在 Gemini 系列模型中引入了一系列更新,包括家族新成员 Gemini 1.5 Flash(这是谷歌追求速度和效率的轻量级模型)以及 Project Astra(这是谷歌对人工智能助手未来愿景的体现)。
据谷歌官方介绍,Gemini 1.5 Pro 在不久的将来,能够处理长达一小时的视频内容,或者超过 30,000 行的代码库,展现出其强大的跨模态处理能力。
我们期待在生产力、可访问性和人机交互的整体质量方面看到显著提升,请各大模型都卷起来!需要共享 ChatGPT-4o 的小伙伴,可以直接访问组团兔小程序。
谷歌搜索是 Gemini 最令人兴奋的变革之一
在过去一年中,作为搜索生成体验的一部分,Google 搜索回答了数十亿个查询。如今,用户可以以全新的方式进行搜索,提出新类型的问题、进行更长且复杂的查询,甚至使用照片来搜索,从而获取网络上最优质的信息。
其中一个例子是 Google Photos,这款应用将近九年前推出。自那时起,人们使用它来整理他们最重要的记忆。如今,每天上传的照片和视频超过 60 亿张。
用照片搜索生活:借助 Gemini,使这一过程变得更加简单。
假设有人在停车场付费站付费,但想不起车牌号。以前,他们可以在 Photos 中搜索关键词,然后在多年的照片中翻找车牌号。现在,只需问 Photos,它知道经常出现的车辆,能推断出哪辆是用户的,并告诉他们车牌号。
在文本转图像领域,Imagen 3 是 Google 目前最高质量的模型,能够生成比以往模型更加精细、光线更丰富的图像,并且减少令人分心的瑕疵。
显著提升的理解能力:Imagen 3 能根据用户描述生成各种各样的视觉风格,并从较长的描述中捕捉细微细节。
为了提高实用性,Imagen 3 将提供多个版本,每个版本针对不同类型任务进行优化,涵盖从快速生成草图到创作高分辨率图像等多种需求。
通用性更强,理解更迅速
为了实现更大的通用性和对指令的理解,Imagen 3 被设计为能够生成各种格式和风格的高质量图像,从照片般写实的风景画到质感丰富的油画,甚至异想天开的黏土动画场景。
Imagen 3 还能够理解用自然日常语言书写的指令,使其无需复杂的指令就能更获得想要的输出结果。 为了帮助 Imagen 3 在长且复杂的指令中捕捉诸如特定相机角度或构图之类的细微差别,其训练数据中每个图像的标题都添加了更丰富的细节。
通过学习更优质的信息,Imagen 3 能够更准确地生成各种主题和风格的图像。
更高质量的图像
Imagen 3 能生成视觉丰富、高质量的图像,具有良好的光线和构图。它可以准确呈现细节,例如人物手上细小的皱纹,以及复杂纹理,例如针织玩偶大象的毛绒质感。
更好的文本渲染
大幅改进了文本渲染功能,为风格化生日贺卡、演示文稿等使用案例带来了新的可能性。
自 Sora 发布三个月后,谷歌拿出文生视频模型 Veo 正面硬刚 Sora,可以生成时长超过一分钟的视频,打破 Sora 纪录!
Veo 能根据文本、图像和视频提示生成“高质量”1080p 分辨率视频。
更好地理解语言和视觉
Veo 凭借其先进的自然语言理解和视觉语义能力,能够生成紧密贴合文本提示的视频。不仅能生成高质量的视频,还能精准把握提示中的细微差别和基调,提供前所未有的创作控制力。它能够理解各种电影特效的指令,例如延时摄影或航拍风景。
该模型还能制作视频短片,并将其延长至 60 秒或更长。它既可以根据单个提示,也可以根据一连串的提示制作视频短片,这些提示共同讲述了一个故事。
视频帧间的一致性
对于视频生成模型来说,保持视觉一致性是一项挑战。人物、物体甚至整个场景都可能在帧与帧之间意外闪烁、跳跃或变形,从而破坏观看体验。Veo 的尖端潜像扩散变换器可减少这些不一致性的出现,使人物、物体和风格保持原位,就像在现实生活中一样。
Pixalate_cn 2024-12-20