硬刚OpenAI！谷歌发布Project Astra、Veo，Gemini搜索迎来重大更新

作者：多比发布时间：2024-12-19

在 24 小时前，OpenAI 故意抢先发布 GPT-4o，通过实时的语音、视频和人机交互震撼了全世界！

谷歌强势回击 OpenAI

在 2024 年 5 月 14 日举行的 Google I/O 大会上，Google 发布了全新文本转图像模型 Imagen 3 以及视频生成模型 Veo，展现了其在人工智能领域的领先实力。被认为是 Google 对 OpenAI 日前发布的 Dall-E 3 和 Sora 的有力回应；谷歌展示的 Project Astra，直接对标了目前 OpenAI 领先的 GPT-4o。

两大 AI 巨头在语言模型、图像和视频生成领域的竞争日趋白热化。此外，Google 还推出了名为 Music AI Sandbox 的工具，专为音乐创作而设计。

Project Astra 上线

现在，谷歌宣布在 Gemini 系列模型中引入了一系列更新，包括家族新成员 Gemini 1.5 Flash（这是谷歌追求速度和效率的轻量级模型）以及 Project Astra（这是谷歌对人工智能助手未来愿景的体现）。

据谷歌官方介绍，Gemini 1.5 Pro 在不久的将来，能够处理长达一小时的视频内容，或者超过 30,000 行的代码库，展现出其强大的跨模态处理能力。

我们期待在生产力、可访问性和人机交互的整体质量方面看到显著提升，请各大模型都卷起来！需要共享 ChatGPT-4o 的小伙伴，可以直接访问组团兔小程序。

Gemini 搜索

谷歌搜索是 Gemini 最令人兴奋的变革之一

在过去一年中，作为搜索生成体验的一部分，Google 搜索回答了数十亿个查询。如今，用户可以以全新的方式进行搜索，提出新类型的问题、进行更长且复杂的查询，甚至使用照片来搜索，从而获取网络上最优质的信息。

推出 Ask Photos

其中一个例子是 Google Photos，这款应用将近九年前推出。自那时起，人们使用它来整理他们最重要的记忆。如今，每天上传的照片和视频超过 60 亿张。

用照片搜索生活：借助 Gemini，使这一过程变得更加简单。

假设有人在停车场付费站付费，但想不起车牌号。以前，他们可以在 Photos 中搜索关键词，然后在多年的照片中翻找车牌号。现在，只需问 Photos，它知道经常出现的车辆，能推断出哪辆是用户的，并告诉他们车牌号。

Imagen 3

在文本转图像领域，Imagen 3 是 Google 目前最高质量的模型，能够生成比以往模型更加精细、光线更丰富的图像，并且减少令人分心的瑕疵。

显著提升的理解能力：Imagen 3 能根据用户描述生成各种各样的视觉风格，并从较长的描述中捕捉细微细节。

为了提高实用性，Imagen 3 将提供多个版本，每个版本针对不同类型任务进行优化，涵盖从快速生成草图到创作高分辨率图像等多种需求。

通用性更强，理解更迅速

为了实现更大的通用性和对指令的理解，Imagen 3 被设计为能够生成各种格式和风格的高质量图像，从照片般写实的风景画到质感丰富的油画，甚至异想天开的黏土动画场景。

Imagen 3 还能够理解用自然日常语言书写的指令，使其无需复杂的指令就能更获得想要的输出结果。 为了帮助 Imagen 3 在长且复杂的指令中捕捉诸如特定相机角度或构图之类的细微差别，其训练数据中每个图像的标题都添加了更丰富的细节。

通过学习更优质的信息，Imagen 3 能够更准确地生成各种主题和风格的图像。

更高质量的图像

Imagen 3 能生成视觉丰富、高质量的图像，具有良好的光线和构图。它可以准确呈现细节，例如人物手上细小的皱纹，以及复杂纹理，例如针织玩偶大象的毛绒质感。

更好的文本渲染

大幅改进了文本渲染功能，为风格化生日贺卡、演示文稿等使用案例带来了新的可能性。

Veo

自 Sora 发布三个月后，谷歌拿出文生视频模型 Veo 正面硬刚 Sora，可以生成时长超过一分钟的视频，打破 Sora 纪录！

Veo 能根据文本、图像和视频提示生成“高质量”1080p 分辨率视频。

更好地理解语言和视觉

Veo 凭借其先进的自然语言理解和视觉语义能力，能够生成紧密贴合文本提示的视频。不仅能生成高质量的视频，还能精准把握提示中的细微差别和基调，提供前所未有的创作控制力。它能够理解各种电影特效的指令，例如延时摄影或航拍风景。

该模型还能制作视频短片，并将其延长至 60 秒或更长。它既可以根据单个提示，也可以根据一连串的提示制作视频短片，这些提示共同讲述了一个故事。

视频帧间的一致性

对于视频生成模型来说，保持视觉一致性是一项挑战。人物、物体甚至整个场景都可能在帧与帧之间意外闪烁、跳跃或变形，从而破坏观看体验。Veo 的尖端潜像扩散变换器可减少这些不一致性的出现，使人物、物体和风格保持原位，就像在现实生活中一样。

硬刚OpenAI！谷歌发布Project Astra、Veo，Gemini搜索迎来重大更新

谷歌强势回击 OpenAI

Project Astra 上线

Gemini 搜索

推出 Ask Photos

Imagen 3

Veo

推荐体验

相关资讯

谷歌反击：Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索

硬刚！谷歌Gemini上线搜索1分钟后，OpenAI火速反击正式推出ChatGPT搜索

硬刚谷歌！OpenAI推出AI搜索新功能：SearchGPT

正面硬刚谷歌！OpenAI测试AI搜索功能SearchGPT，携手传媒巨头

21深度丨OpenAI硬刚谷歌主阵地，AI搜索战事再起

近期资讯

蜂巢能源取得电池的壳体组件专利，提高电池单体的体积利用率

中创新航取得单体电池及电池包专利，有利于单体电池于电池组或者电池包内的装配

蜂巢能源取得电池单体相关专利，可减小壳主体内气体量和膨胀力

巨湾技研取得封装工装专利，有效避免铝塑膜封装不良

蜂巢能源取得电池的顶盖组件和电池单体专利，可减少成本

宁德时代取得圆柱电池单体专利，提高极耳与壳体绝缘性能

东莞锂威能源科技取得一种电池盖板结构等专利，提高支撑稳定性

广州巨湾技研取得一种电池盖板及电池专利，提升电池能量密度

海门市远翔塑料科技取得便于连接的动力电池盖板组件专利，能方便在高温工作时进行降温，在热失控时进行排气

泰鼎新能源取得软包锂离子电池二封封装结构专利，减少铝塑膜PP层融化液体过压溢出量

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响