当前位置:首页|资讯|谷歌|OpenAI|华尔街

谷歌出手,嗨爆大模型

作者:财经早餐发布时间:2023-12-14

原标题:谷歌出手,嗨爆大模型

近十年来,谷歌一直都是AI行业领头羊,但在ChatGPT颠覆行业的这一年迟迟没有动作,面临的压力不可谓不小。现在,谷歌终于往前迈出了一大步。

美东时间12月6日,谷歌CEO桑达尔·皮查伊宣布迄今为止“规模最大、功能最强”的AI大模型Gemini 1.0版正式上线,谷歌人工智能新时代的开始。

这一新消息刚发布就引起了科技圈的大量关注,Gemini的强大性能让华尔街兴奋。12月7日,谷歌母公司Alphabet股价上涨5.31%,收盘价136.93美元,总市值达到1.72万亿美元,这是8月底以来谷歌表现最好的时候。

这一大模型的发布并非没有前兆。皮查伊在6月份的I/O开发者大会上就预告过推出大模型的计划,谷歌表示这一新产品代表着AI模型的巨大飞跃,将影响谷歌旗下几乎所有的产品,对谷歌和用户以及行业都是意义非凡。“强大之处在于,人们可以研究一种底层技术,不断进行优化,最终反馈到产品上。”皮查伊如是表示。

据谷歌介绍,Gemini在MMLU(大规模多任务语言理解)的得分率达到90.0%,是第一个在MMLU测试中超过人类专家的模型。

那么,这个大模型具体是什么样子?未来有多大潜力?是否真如谷歌所言那么强大?

大模型热火并未退

本次发布的Gemini(中文译为“双子座”)为原生多模态大模型,包括一套三种不同规模的模型——Ultra、Pro和Nano共三个版本。

其中,Gemini Ultra版本功能最强大,它是谷歌迄今为止创建的最强大的LLM,适用于复杂任务,比如支持数据中心和企业级应用,将于明年推出,也被定位为GPT-4的竞争对手。

Gemini Pro版本可扩展多种任务,为谷歌大部分AI服务提供助力,包括运营Bard(谷歌基于大型语言模型推出的聊天机器人),性能优于GPT-3.5。

Gemini Nano为轻量级版本,适用于特定任务和端侧,包括手机、PC等移动端和本地化部署的设备。

一年前OpenAI推出ChatGPT,随即引爆人工智能行业,大模型成为风口,相关概念股大涨。随之而来的,就是各家科技巨头或主动或被动地推出自家大模型,并承受市场对其和OpenAI的持续比较。谷歌就成为那个最被诟病的华尔街巨头,其作为AI领域常年的领头羊,在大模型这领域却没有拿得出手的产品,负面声音也是不断出现。

面对OpenAI的出色表现以及ChatGPT的快速迭代,现在,谷歌终于准备好反击了,凭借Gemini开启了谷歌大模型新时代的第一步,那么,相较于ChatGPT,谷歌的新模型有什么优势?

如果是根据谷歌自己的说法,Gemini在很多方面强过ChatGPT。谷歌称,已经对系统进行了非常彻底的分析,并进行了基准测试。其中,用于处理高度复杂任务的Ultra版本性能,在32个广泛使用的学术基准测试中,有30个都表现出了超越目前的最佳成果(SoTA),比如多语言处理,比如生成Python代码的能力。

换言之,在这些测试中Gemini的表现要优于目前市场上的大模型,包括ChatGPT。翻译成大白话,Gemini的明显优势就是来自于它能够理解视频和音频并与之交互,这是OpenAI没那么擅长的。

OpenAI更加擅长训练图像和语音,谷歌却不同,谷歌希望做一个“综合”的强大产品,既能输出文本,也能对图像、视频和音频进行高效处理,像是涉及到人像动作、触感等更高阶的参数,谷歌都希望大模型能有出色表现。

当然,基准测试只是基准测试,Gemini能力的最终考验,还是在其是否能结合谷歌旗下的产品,更好地服务用户和客户,并在查找信息、编写代码、音视频等方面有更好的服务体验,这才是最重要的,也是目前市面上专注文本的大语言模型缺失的。

大模型的未来

谷歌称在项目之初,就定位多感官模型这条路。这跟专注文本和图像大模型的OpenAI形成差异,虽然后者开发的DALL-E图像训练大模型,以及Whisper语言大模型已经拥有非常出色的表现,但像是音视频类大模型仍然是当前市场非常渴求的。

谷歌正在试图开发这种通用模型,“通用”这个意义中甚至还包括训练Gemini的编程能力。其一同推出的AlphaCode 2代码生成系统,是一款由Gemini模型驱动的AI编程工具,是对前代AlphaCode的改进版本,且性能比上一代高出50%。换言之,谷歌不仅希望在应用端赢过同行,还希望从模型开发这一底层逻辑上超过对手。

其实单就应用本身,谷歌的新产品已经足够吸引人。

随着技术上的不断突破,多模态应用的商业化落地可能是接下来市场关注的焦点,相对应的,应用端的游戏、软件,包括影视板块都有望实现快速渗透并受益。

最近大火的Pika就是以文字和图片生成视频的AIGC应用,只要输入相应指令就能把文字转成视频。作为目前AI生成视频应用中的明星产品、资本宠儿、硅谷新秀,Pika创始人已经凭借该产品一举带动家族公司实现6个涨停板。

应用展示效果好,具有进一步商业化推广空间,这些都是大模型带动的效果,国内部分游戏公司都已经开始进行此类尝试。像是美图公司就发布了自研AI视觉大模型MiracleVision(奇想智能)4.0版本,主打AI设计与AI视频,将于2024年1月陆续应用于美图秀秀、美颜相机等美图旗下产品。

不过,谷歌的新产品固然“炫酷”,却也并非都是一片叫好声。

事实上,科技领域中有部分声音认为Gemini或许存在“夸大宣传”的质疑。比如就有网友指出,谷歌发布的产品演示视频并非实时录制,而是经过剪辑的结果。谷歌后续在一篇博客文章中解释了多模态交互过程,基本上也间接承认了只有使用静态图片和多段提示词拼凑,才能达成演示视频中的效果。

只是,即便展示效果有水分,市面上大多数还是看好的声音,毕竟谷歌不是没有这个实力。

尾声

对于谷歌的产品是不是如宣称的一样强大,我们可以持保留态度,静待其后续应用表现。只是有一点,笔者认为同样值得关注,那就是谷歌通过收集的海量数据,以及对大模型的不断迭代,其实是希望实现一种效果——使大模型能够更贴近人类的思维和意识。

在这个过程中,谷歌自己都承认可能存在数据偏见和算法歧视等等问题。

大模型的训练会带来一定的风险,包括媒介攻击、算法歧视等等。尤其是谷歌的目标,还是目前大多数科技巨头不愿意触碰的领域——通用人工智能。

通用人工智能意味着,AI会更贴合人的意识和想法。

不知道大家是否还记得去年夏天,谷歌的一名工程师表示,该公司的一个名为LaMDA的人工智能系统可能有自己的感觉,之后该工程师因为违反了公司的保密政策被停职,当时大众针对人工智能是否会产生意识的讨论也是十分火热。

面对新产品的发布,谷歌表示一直在努力确保Gemini的安全和责任,包括不断进行内外部测试。皮查伊表示,确保数据安全可靠对于企业来说远比产品更重要,生成式AI都很赚钱,但很可能出现难以预测的问题,就比如发生攻击媒介等事件。

皮查伊本人不止一次说过,人工智能对人类的改变将比火或电更具变革性,现在,谷歌显然将Gemini模型作为这个变革的开始。诚然,Gemini可能不会改变世界,可能只是帮助谷歌在生成式人工智能的竞赛中赶上OpenAI,最坏的情况也不过是Bard继续保持“无聊和平庸”而ChatGPT不断获胜,但是,从皮查伊到整个谷歌,Gemini已然寄托了企业乃至行业的新期待。

只是对于用户和行业未来来看,或许我们需要考虑的更多。企业需要更多限制,对于AI的发展是否如之前很多大佬认为的那样,应该限制其发展速度,对于这个问题也值得人们深思。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1