作者 | 月山橘
编辑 | 卷毛
谷歌终于亮出了酝酿已久的杀手锏。(相信大家已经被铺天盖地的正面报道淹没了)
昨天凌晨,Google突然发布了多模态模型Gemini,并在官网意气激昂地打出“欢迎来到Gemini时代”的口号。
Gemini共有三个版本:适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备(手机、PC)的Gemini Nano。
其中,Gemini Nano又包含18亿参数的Nano-1和32.5亿参数的Nano-2,分别针对低内存和高内存设备。
目前,Gemini Pro和Gemini Nano已分别在聊天机器人Bard和智能手机Pixel 8 Pro上集成,而最强大的Gemini Ultra最早要到明年1月才会发布。
被寄予厚望与GPT-4一战的Gemini,一亮相就甩出了两张漂亮的成绩单:
1、首次在MMLU(大规模多任务语言理解)测评中超过人类专家。
谷歌宣称,Gemini Ultra是首个在MMLU任务上表现优于人类专家的大模型,取得了90.0%的成绩。作为对比,人类专家的成绩为89.8%,GPT-4为86.4%。
2、在32个多模态基准测试中取得30个SOTA(当前最优效果),几乎全方位超越GPT-4V。
然而,很快有人发现了其中的“猫腻”。
在Gemini的MMLU测试得分下方,有一排灰色小字“CoT@32”,这意味着Gemini在测试中使用了思维链提示词技巧,且在尝试了32次后取了最优结果。
而被拿来对比的GPT-4,却是在无提示词技巧的前提下,从5个示例中取最优结果,着实有点不讲武德……
这其实也变相表明,Gemini不如GPT-4,而更可能与GPT-3.5实力相当。
但从谷歌发布的60页技术报告和几个颇具创意的演示视频来看,Gemini还是有点东西的。
“头号AI玩家”回顾了Gemini的整场发布会,并从技术报告和演示视频中梳理出了以下要点,供各位玩家参考。
和市面上其他大模型相比,Gemini一出生即是多模态“完全体”,可以理解和处理不同类型的信息,包括文本、图像、音视频和代码,同样也能进行多模态输出。
根据视频输出代码:
想做手工却没灵感?直接拍照问Gemini“能用这两个毛线团DIY什么?”这钩织娃娃还挺像样。
解释乐谱也不在话下:
此外,Gemini还能够识别凌乱的笔迹,将手写的解题过程,转化为准确工整的排版:
利用多模态输出能力,生成图文并茂的博客,配图也与文义十分相符:
你甚至可以通过图像和语音输入,让Gemini全程指导你做菜:
谷歌还发布了两个精彩的演示视频,展示了与Gemini的有趣互动。
视频中的Gemini能够实时、快速、准确地识别各种物体、图像、动作和场景,并用非常自然流畅的语音进行回答,甚至能即兴生成一段音乐。
emoji表情大家都不陌生,但当两个不同的emoji组合成全新的不同寻常的新表情,Gemini依然能分辨出是哪两个emoji的组合。
在一系列视频演示后,Google DeepMind产品副总裁Eli Collins(伊莱·柯林斯)表示,这是Google迄今为止功能最强大、最通用的大模型,“我们离新一代人工智能模型的愿景越来越近了”。
不过,这两个惊艳的演示视频很快受到了“并非实时录制,疑似剪辑效果”的质疑。
随后,谷歌在一篇博客文章中解释道,视频中的多模态交互过程使用了静态图片和多段提示词拼凑,才达成这样的效果,相当于大方承认了确实存在精心剪辑。
而对于大家关心的模型安全问题,谷歌称:
我们致力于在所有工作中以大胆而负责任的方式推进AI。在Google AI原则和强大的安全政策的基础上,我们正在增加新的保护措施,以满足Gemini的多模态能力。“在开发的每一个阶段,我们都会考虑潜在的风险,并努力进行测试和降低这些风险。”
Gemini拥有迄今为止Google所有AI模型中最全面的安全评估,包括偏见和毒性评估。我们对网络攻击、说服力和自主性等潜在风险领域进行了创新性的研究,并应用了Google Research一流的对抗性测试技术,帮助我们在部署Gemini之前检测关键的安全问题。
目前,谷歌旗下的聊天机器人Bard已经集成了Gemini Pro的微调版本,不过Bard官网的版本更新记录还停留在11月16日。
不过,经过一番简单的实测,我们发现Gemini Pro的实际能力与Demo存在一定差距,包括对图像的识别不够准确、也不能通过视频链接对视频内容进行总结等。
我们先是上传了一张Chiikawa的图片,问Gemini出自哪个动画IP,它的回答让人大跌眼镜,而且好像还是个色盲……
很显然,这跟哪吒没有半毛钱关系。
在被纠正后,它发了一张更匪夷所思的图片…
谷歌称,在未来几个月内,Bard将扩展不同的模态,并支持新的语言和地区。明年年初,谷歌还将推出Bard Advanced,提供Gemini Ultra模型的最佳性能。
而谷歌的Pixel 8 Pro成为首款搭载Gemini Nano的智能手机,推出录音总结、智能回复等AI功能,明年还将推出更多应用。
针对开发者,Gemini Pro将于美国时间12月13日开始提供API(应用程序接口),开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI获取Gemini Pro入口。
安卓开发者还可以通过谷歌日前推出的AI Core应用来使用Gemini Nano。
Gemini的诞生几经波折。
2016年,在成为谷歌首席执行官几个月后,桑达尔·皮查伊(Sundar Pichai)发表宣言称:谷歌已经成为搜索的代名词,但它现在将成为一家“人工智能优先”(AI-first)的公司。
然而,在推出Gemini之前,谷歌在这场较量中显得有些沉默和掉队了。从今年2月看似有些匆忙发布的聊天机器人Bard中,很难窥探出谷歌在人工智能方面到底有多少实力。
与此同时,谷歌在搜索领域的主要竞争对手微软,已经与OpenAI达成了里程碑式的合作。就在前天,微软宣布旗下AI助手Copilot重大升级,将接入OpenAI的最新模型GPT-4 Turbo。
Gemini无疑是谷歌用来反击新老对手的王牌,但几天前谷歌还推迟了Gemini的发布时间,主要原因是桑达尔·皮查伊担忧Gemini对非英语提问的反应能力不足够准确。
这表明谷歌不愿将未完善的产品推向市场。Google DeepMind CEO戴密斯·哈萨比斯(Demis Hassabis)和皮查伊都表示,他们不愿意为了跟上步伐而走得太快,尤其是当我们越来越接近人工智能的终极梦想——通用人工智能的时候。
报道称,哈萨比斯认为,推出最先进的人工智能系统的风险之一是它会出现无人能预测的问题和攻击向量。
所以我们看到Gemini Ultra的推出速度很慢,在这场生成式AI的竞赛中,谷歌总是被OpenAI抢了风头。
随着Gemini未来集成至搜索(SGE)、广告、Chrome和Duet AI等谷歌生态系统中,谷歌与 Meta、微软和OpenAI等同行之间的竞争会持续升温。Gemini会迎头赶上GPT-4甚至GPT-5吗?明年或许我们能看到正面PK的结果。
Gemini发布:https://mp.weixin.qq.com/s/GcZ-ILXO1CH5OZS4LH0kig
Gemini技术报告:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Bard官网:https://bard.google.com/
硬核翻译局 2023-09-25