GPT-5要来了？OpenAI被曝加急训练多模态大模型Gobi

作者：新智元发布时间：2023-09-19

GPT-5要来了？OpenAI被曝加急训练多模态大模型Gobi

多模态大模型的战场上，已有人闻到风声。据外媒爆料，OpenAI的全新多模态模型Gobi似乎已在筹备中。谷歌和OpenAI的这场对决，似乎已是箭在弦上了。

随着今年秋天的临近，谷歌和OpenAI的多模态模型之战，也进入到白热化阶段。

就在上周，谷歌已经对一些外部公司开放了多模态大模型Gemini的功能。

而OpenAI，当然不会坐以待毙。他们正在争分夺秒地把多模态功能整合进GPT-4里，争取推出功能与Gemini类似的多模态大模型，一举击杀谷歌。

在纸上画个草图，拍个照发给GPT-4，说一声「给我按照这种布局做个网站」，它立马就写出了网页代码。

老板Greg Brockman亲自上线演示

不过随后，多模态仿佛昙花一现，再也没人见过产品化的实体功能。

所以，谷歌和OpenAI的多模态大战，终于要来了吗？

对战谷歌，OpenAI抢发多模态大模型

面对传闻中谷歌要击杀自己的这款大杀器，OpenAI当然不会无动于衷。

据外媒The Information爆料，一款名为Gobi的全新多模态大模型，已经在紧锣密鼓地筹备了。

OpenAI计划，在Gemini发布之前就推出多模态LLM，彻底击败谷歌。

OpenAI的Greg Brockman vs 谷歌的Demis Hassabis

其实，在3月份推出GPT-4多模态功能的预览后，OpenAI已经向一家名为Be My Eyes的公司推出了这项功能，但并没有向其他公司提供。

从名字就可以看出来，这家公司在研发让盲人或视力不佳人群看得更清楚的技术。

最近，OpenAI打算更广泛地推出名为GPT-Vision的功能。

OpenAI为什么花了这么长时间？

最主要的原因，是他们担心新的视觉功能会被不法分子利用，比如通过自动破解验证码来冒充人类，或者通过面部识别来追踪人类。

不过，对于这些法律上的安全风险，OpenAI的工程师们似乎已经解决了。

同样，一位谷歌发言人也表示：谷歌已经采取了一些措施，防止Gemini被滥用。

在7月做出的承诺中，谷歌保证会在所有产品中开发负责任的人工智能。

Gobi能成为GPT-5吗？

在GPT-Vision之后，OpenAI有可能会推出更强大的多模态大模型，代号为Gobi。

跟GPT-4不同，Gobi从一开始就是按多模态模型构建的。

所以，Gobi就是传说中的GPT-5吗？

现在，我们还无法知晓。Gobi训练到哪一步了，也没有确切消息。

在9月初，DeepMind联合创始人、现Inflection AI的CEO Mustafa Suleyman，在采访时曾放出一枚重磅炸弹——据他猜测，OpenAI正在秘密训练GPT-5。

Suleyman认为，Sam Altman最近说过他们没有训练 GPT-5，可能没有说实话。（原话是：Come on. I don’t know. I think it’s better that we’re all just straight about it.）

而在这边，根据试用过Gemini的人士，Gemini产生的幻觉，会比现有的模型都更少。原因详见下文。

总之，谷歌和OpenAI的这场多模态模型大战，可以说是AI版的iPhone和Android对决。

一个是称霸AI领域多年的硅谷巨头，一个是风头无两的顶流AI初创公司，二者差距有多大，所有人都在屏息等待。

谷歌秘密测试Gemini

另一边，谷歌也在开始邀请部分外部开发者加急测试，即将推出的下一代多模态大模型Gemini 。

上周，The Information独家报道称，Gemini可能很快准备好进行测试发布，并会集成到像Google Cloud Vertex AI等服务中。

在今年的谷歌I/O开发者大会上，劈柴曾公开介绍Gemini，是一个多模态模型、高效集成工具、API。

为了合力干大事，谷歌还将谷歌大脑，与DeepMind实验室进行了合并。

据称，至少有20多位高管参与了Gemini的研发，DeepMind的创始人Demis Hassabis领导，谷歌创始人Sergey Brin参与研发。

还有谷歌DeepMind组成的数百名员工，其中包括前谷歌大脑主管Jeff Dean等等。

一位测试过的人士说，Gemini至少在一个方面比GPT-4有优势：除了网络上的公开信息外，该模型还利用了大量谷歌消费产品（搜索、Youtube）的专有数据。

因此，Gemini在理解用户对特定查询的意图时应该特别准确，而且它产生的错误答案，即幻觉，似乎更少。

据此前SemiAnalysis分析师的爆料，谷歌的下一代大模型Gemini，已经开始在新的TPUv5 Pod上进行训练，算力高达~1e26 FLOPS，比训练GPT-4的算力还要大5倍。

另外，Gemini的训练数据库包含Youtube上936亿分钟的视频字幕，总数据集规模约为GPT-4的两倍。

据称，谷歌下一代大模型也是由多种规模组成，可能使用了MoE架构，以及投机采样技术。

通过小模型提前生成token并传递给大模型进行评估，以提高模型的总体推理速度。

谷歌DeepMind的负责人Hassabis在采访中曾表示，Gemini预计花费数千万到数亿美元，与开发GPT-4的成本相当。

Gemini会整合AlphaGo中使用的技术，这将赋予系统全新的规划、解决问题的能力。

可以这么说，Gemini把AlphaGo系统的一些优势，和大语言模型惊人的语言能力结合在一起了。并且，我们还有一些其他有趣的创新。

AlphaGo背后的技术，就是强化学习，这是DeepMind首创的技术。

RL代理随着时间的推移与环境交互，通过反复试验来学习策略，从而最大限度地提高长期累积奖励

通过强化学习，AI能够通过反复尝试和接受反馈来调整自己的表现，因而学会处理很棘手的问题，比如在围棋或电子游戏中选择如何采取下一步行动。

另外，AlphaGo还使用了蒙特卡洛树搜索（MCTS）方法，来探索和记住棋盘上所有可能的动作。

现有模型相比，Gemini将大大提高软件开发人员的代码生成能力，谷歌希望用它来追赶微软的GitHub Copilot代码助手。

谷歌内部还讨论了，使用Gemini来实现图表分析等功能，比如要求模型解释完成图表的含义，以及使用文本或语音指令来浏览网页浏览器或其他软件。

谷歌云开发者平台Google Cloud Vertex AI也将得到Gemini加持，大小版本都有，这样开发人员就可以付费购买小模型在个人设备上运行。

现在，谷歌已经在全力备战，就等着Gemini开启逆袭之路。

gpt-3.5-turbo-instruct发布

7月，OpenAI曾公布GPT-4 API全面可用，并且在接下来几个月要推出新模型。

这不，就在今天，网友纷纷收到了gpt-3.5-turbo-instruct新模型发布的邮件，以代替旧模型text-davinci-003。

据介绍，gpt-3.5-turbo-instruct是一个InstructGPT风格的模型，其训练方式与text-davinci-003类似。

使用方法和以前的Prompt-Completion类似，根据提示词的指令补全。

就价格来说，gpt-3.5-turbo 4K保持一致。

有网友已经开始用上了最新模型，去玩1800 Elo左右的国际象棋。

而他此前还发现GPT根本做不到这一点，但现在看来这只是RLHF聊天模型的问题，纯Completion模型就成功了。

在对弈中，gpt-3.5-turbo-instruct轻松击败了Stockfish 4级（1700 分），在5级（2000 分）的比赛中仍不落下风。

它从不走非法棋步，使用巧妙的开局牺牲，以及令人难以置信的卒与王将死，允许对手毫无实际意义地晋级。

网友用的是如下PGN风格的提示来模拟大师级游戏。高亮显示有点错误。GPT自己走棋，他手动输入了Stockfish的棋步。

顺便提一句，OpenAI即将在11月召开的首届开发者大会，已经开始注册了，快上手申请吧。

参考资料：

https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm

https://devday.openai.com/

https://news.ycombinator.com/item?id=37558911#:~:text=Key%20Features%3A%20Gpt%2D3.5%2D,speed%20as%20our%20turbo%20models.

近期资讯

英伟达RTX 4080性能提升高达50% 虚幻引擎5.5带来颠覆性新技术

中关村在线 2024-12-29

慎重对待AI自习室“伴学”功能

AI自习室的核心是通过由AI算法和大模型支持的学习机与学习机上的智能助学系统，提供线下督学、托管等服务，打造“以智助学”的新型学习空间。联合国教科文组织编制的《人工智能与教育：政策制定者指南》中提出，以合乎伦理、包容和公平的方式将人工智能应用于教育领域，影响着每一个可持续发展的目标。

央广网 2024-12-29

华为用户必看！换电池优惠50元、官方维修8.8折错过等明年

快科技12月29日消息，距离2024年结束仅剩3天，华为服务回馈礼遇活动也将于12月31日正式收官，华为手机、平板等设备用户，若想享受维修或电池更换的优惠服务要抓紧时间了，错过就要等明年了。据了解，华为服务回馈礼遇活动可享官方维修备件8.8折、换电池立减50元、免费贴膜、维修免人工费、免上门服务费等服务权益。

快科技 2024-12-29

索尼 PlayStation 联合CEO：主机市场并未走向衰落，仍是业务核心

IT之家12月29日消息，近期围绕主机游戏市场是否走向衰落的担忧在玩家群体中蔓延，面对市场变化，Xbox和PlayStation采取了不同的策略。微软逐渐放弃独占策略，而PlayStation则明确表示将以更贴近玩家的方式进行调整。

IT之家 2024-12-29

我国首艘：“探索三号”综合科考船正式入列，2025 年下半年进入深海大洋开展载人深潜作业

12月29日消息，据央视新闻报道，12月29日，我国首艘具有覆盖全球深远海探测并具备冰区载人深潜支持能力的综合科考船“探索三号”正式入列，标志着“探索”系列家族又添一大国利器。“探索三号”入列后，明年上半年将搭载“深海勇士”号载人潜水器在南海开展常规科考作业、深海装备海试以及深海考古等工作。

IT之家 2024-12-29

提升手机打字效率的实用技巧与方法探讨

在这个信息化飞速发展的时代，手机已经成为我们生活中不可或缺的一部分。无论是工作、学习还是社交，手机的使用频率越来越高。而打字作为手机使用中最基本的功能之一，掌握如何高效打字显得尤为重要。今天，我就来聊聊手机打字的一些技巧和方法。首先，手机打字的输入法选择非常重要。现在市面上有很多种输入法，比如拼音输入法、手写输入法、语音输入法等等。

新报观察 2024-12-29

“虹膜写真”日益走红，安全隐患也浮出水面……

“用快门定格双眸”“让浩瀚宇宙在你的眼里遨游”……近期，一些主打“虹膜写真”的摄影馆在多地悄然兴起，各类社交平台上的“种草”帖，吸引了不少年轻人前去拍摄打卡。由于虹膜包含很多相互交错的斑点、细丝、冠状、条纹、隐窝等细节特征，且每个人的虹膜特征均不相同，因此被一些人认为具有拍摄留存的艺术价值。

央广网 2024-12-29

探索汉字“星”的拼音及其在生活和文化中的深刻意义

《星怎么拼音》在我们的生活中，星星是一个非常美丽而又神秘的存在。而在学习汉语的过程中，拼音是一个非常重要的部分，尤其是对于初学者来说，掌握拼音能够帮助我们更好地理解和发音。

新报观察 2024-12-29

主机游戏市场走向衰落了吗？索尼：没有任何证据表明

近日，关于主机游戏市场是否走向衰落的担忧在玩家们中引发了广泛的讨论。微软逐渐放弃了独占策略，而PlayStation则明确表示将以更贴近玩家的方式进行调整。

中关村在线 2024-12-29

《黑神话：悟空》PS5 Pro 性能测试：1080P 分辨率下难稳 60 帧

IT之家12月29日消息，国产3A大作《黑神话：悟空》自发售以来，其技术表现，尤其是在主机平台上的表现一直备受关注。此前，由于游戏优化问题，玩家们曾寄希望于性能更强的PS5Pro主机能够带来更流畅的游戏体验。

IT之家 2024-12-29

GPT-5要来了？OpenAI被曝加急训练多模态大模型Gobi

GPT-5要来了？OpenAI被曝加急训练多模态大模型Gobi

推荐体验

相关资讯

GPT-5来了？OpenAI被曝加急训练多模态大模型Gobi，一举狙杀谷歌Gimini！

OpenAI大模型GPT-5要来了！“提升很大”

GPT-5明年降临？爆料人泄露多模态Gobi就是GPT-5，已初现自我意识

OpenAI 已为 GPT-5 申请商标，GPT-5 要来了？

GPT-5要来了？|关注

近期资讯

英伟达RTX 4080性能提升高达50% 虚幻引擎5.5带来颠覆性新技术

慎重对待AI自习室“伴学”功能

华为用户必看！换电池优惠50元、官方维修8.8折错过等明年

索尼 PlayStation 联合CEO：主机市场并未走向衰落，仍是业务核心

我国首艘：“探索三号”综合科考船正式入列，2025 年下半年进入深海大洋开展载人深潜作业

提升手机打字效率的实用技巧与方法探讨

“虹膜写真”日益走红，安全隐患也浮出水面……

探索汉字“星”的拼音及其在生活和文化中的深刻意义

主机游戏市场走向衰落了吗？索尼：没有任何证据表明

《黑神话：悟空》PS5 Pro 性能测试：1080P 分辨率下难稳 60 帧

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响