OpenAI最新大模型曝光：剑指多模态，GPT-4之后最大升级

作者：量子位发布时间：2023-09-19

OpenAI 谷歌 GPT-4

克雷西发自凹非寺

量子位 | 公众号 QbitAI

大模型之争，又卷起来了。

据The information爆料称，OpenAI即将推出多模态模型GPT-vision。

如果消息为真，这将是OpenAI在GPT-4之后推出的最大更新。

另一边，谷歌的多模态模型进展也在最近传出，为的就是能和OpenAI抗衡。

目前为止，OpenAI还没有对爆料中的传闻做出回应，但此前发布过多模态模型测试。

CEO奥特曼在回应有关GPT-5的传闻时，也暗示过GPT-4“正在增强”。

究竟谁能更胜一筹，还得让子弹再飞一会儿。

不能让Google抢了先

我们先回到OpenAI，被爆料的多模态模型将搭载什么样的功能呢？

首先是图像内容识别，比如根据手绘草图生成网页代码、输出可视化图表的文本分析等。

另一方面则是图像生成，通过简单的文本生成绘画、logo或表情包。

虽然OpenAI没有对这次的爆料做出回应，但做多模态模型这件事本身只是个时间问题。

3月份，OpenAI在发布GPT-4时，就曾推出了一个多模态GPT的预览版本。

当时，OpenAI把DEMO提供给了研究帮助视障群体的机构Be My Eyes。

除了这家机构之外，就再也没有人见过OpenAI的多模态模型是什么样子了。

在此之后，这个多模态模型更是杳无音讯。

唯一和图像有点关系的，就是GPT-4的升级版代码解释器（后改名为高级数据分析）可以处理一些图片任务。

但这是通过调用Python库实现的，而且也达不到AI中图像识别的程度，和多模态模型更是不沾边了。

有说法称GPT-vision迟迟没有推出的原因可能是对安全的担忧，担心被用于破解验证码和人脸识别系统。

直到这次Google多模态模型Gemini的消息传出。

安全问题有没有解决不得而知，但也许OpenAI是真的急了，不能任由谷歌超越，才有了模型发布的传闻。

另据爆料，OpenAI还在准备从头开始开发一个名为Gobi的多模态模型，不过训练还未开始。

那么，谷歌这边的情况又是怎样的呢？

Gemini来势汹汹

来势汹汹的Gemini，让网友直言其或将成为游戏规则的改变者。

甚至有媒体夸张一些地说将有机会取代GPT-4。

Gemini主要由谷歌DeepMind团队开发。谷歌CEO皮查伊介绍，Gemini集成了多种技术，支持同时输出文本和图像，还可以使用工具和API。

据悉，Gemini吸取了很多来自AlphaGo的经验教训，包括强化学习和树搜索技术。

而且，凭借着拥有YouTube这一得天独厚的优势，海量的训练数据可以说是唾手可得。

实际上，Google也一直把OpenAI视为竞争对手。

为了和ChatGPT较量，Google此前已经在Bard中加入过图像识别功能，但并未改变ChatGPT的地位。

但这次推出的Gemini，OpenAI也感到害怕了。

尽管竞争激烈，有一点倒是让谷歌和OpenAI不谋而合。

那就是，把模型的能力变成真金白银。

谷歌计划的Gemini提供方式是通过其Google Cloud Vertex AI云服务平台进行，预期价格为每个用户每月30美元。

这一做法预计将成为谷歌新的收入来源，尤其是针对企业客户。

而OpenAI这边，也已经开始通过金融服务等各种应用程序将GPT-4变为现金。

此次多模态的角逐究竟鹿死谁手，我们拭目以待。

参考链接：

[1]https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm

[2]https://www.bigtechwire.com/2023/09/18/openai-is-ready-to-take-on-googles-gemini-with-gpt-vision/

— 完—

「AIGC+垂直领域社群」

招募中！

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群，一起学习、探索、创新AIGC！

请备注您想加入的垂直领域「教育」或「广告营销」，加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关资讯

谷歌的原生多模态大模型Gemini来了，剑指GPT-4

在此前被OpenAI压制了一整年后，就在2023年进入尾声时，当年凭借AlphaGo曾掀起人工智能浪潮的谷歌，也终于扬眉吐气了一把，揭开了原生多模态大模型Gemini的神秘面纱。据悉，Gemini号称

谷歌 OpenAI GPT-4 人工智能

三易生活 2023-12-07

微软：GPT-4下周发布，剑指多模态，可支持视频

白交发自凹非寺量子位 | 公众号 QbitAIGPT-4真的要来了！发布时间已确定：就在下周。而且还是多模态，可支持视频。听到这个消息，网友们直接炸了锅：大家都准备好了吗？毕竟在一部分人眼中，ChatGPT都已经如此惊艳，那GPT-4不得是这样的？（不过100万亿参数是谣言）但也有网友质疑其消息的真实性：不可能的。质疑确实也不...

微软 GPT-4 ChatGPT

量子位 2023-03-10

近期资讯

MAL-NH-PEG8-PA | 赛诺邦格小分子PEG

[图片] 一、基本信息名称：MAL-NH-PEG8-CH2CH2COOH结构特点：该化合物由马来酰亚胺（MAL）基团、八聚乙二醇（PEG8）链段和羧酸（CH2CH2COOH）官能团组成。二、化学特性马来酰亚胺基团：具有高度的反应活性，可以与含有巯基（-SH）的化合物发生反应，形成稳定的硫醚键。PEG链段：由8个乙二醇单元组成，具有良好的水溶性、低免疫原性和生物相容性。PEG链段的存在可以改善药物的溶解度、稳定性和生物相容性。羧酸官能团：提供了一个可供反应的官能团，可以用于与其他分子进行共价

赛诺邦格 2024-12-27

生活垃圾分拣生产线：填埋场陈腐垃圾处理的绿色革命

随着城市化的快速发展，生活垃圾的产生量日益增加，传统的填埋方式已经无法满足现代城市对环境保护和可持续发展的需求。填埋场陈腐垃圾处理设备——生活垃圾分拣生产线的出现，不仅有效解决了垃圾堆积带来的环境问题，还实现了资源的回收利用，是推动城市绿色发展的重要力量。 [图片] 一、生活垃圾分拣生产线的概念与重要性生活垃圾分拣生产线是一种高效、自动化的垃圾处理系统，它通过先进的物理、化学或生物技术，将混合的生活垃圾进行分类、分拣、清洗和再加工。这一过程不仅减少了填埋场的负担，还提高了垃圾的资源化利用率，减少了环境污

创合垃圾分选设备 2024-12-27

环(脯氨酸-丙氨酸)二肽：Cyclo(Pro-Ala) (65556-33-4

Cyclo(Pro-Ala) 是一种抗癌剂，对 A549、HCT-116 和 HepG2 等癌细胞有毒性。 [图片] 英文名称：Cyclo(Pro-Ala) 中文名称：环(脯氨酸-丙氨酸)二肽 CAS号：65556-33-4 分子式：C8H12N2O2 分子量：168.19 纯度：≥95% or 98% 货期：现货性状：白色固体粉末储存条件：-20℃ 序列：Cyclo(Pro-Ala) 序列缩写：Cyclo(PA) Cyclo(Pro-Ala)，即环（脯氨酸-丙氨酸）二肽，是一种具有显著抗癌活性的化合

正肽生化 2024-12-27

人类历史中的流感“常驻嘉宾”——甲型H1N1流感

近日，美国和加拿大接连报道了高致病性H5N1型禽流感的疫情。在美国的奶牛场内，经过血样检测，115名工人中竟有8人被确认感染H5N1，感染率高达7%。自2024年3月份以来，美国H5N1禽流感从奶牛感染发展到动物之间的传播，再到12月出现首例人类严重感染。 12月20日，世界卫生组织更新了与另外两家国际机构联合对近期H5N1型禽流感病毒感染事件的公共卫生风险评估报告，更新的报告指出，这一病毒目前对全球公共卫生造成的风险较低，但职业暴露人群的感染风险介于低与中等之间。病毒并未显示出已适应在人类中传播的迹象。

海尔施基因 2024-12-27

声学新突破：定向音响技术的奥秘与应用场景

声音，作为一种波动现象，在我们的日常生活中扮演着重要角色。声学，作为物理学的一个分支，研究声音的产生、传播、接收和效应。近年来，随着科技的发展，定向音响技术作为声学领域的一个创新应用，正在逐渐改变我们对声音的传统认知。声学基础声音是由物体振动产生的声波，通过空气、固体或液体等介质传播，并被人或动物的听觉器官所感知。人耳能够识别的声音频率范围大约在20Hz到20kHz之间。声音的传播特性是四面发散的，这意味着在没有障碍物的情况下，声音会向所有方向传播。 [图片] 定向音响技术原理定向音响技术，也称为定

静境科技声学院 2024-12-27

重组胶原蛋白检测需要惰性液相吗

胶原蛋白是动物体内最丰富的蛋白质之一，占据了蛋白质总量的1/3，而且在人体中也起着维持结构稳定和组织功能的重要作用。重组胶原蛋白作为一种重要的生物材料，具有广泛的应用前景。重组胶原蛋白的检测通常采用分光光度法、蛋白质含量测定、氨基酸分析等方法，而关于是否需要惰性液相，这需要看具体的检测方法和目的。使用惰性液相的主要目的是为了保护样品的稳定性，防止样品在分析过程中发生氧化、降解等反应。如果在胶原蛋白的分析过程中，需要对其进行高温、强酸、强碱等环境下的处理，或者需要长时间的存储，那么可能需要使用惰性液相来保

BTP生物科技 2024-12-27

AbMole|界面力学交互作用：驱动多层组织形态发生的新机制

在生物学领域，形态发生是一个涉及多种生理和病理变化的空间和时间上受调控的过程。除了生化因素，物理因素在形态发生中的调控作用也日益受到关注。然而，形态发生的初始驱动力仍然是一个未解之谜。最近的研究通过结合生物实验、理论分析和数值模拟，揭示了多层组织生长过程中，由层间界面力学相互作用产生的压缩梯度如何自组织地启动形态发生过程。来自北京航空航天大学工程医学院，生物科学与医学工程学院的Tailin Chen, Yan Zhao, Xinbin Zhao 等多名研究人员发表了题为《Self-Organizati

AbMole 2024-12-27

铬矿粉325目-2500目的典型用途有哪些？

铬矿粉325目-2500目在颜料、耐火材料、铸造和耐火材料行业中用途非常广泛。200 目、325目、400 目铬铁矿粉通常用于玻璃瓶、玻璃板、玻璃管、玻璃配件中的绿色着色剂。1600 目、2000 目、2500 目铬矿超细粉适用于绿色、棕色、红色的油墨颜料。325 目铬矿粉是铸造涂料中良好的铸造防粘砂材料。200 目和 325 目铬矿粉适用于刹车中的摩擦材料。它是道路和地板的耐磨材料。600 目、800 目、1000 目和 1200 目天然铬矿粉是陶瓷釉料的原料。铬铁粉的特点是耐高

hxml1919 2024-12-27

工业隔声指南：如何根据测试房特性挑选隔声罩尺寸与形状

在工业生产领域，噪声控制是保障生产环境与人员健康的关键环节，隔声罩的合理选用则是降噪的重要手段。挑选隔声罩的尺寸与形状时，依据测试房特性进行综合考量至关重要，具体如下：一、基于测试房空间大小选型局促空间适配策略：当测试房空间有限时，过大的隔声罩会引发诸多问题。一方面安装过程可能受阻，另一方面还可能压缩设备运行与人员操作所需空间，干扰正常生产流程。此时，应选紧凑型隔声罩，紧贴设备轮廓，既降噪又优化空间利用。例如针对小型精密仪器测试区，定制边长或直径依据仪器最大尺寸预留 10 - 20 厘米安装间隙的方形

苏州赛为斯噪声治理 2024-12-27

【防尘喷淋】-山东艾蓝设计-系统厂家

【防尘喷淋，实际现场效果】物联网智能喷雾降尘系统自主开发，三屏合一远程控制智能喷雾降尘系统主机采用变频恒压控制，对大面积喷雾降尘区可分区域控制，单独启动任何一个区域与启动全部区域压力均维持均一恒定，喷雾降尘主机自带微米级过滤，具有自动补水和缺水停机保护功能。喷雾降尘主机带有吹扫功能可以很好的解决冬季结冰难题。型号：ALDLP-5Z、ALDLP-10Z、ALDLP-15Z。【防尘喷淋，使用场所介绍】采石场、建材厂，采石场以及建材厂在自动化输送系统以及堆料区、各种物料运输系统的转运点位置会产生粉尘飞散到

山东艾蓝环保 2024-12-27

OpenAI最新大模型曝光：剑指多模态，GPT-4之后最大升级

推荐体验

相关资讯

谷歌的原生多模态大模型Gemini来了，剑指GPT-4

微软：GPT-4下周发布，剑指多模态，可支持视频

重磅！OpenAI GPT-4震撼发布：多模态大模型，直接升级ChatGPT！

GPT-4 剑指多模态，前有谷歌 PaLM-E，AI 格局要变？

【科技】OpenAI发布多模态大模型GPT-4：直接开放API，ChatGPT升级

近期资讯

MAL-NH-PEG8-PA | 赛诺邦格小分子PEG

生活垃圾分拣生产线：填埋场陈腐垃圾处理的绿色革命

环(脯氨酸-丙氨酸)二肽：Cyclo(Pro-Ala) (65556-33-4

人类历史中的流感“常驻嘉宾”——甲型H1N1流感

声学新突破：定向音响技术的奥秘与应用场景

重组胶原蛋白检测需要惰性液相吗

AbMole|界面力学交互作用：驱动多层组织形态发生的新机制

铬矿粉325目-2500目的典型用途有哪些？

工业隔声指南：如何根据测试房特性挑选隔声罩尺寸与形状

【防尘喷淋】-山东艾蓝设计-系统厂家

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响