当前位置：首页|资讯|AIGC|OpenAI|GPT-4

AIGC深度：GPT-4v如何实现强大多模态，从文生图到图生文

作者：侠说发布时间：2023-10-28

AIGC OpenAI GPT-4

GPT-4V 展现强大多模态能力，新兴应用曙光初现。

9 月 25 日，Open AI 宣布即将发布新的多模态功能，包括图像读取与理解、语音对话和语音生成；根据微软测评：

1）4V 支持多种混合输入方式，同时展现了指令跟随、思维链、上下文少样本学习等能力；

2）可以胜任大量具体任务，包括开放世界视觉理解、视觉描述、多模态知识、文档推理等都表现较好；

3）可以期待 4V 出现后更多 AI 创新应用，包括工业缺陷检测、医疗影像识别、具身智能交互、汽车保险评估等。

过去小模型时代“视觉智能”有限，增加语言模态或成为破局关键。

在计算机视觉 CV 领域，过去常见方式仍是使用高质量、密集标注数据集进行预训练，这一训练方法下模型 F ew-shot 和 Zero-shot 较弱。增加语言信息，有助于提升视觉模型的泛化能力。

多模态两大重要基础工作：ViT 和 CLIP。

1）ViT（Vision Transformer）首次将 Transformer 架构较好的应用在计算机视觉任务中；2）CLIP 用于将相关文本和图像对应，Open AI 从网上爬虫，抓取已经有过描述的文本-图像数据集，数据集规模达到了 4 亿。在这两个基础工作后，语言和视觉特征可以用同一架构 Transformer 提取，且也有了对应数据集训练。

Open AI 的 GPT-4v 多模态能力来源：

1）强大的已有语言模型基础，产业界猜测 GPT-4 使用了类似 Flamingo 架构的交叉注意力机制，特点为不直接训练一个多模态模型，而是在已经预训练好的语言大模型中引入图像理解能力。即 Open AI 可以使用 ChatGPT 中已经构建的语言模块，大幅节约成本；

2）2C 应用发布前的大量安全工作，GPT-4 尽管此前已经完成了多模态部分的测试，但是在发布前的 6 个月也经历大量调整，包括减少幻觉、拒绝越狱指令、拒绝回答刻板印象、仇恨问题等；3）包括 Clip 在内的优质联合训练数据；4）并行计算策略和达到 175B 参数 Davinci 模型 3 倍的推理成本。

来源：申万宏源

报告内容节选如下：

资料下载方式：公众号《侠说》

推荐体验

相关资讯

2023年AIGC行业GPT-4v如何实现强大多模态，从文生图到图生文

今天分享的是：2023年AIGC行业GPT-4v如何实现强大多模态，从文生图到图生文（报告出品方：sws）GPT-4V 展现强大多模态能力，新兴应用曙光初现。9月25日，Open Al宣布即将发布新

林不吃香菜 2024-03-24

计算机：AIGC系列深度之24：GPT4v如何实现强大多模态：从文生图到图生文

1）此前google发布了562B参数的多模态大模型Palm-E，可以理解图像，还能理解、生成语言，且可以用于多个具体任务，包括顺序机器人操作规划、视觉问题解答和图像视频字幕描述；2）目前业界对于后续即将发布…

懂行业 2023-11-12

AIGC系列专题六 | 文生图、图生图，Midjourney实战演练

大家好，这里是好久不见的极睿科技AIGC观察室。本期，我们将与大家分享如何通过Midjourney进行创意图片的智能创作。在正式开始使用Midjourney进行创作以前，我们可以先做好一些准备工作

AIGC Midjourney

极睿科技Infimind 2023-08-10

如何用自己的照片MidJourney V5和MidJourney V4以图生图

自己的照片用MidJourney V5以图生图，拒绝生成可以用MidJourney V4试一下，生成后的照片面部变形比较大，而且假如是半身照，生成的也可能会缺少下半身，生成的照片比较浮夸。生成的方式是先拖拽照片上传，然后先输入/settings命令设置一下版本质量等参数，然后输入/imagine 把照片的链接放进提示词部分并且加上提示词命令

Midjourney V5 Midjourney 提示词

科幻朱朱侠 2023-03-20

从文生图到文生视频，AI行业卷疯了

近年来，随着AIGC的发展，整个行业的热潮已经逐渐从文生文、文生图，转向了文生视频领域。随着AI行业的发展，未来发展趋势将会如何？又该如何应用？一起来看看本文分析吧。

刘旷 2023-12-26

近期资讯

[ARMORED]坦克300阿莫得隐形车衣,更高处，所向无疆。

#坦克300漆面保护膜施工?提亮增色光芒立现密封车漆强力抗污——ARMORED—

ARMORED阿莫得汽车膜 2024-12-11

【B站汽车频道】新疆事故车交易网：淘车新去处？一文看懂事故车购买攻略！

今天咱们要聊的话题有点特别，那就是新疆事故车交易网！??提到事故车，很多人可能会有些犹豫，但别担心，今天我就带你一起探索新疆事故车交易网，看看这里到底能不能淘到心仪的好车！?新疆事故车交易网：淘车的宝藏之地？ [图片] 新疆，这个广袤无垠的地方，不仅风景如画，还有着丰富的二手车资源。而新疆事故车交易网，作为新疆地区的一个二手车交易平台，专注于事故车的交易。这里车源丰富，价格实惠，是淘车的绝佳去处！? ?事故车，到底值不值得买？很多人对事故车持有疑虑，担心其安全性和可靠性。但其实，只要损伤程度可控，修复得

自杰事故车 2024-12-11

工矿车辆自动灭火系统/装置—全自动守护工矿车辆的消防安全

#工矿车辆自动灭火# 工矿车辆是指专门用于矿山、工地等工业领域转载、运输物料与人员的车辆，而随着工矿行业的发展以及全球化竞争的加剧，对如采煤机、单轨吊、支架搬运车、装载机、井下矿车、矿用卡车等工矿车辆的需求量不断增加。而工矿车辆作为各矿山企业生产的重要机械设备，一旦发生火灾，大都来势汹汹，仅凭人工很难得到及时快速的控制与扑灭，很可能造成电线、仪表、驾驶室、柴油机、变速箱、发动机等零部件以及整车烧毁，更严重的则会引发群死群伤的火灾以及爆炸事故的发生，不仅会给矿山企业造成严重经济损失，还会阻碍矿业企业的正常有

普泰法尔车辆自动灭火 2024-12-11

二手车系统：采购二手车查看车况需要的查询系统有哪些-丰车

二手车市场发展阶段，车况不透明、不准确，经营不诚信等问题，是二手车商收购车辆过程中都需要避坑的问题。由于二手车“一车一况一价”的特点，二手车历史信息记录成为决定车辆价值的重要决策依据之一。车商收购车辆和消费者购买二手车时，需要对车辆车况及车辆历史记录等信息全面了解，丰车（上海）信息技术有限公司与您分享采购二手车查看车辆历史记录的查询信息系统有哪些？　　一、什么情况下需要使用二手车查询系统？　　车商收购二手车需要确定车辆历史记录，是否和车辆真实车况符合，决定是否收购车辆。越来越专业的消费者购买二手车想要了解

上海丰车 2024-12-11

甘肃嘉峪关停车场管理解决方案、托管运营服务

在甘肃嘉峪关这座充满历史韵味与现代活力交织的城市中，随着车辆保有量的持续攀升，停车场管理面临着前所未有的挑战与机遇。有效的停车场管理解决方案以及专业的托管运营服务，对于提升城市交通效率、改善市民停车体验具有至关重要的意义。一、嘉峪关停车场管理现状与痛点嘉峪关的停车场类型丰富多样，涵盖商业中心停车场、景区停车场、住宅小区停车场以及公共停车场等。然而，目前普遍存在着一系列问题亟待解决。（一）车位利用率低许多停车场缺乏科学的车位规划与引导系统，导致车主在寻找空闲车

科拓股份 2024-12-11

双城联动 | 桥田智能获汽车装备卓越供应商奖

12月10日，2024年扶轮奖颁奖典礼在上海金陵紫金山大酒店举行，桥田智能设备有限公司获2024扶轮奖“汽车装备卓越供应商奖 ”荣誉称号。桥田智能市场部负责人张苏娜出席本次颁奖仪式。 [图片] 桥田智能市场部负责人张苏娜 (右三）本次获得“汽车装备卓越供应商奖 ”这一荣誉是对桥田智能在共建高质量汽车价值链中重要性的充分认可。未来，桥田智能将继续以技术革新积极应对电动化、智能化、网联化带来的新新挑战，新机遇，助力汽车产业高质量发展。 [图片] 同日，2024中欧-深圳前海汽车产业共创会活动正在开展，桥田智

桥田智能 2024-12-11

宽大S400

宽大S400 [图片] 智能商旅跨界生活宽大S400 横跨两种生活方式带给你高端惬意的旅途体验线条硬朗且不失优雅 [图片] 外观 l 宽大S400车身以香槟色为主调，哑黑拉花点缀绿色的线条、流线型的外观设计，沉稳中不失活力气息。车身高度2990mm，车内搭配了诸多科技配置，电动升降茶壶桌带无线充电，电动后拓展，顶置抽拉式油烟机，室内遥控灯等多项人性化功能。 [图片] [图片] 外观 l 本车采用的是依维柯欧胜4.5吨房车专用底盘，符合国Ⅵ的排放标准，具备ESP 9.0、ABS、定速巡航、胎压

宽大房车 2024-12-11

超50项——11月自动驾驶领域中标项目一览

商用项目数量占比近75%。文｜新战略产业研究所根据公开信息，新战略低速无人驾驶产业研究所不完全统计，2024年11月，国内自动驾驶领域公开超50个中标结果公告（此统计未完全覆盖场景用户与企业直接签订的采购订单，且不含无人机/无人航天飞行器领域项目），披露的项目总额超3亿元。从项目服务地点来看，统计的50多个项目分布在全国23个省（直辖市），覆盖面积更广，我国自动驾驶技术的普及趋势更强。其中华东地区在当月最为活跃，江苏、安徽、浙江等省的项目数量占比为33%，并以江苏省项目数量最多。这不仅反映了这些地区对新

低速无人驾驶产业联盟 2024-12-11

汽车自燃太可怕，终于等来自动预警灭火神器的面市！！！

汽车自燃事故高发，一旦自燃，难以及早发现，燃烧过程极为迅猛，且难以扑灭。自燃之初就有可能因电路故障导致电门锁死，让人丧失逃生的机会。且自燃过程会产生大量的有毒浓烟，并且随时可能发生爆炸。汽车自燃对个人和社会造成的人身和财产损失难以估量！！！！针对汽车自燃这一社会痛点，亿会达苦心钻研，已为广大消费者研发出能侦探火情、出现烟雾立即预警、出现火苗自动扑灭，将火情自动消灭于萌芽期的“亿会达自动预警灭火系统” 亿会达汽车自动预警灭火系统采用先进的自燃监测技术，一旦检测到有自燃的潜在风险，系统会立即自动启动预警功

YHD19874438978 2024-12-11

HAWE多路换向阀DL 4-3GGGGGP-B/F 1-2-140

HAWE多路换向阀DL系列是德国HAWE哈威研发的一款重要液压元件，广泛应用于固定式和移动式液压系统。HAWE多路阀DL 4-3GGGGGP-B/F 1-2-140适合单作用和双作用执行元件的流量节流控制，能够有效满足不同工业场景的需求。图/文宁波思承梁工HAWE多路换向阀DL系列采用高强度材料，确保在高压力下的稳定性和耐用性。阀体的设计经过精心考量，具有良好的密封性能，最大程度地减少了泄漏现象。HAWE多路阀DL系列支持多种操作模式，包括手动和电动控制。手动操作的DL 4-3GGGGGP-B/F 1-

宁波思承流体黄工 2024-12-11

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2024 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1