计算机：AIGC系列深度之24：GPT4v如何实现强大多模态：从文生图到图生文

作者：懂行业发布时间：2023-11-12

报告出品方：申万宏源

报告全文PDF下载方式：公众号【TOP行业报告】

 GPT-4V 展现强大多模态能力，新兴应用曙光初现。9 月 25 日，Open AI 宣布即将发布新的多模态功能，包括图像读取与理解、语音对话和语音生成；根据微软测评：1）4V 支持多种混合输入方式，同时展现了指令跟随、思维链、上下文少样本学习等能力；2）可以胜任大量具体任务，包括开放世界视觉理解、视觉描述、多模态知识、文档推理等都表现较好；3）可以期待 4V 出现后更多 AI 创新应用，包括工业缺陷检测、医疗影像识别、具身智能交互、汽车保险评估等。

 过去小模型时代“视觉智能”有限，增加语言模态或成为破局关键。在计算机视觉 CV 领域，过去常见方式仍是使用高质量、密集标注数据集进行预训练，这一训练方法下模型 Few-shot 和 Zero-shot 较弱。增加语言信息，有助于提升视觉模型的泛化能力。

 多模态两大重要基础工作：ViT 和 CLIP。1）ViT（Vision Transformer）首次将 Transformer架构较好的应用在计算机视觉任务中；2）CLIP 用于将相关文本和图像对应，Open AI 从网上爬虫，抓取已经有过描述的文本-图像数据集，数据集规模达到了 4 亿。在这两个基础工作后，语言和视觉特征可以用同一架构 Transformer 提取，且也有了对应数据集训练。

 Open AI 的 GPT-4v 多模态能力来源：1）强大的已有语言模型基础，产业界猜测 GPT-4使用了类似 Flamingo 架构的交叉注意力机制，特点为不直接训练一个多模态模型，而是在已经预训练好的语言大模型中引入图像理解能力。即 Open AI 可以使用 ChatGPT 中已经构建的语言模块，大幅节约成本；2）2C 应用发布前的大量安全工作，GPT-4 尽管此前已经完成了多模态部分的测试，但是在发布前的 6 个月也经历大量调整，包括减少幻觉、拒绝越狱指令、拒绝回答刻板印象、仇恨问题等；3）包括 Clip 在内的优质联合训练数据；

4）并行计算策略和达到 175B 参数 Davinci 模型 3 倍的推理成本。

 Google：从 Palm 到 Gemini，应用发布值得期待。1）此前 google 发布了 562B 参数的多模态大模型 Palm-E，可以理解图像，还能理解、生成语言，且可以用于多个具体任务，包括顺序机器人操作规划、视觉问题解答和图像视频字幕描述；2）目前业界对于后续即将发布的新模型 Gemini 期待，业界猜测训练 Gemini 的硬件 FLOPS 将超过 1e26，比训练 GPT-4 的算力大 5 倍，训练总数据集大小约为 GPT-4 的两倍。

 无论 Open AI 还是 Google，都在 AI 架构、Prompt、RLHF、安全、数据、计算资源等多个方面多做出努力。相比单模态大模型，多模态的进入门槛更高。因此在上市公司层面，我们认为后续应当更加重点关注应用环节。

报告全文PDF下载方式：公众号【TOP行业报告】

相关资讯

AIGC深度：GPT-4v如何实现强大多模态，从文生图到图生文

OpenAI的GPT-4v多模态能力来源：1）强大的已有语言模型基础，产业界猜测GPT-4使用了类似Flamingo架构的交叉注意力机制，特点为不直接训练一个多模态模型，而是在已经预训练好的语言大模型中引入图…

AIGC OpenAI GPT-4

侠说 2023-10-28

计算机：AIGC系列深度之24：GPT4v如何实现强大多模态：从文生图到图生文

推荐体验

相关资讯

AIGC深度：GPT-4v如何实现强大多模态，从文生图到图生文

2023年AIGC行业GPT-4v如何实现强大多模态，从文生图到图生文

AIGC系列专题六 | 文生图、图生图，Midjourney实战演练

计算机视觉40例从入门到深度学习

🔥🔥🔥 计算机视觉 GPT-4V 它来了！

近期资讯

富可敌国马斯克身价突破2.6万亿

吉利汽车集团CEO淦家阅：李书福曾亲手销毁百辆不合格汽车

手工耿给德爷制作了一条荒野求生腰带网友：奔着倒斗去的

权威测评：小米SU7斩获用户满意度第一名

柔顺甜美：张裕多名利葡萄酒19.9元探底大促

每次仅2毛钱：立白洗衣液30.9元12斤探底大促

手臂被鳄鱼死死咬住狒狒心如死灰但最后结果很意外

樱花妹《鸣潮》椿COS欣赏：感受神秘的力量

用时仅37个月极氪第40万辆新车下线：殊荣给了极氪MIX

无惧里程焦虑特斯拉：西北五省已开放456根超级充电桩

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响