当前位置:首页|资讯|AIGC|谷歌

计算机:AIGC系列深度之24:GPT4v如何实现强大多模态:从文生图到图生文

作者:懂行业发布时间:2023-11-12

原标题:计算机:AIGC系列深度之24:GPT4v如何实现强大多模态:从文生图到图生文

计算机:AIGC系列深度之24:GPT4v如何实现强大多模态:从文生图到图生文

报告出品方:申万宏源

报告全文PDF下载方式:公众号【TOP行业报告】

GPT-4V 展现强大多模态能力,新兴应用曙光初现。9 月 25 日,Open AI 宣布即将发布新的多模态功能,包括图像读取与理解、语音对话和语音生成;根据微软测评:1)4V 支持多种混合输入方式,同时展现了指令跟随、思维链、上下文少样本学习等能力;2)可以胜任大量具体任务,包括开放世界视觉理解、视觉描述、多模态知识、文档推理等都表现较好;3)可以期待 4V 出现后更多 AI 创新应用,包括工业缺陷检测、医疗影像识别、具身智能交互、汽车保险评估等。

过去小模型时代“视觉智能”有限,增加语言模态或成为破局关键。在计算机视觉 CV 领域,过去常见方式仍是使用高质量、密集标注数据集进行预训练,这一训练方法下模型 Few-shot 和 Zero-shot 较弱。增加语言信息,有助于提升视觉模型的泛化能力。

多模态两大重要基础工作:ViT 和 CLIP。1)ViT(Vision Transformer)首次将 Transformer架构较好的应用在计算机视觉任务中;2)CLIP 用于将相关文本和图像对应,Open AI 从网上爬虫,抓取已经有过描述的文本-图像数据集,数据集规模达到了 4 亿。在这两个基础工作后,语言和视觉特征可以用同一架构 Transformer 提取,且也有了对应数据集训练

Open AI 的 GPT-4v 多模态能力来源:1)强大的已有语言模型基础,产业界猜测 GPT-4使用了类似 Flamingo 架构的交叉注意力机制,特点为不直接训练一个多模态模型,而是在已经预训练好的语言大模型中引入图像理解能力。即 Open AI 可以使用 ChatGPT 中已经构建的语言模块,大幅节约成本;2)2C 应用发布前的大量安全工作,GPT-4 尽管此前已经完成了多模态部分的测试,但是在发布前的 6 个月也经历大量调整,包括减少幻觉、拒绝越狱指令、拒绝回答刻板印象、仇恨问题等;3)包括 Clip 在内的优质联合训练数据;

4)并行计算策略和达到 175B 参数 Davinci 模型 3 倍的推理成本。

Google:从 Palm 到 Gemini,应用发布值得期待。1)此前 google 发布了 562B 参数的多模态大模型 Palm-E,可以理解图像,还能理解、生成语言,且可以用于多个具体任务,包括顺序机器人操作规划、视觉问题解答和图像视频字幕描述;2)目前业界对于后续即将发布的新模型 Gemini 期待,业界猜测训练 Gemini 的硬件 FLOPS 将超过 1e26,比训练 GPT-4 的算力大 5 倍,训练总数据集大小约为 GPT-4 的两倍。

无论 Open AI 还是 Google,都在 AI 架构、Prompt、RLHF、安全、数据、计算资源等多个方面多做出努力。相比单模态大模型,多模态的进入门槛更高。因此在上市公司层面,我们认为后续应当更加重点关注应用环节。

报告全文PDF下载方式:公众号【TOP行业报告】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1