当前位置:首页|资讯|AIGC|OpenAI|GPT-4

AIGC深度:GPT-4v如何实现强大多模态,从文生图到图生文

作者:侠说发布时间:2023-10-28

原标题:AIGC深度:GPT-4v如何实现强大多模态,从文生图到图生文

GPT-4V 展现强大多模态能力,新兴应用曙光初现。

9 月 25 日,Open AI 宣布即将发布 新的多模态功能,包括图像读取与理解、语音对话和语音生成;根据微软测评:

1)4V 支 持多种混合输入方式,同时展现了指令跟随、思维链、上下文少样本学习等能力;

2)可 以胜任大量具体任务,包括开放世界视觉理解、视觉描述、多模态知识、文档推理等都表 现较好;

3)可以期待 4V 出现后更多 AI 创新应用,包括工业缺陷检测、医疗影像识别、 具身智能交互、汽车保险评估等。

过去小模型时代“视觉智能”有限,增加语言模态或成为破局关键。

在计算机视觉 CV 领 域,过去常见方式仍是使用高质量、密集标注数据集进行预训练,这一训练方法下模型 F ew-shot 和 Zero-shot 较弱。增加语言信息,有助于提升视觉模型的泛化能力。

多模态两大重要基础工作:ViT 和 CLIP。

1)ViT(Vision Transformer)首次将 Transformer 架构较好的应用在计算机视觉任务中;2)CLIP 用于将相关文本和图像对应,Open AI 从 网上爬虫,抓取已经有过描述的文本-图像数据集,数据集规模达到了 4 亿。在这两个基础 工作后,语言和视觉特征可以用同一架构 Transformer 提取,且也有了对应数据集训练。

Open AI 的 GPT-4v 多模态能力来源:

1)强大的已有语言模型基础,产业界猜测 GPT-4 使用了类似 Flamingo 架构的交叉注意力机制,特点为不直接训练一个多模态模型,而是 在已经预训练好的语言大模型中引入图像理解能力。即 Open AI 可以使用 ChatGPT 中已 经构建的语言模块,大幅节约成本;

2)2C 应用发布前的大量安全工作,GPT-4 尽管此前 已经完成了多模态部分的测试,但是在发布前的 6 个月也经历大量调整,包括减少幻觉、 拒绝越狱指令、拒绝回答刻板印象、仇恨问题等;3)包括 Clip 在内的优质联合训练数据;4)并行计算策略和达到 175B 参数 Davinci 模型 3 倍的推理成本。

来源:申万宏源

报告内容节选如下:

资料下载方式:公众号《侠说》


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1