当前位置:首页|资讯|AIGC

2023年AIGC行业GPT-4v如何实现强大多模态,从文生图到图生文

作者:林不吃香菜发布时间:2024-03-24

原标题:2023年AIGC行业GPT-4v如何实现强大多模态,从文生图到图生文

今天分享的是:2023年AIGC行业GPT-4v如何实现强大多模态,从文生图到图生文(报告出品方:sws)

GPT-4V 展现强大多模态能力,新兴应用曙光初现。9月25日,Open Al宣布即将发布新的多模态功能,包括图像读取与理解、语音对话和语音生成;根据微软测评:1)4V支持多种混合输入方式,同时展现了指令跟、思维链、上下文少样本学习等能力;2)可以胜任大量具体任务,包括开放世界视觉理解,视描述、多模态知识,文档推理等都表现较好;3)可以期待 4V 出现后更多 AI 创新应用,包括工业缺陷检测、医疗影像识则、具身智能交亘、汽车保险评估等,

过去小模型时代“视觉智能”有限,增加语言模志或成为破局关键。在计算机视觉 CV 领域,过去常见方式仍是使用高质量、密集标注数据集进行预训练,这一训练方法下型Few-shot和Zero-shot较弱。增加语言信息,有助于提升视觉模型的泛化能力。

多投态两大重要基础工作 VIT和 CLIP,1)i( VisionTransformer 首次将Transformer架构较好的应用在计算机视觉任务中;2)CUP用于将相关文本和图像对应,Open AI从网上配虫,抓取已经有过描述的文本-图像数据集,数据集规模达到了4亿。在这两个基础工作后,语言和视觉特征可以用同一架构Transformer提取,且也有了对应数据集训练,

Open AI的 GPT-4v 多模态能力来源:1)强大的已有语言模型基础,产业界猜测 GPT-4使用了类似 Famingo 架构的交叉注意力机制,特点为不直接训练一个多横态模型,而是在已经预训练好的语言大模型中引入图像理解能力。即 Open A 可以使用 ChatGPT 中已经构建的语言模块,大幅节约成本;2)2C应用发布前的大量安全工作,GPT-4尽管此前已经完成了多模态部分的测试,但是在发布前的6个月也经历大量调整,包括减少幻觉拒绝越狱指令、拒绝回答刻板印象、仇恨问道等;3)包括Clip 在内的优质联合训练数据4)井行计算策略和达到 1758 参数 Davinci 模型 3倍的推理成本。

Google:从 Palm 到 Gemini,应用发布值得期待。1)此前 google 发布了 562B 参数的多模态大模型 Palm-E,可以理解图像,还能理解、生成语言,且可以用于多个具体任务,包括顺字机器人操作规划、视觉问题解答和图像视频字幕措述;2)目前业界对于后续即将发布的新模型 Gemini 期待,业界猜测训练 Gemini的硬件 FLOPS 将超过 1e26比训练 GPT-4的算力大5倍,训练总数据集大小约为 GPT-4 的两倍。

报告共计:37页

以下为报告节选内容

报告共计:37页

中小未来圈,你需要的资料,我这里都有!


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1