当前位置:首页|资讯|AI大模型|大语言模型

2023年AI大模型DocLLM多模态文档理解大语言模型(附下载)

作者:最爱蜡笔小新发布时间:2024-03-11

原标题:2023年AI大模型DocLLM多模态文档理解大语言模型(附下载)

今天分享的是:2023年AI大模型DocLLM多模态文档理解大语言模型(报告出品方:浙商证券)

近日JPMorgan AI团队Dongsheng W.et al研发了DocLLM。该模型特别强调空间结构,进免使用复杂的图像编码器。其架构包含了分离的空间注意力机制和独特的预训练策略,包括填充文本段落。在处理企业文档中常见的不规则布局和多样化内容方面,DocLLM展示了比现有最先进的语言模型更优异的性能。

1.DocLLM强调空间信息

文档智能本质上是一个多模态问题,其中文本内容和视觉布局线索对于理解文档至关重要。这要求有别于传统大型语言模型(如GPT-3.5、Llama等)的解决方案,这些模型主要接受文本输入并假设文档具有简单的布局和统一的格式。DocLLM模型强调了空间信息作为重要的辅助背景信号的处理,这与需要复杂视觉骨干架构来编码图像信息的许多视觉-语言框架不同。

2.通过修改预训练目标解决传统文档处理难题

对于视党文档的异质内容、不规则布局和分散的文本段落,传统的下一个标记预测目标可能受限。为了解决这个问题,DocLLM提出了两种修改预训练目标的方法:采用包含更广泛背景的连贯文本块,以及实现一种基于前后标记的填充方法。这些修改使模型能够更好地处理文本对齐不一致、上下文补全、复杂布局和混合数据类型。

3.提出新的Attention机制捕获跨模态关系

DocLLM模型展示了仅包含空间布局结构就足以处理各种文档智能任务,如表格理解、表格对齐和视党问答。与其他模型将空间和文本嵌入串联或求和的方式不同,DocLLM将空间信息视为一种独立的模态,并以解耦的方式计算其与文本模态的相互依赖关系。通过扩展标准变换器的自注意机制,包括新的注意力得分来捕获跨模态关系,能够在不同抽象层次上表示表单中字段的内容位置和大小的相关性,从而增强对文档的理解

报告共计: 8页

以下为报告节选内容

报告共计: 8页

中小未来圈,你需要的资料,我这里都有!


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1