基于PaddleOCR与OpenVINO的结构化输出Pipeline

作者：飞桨PaddlePaddle发布时间：2023-07-18

飞桨（PaddlePaddle）是百度自主研发的中国首个开源开放、功能丰富的产业级深度学习平台，以百度多年的深度学习技术研究和业务应用为基础。飞桨深度学习平台集核心框架、基础模型库、端到端开发套件、丰富的工具组件于一体，还包括了飞桨企业版零门槛 AI 开发平台 EasyDL 和全功能 AI 开发平台 BML，以及飞桨 AI Studio 学习与实训社区。飞桨于2016年正式开源，秉承开源开放的理念，建设了蓬勃发展的开源社区，社区成员汇聚了框架开发者、算法研究者、硬件开发者和应用开发者等多种角色，他们在自运转的生态中积极参与开源共建，形成了一股强大的生态力量，持续推动深度学习技术的创新迭代和产业应用。

2023飞桨黑客马拉松 PaddlePaddle Hackathon 第四期由深度学习技术及应用国家工程研究中心主办，飞桨承办，英特尔作为顶级赞助方，OpenVINO™ 、Arm、Hugging Face、Jina、TVM、瑞芯微、算能、地平线等等开源项目和硬件合作伙伴共同出品，旨在鼓励开发者了解与参与深度学习开源项目的共建。

本项目是活动发布的第205号赛题，需要开发者向 OpenVINO™ Notebooks (https://github.com/openvinotoolkit/openvino_notebooks) 提交一个基于飞桨和 OpenVINO™ 构建的项目，相比于其他任务，本任务更加偏向于模型的应用。

项目介绍

“表” 是一种随处可见的设备，除了生活中常见的电表、水表外，工业场景中还存在如压力表、工频场强仪等“表”。受区域因素和技术因素的制约，并非每种“表”都能够自动采集数据，还需要人工手动抄表，工作枯燥、效率低、且容易产生抄录错误，通过人工智能技术构造自动化的抄表流程能够极大的克服上述问题，提高工作效率。目前大部分抄表相关的开源项目都需要在特定领域的数据集上进行微调，但实际上抄表工作的抄录内容多为文字，对于特定的表而言，其布局和展示内容较为单一，因此可以基于一些配置值，在无需微调的情况下，也可以实现抄表工作。本项目基于 PaddleOCR 和 OpenVINO™ 实现了一种无需微调的抄表器，只需要人为设置一些和布局相关的配置信息，即可实现表中数据的记录。

PaddleOCR

PaddleOCR 是飞桨文字识别套件，提供了多种复用性强的预训练模型。本项目使用了预训练模型 Chinese and English ultra-lightweight PP-OCR model (9.4M)，更多的信息请参考 PaddleOCR Github (https://github.com/PaddlePaddle/PaddleOCR) 或 PaddleOCR Gitee (https://gitee.com/PaddlePaddle/PaddleOCR)

一个标准的 OCR 流程包括了文字检测和文字识别，在本项目中，文字检测通过非深度学习的方式进行处理，文字识别通过PaddleOCR的文字识别模型实现。

OpenVINO™ 和OpenVINO™ Notebooks

OpenVINO™ 是一个用于优化和部署 AI 推理的开源工具包，可以显著提升深度学习在计算机视觉、自动语音识别、自然语言处理和其他常见任务中的性能。能够使主流框架训练的模型在运行时减少资源需求，并在从边缘到云的一系列英特尔®平台上高效部署。OpenVINO™ 在仓库 OpenVINO™Notebooks (https://github.com/openvinotoolkit/openvino_notebooks) 中提供了一些可以运行的 Jupyter* Notebooks，用于学习和尝试使用 OpenVINO™ 工具套件。这些 Notebooks 旨在向各位开发者提供 OpenVINO™ 基础知识的介绍，并教会大家如何利用我们的 API 来优化深度学习推理。

技术方案概览

本项目面向的应用场景是抄录特定的一类表的信息，因此可以通过人工配置表面的尺寸，以及各个元素在表中的布局实现，从而跳过 OCR 模型对文字区域的检测，并进一步对识别结果进行结构化输出。本项目的实现流程如下图所示，主要分为７个步骤：

Step 1：配置图片中屏幕区域的坐标值（这些坐标值也可以通过 CV2 的拐点检测或深度学习进行获取）；

Step 2：对图片进行预处理（仿射变换）；

Step 3：配置待识别的元素对应的坐标，并裁剪对应的区域；

Step 4：如有需要，可以对裁剪下来的区域进行预处理；

Step 5：基于 OpenVINO™ 进行文字识别；

Step 6：结构化输出信息；

Step 7：如有需要，对输出结果进行进一步精炼。

在整个Pipeline中，无需额外针对业务场景对模型进行训练或配置，从深度学习的层面上完全依赖于开源模型，仅需要人工地进行一些预处理或后处理，可以极大的降低OCR模型的应用门槛，同时也减轻了对数据准备和标注的依赖。

关键环节的代码实现

图片输入处理
由于本项目是一个零微调的项目，因此，为了保证识别模型的有效性，需要人工对齐输入信息。

修正倾斜的图片，将图片中的屏幕区域修正到指定的大小
根据从说明书等地方获取到的设备信息，设定待识别的区域在屏幕上的布局。

通过下面代码，可以将图片从倾斜状态修正。

基于 OpenVINO™ 加载 PaddleOCR 识别模型进行预测

加载模型

使用 OpenVINO™ 加载飞桨模型无需经过任何转换，只需要完成创建环境、读取模型和生成推理接口3个步骤。假设当前模型保存在 ch_PP-OCRv3_rec_infer 目录下，可以通过以下代码一键加载模型：

文字识别

依旧对于上述示例图片，希望结构化输出以下内容：[{"Info_Probe":""}, {"Freq_Set":""}, {"Freq_Main":""}, {"Val_Total":""},{"Val_X":""}, {"Val_Y":""}, {"Val_Z":""}, {"Unit":""}, {"Field":""}]。输出示例如下图所示：

基于仿射变换的结果配置各个元素在图片上的布局，这个配置对于同一批表来说是固定的。

配置文字识别预处理函数。

首先，将传入的检测框转化为图片，在本项目中，检测框即为整个图片，我们依然可以复用这个模块。

其次，完成裁剪后将图片分装成多个 batch，按批预测。

再次，完成识别后将识别结果转化为汉字，这一步需要一个映射表，可以在 PaddleOCR 或者 OpenVINO™ Notebook 中找到。

最后，就可以识别与输出啦！

下面以 Freq_Set 为例，进行文字识别

结构化输出与后处理

上述步骤已经实现了使用 OpenVINO™ 加载 PaddleOCR 模型并进行预测，但实际上由于模型没有进行微调，因此对于当前的业务场景来说可能不够完美，可以通过一些简单的逻辑进行处理。如示例图片中右上角区域文字“100Hz 实时值”，在模型预测时，“Hz”可能被识别为“H2”，此时可以通过将“H2”替换为“Hz”，提高最后的输出效果。
对于示例图片的这种表，可以定义如下后处理函数：

定义了辅助函数后，即可通过配置值进行后处理。辅助函数中共有三种配置的预处理类型，分别是映射、替换和增加小数点。以识别结果“深头:LF-01”为例，“映射”(MP)操作意味着只要文字包含“LF”，即将整段文字替换为“探头:LF-01”。以识别结果“100H2 实时值”为例，“替换”(RP)操作意味着将文字中的“H2”替换为“Hz”。以识别结果“613475”为例，如果已知最后两位必然为小数位，并且小数点极小容易被漏检，增加小数点(AD)操作可以快捷地在指定位上增加小数点。
下述代码给出了使用配置值进行后处理地示例。

全流程一键运行

将上述关键代码组合起来，可以进行本项目的全流程的运行~

下面是调用示例：

项目总结

关于 “ 基于 OpenVINO™ 与 PaddleOCR 的结构化输出 Pipeline ” 赛题

本文介绍了一种基于开源OCR模型 (https://github.com/PaddlePaddle/PaddleOCR) 进行读表的 Pipeline，这个 Pipeline 能够在不进行模型微调的前提下完成抄表工作，并按照格式输出内容。整个 Pipeline 专注于 OCR 模型的调用，但仍可以拼接一些检测模型或边缘检测方法，用于自动确定屏幕区域，以降低人力，提高效率。完整的源码地址见：

https://github.com/openvinotoolkit/openvino_notebooks/pull/1030
https://github.com/openvinotoolkit/openvino_notebooks/tree/main/notebooks/203-meter-reader

关于飞桨黑客马拉松第四期

飞桨黑客马拉松第四期活动发布后，开发者们反响热烈，围绕四大赛道展开了激烈角逐，超过2000+位社区开发者参与到飞桨黑客松中，完成800+余次任务认领&PR提交，200+个任务被认领，历经三个月脑力激荡的 Hack 时光，共有80+个团队突出重围，累计完成142项任务。

本期黑客松活动在任务完成数量、参与团队规模、项目类型丰富度、合作伙伴数量等方面打破了以往飞桨黑客松的记录，足可见开发者们建设飞桨生态的热情。

期待这些开发者团队持续在飞桨开源生态中迸发出光彩和力量，与飞桨一路同行，一起建设更优雅的飞桨开源社区。

基于PaddleOCR与OpenVINO的结构化输出Pipeline

项目介绍

技术方案概览

关键环节的代码实现

全流程一键运行

项目总结

推荐体验

相关资讯

openai api支持结构化输出

GPT-4o新版本突然上线，结构化输出和非结构化输出有什么不同？

OpenAI API结构化输出解析与流式响应功能详解

OpenAI 在 API 中引入结构化输出

100%结构化输出——OpenAI新功能大幅增强工具调用

近期资讯

和而泰申请一种液体温度控制方法专利，提高液体温度控制的准确性

须眉科技取得一种带有放置座的电动剃须刀专利，避免灰尘进入延长使用寿命

江苏东成园林机械取得一种用于收纳电动工具的刀套专利，提高用户使用安全性

辽宁博芯科申请应用于光电半导体硅片的退火温度控制专利，提高光电半导体硅片退火温度控制的精确度和实时性

广东芬尼克兹申请泳池水温控制专利，用于有效均衡水温分布

成都莒纳申请电解水槽温度控制管理专利，确保整个过程安全高效运行

耀华（宜宾）玻璃申请浮法玻璃生产线冷却水恒温控制专利，降低环境温度对冷水池冷却水水温影响以提高生产质量

宁波奉化吉泰电气申请智能反应器智能温控专利，提高控制精度

湖南趣智新视觉取得广告板的裁切装置专利，结构合理、使用效果好

陕西孚兰取得打包带生产裁边设备专利，加快打包带生产裁边设备的废料收集的速率

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响