dify案例分享-基于多模态模型的发票识别

作者：wwwzhouhui发布时间：2024-10-26

1 什么是dify

Dify是一个开源的大语言模型（LLM）应用开发平台，旨在简化和加速生成式AI应用的创建和部署。它结合了后端即服务（Backend as Service, BaaS）和LLMOps的理念，使开发者能够快速搭建生产级的AI应用。

Dify的核心功能包括：

低代码/无代码开发：Dify提供了一个用户友好的界面，通过可视化的方式允许开发者轻松定义Prompt、上下文和插件等，无需深入底层技术细节。
模块化设计：采用模块化的设计，每个模块都有清晰的功能和接口，可以根据需求选择性地使用。
丰富的功能组件：包括AI工作流、RAG管道、Agent、模型管理、可观测性功能等，帮助开发者从原型到生产的全过程。
支持多种大语言模型：已支持OpenAI GPT系列等模型，并计划进一步扩展。
数据处理和特征工程工具：提供了数据清洗、特征选择、特征变换等功能，帮助开发者更好地准备数据。
集成外部知识源：允许自定义API接入外部知识源，让大型语言模型深入理解企业知识和业务。

此外，Dify还具有以下特点：

面向各种技术背景的开发者：即使是没有编程基础的用户也能快速上手并参与到AI应用的定义和数据运营过程中。
开源和社区支持：作为一个开源项目，Dify在GitHub上有活跃的社区支持，鼓励用户贡献和分享经验。

dify本身集成第三方工具和工作流。

目前官方最新dify 升级了0.10.1版本。目前该版本已经支持文件上传功能，所以我就给大家介绍一下带文件上传功能的发票识别。

2.什么是硅基流动

硅基流动是一家专注于人工智能基础设施和生成式AI技术的初创公司。硅基流动是致力于构建可扩展、标准化且高性能的生成式AI计算基础设施平台，提供包括SiliconCloud（模型云服务平台）、SiliconLLM（大型语言模型推理引擎）和OneDiff（高性能文本到图像/视频加速库）在内的多种软件解决方案。

公司的网站https://siliconflow.cn

目前公司有三个产品siliconCloud、siliconLLm、OneDiff

该公司提供市面上主流模型，而且最关键是免费。

免费的模型涵盖文本生成、向量&重排序模型、图片生成、多模态大模型等各种模型。提供一站式模型服务，这个比较爽。

目前新户注册送14块钱，大家可以通过我提供分析网址连接来感受这个免费的api模型服务。https://cloud.siliconflow.cn/i/e0f6GCrN

3 硅基流动功能介绍

注册登录后我们就可以进入体验中心

我们可以在右边的模型下拉列表中选择免费或则收费的模型

文本类模型还是蛮丰富的。

文生图和图生图也支持目前市面主流图像生成模型（FLUX.1-dev 、FLUX.1-schnell、stable-diffusion-3-medium、stable-diffusion-xl-base-1.0、stable-diffusion-2-1、sd-turbo、sdxl-turbo、SDXL-Lightning）

其他使用方法这里就不过多介绍了。

4 硅基流动创建API

登录https://cloud.siliconflow.cn/account/ak，账号管理，点击新建API秘钥

这个创建的秘钥记得保存，后面流程中会用到。

5 dify创建发票识别机器人

5.1 模型设置

登录dify 点击右上角设置-模型供应商

找到硅基流动，输入步骤4上创建的API

关于硅基流动多模态模型设置。这里我们需要注意目前硅基流动增加多模态识别模型.dify功能目前还不支持关于硅基流动多模态模型的设置，所以我们需要借助标准OpenAI-API-compatible 来设置这个多模态模型

目前硅基支持以下几种多模态模型

点击 OpenAI-API-compatible，添加模型

这里我们设置一下硅基流动多模态模型的配置，这里我们就以Qwen/Qwen2-VL-72B-Instruct 为案例给大家介绍，大家可以看我下面的截图设置

其他的和之前传统的llm模型设置一样，这里注意地方就是多模态VISION这个需要设置。点击保存完成模型设置。

5.2创建工作流或者chatflow

接着来到Dify中按下图顺序依次点击并点击创建(注：chatflow和工作流配置基本差不多，下面我们就以chatflow讲解)

5.2.1开始

开始节点点开后我们需要添加一个文件上传输入参数。点击开始节点输入字段，点击右边的“+”

我们选择单个文件，输入变量名称、支持的文件类型我们这里就选择图片。其他都可以默认，输入完成后，点击保存按钮

以上步骤完成开始节点设置。

5.2.2文档提取器

接下来我们在工作流画布中，选择文档提取器和开始节点连接，去掉llm和开始节点连接

我们在文档提取器，输入变量中选中 sys.files 变量

5.2.3 llm

接下来我们将文档提取器的连接线和llm大语言模型连接。然后按照以下几个步骤设置

1.模型选择，模型我们在模型下拉列表中选择自定义OpenAI-API-compatible Qwen/Qwen2-VL-72B-Instruct模型；模型最大标记4096

2.上下文，这里设置开始节点file 属性值

3.SYSTEM 提示词我们输入如下内容

4.视觉点击右边按钮开启多模态

5 视觉输入变量选择节点filefiles 变量

以上完成llm模型的设置

5.2.4 直接回复

接下来我们将LLM模型连接到直接回复的输出节点。

这个地方设置比较简单，在回复设置一下llm text文本输出以及开始节点file 输出，这样设置后。就会将发票提取的票面信息以json格式的文本信息返回，并将上传的发票图片信息一并返回给用户

通过以上方式我们就初步完成了整个chatflow工作流。

完整的dsl 如下

5.3chatflow调试及发布

接下来我们点击工作流预览测试一下。

我们点击从本地文件上传，找一张增值税普通发票验证一下。

我们点开工作流看到流程节点是从开始-文档提取器-LLM-直接回复 4个流程节点，并且每个流程执行的时间都能详细展开看到。最后用户返回了发票提取的票面信息返回json值了。目前这个工作流适合增值税专用发票和增值税普通发票识别，如果大家需要识别全电发票，火车票还有其他类发票只要修改llm模型中的提示词即可。

目前我测试下来Qwen/Qwen2-VL-72B-Instruct模型的发票票面ocr识别率还是蛮准的，几乎是100%识别。

接下来我们可以将这个工作流发布或则以第三方接口形式对外提供

5.3.1发布

点击工作流左上角发布按钮对外提供发布

我们将分享的地址发送给其他小伙伴

我们点击 start chat 就可以使用了。

6 总结

目前dify官方最新版本升级到0.10.1版本开始支持文件上传，图片上传等功能了。另外硅基流动大概在2024年10月18日上线了阿里和书生的多模态模型。今天就带大家感受一下dify新功能已经硅基流动的新模型整合。目前该工作流还只支持一种发票票面识别功能还比较单一，还不能识别更多发票。比如（火车票、手撕票、出租车票、医疗报销单等等）。dify工作流程这块有很多流程控制通过这些流程控制其实是可以实现以上功能的，感兴趣的小伙伴可以持续关注我的文章，我后期会增加这块功能打造一个更完善的基于多模型模型的发票识别小助手。今天的分享就到这里，我们下个文章见。

【VRAR星球原创稿件，未经许可禁止转载】摘要：本期的万花筒我们就来盘点一下那些跟PICO合作过的公司。国内XR厂商PICO宣布，与英特尔联手举办的“PICO x Intel VR 运动会鸟巢巅峰赛”活动已经开启报名，将于10月17日开赛。值得一提的是，这不是PICO首次跟其他公司合作，本期的万花筒我们就来盘点一下那些跟PICO合作过的公司。 [图片] 高通 2022年3月，PICO宣布和高通建立了重要的合作关系，以进一步推动扩展现实（XR）领域的发展，PICO打造的XR产品也将由高通的Snapdr

VRAR星球 2024-10-28

老板如何应对上班摸鱼现象？摸鱼止步，教你六招紧箍咒！（经验分享）

你是否也曾疑惑，员工在上班时究竟有没有全身心投入工作？是否偶尔发现他们在做与工作无关的事情，比如浏览社交媒体、玩游戏，或是偷偷聊天？这些"摸鱼"行为不仅影响工作效率，还可能损害团队的凝聚力和企业的整体形象。那么，作为老板，你该如何有效应对上班摸鱼现象，让员工将注意力重新聚焦在工作上呢？本文，将为你分享六招实用的"紧箍咒"，助你紧抓员工工作效率，加强对员工的监管和激励。六招紧箍咒，助你应对上班摸鱼现象第一招：明确工作目标与期望首先，你需要与员工明确工作目标和期望。确保每位员工都清楚自己的职责和任务，以及完成

域智盾 2024-10-28

蜗牛学苑 2024-10-28

图像后期处理（LRC） Adobe Lightroom Classic解锁版

想要让照片瞬间焕发光彩？Adobe Lightroom Classic来帮忙。这款强大的照片编辑软件提供了丰富的一键式工具和高级控件，让您的照片编辑变得轻松而高效。无论是增强色彩、激活沉闷镜头，还是去除干扰元素、矫正歪斜画面，Lightroom Classic都能助您一臂之力。软件特色 1. 一键式编辑：快速调整色彩，让照片焕发活力。 2. 高级控件：精准调整，确保每张照片都达到最佳效果。 3. 照片整理：轻松管理桌面上的所有照片。 4. 多方式共享：与朋友和家人分享您的精彩瞬间。 5. 性能提升：最新

龙岩二花网络科技 2024-10-28

【地信资料分享】全国GIS应用水平考试一级、二级真题和答案资料分享！

全国GIS应用水平考试是由工业和信息化部领导、组织实施的国家IT专业政府认证体系，是我国地理信息系统GIS）行业内国家级专业技术水平考试。考试分为一级、二级和三级，按其能力水平分别相当于GIS助理工程师GIS 工程师、GIS 高级工程师。旨在为国家建立一套客观有效的GIS人才考核标准及技能评价体系，为选拔GIS专业技术人才，评定GIS专业技术职称供有力依据。考试每年举办两次。通过考试的考生，即可获得由工业和信息化部人才交流中心发的工业和信息化人才专业知识——GIS应用技术测评（NCAE-GIS）证书，并纳

GIS趣多多 2024-10-28

【喷雾除尘设备多少钱】-山东艾蓝设计-哪家好

【喷雾除尘设备多少钱，现场效果视频】我们有大量客户满意的工程实践经验，有完善的设备制造及材料供应体系，为环保行业同仁提供喷雾降尘系统方案设计、设备及材料OEM贴牌、工程施工指导等全流程技术支持，欢迎有志于无组织排放粉尘治理的朋友合作发展自动喷雾降尘系统采用PLC采集粉尘传感器参数，在触摸屏上设置粉尘浓度上下限，粉尘浓度在触摸屏上实时显示，当粉尘浓度超过一定值时自动开启喷雾降尘系统，当粉尘浓度下降到设定值时自动停止喷雾除尘系统。喷雾降尘粉尘监测传感器布置合理，能做到全覆盖，重要区域可交叉覆盖，在任意粉尘

山东艾蓝环保 2024-10-28