去年,GPT-4V的亮相,我们见证了商业模式和应用实践的重大转变。随着视觉模型向新领域的进军,通义千问也换新升级,推出具备图文理解能力的Qwen-VL,成为最强国产视觉语言模型。
基于通义千问语言模型开发,其性能更是与GPT-4V相媲美,更新和升级在多个方面显示出强大的优势和潜力。为了让集简云用户能快速体验该多模态模型的能力,我们已将Qwen-VL-Plus版本接入到集简云中,您可快速体验它的能力。
功能亮点
➢ 首个支持中文开放域定位的通用模型
通过中文开放域语言表达进行检测框标注,能在画面中精准地找到目标物体。
➢ 识别、提取分析图像及其文本能力增强
在图像处理中,Qwen-VL-Plus能够更好地识别、提取和分析图像中的文本细节,从而更好地理解和处理复杂的视觉信息。
➢ 支持超过一百万像素的高清图像
Qwen-VL-Plus针对细节识别和文本识别进行升级,支持高达数百万像素的超高像素分辨率。
➢ 任意宽高比的图像处理
Qwen-VL-Plus和Qwen-VL-Max支持处理任意宽高比的图像,增强了模型的灵活性。
功能亮点
通过中文开放域语言表达进行检测框标注,能在画面中精准地找到目标物体。
示例1:逻辑推理能力
图中展示的流程图是什么?有几条路径?
这张图片显示的是一个关于费用报销单据审核流程的图表。它是一个带有决策点和不同分支选项的标准流程图,用于描述在系统内处理费用报销申请时所遵循的一系列步骤。
从左上角开始:
登录费用报销系统。
打开待审批的费用报销单。
阅读附件发票信息,并通过OCR识别来获取数据(这一步可能包括验证发票的真实性)。
自动完成审批过程并保存审计记录到汇总表。
检查是否符合企业内部规定:是则继续;否,则返回第6步进行修正或拒绝此报账请求生成异常数据记入汇总表。
发票与报销单内容核对一致吗? 是的话就进入下一步; 否, 则回到第4步检查其他条件或者直接拒绝该报销请求并将相关异常情况录入总表;
最后一步是对发票真伪进行核实,在这里需要登录国税局网站查询发票真实性;如果发现不真实的情况出现那么就需要重新调整整个流程直到所有环节都满足要求为止最后将所有的非正常状态的数据全部归集起来形成最终报告输出给相关人员参考使用.
这个流程中有三条主要路径:
第一条是从第一步到最后一步的所有可能途径。
第二条是在第三、四两步之间选择的不同方式取决于前面的信息输入结果如何决定后续操作方向。
第三类则是针对第五至第七项之间的判断逻辑而产生的额外分叉路线。
示例2:信息识别处理
分析图中数据,并制作成表格。
示例3:商品图片识别
帮我生成商品描述
这款裙子采用了传统的汉服设计,上身是一件白色长袖对襟衣,下身则是一条棕色的马面裙。这种服装风格在中国历史上非常流行,并且在现代也逐渐得到了复兴。
这件衣服的设计十分精致,尤其是那件白色的对襟衣,它的领口和袖口都绣有精美的花纹,给人一种清新脱俗的感觉。而那条棕色的马面裙更是让人眼前一亮,它不仅颜色深沉、质感高级,而且上面还印有一些金色的图案,这些图案都是用金线刺绣而成的,既华丽又不失庄重。
总的来说,这是一款非常适合日常穿着或者参加一些正式场合的衣服。无论是从材质还是做工来看,都可以看出制作者对于细节的关注以及对于品质的要求。如果你想要一款既能展现自己优雅气质又能体现中国传统文化元素的衣物的话,那么这款裙子绝对是一个不错的选择!
如何在集简云/语聚中使用
方式1:在数据流程搭建时选择通义千问(内置) 应用(无需账户)。
方式2:数据流程搭建时选择通义千问原生(需要账户)。
方式3: 语聚AI(http://chat.jijyun.cn)的对话助手中。