当前位置：首页|资讯|人工智能|OpenAI|谷歌

华科大研发多模态大模型“猴子”升级

作者：极目新闻发布时间：2024-03-16

人工智能 OpenAI 谷歌

极目新闻记者李碗容

通讯员汪伟颋

3月16日，极目新闻记者从华中科技大学获悉，华中科技大学和金山办公的研究人员开发的Monkey多模态大模型已被人工智能领域的国际顶级会议CVPR2024接收，并且曾在Meta AI公认的国际权威“司南”多模态大模型排行榜中名列开源模型榜首，仅次于行业领先者OpenAI的GPT4V以及谷歌的Gemini等闭源模型。

“司南”多模态大模型排行榜单

多模态大模型是一类可以同时处理和整合多种感知数据的AI架构，在众多场景中表现出色。据介绍，TextMonkey是Monkey在文档领域的重要升级，突破了通用文档理解能力的边界，在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析，表格理解，图表问答，电子文档关键信息抽取等12项等文档权威数据集以及在国际上规模最全的文档图像智能数据集OCRBench上取得了显著突破，通用文档理解性能大幅超越现有方法。

解答数学题并给出具体步骤

该科研团队相关负责人介绍，Monkey能帮助我们解答数学题并给出解题步骤，有助于教育自动化。TextMonkey能帮助我们结构化图表、表格以及文档数据，通过将图像内容转化为轻量级的数据交换格式，方便记录和提取。TextMonkey也能作为智能手机代理，无需接触后端，仅需语音输入及屏幕截图，即能够模仿人类的点击手势，能够在手机上执行各种任务，自主操控手机应用程序。

TextMonkey将图表自动结构化成json格式示例

TextMonkey的成功核心在于它模拟人类视觉认知的方法，这使它能自然而然地识别高清文档图像中各部分的相互关联，并灵敏地鉴别出图像内的关键要素。更进一步，基于对用户多样化需求的深入理解，TextMonkey通过文本定位技术强化了答案的准确性，提升了模型的解释性，减少了幻觉，有效提高了在处理各类文档任务上的表现。

TextMonkey充当智能手机代理控制手机应用程序

当前，随着企业加速数字化转型，文档与图像的多模态结构化分析及内容提取显得尤为关键。无论处理的是随意拍摄的图片、电子文档、办公软件文件还是图表分析报告，快速、自动化、精确的数据处理对于提升企业的生产效率具有决定性意义。在此背景下，TextMonkey的推出为这一挑战提供了一种创新的通用解决方案，有望在办公自动化、智慧教育、智慧金融等领域率先实现技术突破，为全面提升通用文档理解能力带来曙光。

（来源：极目新闻）

推荐体验

相关资讯

华科大发布AI大模型猴子：部分超越GPT-4

快科技12月12日消息，华中科技大学官方发文称，该校软件学院一团队发布了多模态大模型“Monkey”。该模型擅长图像描述和视觉问答，能够实现对世界的“观察”，对图片进行深入问答交流和精确描述。

AI大模型 GPT-4

驱动之家 2023-12-12

京企联合研发生命语言多模态大模型

生物科技公司百奥几何与和人工智能企业智谱AI近日达成战略合作，将共同致力于建设自然语言-生命语言多模态大模型。该模型预期将增进生成式人工智能平台在生命科学与医药研究领域的实用性，降低使用者的技术门槛，从而高效处理生物医药信息，并启发使用者发现新靶点、新分子、新问题，为人工智能大分子药物发现提供新的思路和工具，推动生物技术和制药技术的发展。

北京日报 2023-12-19

AI手机竞争升级厂商角逐多模态大模型

华为、OPPO、小米等企业也均在自己的操作系统中集成了大模型技术，并将其向多模态模型加速迭代，预示着AI大模型将成为智能手机发展的重要驱动力，推动行业进入一个新的创新周期。”在华为、vivo等厂商的推动之下，…

华为 AI大模型

中国网科技 2024-05-17

GPT-4震撼发布：多模态大模型，直接升级ChatGPT、必应

ChatGPT 点燃了科技行业的明灯，GPT-4 能燎原吗？谁能革得了 ChatGPT 的命？现在看来还是 OpenAI 自己。在 ChatGPT 引爆科技领域之后，人们一直在讨论 AI「下一

GPT-4 ChatGPT OpenAI

机器之心 2023-03-15

重磅！OpenAI GPT-4震撼发布：多模态大模型，直接升级ChatGPT！

今天凌晨 1 点，Open AI 团队发推正式宣布：GPT-4 来了！关注【V起来助手公z号】体验私聊、办公插件、AI绘画等众多人工智能产品！发布要点GPT-4可以接受图像和文本输入，而GPT-3.5只接受文本。GPT-4在各种专业和学术基准上的表现达到 "人类水平"。例如，它通过了模拟的律师考试，分数约为应试者的前10%。OpenAI花了6个月的时间，利用从对抗性测试项目以及ChatGPT中获得的经验，反复调整GPT-4，结果在事实性、可引导性和可控制方面取得了 "史上最佳结果"。在简单的聊天

OpenAI GPT-4 ChatGPT AI绘画人工智能

给点阳光就灿烂cm 2023-03-15

近期资讯

TCL C11K 灵悉 QD-MiniLED 电视发布，11999 元起

IT之家12月31日消息，TCL今日推出了一款C11K灵悉QD-MiniLED电视，当前上架65英寸和75英寸版本，定价分别为11999元和15999元。

IT之家 2024-12-31

曝小米旗舰线屏幕规划不变 Pro/Ultra机型不会切直屏

不过，12月31日，数码博主@数码闲聊站爆料，小米旗舰线目前规划依旧是“小尺寸直屏+大尺寸等深微曲屏”，Pro/Ultra不会切直屏。

手机中国 2024-12-31

服务之星筑口碑，一路闪耀引客户奔赴

37岁的他，自2013年加入这个大家庭以来，便以满腔的热情和专业的技能，在亳州这片土地上默默耕耘，为千家万户编织着网络的温情。

砍柴网 2024-12-31

iBuyPower 新款整机现身：配英伟达 RTX 5080 / 5070 Ti 显卡

IT之家12月31日消息，海外整机厂商iBuyPower官网的support/faq/retail页面现已出现5款配备英伟达GeForceRTX508016GB/5070Ti16GB显卡的整机。

IT之家 2024-12-31

可折叠iPhone或与iPhone 18同步发布

苹果可折叠iPhone的消息最近有点多，现在又有劲爆的新料，最新的报道显示，苹果正逐步接近发表其折叠新品的时机。爆料人称，苹果的首款折叠手机将在2026年5月进入量产，并且目前预计将在9月，也就是与其他iPhone一同发表。

中关村在线 2024-12-31

电脑频繁重启的原因分析与解决方法总结

电脑一直重启，这可真让人头疼。想象一下，你正忙着写报告或者打游戏，突然电脑黑屏，然后又重新启动。每次都得等它重启，这种情况绝对会让人抓狂。那到底是什么原因导致电脑一直重启呢？今天我们就来聊聊这个问题，看看能不能找到解决的方法。首先，最常见的原因之一就是硬件故障。

新报观察 2024-12-31

华为将于1月3日发新机畅享70X搭载双向北斗卫星消息

据华为消息，华为畅享70X将于2025年1月3日发布，全系搭载双向北斗卫星消息功能，并搭载麒麟8000A处理器、HarmonyOS4.2。

金融界 2024-12-31

华为服务日更新三大权益，更温暖的服务拿捏住了

新的权益加入后，2025年华为服务日活动阵容空前强大，活动涵盖手机、平板、笔记本电脑、穿戴、智能眼镜、耳机等多类产品，这下无论你是哪类华为产品的用户，只要在2025年1月1日-12月31日中每个月第一个连续的周五周六周日到华为服务授权中心，就能美滋滋地在华为服务日享受温暖服务了。

雷科技 2024-12-31

威海光威取得恒定张力收膜取膜装置专利，保证收膜时张力恒定

金融界2024年12月31日消息，国家知识产权局信息显示，威海光威精密机械有限公司取得一项名为“恒定张力收膜取膜装置”的专利，授权公告号CN222225500U，申请日期为2024年5月。专利摘要显示，本实用新型涉及恒定张力收膜取膜装置，属于碳纤维生产领域。

金融界 2024-12-31

【汽车】小米首款SUV实车YU7再曝光外观给几分？

前不久工信部和小米官方微博公布了小米汽车旗下首款SUV车型——小米YU7的证件照和海报图，近日关于小米YU7无伪装实车有更多曝光图。网传上图可能是小米YU7标准版的测试车，未配备激光雷达，推测可能采用纯视觉驱动的智能驾驶方案，外观设计和高阶版整体风格保持一致，车尾还有类似SU7的土星环尾灯。

小白测评 2024-12-31

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1