测评各主流大模型对复杂文档处理的精确度，司马阅领先！

作者：AI先锋联盟发布时间：2024-08-14

AI大模型生成式AI

司马阅一直在升级，这次升级后，我们将司马阅和主流的AI大模型再做一次测评。这次极端测评，主要pk各大模型对复杂文档处理的精确度。

我们选取的依然是这份专业的行业报告：《中国生成式AI开发者洞察》，共58页，信息量很大、数据复杂，几乎每一页都有图表，且数据具有隐秘性和迷惑性。

我们准备了3个问题，现在开测！

第1个问题：“生成式AI开发者职位中，哪三类最多，用表格呈现出来。”

我们先来问司马阅，司马阅快速理解并回答：资深研发人员占比34.6%，初级研发人员占比14.5%，技术总监占比12.2%。

我们看看原文档，的确是这三类职位，且数据一一对应，回答准确无误。

再来看豆包怎么回答，豆包回答的职位是：初级研发人员、资深研发人员、产品经理，职业与原文件不符，且把初级研发人员和资深研发人员的占比数据搞反了。

接着问通义千问，通义千问给出的职位是算法工程师、产品经理、大模型开发，三个职位全错，对应的数据自然也是错误的。

接着我们问Kimi，Kimi的回答是初级研发人员、产品经理、算法工程师，与原文件的前三类职业有差别，且读取的数据也是全错。

接下来问的是腾讯元宝，腾讯元宝回答对了资深研发人员和初级研发人员，前两类的数据也是正确的，但是它给出的第三类职位是产品经理，而原文中是技术总监，结果不完全正确。

接着我们问文心一言，文心一言给的占比数据是对的，但是三个职位全部对应错误，所以结果不准确。

接下来我们来问ChatGPT,ChatGPT给出的回答是算法工程师、产品经理、自然语言处理，职位和占比全错。

第1个问题测试完毕，接着进行第二轮测试。

第2个问题：“数字人和机器人在生成式AI开发者研究方向中分别占比是多少？”

首先来看司马阅是怎么回答的，数字人和机器人的占比分别是4.7%和4.0%，看看原文，回答准确。

接着来问豆包，豆包给出的答案是9.1%和6.7%，两个数据均错误。

接着我们来问通义千问，通义千问回答的占比都是4.0%，只回答对了机器人的占比。

接着我们问Kimi，Kimi的回答是数字人占比4.7%，机器人占比2.0%，只回答对了数字人的占比。

再看看腾讯元宝，腾讯元宝无法回答。

接着我们问文心一言，文心一言同样无法回答这个问题。

接下来我们来问ChatGPT,ChatGPT给出的回答是数字人占比6.0%，机器人占比4.0%，只回答对了机器人的占比。

第3个问题：“百川大模型和360智脑在开发者使用频率中分别占比”

来看看司马阅的回答，司马阅给出的答案是百川大模型的使用占比为4.0%，360智脑的使用占比为1.5%，原文也是这两个数据，回答正确。

再来看豆包怎么回答，豆包的回答是0.5%和1.9%，两个数据均和原文对不上。

接着问通义千问，通义千问无法给出百川大模型和360智脑在开发者使用频率中的占比。

接着我们问Kimi，Kimi的回答是百川大模型占比1.2%，360智脑占比1.3%，与原文差别较大。

接下来问的是腾讯元宝，腾讯元宝无法找到相关内容，提取信息失败。

接着我们问文心一言，文心一言说了很多，但同样无法直接给出占比。

接下来我们来问ChatGPT,ChatGPT给出的占比分别是4.0%和3.2%,百川大模型的使用占比回答正确，360智脑的使用占比错误。

3个问题测评下来，司马阅在对复杂文档处理的精确度上仍然具有领先的优势，这得益于DocMind文档智能大模型。

DocMind是司马阅自研文档智能大模型，基于Transformer结构，融合深度学习、自然语言处理(NLP)和计算机视觉(CV)等技术的文档理解预训练模型，DocMind能够处理富文本文档中的复杂结构和视觉信息，提高信息抽取的准确性。

经过DocMind处理过的文档，然后通过大语言模型进行自然语言交互，相当于DocMind为大语言模型提供了更有价值的语料，最终回答精准度和实用性更高，也更适用于严肃商业应用场景。

司马阅使用链接：https://smartread.cc/

相关资讯

司马阅SmartRead：国内AI文档对话神器上线！

众所周知，如果训练模型不及时更新，AI就不具备创造新知识的能力，这也是有时大语言模型会“胡说八道”的原因。但换一个角度，如果我们使用自己挑选过的知识库，主动将自己的数据给AI，AI就会成为实实在在的超级助手。那么问题来了，您可能想问——基于ChatGPT，什么AI工具离我们的工作生活最近？试想，高频出现在我们工作、学习和生活中的东西是什么？——当然是各式各样的文档、PPT、表格！司马阅SmartRead正是基于ChatGPT产生的AI文档对话工具。你可以将司马阅SmartRead视作可以对话的“文件阅读助

大语言模型 ChatGPT

AI先锋联盟 2023-05-23

灯塔AI大模型票房预测上线算法开源持续提升预测精确度

该功能依托AI大模型完成深度学习，将票房预测准确性提升至业内新阶段。据悉，这是电影行业内首个基于AI大模型构建的票房预测产品。随着科技的进步，AI大模型的引入为票房预测的准确性提升带来了指数级的进步。“票房预…

AI大模型深度学习

DoNews 2023-08-11

近期资讯

韩33岁幸存空少恐全身瘫痪：目前正接受重症监护

12月30日消息，据媒体报道，韩国济州航空7C2216客机坠毁，仅机尾的33岁李姓空少及25岁空姐幸存。据报道，空少李某全身有5处骨折，由于他有颈神经肿胀及神经退化症状，推测后续可能会出现全身瘫

振亭 2024-12-30

铠侠VD10固态硬盘上市：2TB首发1299元最大读速10000 MB/s

快科技12月30日消息，铠侠全新消费级固态硬盘EXCERIA PLUS G4 VD10 SSD目前已上市，1TB首发799元，2TB首发1299元。据悉，EXCERIA PLUS G4 VD10搭载了铠侠的BiCS FLASH 3D闪存，使用PCIe 5.0 x

鹿角 2024-12-30

男子花33万在保时捷4S店买二手车：一年后车商只给18万

快科技12月30日消息，据报道，白先生表示，他去年在嘉兴保时捷中心购买了一辆二手保时捷Macan，花费33万多，今年想卖车时，车商只报价18万元，称车辆属于事故车。车商最开始给白先生估价25.8万

若风 2024-12-30

要买先等等！DRAM内存明年Q1降价13%

快科技12月30日消息，根据市场研究机构TrendForce的最新调查，2025年第一季度DRAM内存价格将继续下降。由于智能手机等消费型产品需求的持续萎缩，以及笔记本电脑等产品担心关税问题而提前备货

黑白 2024-12-30

iPhone 17/17 Air即将量产：这摄像头造型引发争议

快科技12月30日消息，博主定焦数码暗示，iPhone 17和iPhone 17 Air的后摄模组都是采用“条形跑道”设计，与谷歌Pixel 9系列相机DECO类似。他还透露，iPhone 17和iPhone 17 Air下个月

振亭 2024-12-30

美国一州长：选择马斯克担任部长就是因为他有钱

财联社12月30日讯（编辑马兰）马斯克出任特朗普任命的政府效率部（DOGE）部长一职颇受非议，很多政治人物乃至普通民众都担忧马斯克可能在公职与自己公司之间产生利益冲突。然而，上周日美国新

2024-12-30

反转！因"差评"怼中国玩家开发者道歉

近日，独立游戏开发者@ko_dll因在推特上抱怨其Steam游戏《BZZZT》因未添加中文而遭到中国玩家刷差评一事，引发了玩家群体的广泛讨论。他曾表示，以差评要求本地化是“敲诈勒索”行为

2024-12-30

不加长能否热销：奔驰E级标准轴距版上市起售价45.92万元

快科技12月30日消息，2025款奔驰E级标准轴距版已正式上市。该车提供E 260运动版、E 300时尚型运动版和E 300豪华型运动版三款配置，售价分别为45.92万元、51.32万元和56.42万元。新车外观和

王略 2024-12-30

武汉：确认无人驾驶交通事故责任划分！

快科技12月30日消息，武汉市人大常委会今日公布《武汉市智能网联汽车发展促进条例》，确认无人驾驶交通事故责任划分。条例指出，智能网联汽车发生道路交通安全违法行为，配备驾驶人或者随车安

朝晖 2024-12-30

2024飞猪“囤旅游”预订量同比增超20%：00后增速最快！

快科技12月30日消息，今日，飞猪发布了《2024年“囤旅游”报告》（以下简称《报告》）。《报告》显示，截至目前，2024年“囤旅游”商品预订量同比增长超20%。在2024年&ld

秋白 2024-12-30

测评各主流大模型对复杂文档处理的精确度，司马阅领先！

第1个问题：“生成式AI开发者职位中，哪三类最多，用表格呈现出来。”

第2个问题：“数字人和机器人在生成式AI开发者研究方向中分别占比是多少？”

第3个问题：“百川大模型和360智脑在开发者使用频率中分别占比”

推荐体验

相关资讯

司马阅SmartRead：国内AI文档对话神器上线！

灯塔AI大模型票房预测上线算法开源持续提升预测精确度

学用系列｜司马阅，AI文档阅读新秀，助力论文、文档智能阅读

这些工具，让 ChatGPT 如虎添翼！司马阅超好用的中国文档阅读神器！

人工智能以空前的精确度揭示了宇宙的设置，并可能解决哈勃张力

近期资讯

韩33岁幸存空少恐全身瘫痪：目前正接受重症监护

铠侠VD10固态硬盘上市：2TB首发1299元最大读速10000 MB/s

男子花33万在保时捷4S店买二手车：一年后车商只给18万

要买先等等！DRAM内存明年Q1降价13%

iPhone 17/17 Air即将量产：这摄像头造型引发争议

美国一州长：选择马斯克担任部长就是因为他有钱

反转！因"差评"怼中国玩家开发者道歉

不加长能否热销：奔驰E级标准轴距版上市起售价45.92万元

武汉：确认无人驾驶交通事故责任划分！

2024飞猪“囤旅游”预订量同比增超20%：00后增速最快！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响