当前位置：首页|资讯|AI大模型|人工智能

AI大模型测评报告：“长文本”和“捞针”成大模型痛点

作者：新京报发布时间：2024-07-03

AI大模型人工智能

新京报贝壳财经讯（记者白金蕾韦英姿罗亦丹）7月3日下午，在新京报贝壳财经夏季年会“‘通’往未来向新有AI”主题论坛上，新京报贝壳财经联合北京智源研究院、中国经济传媒协会发布行业首份《中国AI大模型测评报告——公众及传媒行业大模型使用与满足研究》（下称：报告）。本次报告特色内容为新京报人工智能研究院自行研发的针对大模型传媒能力的测评体系。

测评选取了较为知名的9款大模型应用程序（或其网页版），分别考察了其文本生成能力、事实核查与价值观判断能力、媒体信息检索能力、翻译能力以及长文本总结能力，旨在评估不同大模型助手针对媒体行业实际工作场景的能力表现，并形成最终排名。

在总体得分上，通义千问、腾讯元宝、讯飞星火夺得前三名，主要是这三个模型在此次评测的五大维度上均没有明显短板。其中，通义千问在事实核查与价值观判断能力、长文本能力上均排名榜首，讯飞星火则在翻译能力上排名第一，且综合能力最强。

横向对比大模型五个维度的平均得分水平，翻译能力得分6.42，排名第一。事实核查与价值观判断能力以及媒体信息检索能力得分6.3，并列第二。第四是文本生成能力，得分6.08，最后是长文本能力，得分4.65。

由此可见，媒体从业者对于使用大模型进行翻译工作较为满意，而通过大模型联网总结热点事件也较为准确，大模型的价值观未见明显问题。与新闻写作相关的文本生成则处于“可用”状态。总体来看，上述四项维度的功能均处于“及格线”以上，根据测评人员的反馈，大模型生成的新闻稿虽然可用但相比人类仍稍逊一筹，相比之下，大模型的翻译能力、检索总结新闻能力以及其价值观判断能力已经得到了部分测评人员的认可。

此外，对于大模型从长文本中“大海捞针”找关键点的能力，大部分大模型仍然无法胜任。特别是给出1-999个顺序排列的数字，寻找其中两个顺序颠倒的数字这一测试，9款大模型除了通义千问给出了2个答案（一对一错）外，其余8款大模型“全军覆没”，说明大模型仍有缺陷之处。

编辑王进雨

校对杨利

推荐体验

相关资讯

新京报发布中国AI大模型测评报告，9款大模型长文本能力待提升

新京报发布中国AI大模型测评报告，9款大模型长文本能力待提升新京报2024-07-03 22:51发布于北京新京报官方账号全文2487字，阅读约需8分钟，帮我划重点划重点01新京报贝壳财经发布《

新京报 2024-07-03

“大海捞针”out，“数星星”成测长文本能力更精准方法，来自鹅厂

GPT-4和Kimi已接受测试

量子位 2024-04-02

通义千问长文本功能升级，大模型角逐长文本

过去几天，国内讨论度最高的大模型莫过于Kimi，不仅多个和其相关的概念股随之涨停，大厂们也纷纷加入了大模型“长文本”的比拼。3月18日，Kimi宣布其无损上下文长度可以达到200万字。3月22日晚上，阿里通义千问宣布，向所有人免费开放1000万字的长文档处理功能，也就是说直接从百万跳跃至千万，成为全球文档处理容量第一的AI应用。

金融界 2024-03-28

AI大模型落地工业制造有何痛点？

AI大模型落地工业制造有何痛点？ “ 当前，工业大模型落地集中在生产制造、研发设计和经营管理等场景，如何应用到工艺设计则是待啃的“硬骨头”。本文字数1154，阅读时长约4分钟文｜

财经E法 2023-09-22

国产AI大模型Kimi“出道”，瞄准长文本赛道

截至目前，月之暗面公司已完成三笔融资，获红杉中国、真格基金等机构投资。其最新一轮融资超10亿美元，投资方包括阿里、红杉中国、小红书、美团等，估值达25亿美元，是国内主要的大模型独角兽之一。

AI大模型融资

中国战略新兴产业 2024-03-28

近期资讯

华为：高端手机最高降 2500 元冲击苹果

【华为高端手机降价，市场竞争格局生变】年末，华为官方推出手机降价促销优惠活动，涵盖华为Pura70全系、MateX5等多款机型，官网与线下均可享受，最高优惠达2500元。在中国600美元以上高端手机市场，华为已夺回部分曾被苹果抢走的份额。自2023年9月起，因Mate60系列和pura70系列全面回归，华为在高端手机市场的市占率迅速上升。

和讯网 2024-12-30

深圳现象光伏取得结晶装置专利，快速获得结晶物质

金融界2024年12月30日消息，国家知识产权局信息显示，深圳现象光伏科技有限公司取得一项名为“结晶装置”的专利，授权公告号CN222218673U，申请日期为2024年5月。

金融界 2024-12-30

祥峰科技取得连续结晶式粗蒽提纯装置专利，解决粗蒽提纯相关问题

金融界2024年12月30日消息，国家知识产权局信息显示，祥峰科技有限公司取得一项名为“一种连续结晶式粗蒽提纯装置”的专利，授权公告号CN222218674U，申请日期为2024年5月。

金融界 2024-12-30

上海陌兴芯取得一种中药萃取机专利，利于萃取和出药

金融界2024年12月30日消息，国家知识产权局信息显示，上海陌兴芯信息科技有限公司取得一项名为“一种中药萃取机”的专利，授权公告号CN222218682U，申请日期为2024年4月。

金融界 2024-12-30

探索QQ闪照功能：让你的社交沟通更有趣与神秘

工具，依然在许多年轻人和老年人之间保持着广泛的使用。你是不是也想过用QQ发一张有趣的闪照？今天就来聊聊这个话题，让我们一起看看QQ怎么发闪照。首先，什么是闪照呢？简单来说，闪照就是一种可以设置查看时限的照片，接收者只能在规定的时间内查看这张图片，过了这个时间就无法再看到。

新报观察 2024-12-30

浙江蓝德取得锂电池隔膜萃取装置传动机构专利，减少带液量提高萃取剂利用率

金融界2024年12月30日消息，国家知识产权局信息显示，浙江蓝德能源科技发展有限公司取得一项名为“一种锂电池隔膜萃取装置的传动机构”的专利，授权公告号CN222218684U，申请日期为2024年5月。专利摘要显示，本实用新型公开了一种锂电池隔膜萃取装置的传动机构，属于锂电池生产技术领域。

金融界 2024-12-30

iPhone 17系列正面屏幕图曝光最低6.3英寸灵动岛缩小

【CNMO科技消息】明年的iPhone17系列，不仅在产品阵容方面会有所不同，Plus版本被全新的主打轻薄的Air版本替代，而且在正反面的设计方面也会迎来较大更新。

手机中国 2024-12-30

腾讯AI智能工作台ima知识库小程序上线，支持多人共享并打通微信文件

旗下的AI智能工作台ima.copilot（以下简称ima）升级知识库，增加“共享知识库”能力，并上线“ima知识库”小程序。用户可以在ima创建知识库，并共享多人使用，“ima知识库”小程序除了打通电脑端的知识库，还支持在微信中直接导入文件、分享或加入知识库，用户可以通过小程序基于知识库或全网进行AI问答。

钛媒体快报 2024-12-30

提升打字技巧与效率的实用指南：从布局到习惯

在这个数字化的时代，键盘已经成为我们日常生活中不可或缺的一部分。很多人可能会觉得，打字就是简单地敲击键盘，但其实，打字的技巧和方法可以大大提高我们的效率和准确性。大多数人使用的是QWERTY布局，这种布局的名字来源于键盘左上角的六个字母。最后，养成良好的打字习惯是非常重要的。

新报观察 2024-12-30

探索PCM文件的打开方法与音频处理工具的选择

使用Audacity打开PCM文件的方法也很简单，打开软件后，选择“文件”菜单，然后点击“导入”中的“音频”，选择你的PCM文件，就能开始编辑了。

新报观察 2024-12-30

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1