“大海捞针”out，“数星星”成测长文本能力更精准方法，来自鹅厂

作者：量子位发布时间：2024-04-02

GPT-4

大模型长文本能力测试，又有新方法了！

腾讯MLPD实验室，用全新开源的“数星星”方法替代了传统的“大海捞针”测试。

相比之下，新方法更注重对模型处理长依赖关系能力的考察，对模型的评估更加全面精准。

利用这种方法，研究人员对GPT-4和国内知名的Kimi Chat进行了“数星星”测试。

结果，在不同的实验条件下，两款模型各有胜负，但都体现出了很强的长文本能力。

△

那么，“数星星”究竟是怎样的一种测试呢？

比“大海捞针”更加精准

首先，研究人员选择了一段长文本做为上下文，测试过程中长度逐渐递增，最大为128k。

然后，根据不同的测试难度需求，整段文本会被划分成N段，并向其中插入M个包含“星星”的句子。

实验过程中，研究人员选择了《红楼梦》作为上下文文本，向其中加入了“小企鹅数了x颗星星”这样的句子，每个句子中的x都各不相同。

然后，模型会被要求找到所有这样的句子，并以JSON格式输出其中所有的数字，且只输出数字。

得到模型的输出之后，研究人员会将这些数字和Ground Truth进行对比，最终计算出模型输出的正确率。

相比于之前的“大海捞针”测试，这种“数星星”的方法更能体现出模型处理长依赖关系能力。

简而言之，“大海捞针”中插入多个“针”就是插入多个线索，然后让大模型找到并串联推理多个线索，并获得最终答案。

但实际的“大海捞多针”测试中，模型并不需要找到所有“针”才能答对问题，甚至有时只需要找到最后一根就可以了。

但“数星星”则不同——因为每句话中“星星”的数量都不一样，模型必须把所有星星都找到才能把问题答对。

所以，虽然看似简单，但至少在多“针”任务上，“数星星”对模型长文本能力有着更为精准的体现。

那么，有哪些大模型最先接受了“数星星”测试呢？

GPT-4与Kimi难分高下

参加这场测试的大模型分别是GPT-4和国内以长文本能力而知名的大模型Kimi。

在“星星”数量和文本粒度均为32时，GPT-4的准确率达到了96.8%，Kimi则有86.4%。

但当“星星”增加到64颗时，Kimi则以93.1%的准确率超过了准确率为89.7%的GPT-4.

减少到16时，也是Kimi的表现略胜于GPT-4。

而划分的颗粒度也会对模型的表现造成一些影响，在“星星”同样出现32次时，颗粒度从32变为16，GPT-4的成绩有所上升，而Kimi则有所下降。

需要注意的是，在以上的测试中，“星星”的数量是依次递增的，但研究人员很快发现，这种情况下大模型很喜欢“偷懒”——

当模型发现星星数量是递增的的时候，即使区间内的数字是随机生成，也会引起大模型的敏感度增加。

例如：模型对3、9、10、24、1145、114514这样的递增序列会比24、10、3、1145、9、114514更加敏感

所以，研究人员又特意将数字的顺序进行了打乱，重新进行了一次测试。

结果在打乱之后，GPT-4和Kimi的表现都出现了明显下降，不过准确率仍在60%以上，两者相差8.6个百分点。

One More Thing

这个方法的准确性可能还需要时间检验，但不得不说名字起得真的很有一手。

△

网友也不禁感叹，现在关于大模型的研究，真的是越来越魔幻了。

但魔幻的背后，也体现出人们对于大模型长语境处理能力和性能的了解还不够充分。

就在前些天，先后有多家大模型厂商宣布推出能够处理超长文本的模型（虽然不全是基于上下文窗口实现），最高可达上千万，但实际表现还是未知数。

而Counting Stars的出现，或许正好有助于我们了解这些模型的真实表现。

那么，你还想看看哪些模型的测试成绩呢？

论文地址：https://arxiv.org/abs/2403.11802GitHub：https://github.com/nick7nlp/Counting-Stars

本文来自微信公众号“量子位”（ID:QbitAI），作者：关注前沿科技，36氪经授权发布。

近期资讯

中国人民大学管理学硕士徐嘉祥：浅谈企业如何进行差异化营销

网友：您好，非常感谢您抽出时间接受我们的采访。首先，请您简单介绍一下自己在市场营销领域的经历吧。徐嘉祥：你好，我从事市场营销工作已经超过十几年了。最初从基层的市场专员做起，参与过多个品牌的推广活动策划与执行，后来逐步晋升到市场经理、营销总监等职位，涉及的行业包括耐消品、科技、金融等，在不同的市场环境和产品类型中积累了较为丰富的经验。网友：在您看来，当下市场营销环境和过去相比，最大的变化是什么？徐嘉祥：变化非常显著。首先是数字化的全面渗透，互联网和移动技术让信息传播变得前所未有的迅速和广泛，消费者获取

徐嘉祥 2024-12-25

Adobe Camera Raw 17.1RAW图像处理插件（附安装包）

Adobe Camera Raw (ACR) 是一款专为摄影师设计的强大RAW文件编辑工具，集成在Adobe Photoshop和Lightroom中。最新版本17.1不仅修复了多项性能问题，还引入了一系列令人振奋的新功能和优化，帮助用户更高效地处理RAW图像，实现卓越的照片效果。 [图片] 主要特点色彩校正：提供丰富的色彩调整选项，包括色温、色调、曝光等，确保每一张照片都能达到最佳色彩表现。细节增强：通过先进的降噪技术和锐化工具，保留更多细节，使图像更加清晰锐利。镜头校正：自动检测并校正镜头畸变

办文绿软 2024-12-25

辣车TV 2024-12-25

浙江各地市光资源逐月辐照量数据查询

本文数据来源于：光储圈一、前言光资源，是太阳能光伏领域的核心要素。充足、稳定的光照条件，意味着光伏电站能够更高效地将太阳能转化为电能，提高发电效率、增加电力产出，给企业带来更低的用能成本，给投资者创造可观的经济收益。二、浙江各地市光照资源输入本文数据来源于光储圈，数据仅供参考：1）杭州0度倾角的光资源数据：2）湖州0度倾角的光资源数据：3）嘉兴0度倾角的光资源数据：4）金华0度倾角的光资源数据：5）丽水0度倾角的光资源数据：6）宁波0度倾角的光资源数据：7）衢州0度倾角的光资源数据：8）绍兴0度倾角的光资

光储圈小蜜蜂 2024-12-25

统一「瓶中树」产品的创新与环保特性

土壤，作为农业生产的基础，其重要性不言而喻。它孕育了无数的作物，从根茎到果实，无一不依赖于肥沃的土壤。正是土壤的默默奉献，才保障了我们的粮食安全和农业生产的稳定。可以说，没有健康的土壤，就没有丰收的希望。土壤不仅是我们获取食物的源泉，更是一个重要的“碳汇”或“碳源”。在自然界中，植物通过光合作用吸收二氧化碳并释放氧气，从而维持大气中二氧化碳和氧气的平衡。而土壤中的微生物也参与这一过程，它们分解有机物，释放或吸收二氧化碳。因此，健康的土壤有助于减少温室气体的排放，维护全球的生态平衡。此外，土壤还含有多种矿

来聊科技 2024-12-25

第四代CS75PLUS Ultra上市搭配最强2.0T发动机

日前，长安汽车在新疆发布了第四代CS75PLUS Ultra新车，共推出两个版本，官方指导价13.19-13.99万元，并同时发布多项重磅购车权益。，包括置换权益：至高置换补贴15000元（本品15000元，非本品14000元）；保养权益：1599元享价值8888元终身免费基础保养；金融权益：享至高7000元金融贴息支持（3年5万0利息，2年6万0利息）；流量权益：基础流量终身免费，娱乐流量3年免费(4G/月)。这是两款款搭载新蓝鲸2.0T高压直喷发动机的版本，加上今年9月发布的两款1.5T版本，目前第四

辣车TV 2024-12-25

天神之眼无图城市领航开通，全国都能开，比亚迪稳居智驾第一梯队

从昨天开始，相信大家都陆续刷到了比亚迪高阶智能驾驶辅助系统“天神之眼”在全国范围内正式开通无图城市领航（CNOA）功能的消息，来聊聊我的看法。对于广大迪粉来说，这无疑是个好消息，这意味着腾势、仰望车型用户的高阶智驾不再局限于部分城市，而是“全国都能开，有路都好开”，哪怕是乡村小道它都能搞定，享受高阶智驾带来的乐趣。而对于比亚迪来说，这次CNOA开通，意义更为重大，至此之后，比亚迪天神之眼实力稳居行业第一梯队，也可以让那些质疑比亚迪的黑粉们闭嘴了。可能你会问，此次全国开通的城市领航功能，有什么不同

海评 2024-12-25

岳冉RFID读写器分体式和一体式各自技术特点和区别

在RFID技术日益发展的今天，上海岳冉RFID推出了多款优质的RFID读写器产品，其中包括超高频分体式读写器和一体式读写器。这两种读写器各具特色，能够满足不同行业和应用场景的需求。 [图片] 一、岳冉超高频RFID分体式读写器的功能特点岳冉的超高频分体式RFID读写器最大特点在于其读写模块与天线的分离设计，这种设计使得天线可以根据实际环境需要，放置在最佳位置，而读写模块则可以根据实际需要安置在距离较远的地方。这种分离式设计不仅提高了系统的灵活性，还显著扩展了读写范围，使其特别适合于大型仓

上海岳冉RFID 2024-12-25

“大海捞针”out，“数星星”成测长文本能力更精准方法，来自鹅厂

比“大海捞针”更加精准

GPT-4与Kimi难分高下

One More Thing

推荐体验

相关资讯

AI大模型测评报告：“长文本”和“捞针”成大模型痛点

RAG+GPT-4 Turbo让模型性能飙升，更长上下文不是终局，「大海捞针」实验成本仅4%

长文本能力超越常规10倍，Kimi概念接棒AI热度

百度即将免费开放200万-500万长文本能力

长文本能力哪家强？四款AI大模型的横向测试

近期资讯

中国人民大学管理学硕士徐嘉祥：浅谈企业如何进行差异化营销

Adobe Camera Raw 17.1RAW图像处理插件（附安装包）

统一精准把握市场，开启绿色发展新征程

2025医械最大IPO终于要来了？

领克明年将推首款大型插混SUV 内部代号L946

浙江各地市光资源逐月辐照量数据查询

统一「瓶中树」产品的创新与环保特性

第四代CS75PLUS Ultra上市搭配最强2.0T发动机

天神之眼无图城市领航开通，全国都能开，比亚迪稳居智驾第一梯队

岳冉RFID读写器分体式和一体式各自技术特点和区别

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响