当前位置：首页|资讯|GPT-4

大模型总结摘要靠谱吗？比人类写的流畅，用GPT-4幻觉还少

作者：机器之心发布时间：2023-09-20

文本摘要，作为自然语言生成（NLG）中的一项任务，主要用来将一大段长文本压缩为简短的摘要，例如新闻文章、源代码和跨语言文本等多种内容都能用到。

随着大模型（LLM）的出现，传统的在特定数据集上进行微调的方法已经不在适用。

我们不禁会问，LLM 在生成摘要方面效果到底如何？

为了回答这一问题，来自北京大学的研究者在论文《 Summarization is (Almost) Dead 》中进行了深入的探讨。他们使用人类生成的评估数据集评估了 LLM 在各种摘要任务（单条新闻、多条新闻、对话、源代码和跨语言摘要）上的表现。

在对 LLM 生成的摘要、人工撰写的摘要和微调模型生成的摘要进行定量和定性的比较后发现，由 LLM 生成的摘要明显受到人类评估者的青睐。

接着该研究在对过去 3 年发表在 ACL、EMNLP、NAACL 和 COLING 上的 100 篇与摘要方法相关的论文进行抽样和检查后，他们发现大约 70% 的论文的主要贡献是提出了一种总结摘要方法并在标准数据集上验证了其有效性。因此，本文表示「摘要（几乎）已死（ Summarization is (Almost) Dead ）」。

尽管如此，研究者表示该领域仍然存在挑战，例如需要更高质量的参考数据集、改进评估方法等还需要解决。

论文地址：https://arxiv.org/pdf/2309.09558.pdf

方法及结果

该研究使用最新的数据来构建数据集，每个数据集由 50 个样本组成。

例如在执行单条新闻、多条新闻和对话摘要任务时，本文采用的方法模拟了 CNN/DailyMail 、Multi-News 使用的数据集构建方法。对于跨语言摘要任务，其策略与 Zhu 等人提出的方法一致。关于代码摘要任务，本文采用 Bahrami 等人提出的方法。

数据集构建完成之后，接下来就是方法了。具体来说，针对单条新闻任务本文采用 BART 和 T5 ；多条新闻任务采用 Pegasus 和 BART；T5 和 BART 用于对话任务；跨语言任务使用 MT5 和 MBART ；源代码任务使用 Codet5 。

实验中，该研究聘请人类评估员来比较不同摘要的整体质量。结果如图 1 所示，LLM 生成的摘要在所有任务中始终优于人工生成的摘要和微调模型生成的摘要。

这就提出了一个问题：为什么 LLM 能够胜过人类撰写的摘要，而传统上人们认为这些摘要是完美无缺的。此外，经过初步的观察表明，LLM 生成的摘要表现出高度的流畅性和连贯性。

本文进一步招募注释者来识别人类和 LLM 生成摘要句子中的幻觉问题，结果如表 1 所示，与 GPT-4 生成的摘要相比，人工书写的摘要表现出相同或更高数量的幻觉。在多条新闻和代码摘要等特定任务中，人工编写的摘要表现出明显较差的事实一致性。

人工撰写的摘要和 GPT-4 生成摘要中出现幻觉的比例，如表 2 所示：

本文还发现人工编写的参考摘要存在这样一个问题，即缺乏流畅性。如图 2 (a) 所示，人工编写的参考摘要有时存在信息不完整的缺陷。并且在图 2 (b) 中，一些由人工编写的参考摘要会出现幻觉。

本文还发现微调模型生成的摘要往往具有固定且严格的长度，而 LLM 能够根据输入信息调整输出长度。此外，当输入包含多个主题时，微调模型生成的摘要对主题的覆盖率较低，如图 3 所示，而 LLM 在生成摘要时能够捕获所有主题：

由图 4 可得，人类对大模型的偏好分数超过 50%，表明人们对其摘要有强烈的偏好，并凸显了 LLM 在文本摘要方面的能力：

本文来自微信公众号“机器之心”（ID:almosthuman2014），编辑：陈萍，36氪经授权发布。

推荐体验

相关资讯

OpenAI 推出 GPT-4 大型语言模型诸多测试中表现比人类都好

GPT-4 可以更准确地解决你的难题，多模态的 GPT-4 还可以生成、编辑具有创意性或技术性的文章，在高级推理方面的表现超过其前辈（当前公开版 ChatGPT 基于 GPT-3.5）。当然，正如大家所猜测的那样，微软 New Bing 的聊天功能确实基于 GPT-4。此外，该公司正在与合作伙伴 Be My Eyes 一起测试 GPT-4 的图像输入能力（注：Be My Eyes 是一款即将推出的智能手机 App，可以识别场景并对其进行描述，类似于大家常见的 AI 识图的加强版）。除了介绍网站，OpenA

OpenAI 微软 GPT-4 ChatGPT

靛酊嬭翊 2023-03-15

GPT-4 比人更像人

测试了一下GPT-4的语言模仿能力。 GPT-4作为最新的大型语言生产模型总结下来给我的感受就是震撼。首先我给AI输入了少前里的G11的语音文案和设定，因为G11的性格很简单，易于模仿。然后首先开始日常对话。GPT-4完全理解了我输入的要求以及资料，并且会创造一些我没有输入给他的动作和想法，全靠AI自己理解得出的。AI会主动输出要求，问询我的意见并作出反应，并且整一段对话的时间点，动作，语气，都具有非常高的连贯性，语言和动作都极其生动立体，有创造性并且符合设定，仿佛和我对话的就是真正的G11。但是也

-只会漂移- 2023-04-18

OpenAI 推出 GPT-4 大型语言模型：在诸多测试中比人类表现更好

IT之家 3 月 15 日消息，Open-AI 刚刚公布了其大型语言模型的最新版本 ——GPT-4。GPT-4 可以更准确地解决你的难题，GPT-4 还可以生成、编辑具有创意性或技术性的文章，而且 G

IT之家 2023-03-15

AI可能比人更会炒股？最新研究：GPT-4比人类更擅长金融分析和预测

根据芝加哥大学布斯商学院的最新报告称，OpenAI的GPT-4在金融分析和预测方面的能力，可能比人类更优秀，基于其预测的多空策略表现也能跑赢大盘。“即使没有任何叙述或行业特定信息，大语言模型在预测盈利变化方面…

GPT-4 金融 OpenAI 大语言模型

大河财立方 2024-05-29

用AI写论文靠谱吗？

AI写作工具在毕业论文写作中受到欢迎，但人们对其质量和可靠性存在争议。这些工具通过深度学习和自然语言处理技术，能够在短时间内生成大量文本内容，提高了写作效率。然而，AI生成的文本可能存在质量不高和缺乏独创性等问题，进而影响毕业论文的学...

AI写作深度学习

鸡汤铺盖面 2024-04-07

近期资讯

贵州成为世界特大峡谷桥最密集、数量最多的地区

主要围绕助力桥隧科技持续发展，推进数字化、智能化技术在桥隧和交通领域的应用，共同探讨桥隧科技创新，弘扬桥梁文化，提升桥隧产业核心竞争力等议题展开讨论。期间，将举办“2023-2024年度十大桥梁人物”颁奖仪式和“杰出桥梁工匠”、“华纤杯“桥梁摄影大赛、“2024桥隧技术及产品创新大赛”等活动。”

贵阳网 17小时前

台风扎堆了？22号银杏将转弯，23号桃芝、24号万宜生成预警

今年22号台风银杏还未消失，23号台风桃芝，24号台风万宜生成预警也来了，真的是扎堆出现了，为什么会出现这样的情况？但是对于海洋区域来说，依然是暖水池较多，大范围地区都是在26度以上，加上副热带高压腾出了空间，这也为台风的发展提供了一定的条件。

环球科学猫 17小时前

西门子医疗：七赴进博会以全价值链践行“本土创新”|进博时间

沈建缘/文第七届进博会期间，西门子医疗集中展示了近20款前沿科技产品与多元解决方案，其中近10款为首发首展新品。累计推出超过120款本土制造的产品，全面实现了影像设备产品线的国产化，并将供应链本土化率提升至80%以上。

经济观察报 18小时前

金闪闪百式改造，不一样的细节，不一样的背包！

2024来稿有奖，奖励升级，欢迎大家投稿拿奖！《Hobbyss高达模型》，请大家尊重公众号的作者、编辑、翻译，请勿亵渎他们辛苦付出的汗水和努力，对于本公众号的原创文章，若需要转载权，请及时联系本公众号运营人员。

Hobbyss高达模型 17小时前

华夏银行长春分行积极推进“大数据春潮行动”

为助力数字化转型，推动“精准营销、智慧经营、智能风控、依法合规”四大数据应用场景深入落地，2022年，华夏银行在全行范围内启动了“大数据春潮行动”，华夏银行长春分行积极响应总行号召，认真落实“大数据春潮行动”工作部署，将数字化场景应用到内部管理及外部营销领域，有效提升了全行的数据应用能力，为业务发展注入了新的活力。

中国吉林网 18小时前

广州国际灯光节今晚开幕必看亮点与交通指南→

2024年广州国际灯光节开幕在即，一场以“活力湾区·新彩广州”为主题的光影盛宴即将上演。从11月9日至11月18日，36组灯光装置将以“人工智能”为笔，将科技感与未来感融入城市景观，展现广州在数字经济和人工智能领域的成就，也融合体育元素与艺术创作，体现这座城市独有的创新精神和文化魅力。

新快报 17小时前

为什么，任天堂从来不是一家「游戏公司」？

而任天堂下一代主机还只有一个模糊的影子，今年夏天的财报会议上，任天堂现任总裁古川俊太郎表示，计划在2025年3月之前公布新主机的信息。从「闹钟」，到「音乐App」，还有今年秋季刚刚开放的博物馆……有人提出怀疑，任天堂还是一家游戏公司吗？

极客公园 17小时前

进博会上沪港同台话AI 沪港人工智能创新论坛举办

她期望通过本次论坛，激发更多跨界融合的灵感火花，推动香港科技大学与临港集团在人工智能领域的合作迈向新高度，向更加智能、可持续的未来迈进。圆桌论坛环节，漕河泾管理公司总经理助理孙唯、星环科技AIGC产品市场负责人何韵秋、罗克韦尔自动化战略解决方案专家董鹏、MateZLab创始人兼创意总监杨景欣，围绕链接全球AI布局产业高地进行分享交流。

中国证券报 17小时前

小米电视S75 Mini LED：以旧换新，超高性价比打造家庭影院新时代

小米（MI）作为智能家电领域的佼佼者，始终致力于通过技术创新为消费者带来更优质的产品。小米电视S75MiniLED就是这样一个典范，它凭借卓越的画质、流畅的智能体验以及贴心的以旧换新政策，成为了众多家庭升级换代的首选。

小米地瓜 17小时前

GE医疗推出首个大语言模型产品，医疗设备领域的ChatGPT，能解决临床多少问题？

《2023医疗健康AI大模型行业研究报告》显示，截至2023年10月，国内累计公开的大模型数量达到238个，其中，医疗大模型近50个，涉及患者问诊、医生助手、药物研发、健康科普等多个领域。GE医疗中国首席数字官黄峰在接受时代财经等多家媒体采访时表示，2022年年底一系列大语言模型亮相，掀开了人工智能大模型的发展热潮。

时代周报 17小时前

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2024 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1