研究：人工智能在认知障碍测试中表现不佳

作者：环球网发布时间：2024-12-21

本文转自【新华网】；

新华社北京12月21日电《英国医学杂志》最新发表的一项研究显示，在广泛用于检测阿尔茨海默病早期症状的测试中，大部分参与测试的人工智能大语言模型都表现出相当于人类轻度认知障碍的迹象。尽管这只是一项基于观察的研究，但新发现挑战了人工智能将很快取代人类医生的假设。

过去几年，人工智能尤其是大语言模型生成能力取得了巨大进步。在医学领域，这些发展引发了猜测：这些大语言模型能在医疗任务上超越人类医生吗？尽管先前的多项研究表明，大语言模型在一系列医学诊断任务上表现非常出色，但它们的认知能力变化还需要进一步验证。

为填补这一知识空白，以色列哈达萨医疗中心等机构的研究人员使用“蒙特利尔认知评估量表”测试了多个领先和公开的大语言模型的认知能力。这些大语言模型包括由美国开放人工智能研究中心（OpenAI）开发的GPT-4和GPT-4o、由美国Anthropic公司开发的“克劳德3.5”以及由美国谷歌公司开发的“双子座1.0”和“双子座1.5”。

“蒙特利尔认知评估量表”广泛用于检测认知障碍和阿尔茨海默病的早期迹象，通常用于老年人。通过一系列简短的任务和问题，该测试可以评估注意力、记忆力、语言、视觉空间技能和执行功能等能力。得分最高为30分，通常得分26分及以上被视为认知正常。

测试结果显示，GPT-4o得分最高——26分，“双子座1.0”得分最低——16分。所有大语言模型都能很好地完成命名、注意力、语言和抽象等方面的任务，但在视觉空间技能和执行功能测试中都表现不佳。在进一步的视觉空间测试中，大部分大语言模型无法准确解释复杂的视觉场景。

研究人员表示，在需要视觉抽象和执行功能的任务中，大语言模型几乎“全军覆没”，这表明人工智能在临床环境中的使用可能会有困难。因此他们开玩笑说，神经科医生不仅不太可能很快被大语言模型取代，而且他们可能会发现自己将迎来新的“虚拟患者”——表现出轻度认知障碍的人工智能模型。

相关资讯

研究：人工智能在认知障碍测试中表现不佳

推荐体验

相关资讯

AE培训，是否有ae学习的特定方法适用于认知障碍者？

印度在生成人工智能的竞赛中表现如何？

ChatGPT-4在创造力测试中表现不俗

利用人工智能测试军事认知系统

软件测试 |人工智能在软件测试中的崭新应用

近期资讯

常州达圣干燥工程取得一种盘式干燥机的加热盘专利，提高干燥效率

常州市杰洋精密机械有限公司取得烘干箱专利，提高了烘干效率

甘肃普瑞熙取得反应瓶烘干放置架专利，提高了烘干效率

南京华易泰取得一种用于LCD玻璃的干燥箱专利，提高了LCD玻璃干燥效率

沈阳创嘉科技取得种电路板烘箱专利，使电路板顶部跟底部能够均匀烘干

重庆和进机械取得变压器零部件烘干装置专利，使变压器外壳受热充分，增强烘干效果

上饶市臻宇光学取得一种镜片镀膜前处理装置专利，防止镜片刮花影响后续镀膜

浙江三禾精密机械取得轴承合金浇铸用的烘干保温装置专利，方便对轴承进行取放

青岛光线能源取得一种银镜生产用烘干装置专利，能够对银镜进行均匀烘干且排出水汽

浙江久灵笔刷取得电红外烘干设备专利，吹风效率高

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响