研究发现 OpenAI 的 GPT-4o 道德推理能力胜过人类专家

作者：动点科技发布时间：2024-06-25

OpenAI 大语言模型

近期的一项研究表明，OpenAI 最新的聊天机器人 GPT-4o 能够提供道德方面的解释和建议，且质量优于“公认的”道德专家所提供的建议。

据 The Decoder 报道，美国北卡罗莱纳大学教堂山分校和艾伦 AI 研究所的研究人员进行了两项研究，将 GPT 模型与人类的道德推理能力进行比较，以探讨大语言模型是否可被视为“道德专家”。

研究内容如下：

研究一

501 名美国成年人对比了 GPT-3.5-turbo 模型和其他人类参与者的道德解释。结果表明，人们认为 GPT 的解释比人类参与者的解释更符合道德、更值得信赖、更周到。

评估者也认为人工智能的评估比其他人更可靠。虽然差异很小，但关键发现是 AI 可以匹配甚至超越人类水平的道德推理。

研究二

将 OpenAI 最新的 GPT-4o 模型生成的建议与《纽约时报》“伦理学家”专栏中著名伦理学家 Kwame Anthony Appiah 的建议进行了比较。900 名参与者对 50 个“伦理困境”的建议质量进行了评分。

结果表明，GPT-4o 在“几乎每个方面”都胜过人类专家。人们认为 AI 生成的建议在道德上更正确、更值得信赖、更周到、更准确。只有在感知细微差别方面，人工智能和人类专家之间没有显著差异。

研究人员认为，这些结果表明 AI 可以通过“比较道德图灵测试”（cMTT）。而文本分析显示，GPT-4o 在提供建议时使用的道德和积极语言比人类专家更多。这可以部分解释为什么 AI 的建议评分更高 —— 但不是唯一因素。

需要注意的是，这项研究仅仅针对美国参与者进行，后续仍需进一步研究人们如何看待 AI 生成的道德推理的文化差异。

论文地址：https://osf.io/preprints/psyarxiv/w7236

站长之家 2024-07-02

专家也不如AI了：GPT-4o道德推理能力已比专家更强

人工智能 OpenAI

黑白 2024-06-24

OpenAI o1模型实测：“物化生”水平超人类博士？推理能力碾压GPT-4o

毫无预热的情况下，Open AI于9月13日凌晨发布了o1系列的大模型，这是传闻中内部代号为“草莓”的项目，也是OpenAI首款具备复杂推理能力的大模型。

OpenAI

2024-09-14

研究发现，人工智能语言模型在智商测试中明显胜过人类大学生

IT之家 1 月 9 日消息，2020 年 6 月，在训练约 2000 亿个单词、烧掉几千万美元后，史上最强大 AI 模型“生成型已训练变换模型 3”（GPT-3）一炮而红。这个 OpenAI 打造的语言 AI 模型宛如万能选手，只有你想不到的画风，没有它输不出的文案，既能创作文学，能当翻译，还能编写自己的计算机代码。任何外行人都可以使用这一...

人工智能 OpenAI 编程

IT之家 2023-01-09

研究发现 OpenAI 的 GPT-4o 道德推理能力胜过人类专家

推荐体验

相关资讯