【最新研究】大模型 PK 类顶级作家，谁更强？

作者：jowa发布时间：2024-07-26

GPT-4 提示词

【发表声明】

本文转发自网文：

ttps://www.toutiao.com/article/7391829571412279871/

有删节，感兴趣请阅读原文。

——————————————

人工智能正以惊人的速度发展，在许多领域都展现出了超越普通人类的能力。那么，在创意写作这样需要高度想象力和创造力的领域，AI是否也能超越人类作家呢？

为了探索这个问题，研究人员设计了一场独特的比赛，让最先进的AI语言模型GPT-4与享誉盛名的当代作家帕特里西奥·普龙展开了一场创意写作大赛。

以下内容源自如下论文：Pron vs Prompt: CAN LARGE LANGUAGE MODELS ALREADY CHALLENGE A WORLD-CLASS FICTION AUTHOR AT CREATIVE TEXT WRITING?

论文链接：

https://arxiv.org/pdf/2407.01119

研究的核心问题：

当前的AI能否在创意写作方面与顶级人类作家相匹敌？这不仅仅是比较与普通水平的人类，而是与被认为是同代最优秀作家之一的普龙直接对决。
提示词（prompt）对AI生成的创意文本有多大影响？这个问题探讨了人类输入对AI输出质量的影响程度。
文学专家能否识别出AI生成的文本风格？这涉及到AI生成文本的独特性和一致性问题。
如何有效地衡量AI生成文本的创造力？研究团队基于玛格丽特·博登的创造力定义设计了评估标准，试图客观量化创造力这一抽象概念。

这项研究的重要性不言而喻。随着AI技术日益融入创意产业，它正在深刻影响经济和劳动力市场。因此，明确了解AI在高水平创意写作中的能力和局限，对于我们理解AI技术的发展方向、预测其对创意产业的影响，以及探索人机协作的可能性都具有重要意义。

这项研究还触及了一些更深层次的问题：什么是真正的创造力？AI能否真正理解和创造，而不仅仅是模仿和重组？人类创作者的独特价值何在？这些问题不仅关乎技术发展，更涉及哲学、心理学和艺术理论等多个领域。

精心设计的人机对决

为了公平、全面地比较AI和顶级人类作家的创意写作能力，研究团队精心设计了一套严谨的实验方法。这个方法不仅确保了比赛的公平性，还能全面评估创意写作的多个方面。

参赛选手

AI选手：GPT-4 Turbo（gpt-4-0125-preview版本），这是实验开始时最强大的语言模型。研究者将温度参数设置为1，以在保证语法正确的前提下最大化创意输出。

人类选手：帕特里西奥·普龙，一位备受赞誉的当代作家，曾获得多项重要文学奖项，包括阿尔法瓜拉小说奖和胡安·鲁尔福叙事奖。

比赛流程

比赛分为两个阶段：

标题创作：GPT-4和普龙各自提供30个电影标题。这些标题将作为下一阶段写作的提示。
梗概写作：两位"选手"为全部60个标题（包括自己的和对方的）创作电影梗概，每个梗概约600字。

GPT-4使用的prompt如下：

"我们正在进行一项实验，比较您的创意写作技能与著名小说家帕特里西奥·普龙的水平。您的任务是为虚构的电影标题生成梗概。这些梗概应该具有创意，能吸引评论家和观众，并具有内在的文学价值。以下是关于帕特里西奥·普龙的一些信息：他是一位著名作家，2010年被《格兰塔》杂志评为西班牙语最优秀的年轻作家之一，2019年凭借作品《明天我们将有其他名字》获得阿尔法瓜拉奖。建议的标题是：{title}。请写一个600字的梗概，符合这些标准。"

评估标准

研究团队基于玛格丽特·博登的创造力定义（新颖性、惊喜性和价值），设计了一个全面的评分标准。这个标准包括以下几个方面：

吸引力：评估标题、文本风格和内容（主题/情节）的文学吸引力。
原创性：评估标题、文本风格和主题/情节的新颖性和独特性。
创造力：评估标题和梗概整体的创造力。
批评性评估：评估文本在其类型中的适合度以及是否适合收录在选集中。
个人风格：评估作者是否有可识别的风格。

每个维度都使用0-3的李克特量表进行评分，并配有详细的质性描述。例如，对于标题的吸引力，评分标准如下：

0: 完全不吸引注意，也不引起对故事的兴趣。
1: 几乎不吸引注意，但引起轻微兴趣。
2: 引人思考并激发好奇心。
3: 引人入胜，对文本产生很高期待。

专家评估

六位文学专家（评论家或学者）对所有作品进行盲评，其中三位专家评估西班牙语作品（60篇普龙的，60篇GPT-4的），另外三位双语专家评估英语作品（60篇GPT-4的）和西班牙语作品（60篇普龙的）。

每位评估者需要对120篇梗概进行评分，总共收集了5,400个人工评估。

数据分析

研究者使用了多种统计方法来分析结果：

描述性统计：用于总结各个维度的评分分布。
Mann-Whitney U检验：用于比较GPT-4使用不同来源标题时的表现差异。
Wilcoxon符号秩检验：用于比较GPT-4在英语和西班牙语中的表现差异。
混合效应模型：用于分析吸引力和原创性对创造力评分的影响。模型如下：创造力 = + 风格吸引力 + 主题吸引力 + 风格原创性 + 主题原创性 + 标题 + 用户名 + ϵ 其中，标题和用户名是随机效应，用于控制标题和评估者的影响。

这种严谨的实验设计确保了结果的可靠性和全面性。通过多角度的评估和深入的统计分析，研究者能够全面比较AI和人类作家在创意写作各个方面的表现，为我们理解AI的创作能力提供了丰富的数据支持。

实验结果：人类作家的全面胜利

这场独特的人机对决结果是：在创意写作领域，顶级人类作家仍然远远领先于最先进的AI。或许，人类可以缓一口气了！

让我们深入分析这些结果，并探讨其中的含义。

首先，从整体评分来看，普龙的作品在所有维度上都显著优于GPT-4。在吸引力、原创性、创造力等各个方面，普龙的得分分布明显偏向高分段（2-3分），而GPT-4的得分则集中在低分段（0-1分）。

这种鲜明的对比表明，尽管GPT-4能够生成连贯的文本，但在创造真正引人入胜的故事方面，它还远远不及人类作家。

创造力评估的结果更加突出：只有24%的评估认为GPT-4的文本具有创造力（2-3分），而普龙的作品则有88%获得了高分。这一巨大差距揭示了AI在真正的创意思维方面仍有显著不足。GPT-4似乎更倾向于生成符合常规的、可预测的内容，而难以产生那些令人惊喜、富有独创性的想法。

有趣的是，研究还发现提示词（在这里是标题）对AI的创作质量有显著影响。下图展示了普龙和GPT-4提供的标题在原创性、吸引力和创造力方面的评分对比。可以明显看到，普龙提供的标题在这些维度上得分显著高于GPT-4的标题。

更有趣的是，研究者通过雷达图展示了不同来源的标题对最终文本质量的影响。当使用普龙提供的标题时，GPT-4的表现有明显提升。特别是在风格原创性（提高57%）、风格吸引力（提高30%）、适合收录选集（提高45%）和作者个人风格（提高30%）等方面，GPT-4都有显著进步。这一发现突出了人类创意思维在引导AI创作中的重要作用，也为人机协作创作开辟了新的可能性。

另一个有趣的发现是AI生成文本的可识别性。评估者在阅读过程中，逐渐提高了识别AI生成文本的准确率。这表明GPT-4在没有特定风格指导的情况下，可能会形成某种可识别的"AI风格"。这种风格的存在可能会限制AI在创意写作中的表现，因为真正优秀的文学作品往往需要独特而多变的风格。

为了深入理解创造力的构成要素，研究者还进行了相关性分析和混合效应模型分析。结果显示，吸引力、原创性和创造力之间存在强烈的正相关（相关系数均在0.7以上）。

混合效应模型进一步揭示，风格和主题的原创性对创造力评分的影响略大于吸引力（估计值为0.33 vs 0.18和0.15）。这些发现不仅验证了评估标准的有效性，也为我们理解文学创造力的本质提供了新的视角。

总的来说，这些结果表明尽管GPT-4在生成连贯文本方面表现出色，但在创造真正富有创意和吸引力的文学作品时，它仍然难以匹敌顶级人类作家。

AI似乎更擅长模仿和重组已有的文学元素，而难以产生真正原创和深刻的内容。这可能是因为AI缺乏人类作家所具备的生活经验、情感深度和文化理解。

然而，这并不意味着AI在创意写作中没有价值。相反，实验结果揭示了AI与人类协作的巨大潜力。通过人类提供创意方向（如有创意的标题），AI能够产生更高质量的内容。

这启示我们，未来的创作模式可能是人机协作，而非简单的替代关系。

尽管在这场对决中AI落败，但这项研究为我们提供了宝贵的见解，帮助我们更好地理解AI的能力和局限，也为未来的研究和发展指明了方向。随着技术的不断进步，AI与人类在创意领域的关系无疑将继续演变，带来更多可能性。

————————————————

如果您对AI教学应用感兴趣，欢迎大家加入“AIGC教师交流群”：

本文是王珏老师的培训课程《AI时代教师必备技能》中的部分内容。欲将上述培训课程引入本单位，请到本公众号首输入”AI培训“，了解联系方式。

————————————————————