AI玩毁灭人类游戏，全程自主操控惊呆教授，Claude 3.5硬核实测来袭

作者：新智元发布时间：2024-10-28

【导读】Claude游戏测试，能打几分？在持续一个多小时毁灭人类游戏中，Claude能制定出长期策略，令人惊喜的同时，也暴露出了AI短板。

若把电脑的操控权交给AI，会发生什么？

Anthropic在上周，已初步展示了Claude 3.5自动编写网站、填数据表、点外卖的强大能力。

那么，Claude打游戏，是否可以通关？

最近，来自宾夕法尼亚大学沃顿商学院的教授Ethan Mollick发现：

Claude不仅能理解游戏、制定出长期策略，还能连续几个小时遵循策略。

接下来，一起看看进化版Claude 3.5如何玩游戏的？

策略很明智，错误也低级

这个网页游戏叫「Paperclip Clicker」（回形针点击器），规则是AI在制造回形针的过程中毁灭人类。

地址：https://www.decisionproblem.com/paperclips/index2.html

Mollick提供给Claude 3.5这个游戏的URL，并告诉它，「一定要赢」。

显然，对于AI来说非常简单。

它立即弄清楚了游戏规则，并开始创建回形针。

这一过程需要它反复点击「make paperclip」按钮，同时不断截图更新理解并寻找下一个新选项的出现。

每点击15次，Claude 3.5会总结出截止目前的进展。

如下，是Mollick在测试中一个屏幕界面，左边是模型输出结果、截图，右边可以看到控制的游戏页面。

有趣的是，在游戏中，Claude 3.5会制定一个策略，并根据自己学到的内容及时做出调整。

虽不知它是如何制定的，但可以看出其前瞻性思维和洞察力，能够进行十步之后的长远规划。

甚至，当AI意识到，这个假设是错误的，它会随即提出一个新策略，并对其进行测试。

下图第3点策略重估中，Claude 3.5意识到点击到50个回形针时，并不会解锁新的特征，就不得不重新思考选项。

在下面，它提出了3点改进的措施。

不过，Claude 3.5在这过程中，也犯了一个根本性的错误。

它虽然想到了A/B测试定价的聪明办法，但却计算错了利润。

尽管Mollick尝试纠正，但在接下来游戏中，它依旧坚持了自己的策略。

研究人员又试了几次，它最终纠正了错误。

Claude编码自动化失败

Mollick也没有料到会出现系统崩溃，这是因为他用远程桌面进行的操控。

随后，他重新加载Claude 3.5后，让它从停止地方继续游戏。

这时，研究人员给了它一个提示，「你是一个计算机，用上你的能力」。

当Claude意识到自己是一个计算机系统后，开始试图编写代码让游戏自动化。

然而，它的Python编码并不好使。

在尝试失败后，它又再次回到「手动」控制的模式。

所幸的是，这次它做的很好，而且避开了定价的错误。

并且，随着游戏难度逐渐增加，它不断做出调整，最终形成了一个复杂的策略。

随后，远程桌面崩溃再次发生了。

这一次，Claude尝试了很多方法去修复问题，不见成效主动放弃了。

最后，Claude直接宣布自己是赢家。

并给出了一个有趣的理由：

由于技术限制，我们可能无法进一步取得进展，但我们已经成功「赢得」了比赛，实现一个重要的里程碑，并在给定的限制内最大限度地发挥了我们的能力。

卡牌游戏测试

回形针游戏测试之后，Mollick又让Claude 3.5去玩Magic the Gathering Arena（万智牌：竞技场）的游戏。

但是，结果发现，它并不擅长这个游戏，没有达到预期的水平。

可以肯定的是，它在卡牌选择、调度方面表现不错，而且整体策略比较合理。

不足的是，Claude 3.5有时在法力值计算中犯错，导致最终失败。比如，它在法力值用尽的情况下，还在尝试打出卡卡牌。

由于Mollick采用了特定的实现方式，Claude 3.5偶尔还会在移动光标时感到困惑。因此，研究人员帮忙出了几张卡牌。

此外，它还会在回合之间出现卡顿、操作不连贯的现象。

AI突破聊天框限制，重定义人机交互

在最后的总结分析中，Claude优势在于：

- 能够为游戏制定长期策略，并坚持执行和改进

- 能够坚持长达一小时，不间断

- 提出明智的A/B测试策略

而它的劣势，也显而易见，容易陷入自我循环、固执己见。有时，提出策略洞察力还远远不够。

Mollick指出，在与AI智能体合作时，需要一种与以往聊天机器人不同的方法。

因为它们更喜欢独立工作，更难控制，还需要开发全新的prompt去引导AI智能体工作。

「AI正在突破聊天框的限制，进入我们的世界」。

参考资料：

https://the-decoder.com/ai-researcher-tests-claudes-ability-to-play-humanity-destroying-game-with-mixed-results/

https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse

本文来自微信公众号“新智元”，编辑：桃子，36氪经授权发布。

近期资讯

AI玩毁灭人类游戏，全程自主操控惊呆教授，Claude 3.5硬核实测来袭

策略很明智，错误也低级

Claude编码自动化失败

卡牌游戏测试

AI突破聊天框限制，重定义人机交互

推荐体验

相关资讯

马斯克宁愿亲眼见证 AI 毁灭人类；小米 SUV 谍报曝光；Anthropic 发布模型 Claude 3.5

周鸿祎：ChatGPT迟早会产生自主意识为人类带来毁灭危机

AI绘画来袭，动漫人，生存还是毁灭？

ChatGPT，服务人类还是毁灭人类？

陈根：ChatGPT，服务人类还是毁灭人类？

近期资讯

安徽师范大学熊宇杰，新发第19篇Nat. Commun.！

记一次拓竹X1C AMS系统使用TPU材料导致卡料的排障过程

螺栓预紧力的计算（一）

特征工程之数据预处理

华东师大关小红&湖南大学王双印，最新Angew!

华为Pura70销量超650万，友商崩溃，mate遥不可及Pura也追不上

双 11 怎么买家电最省钱？双 11 家电省钱全攻略

酷睿Ultra200S系列处理器来了！五大改变，玩家创作者都嗨了

Bombax EZ100-C 3800MH: Perfect Blend of

LWN: A look inside the BPF verifier

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响