AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

作者：量子位发布时间：2024-11-15

测评大模型Agent能力，从未如此直观。

新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼，差距不要太明显，引来大量围观。

如果让AI不断迭代，甚至能盖出一片建筑群。

为了避免Claude团队糟糕的命名方式造成混淆，下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。

作者adi戏称其为目前“唯一可靠的评测基准”。

Aidan Bench作者Aidan McLau认为评测基准界正需要这个，审美也与智力显著相关。

他甚至愿意提供资金，把这个项目扩展成完整的评测。

总之在开源社区帮助下，代码迅速上架GitHub，更多模型测试结果陆续出炉中。

比如以慢思考著称的OpenAI o1系列，o1-preivew确实盖的更慢，但结构也更完整。o1-mini则无法胜任这个任务。

最终在人类喜好评估（2000+网友投票）中，Sonnet 3.6小赢了一手创意性。

如果不比创意比模仿真实建筑泰姬陵，o1-preview就占很大优势了。

照这个趋势下去，这款经典游戏很快就要从《别人的世界》变成《AI的世界》了……

新型MC Bench火了，竞技场模式开发中

大模型在《我的世界》里盖楼，并不是靠接管鼠标键盘，也不需要视觉理解能力。

而是通过文本提供上下文，并生成下一步操作指令，或许可以理解成根据棋盘行列编号下盲棋。

具体到游戏中，AI会控制一个角色，玩家只需要在聊天框中打字说明想要AI建造什么就可以了。

网友Mckay Wrigley制作了视频教程，在15分钟内就可以使用开源代码设置好测试环境。（地址在文末获取）

使用mineflayer开源库，可以把大模型生成的指令解析成可操作的API调用。

mindcraft开源库中则提供了适合任意模型玩《我的世界》的通用提示词，和少量in-context learning示例。

目前，MC Bench开源项目组打算进一步完善，做成类似Lmsys大模型竞技场一样的天梯机制，人类用户投票，使用Elo算法记分排名。

与此同时，更多其他模型的测试结果也在持续更新中。

近期资讯

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

新型MC Bench火了，竞技场模式开发中

更多AI作品

推荐体验

相关资讯

李国庆：阅读是一种审美享受，ChatGPT替代不了

把NB写在脸上：AI在玩一种很新的艺术

AI绘画版权归属的一种可能

AI版“Instagram”上线，Butterflies在玩一种很新的AI社交|AI新榜

大模型时代，利用小模型实现场景创新也是一种新思路

近期资讯

辽宁佰隆日盛建筑工程有限公司取得防止架体外倾的脚手架装置专利，使得该脚手架的防侧倾性能得到提升

Meta将于2025年前期于短视频平台Threads推出广告

数据要素跨境流动人工智能

苹果 App Store Connect 新增“精选提名”

Android 16通知与快速设置或迎重大调整单指操作回归

内蒙古电力（集团）有限责任公司呼和浩特供电分公司取得变压器检修用支撑装置专利，方便支撑装置的快速搭建

一加13R通过认证或搭载骁龙8至尊版+6000mAh电池

盐田：40多项前沿产品技术亮相

Meta 社交平台Threads商业化新进程：明年试点在信息流中投放广告

技嘉M27QA ICE显示器发布配备27英寸、180Hz高刷屏

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响