【太平洋科技快讯】近日,亚利桑那州立大学的研究团队对OpenAI的o1模型进行了一项规划能力测试,显示在Blocksworld任务中的准确率高达97.8%,远超之前的最佳语言模型LLaMA 3.1 405B,后者准确率为62.6%。这一成绩显示出o1模型在特定任务中的显著进步。
此次测试采用的PlanBench基准于2022年开发,旨在评估人工智能系统的规划能力。测试包含600个来自Blocksworld领域的任务,要求按特定顺序堆叠积木。
在更具挑战性的“Mystery Blocksworld”加密版本任务中,o1模型的准确率降至52.8%。在一种新的随机变体测试中,准确率进一步降至37.3%,尽管如此,仍优于其他模型。
随着任务复杂度的提升,o1模型的性能显著下滑。在需要20至40个规划步骤的任务中,其准确率从97.8%降至23.63%。
o1模型在识别无法解决的任务方面存在困难,仅27%的时间能正确识别。在54%的情况下,模型错误地生成了完整但无法完成的计划。
尽管o1模型在基准性能上有所改进,但研究人员指出,其高运行成本(近1900美元[约合人民币:13342元])以及无法保证解决方案的正确性,是其在实际应用中需要考虑的问题。相比之下,传统规划算法在标准计算机上运行几乎无需成本。