在更具寻衅性的“Mystery Blocksworld”加密版本中,传统模型险些全部失落败,而 OpenAI 的 o1 模型准确率达到 52.8%。
IT之家附上报告图片如下:

研究职员还测试了一种新的随机变体,以打消 o1 的性能可能源于其演习集中的基准数据。
在这次测试中,O1 的准确率降至 37.3%,但仍远远超过了得分靠近零的其它模型。

方案步骤越多,性能低落越明显

随着任务越来越繁芜,o1 的表现也急剧低落。
在须要 20 到 40 个方案步骤的问题上,o1 在较大略测试中的准确率从 97.8% 低落到只有 23.63%。

该模型在识别无法办理的任务方面也很吃力,只有 27% 的韶光能够精确识别。
在 54% 的情形下,它缺点地天生了完全但不可能完成的操持。

OpenAI o1模型PlanBench筹划能力实测准确率978

“Quantum improvement”,但并非打破性

虽然 o1 在基准性能上实现了“量子改进”(Quantum improvement),但它并不能担保办理方案的精确性。
如快速向下算法等经典的方案算法,可以在更短的打算韶光内实现完美的准确性。

研究还强调了 o1 的高资源花费,运行这些测试须要花费近 1900 美元,而经典算法在标准打算机上运行险些不须要任何本钱。

研究职员强调,对人工智能系统进行公正比较必须考虑准确性、效率、本钱和可靠性。
他们的研究结果表明,虽然像 o1 这样的人工智能模型在繁芜推理任务方面取得了进步,但这些能力还不足强大。

由媒体 The Decoder 利用 Midjourney 天生