资讯
2025年6月10日,来自Open Philanthropy的Lawson发表了一篇题为《思维幻象的幻象:对Shojaee等人研究的评论》的论文,对另一项声称发现了大型推理模型存在根本性缺陷的研究提出了强烈质疑。 这场学术争论不仅关乎AI技术的真实水平,而且告诉我们应该如何正确评估人工智能的能力。
2025年6月10日,OpenPhilanthropy的研究人员Lawson发表了一篇重要论文,标题为《思维幻象的幻象:对Shojaee等人研究的评论》,引发了关于大型推理模型(LRMs)推理能力的广泛讨论。这场争论不仅关乎AI技术的真实水平,更为我们如何评估人工智能的能力提供了新的视角。 推理能力崩溃的迷思 Shojaee等人的 ...
来自 Open Philanthropy 的研究员 A. Lawsen 利用 Claude Opus 为第一作者发表了一篇针锋相对的反驳论文,题为《思考幻觉的幻觉:对 Shojaee 等人 (2025) 的评论 ...
7 总结 Shojaee et al. 的结果只能表明,模型输出的 token 数量无法超过其上下文限制,程序化评估可能会同时遗漏模型能力极限和难题的不可解性,并且解答长度无法准确预测问题的难度。 这些都是宝贵的工程见解,但它们并不支持关于基本推理局限性的论断。
下面我们就来看看这篇评论性论文的具体内容。 1 引言 Shojaee et al. (2025) 声称通过对规划难题的系统评估,发现了大型推理模型(LRM)的根本局限性。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果