Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了309,799,199字

该文章投稿至Nemo社区资讯板块复制链接

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

发布于 2024/09/28 15:12 94浏览 0回复 1,919字

o1-preview 终于赢过了 mini 一次！亚利桑那州立大学的最新研究表明，o1-preview 在规划任务上，表现显著优于 o1-mini。

相比于传统模型的优势更是碾压级别，在超难任务上的准确率比 Llama3.1-405B 高了 11 倍。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

要知道之前，OpenAI 自己人也发了一张图，显示 preview 论性能比不过满血版，论经济性又不如 mini，处于一个十分尴尬的地位。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

作者在推文中表示，尽管存在可保证性和成本问题，但仅针对 CoT 而言，o1 已经超越了大模型的“近似检索”性质，提升到了“近似推理”层次。

并且在论文中，o1 全程被称作 LRM（Large Reasoning Model，大型推理模型），而非一般大型语言模型的 LLM。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

o1 团队的核心成员 Noam Brown 也转发了这项研究，顺便给 o1-preview 打了个 call。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

还有网友翻出了隔壁 Meta 的 LeCun 半个多月前的推文，当时 LeCun 说大模型没有规划能力，结果现在 OpenAI 就带着 o1 来踢馆了。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

用“搭积木”测试大模型

为了评估 o1 系列模型的规划能力，作者使用了 PlanBench 评估基准。

该基准的提出者中也正好包含了本文三名作者中的两名 —— 共同一作 Karthik Valmeekam，以及他的导师 Subbarao Kambhampati。

PlanBench 专门为评估大模型规划能力而设计，任务类型涵盖了计划生成、成本最优规划、计划验证等。

具体到这个实验，作者使用了其中来自于国际规划竞赛（IPC）的 Blocksworld 和其变体。

此类问题涉及在桌子上堆叠积木块，目标是从一个初始状态，重新排列到目标配置。

木块用不同的颜色标识，一次只能移动一个积木块，且只能移动每一堆中顶部的积木块，被拿起的积木块也只能放在顶部或直接放在桌子上。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

变体 Mystery Blocksworld 则是在 Blockworlds 的基础上加入混淆机制，用一些毫不相干的词语来代替操作中的动作。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

在此基础之上，还有更为复杂的全随机变体，指令进一步从其他英文单词变成了无意义的字符串。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

在 o1 之前，Blockworlds 上的 SOTA 模型是 Llama3.1-405B，成绩为达到 62.6%，而在 Mystery Blockworlds 上，没有任何模型的成绩能超过 5%。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

o1-preview 超强规划

o1 这边的测试结果显示，preview 相比 mini，成绩优势十分明显。

在 Blockworlds 任务上，preview 版准确率达 98%，而 mini 只有 56.6%，表现还不如 llama。

当然加入了混淆之后，mini 相比于 llama 也显示出了一些优势 ——

在零样本配置下，preview 版的准确率超过了一半，比 llama 的 4.3% 高出了 11 倍多；mini 版也达到了 19.1%，比 llama 高 3.4 倍。

最后在全随机版本下，o1-preview 还能拥有 37.3% 的准确率。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

以上结果显示出了 o1 系列模型，特别是 o1-preview 的超强规划能力，但是不足之处也十分明显。

一是随着规划长度的增加，模型的性能也会迅速下降，即使对于未混淆的 Blockworlds 来说也同样如此。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

另外，Blockworlds 系列问题并非全部可解，作者发现 o1 在识别不可解问题上的准确率依然存在不足。

对于未混淆版本准确率只有 27%，但没有误判为不可解的情况；对于全随机版本则只有 16%，另外还有 11.5% 的概率将可解问题误判为不可解。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

甚至作者还发现，o1 有时也会狡辩，提出令人信服的合理理由，让人们相信其错误答案。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

在模型本身的性能之外，成本和时间消耗也是一个重要考量，相比于传统大模型，o1-mini 的成本相比 GPT4-Turbo 直接翻番，preview 更是高出了数量级。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

那么，如果你是开发者，会愿意为了 o1 的高性能付出更多的成本吗？欢迎评论区交流。

论文地址：

https://arxiv.org/abs/2409.13373

参考链接：

https://x.com/rao2z/status/1838245261950509170

本文来自微信公众号：量子位（ID：QbitAI），作者：克小西

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/799/106.htm]

点了个评