-
o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回
o1-preview终于赢过了mini一次!亚利桑那州立大学的最新研究表明,o1-preview在规划任务上,表现显著优于o1-mini。相比于传统模型的优势更是碾压级别,在超难任务上的准确率比Llama3.1-405B高了11倍。要知道之前,OpenAI自己人也发了一张图,显示preview论性能比不过满血版,论经济性又不如mini,处于一个十分尴尬的地位。作者在推文中表示,尽管存在可保证性和成94 0 2024-09-28 15:12
-
OpenAI o1 AI 模型 PlanBench 规划能力实测:准确率 97.8%,远超 LLaMA 3.1 405B 创造的 62.6% 纪录
IT之家9月25日消息,来自亚利桑那州立大学的科研团队利用PlanBench基准,测试了OpenAIo1模型的规划能力。研究结果表明o1模型取得了长足的进步,但仍然存在很大的局限性。PlanBench基准简介PlanBench开发于2022年,用于评估人工智能系统的规划能力,包括600个来自Blocksworld领域的任务,其中积木必须按照特定顺序堆叠。OpenAIo1模型成绩在Blockswor83 0 2024-09-25 12:24
-
o1 核心作者 MIT 演讲:激励 AI 自我学习,比试图教会 AI 每一项任务更重要
“o1发布后,一个新的范式产生了”。其中关键,OpenAI研究科学家、o1核心贡献者HyungWonChung,刚刚就此分享了他在MIT的一次演讲。演讲主题为“Don’tteach.Incentivize(不要教,要激励),核心观点是:激励AI自我学习比试图教会AI每一项具体任务更重要思维链作者JasonWei迅速赶来打call:HyungWon识别新范式并完全放弃任何沉没成本的能力给我留下了深刻71 0 2024-09-21 14:48
-
OpenAI 再成“榜一大哥”:o1-preview AI 模型更轻松驾驭数学、编程等任务
IT之家9月20日消息,科技媒体TheDecoder昨日(9月19日)发布博文,报道称在聊天机器人竞技场(ChatbotArena)上,OpenAI的新人工智能模型o1-preview和o1-mini问鼎榜首。聊天机器人竞技场简介聊天机器人竞技场是一个比较人工智能模型的平台,它利用6000多个社区评分对新的OpenAI系统进行了评估。结果结果显示,o1-preview和o1-mini尤其在数学任务88 0 2024-09-20 10:33
-
陶哲轩提前实测满血版 OpenAI o1:能当研究生使唤
原来早在8月份,陶哲轩就已经用上了OpenAIo1。还是现在大家都用不上的满血版本(眼泪不争气地从嘴角流出来)。提前批大佬是怎么玩最新天花板的呢?他向o1模型提出一个措辞模糊的数学问题,发现它竟然能成功识别出克莱姆定理。而且答案是“完全令人满意的”那种。当然,陶哲轩还做了一些其它测试,测下来总体体验就是:比以前的模型更牛,多堆点提示词表现还不错,但仍然会犯不小的错误,也没有产生啥自己的思想。陶哲轩75 0 2024-09-16 18:54
-
OpenAI o1 模型登场:开启 AI 通用复杂推理新篇章,国际奥数正确率 83%
感谢IT之家网友HH_KK、华南吴彦祖、Lau37、软媒新友2203184、乌蝇哥的左手、代号685、USER的线索投递!IT之家9月13日消息,OpenAI传闻中的“草莓”(Strawberry)AI模型现已面世,正式名称为“o1”,是该公司首款具备“推理”能力的模型。o1 和 o1-miniOpenAI表示对该模型进行特殊训练,能够比人类更快地回答更复杂的问题。与之同时发布107 0 2024-09-13 07:00