实测OpenAI新模型o1 ：做题王者，实战青铜

09-14 247阅读 17评论

今日清晨，OpenAI发布了o1系列模型，最大的特点是拿手推理。

模型的才能，一代比一代强，咱们的测评，一次比一次难做。测评变成一件“毕恭毕敬”的工作，生怕提不出好问题（难不倒它），在让它推理之前，咱们自己的脑子就快烧没了。

最重要的原因是：咱们想知道，被寄予厚望的新一代模型，有没有使用到实践日子中的推理才能？以及要怎样测出这样的才能？

秉承着这个主意，咱们规划了一套检测o1-preview归纳才能的“考卷”。

省流版定论如下：它拿手做题、搞研讨，更像一个合适待在实验室的高材生，你现在还不能盼望它成为日子里的帮手。

热身：数学与逻辑才能强，速度还不慢

发布会的数据咱们看了许多，尤其是新一代o1在各项任务上的评分，都有超乎以往的表现。比方OpenAI的官方文档里，特别说到在AIME数学竞赛的考试中，o1都能获得不错的表现。

快速查了一下，这个AIME竞赛，考题长这样：

原题张贴曩昔，看看究竟是怎样个超强表现。o1-preview反响很敏捷，上手就开端解题了。

比照一下官方答案，完全正确。反响时刻也比估计的快，仅仅考虑进程并不是默许翻开。

所以除非手动下拉，否则从用户的观感上看，它便是自己卷成一团在跑核算，这是在交互规划上能够提高的当地。

不过，比照AIME官方答复，o1-preview的答复比较冗长——盼望靠GPT开挂的中学生朋友，可别照抄，要自己考虑呀。

逻辑推理题方面，咱们沿用了一些“过往真题”：

爱丽丝有4个兄弟，她还有1个姐妹。爱丽丝的兄弟有多少个姐妹？

你可能会古怪，这不是很简单吗——答案是2，加上爱丽丝自己。

不出意外，o1-preview很快答对了，乃至没告诉我考虑多久，快到有种“就这？几秒”的感觉。

不过，本年6月，开源AI研讨机构LAION发现，GPT-3.5/4、Claude、Gemini、Llama、Mistral都没能答对这类标题，某种程度上连小学生的推理才能都不如。

直到现在，GPT-4o也仍是答错了。

能够说，o1-preview的推理才能确实提高了。

进阶检测：情形推理慢于GPT-4o，但更精确

接着是测验LLM模型的经典必考：海龟汤问题。

一名男人发现自己少贴了一张邮票，随后便逝世了。请问发生了什么事？

海龟汤是一种推理游戏，命题人给出简略、含糊的故事布景，由玩家自己自动发问。命题人只会答复“是”和“不是”，然后玩家依据命题人的答复，结合自己的推导，给出故事的本相。

我给了o1-preview五次发问的时机，然后让o1-preview测验推理本相。每一次发问，o1-preview都考虑了十几秒，层层递进。

但没想到，才问了3个问题，o1-preview就刻不容缓地给出推理了。

不得不说，十分挨近本相。

这道题的标准答案是，男人寄送定时炸弹给仇敌，但由于少贴了邮票，炸弹又被退回，成果一爆破，炸死了自己。

o1-preview的方向是对的，略微缺少了一些精确和完好，少了一些细节，但很挨近正确答案。非要挑刺的话，可能是没有遵从我的提示词指令发问五次。

不过，和AI玩推理游戏很有意思，惋惜现在新模型的额度有限，o1-preview每周能够发30条，o1-mini每周是50条，为了防止糟蹋名贵的发问次数，下面的又一道海龟汤标题，我要求o1-preview一次性提8个问题，然后依据我的答复直接给出答案。

这次它的表现适当令人惊奇：o1-preview只考虑了10秒，提出的问题悉数直击要害，本相呼之欲出。

比较搞笑的当地是，咱们能够点开看看o1-preview这短短的十秒里都想了什么——我的搭档不由得吐槽：这AI戏也太多了吧。

等我一次性答复“是”和“不是”后，o1-preview又花了13秒给出答案，根本便是标准答案。

今后再玩这种推理游戏，要严防死守有人掏出手机，用AI做弊。

相同的问题给到GPT-4o，利益是自始自终，够快，几乎是实时的，但思想更跳脱。

答案嘛，略微有违背，并且看上去对自己的答案不是很自傲的姿态。

压轴大题：自作主张教人剁手，上得厅堂下不了厨房

普通用户最关怀的，必定不是新模型的“卷面才能”，谁闲着没事儿会突发奇想，翻开手机算个鸡兔同笼啊？

比“卷面才能”更有用的，是处理日子实践问题，并且不是使用题，是正经八百日子中会碰到的核算问题。

眼下，多地都在派发电子消费补助，国家对各类消费电子产品，最高能够补助2000元。

官方发布很简单，但实践用起来就不是了。只能以旧换新？有什么地址约束？哪里领券？有没有最低消费？

来，让o1-preview过来帮我算一下，究竟能够薅到多少羊毛。

比较惋惜的是，o1-preview的知识库截止到上一年十月，对新政策没办法实时反响。

行吧，那就先手动录入一下，在输入广东省官方给的细节之后，它反响速度十分快，直接“自作主张”地把各种常见优惠都算进去了。

但都是“假定”，做不得数。在搜集了一些实践优惠政策之后，咱们手动录入prompt：

我需求买一台新电脑，现在有一万左右的预算，想买一台最新款的MacBook Air。现在京东有优惠活动。条件如下：

1. 政府补助，依照标价减免20%，2000元封顶

2. 苹果自己有满7000减1400元的优惠

3. 苹果电脑能够以旧换新，但需求依据旧机品相定价。具体的品相信息现已列在下面

由于不能阅览网页，它自己设定价格为9499元，但不必定反映出实践上电商的挂牌价。

别的则是旧机价格的判别，京东给出的报价是3300元。

京东评价

相同的旧机，多跑几回提示词，每次o1-preview都会给不同的报价，仅供参考，其间3400元是和京东报价最挨近的一次。

o1-preview评价

更要害的是，这些写在提示词里的信息都要咱们自己去找和收拾，AI没能节约多少时刻。

买东西时算优惠价，便是日常日子里最实践的数学场景了，谁能忘掉被双十一分配的惊骇。

并且算优惠的难点在于更广泛的推理：单纯的加减，犯不着找一个AI来做，电商渠道自己会帮用户算好，购物车里一勾便是了。

真实烧脑的，便是“规划”一个最优惠的路途，这触及许多问题：同一时期哪家电商在做优惠？用户是否具有参加优惠活动的资历？外部补助的能否效果在这家电商？例如这次的国家补助，是要看用户收取资历的，在京东用了就不能在天猫用。

乃至，一些线下店也参加补助活动，可是条件是在线上收取之后去线下运用。

说实话，这种繁琐场景特别需求一个助理，需求的是一个脑筋灵敏的真·智能帮手，而不是一个僵板的做题家。

“考试”总结：做题虽好，仍要走入实践

不管是咱们自己做的测评，仍是许多网友都现已有的测评，乃至包含官方的演示文档，都有十分激烈的“做题”感。

做数学题、做阅览理解题、做填空题。

这国际仍是变成了咱们想要的姿态：新的模型来临人世，榜首件事是做题。

做题当然是很好的了解模型才能的方法，但是做题的缺点也十分显着：很真空，不知道这么强的做题才能，究竟有啥用。

乃至在自媒体赛博禅心的技能面测评中，API端口的表现也不太令人满意，进一步约束了实践使用。他以为这次更新，比较像是工程上的优化，而非底层才能的迭代。

像极了专四专六级考高分，出国却仍然步履维艰、开不了口的我（不是）。

老实说，这是一个用户预期的问题，牢记：OpenAI眼中的推理，并不只仅核算才能。

核算确实是“推理”里重要的一部分，但不是悉数，尤其是当谈到真实介入实践使用的推理才能，核算就仅仅是十分小的一部分。

这也是为什么在这次的官方文档里，有一个末节在解说“思想链”：经过仿照人类的思想进程，协助模型逐渐分化复杂问题。

这项才能的提高，在o1-preview应对数学和推理题的进程中，都得到了表现。

仅仅，要说它能全面仿照人类的思想进程，暂时还称不上：人类不只会拆分过程来考虑，更会归纳性、大局性地来考虑。

走向AGI的路途，已有曙光，但仍然绵长。

本文来自微信大众号：APPSO （ID：appsolution），作者：APPSO

文章版权声明：除非注明，否则均为ZBLOG原创文章，转载或复制请以超链接形式并注明出处。

相关阅读

发表评论取消回复

评论列表（有 17 条评论，247人围观）

绿菱。 V 游客沙发

今日清晨，OpenAI发布了o1系列模型，最大的特点是拿手推理。模型的才能，一代比一代强，咱们的测评，一次比一次难做。测评变成一件“毕恭毕敬”的工作，生怕提不出好问题（难不倒它），在让它推理之前，咱们自己的脑子就快烧没了。最重要的原因是：咱们想知道

09-14 回复

莪狠愛伱 V 游客椅子

含糊的故事布景，由玩家自己自动发问。命题人只会答复“是”和“不是”，然后玩家依据命题人的答复，结合自己的推导，给出故事的本相。我给了o1-preview五次发问的时机，然后让o1-pre

09-14 回复

烟雨醉巷 V 游客板凳

很好的了解模型才能的方法，但是做题的缺点也十分显着：很真空，不知道这么强的做题才能，究竟有啥用。乃至在自媒体赛博禅心的技能面测评中，API端口的表现也不太令人满意，进一步约束了实践使用。他以为这次更新，

09-14 回复

万圣姐 V 游客凉席

是在交互规划上能够提高的当地。不过，比照AIME官方答复，o1-preview的答复比较冗长——盼望靠GPT开挂的中学生朋友，可别照抄，要自己考虑呀。逻辑推理题方面，咱们沿用了一些“过往真题”：爱丽丝

09-14 回复

祈祷落幕时 V 游客地板

ir。现在京东有优惠活动。条件如下：1. 政府补助，依照标价减免20%，2000元封顶2. 苹果自己有满7000减1400元的优惠3. 苹果电脑能够以旧换新，但需求依据旧机品相定价。具体的品相信息现已列在下面由于不能阅览网页，它自己设定价格为9499元，但不必定反映出实践上电商的挂牌价。别

09-14 回复

暖光! V 游客 6楼

地址约束？哪里领券？有没有最低消费？来，让o1-preview过来帮我算一下，究竟能够薅到多少羊毛。比较惋惜的是，o1-preview的知识库截止到上一年十月，对新政策没办法实时反

09-14 回复

我吃番茄酱 V 游客 7楼

过，比照AIME官方答复，o1-preview的答复比较冗长——盼望靠GPT开挂的中学生朋友，可别照抄，要自己考虑呀。逻辑推理题方面，咱们沿用了一些“过往真题”：爱丽丝有4个兄弟，她还有1个姐妹。爱丽丝的兄弟有多少个姐妹？你可能会古怪，这不是很简单吗——答案

09-14 回复

否认曾经 V 游客 8楼

，AI没能节约多少时刻。买东西时算优惠价，便是日常日子里最实践的数学场景了，谁能忘掉被双十一分配的惊骇。并且算优惠的难点在于更广泛的推理：单纯的加减，犯不着找一个AI来做，电商渠道自己会帮用户算好，购物车里一勾便是了。真实烧脑的，便是“规划”一个最优惠的路

09-14 回复

米莱敌敌畏 V 游客 9楼

不容缓地给出推理了。不得不说，十分挨近本相。这道题的标准答案是，男人寄送定时炸弹给仇敌，但由于少贴了邮票，炸弹又被退回，成果一爆破，炸死了自己。o1-preview的方向是对的，略微缺少了一些精确和完好，少了一些细节，但很挨近正确答案。非要挑刺的话，可能是没有遵从我的提示

09-14 回复

十月的冰 V 游客 10楼

动发问。命题人只会答复“是”和“不是”，然后玩家依据命题人的答复，结合自己的推导，给出故事的本相。我给了o1-preview五次发问的时机，然后让o1-preview测验推理本相。每一次发问，o1-preview都考虑了十几秒，层层递进

09-14 回复

蓝郁 V 游客 11楼

级考高分，出国却仍然步履维艰、开不了口的我（不是）。老实说，这是一个用户预期的问题，牢记：OpenAI眼中的推理，并不只仅核算才能。核算确实是“推理”里重要的一部分，但不是悉数，尤其是当谈到真实介入实践使用的推理才能，核算就仅仅是十分小的一部分。这也是为什么在这次的官方文

09-14 回复

战五渣、 V 游客 12楼

（ID：appsolution），作者：APPSO

09-14 回复

黑哥 V 游客 13楼

用起来就不是了。只能以旧换新？有什么地址约束？哪里领券？有没有最低消费？来，让o1-preview过来帮我算一下，究竟能够薅到多少羊毛。比较惋惜的是，o1-preview的知识库截止到上一年十月，对

09-14 回复

鸿雁影 V 游客 14楼

laude、Gemini、Llama、Mistral都没能答对这类标题，某种程度上连小学生的推理才能都不如。直到现在，GPT-4o也仍是答错了。能够说，o1-pre

09-14 回复

被杀死 V 游客 15楼

题长这样：原题张贴曩昔，看看究竟是怎样个超强表现。o1-preview反响很敏捷，上手就开端解题了。比照一下官方答案，完全正确。反响时刻也比估计的快，仅仅考虑进程并不是默许翻开。所以除非手

09-14 回复

情深人孤 V 游客 16楼

有曙光，但仍然绵长。本文来自微信大众号：APPSO （ID：appsolution），作者：APPSO

09-14 回复

妃子 V 游客 17楼

们手动录入prompt：我需求买一台新电脑，现在有一万左右的预算，想买一台最新款的MacBook Air。现在京东有优惠活动。条件如下：1. 政府补助，依照标价减免20%，2000元封顶2. 苹果自己有满7000减1400元的优惠3. 苹果电脑能够以旧换新，但需求

09-14 回复