实测OpenAI新模型o1 :做题王者,实战青铜
今日清晨,OpenAI发布了o1系列模型,最大的特点是拿手推理。
模型的才能,一代比一代强,咱们的测评,一次比一次难做。测评变成一件“毕恭毕敬”的工作,生怕提不出好问题(难不倒它),在让它推理之前,咱们自己的脑子就快烧没了。
最重要的原因是:咱们想知道,被寄予厚望的新一代模型,有没有使用到实践日子中的推理才能?以及要怎样测出这样的才能?
秉承着这个主意,咱们规划了一套检测o1-preview归纳才能的“考卷”。
省流版定论如下:它拿手做题、搞研讨,更像一个合适待在实验室的高材生,你现在还不能盼望它成为日子里的帮手。
热身:数学与逻辑才能强,速度还不慢
发布会的数据咱们看了许多,尤其是新一代o1在各项任务上的评分,都有超乎以往的表现。比方OpenAI的官方文档里,特别说到在AIME数学竞赛的考试中,o1都能获得不错的表现。
快速查了一下,这个AIME竞赛,考题长这样:
原题张贴曩昔,看看究竟是怎样个超强表现。o1-preview反响很敏捷,上手就开端解题了。
比照一下官方答案,完全正确。反响时刻也比估计的快,仅仅考虑进程并不是默许翻开。
所以除非手动下拉,否则从用户的观感上看,它便是自己卷成一团在跑核算,这是在交互规划上能够提高的当地。
不过,比照AIME官方答复,o1-preview的答复比较冗长——盼望靠GPT开挂的中学生朋友,可别照抄,要自己考虑呀。
逻辑推理题方面,咱们沿用了一些“过往真题”:
爱丽丝有4个兄弟,她还有1个姐妹。爱丽丝的兄弟有多少个姐妹?
你可能会古怪,这不是很简单吗——答案是2,加上爱丽丝自己。
不出意外,o1-preview很快答对了,乃至没告诉我考虑多久,快到有种“就这?几秒”的感觉。
不过,本年6月,开源AI研讨机构LAION发现,GPT-3.5/4、Claude、Gemini、Llama、Mistral都没能答对这类标题,某种程度上连小学生的推理才能都不如。
直到现在,GPT-4o也仍是答错了。
能够说,o1-preview的推理才能确实提高了。
进阶检测:情形推理慢于GPT-4o,但更精确
接着是测验LLM模型的经典必考:海龟汤问题。
一名男人发现自己少贴了一张邮票,随后便逝世了。请问发生了什么事?
海龟汤是一种推理游戏,命题人给出简略、含糊的故事布景,由玩家自己自动发问。命题人只会答复“是”和“不是”,然后玩家依据命题人的答复,结合自己的推导,给出故事的本相。
我给了o1-preview五次发问的时机,然后让o1-preview测验推理本相。每一次发问,o1-preview都考虑了十几秒,层层递进。
但没想到,才问了3个问题,o1-preview就刻不容缓地给出推理了。
不得不说,十分挨近本相。
这道题的标准答案是,男人寄送定时炸弹给仇敌,但由于少贴了邮票,炸弹又被退回,成果一爆破,炸死了自己。
o1-preview的方向是对的,略微缺少了一些精确和完好,少了一些细节,但很挨近正确答案。非要挑刺的话,可能是没有遵从我的提示词指令发问五次。
不过,和AI玩推理游戏很有意思,惋惜现在新模型的额度有限,o1-preview每周能够发30条,o1-mini每周是50条,为了防止糟蹋名贵的发问次数,下面的又一道海龟汤标题,我要求o1-preview一次性提8个问题,然后依据我的答复直接给出答案。
这次它的表现适当令人惊奇:o1-preview只考虑了10秒,提出的问题悉数直击要害,本相呼之欲出。
比较搞笑的当地是,咱们能够点开看看o1-preview这短短的十秒里都想了什么——我的搭档不由得吐槽:这AI戏也太多了吧。
等我一次性答复“是”和“不是”后,o1-preview又花了13秒给出答案,根本便是标准答案。
今后再玩这种推理游戏,要严防死守有人掏出手机,用AI做弊。
相同的问题给到GPT-4o,利益是自始自终,够快,几乎是实时的,但思想更跳脱。
答案嘛,略微有违背,并且看上去对自己的答案不是很自傲的姿态。
压轴大题:自作主张教人剁手,上得厅堂下不了厨房
普通用户最关怀的,必定不是新模型的“卷面才能”,谁闲着没事儿会突发奇想,翻开手机算个鸡兔同笼啊?
比“卷面才能”更有用的,是处理日子实践问题,并且不是使用题,是正经八百日子中会碰到的核算问题。
眼下,多地都在派发电子消费补助,国家对各类消费电子产品,最高能够补助2000元。
官方发布很简单,但实践用起来就不是了。只能以旧换新?有什么地址约束?哪里领券?有没有最低消费?
来,让o1-preview过来帮我算一下,究竟能够薅到多少羊毛。
比较惋惜的是,o1-preview的知识库截止到上一年十月,对新政策没办法实时反响。
行吧,那就先手动录入一下,在输入广东省官方给的细节之后,它反响速度十分快,直接“自作主张”地把各种常见优惠都算进去了。
但都是“假定”,做不得数。在搜集了一些实践优惠政策之后,咱们手动录入prompt:
我需求买一台新电脑,现在有一万左右的预算,想买一台最新款的MacBook Air。现在京东有优惠活动。条件如下:
1. 政府补助,依照标价减免20%,2000元封顶
2. 苹果自己有满7000减1400元的优惠
3. 苹果电脑能够以旧换新,但需求依据旧机品相定价。具体的品相信息现已列在下面
由于不能阅览网页,它自己设定价格为9499元,但不必定反映出实践上电商的挂牌价。
别的则是旧机价格的判别,京东给出的报价是3300元。
京东评价
相同的旧机,多跑几回提示词,每次o1-preview都会给不同的报价,仅供参考,其间3400元是和京东报价最挨近的一次。
o1-preview评价
更要害的是,这些写在提示词里的信息都要咱们自己去找和收拾,AI没能节约多少时刻。
买东西时算优惠价,便是日常日子里最实践的数学场景了,谁能忘掉被双十一分配的惊骇。
并且算优惠的难点在于更广泛的推理:单纯的加减,犯不着找一个AI来做,电商渠道自己会帮用户算好,购物车里一勾便是了。
真实烧脑的,便是“规划”一个最优惠的路途,这触及许多问题:同一时期哪家电商在做优惠?用户是否具有参加优惠活动的资历?外部补助的能否效果在这家电商?例如这次的国家补助,是要看用户收取资历的,在京东用了就不能在天猫用。
乃至,一些线下店也参加补助活动,可是条件是在线上收取之后去线下运用。
说实话,这种繁琐场景特别需求一个助理,需求的是一个脑筋灵敏的真·智能帮手,而不是一个僵板的做题家。
“考试”总结:做题虽好,仍要走入实践
不管是咱们自己做的测评,仍是许多网友都现已有的测评,乃至包含官方的演示文档,都有十分激烈的“做题”感。
做数学题、做阅览理解题、做填空题。
这国际仍是变成了咱们想要的姿态:新的模型来临人世,榜首件事是做题。
做题当然是很好的了解模型才能的方法,但是做题的缺点也十分显着:很真空,不知道这么强的做题才能,究竟有啥用。
乃至在自媒体赛博禅心的技能面测评中,API端口的表现也不太令人满意,进一步约束了实践使用。他以为这次更新,比较像是工程上的优化,而非底层才能的迭代。
像极了专四专六级考高分,出国却仍然步履维艰、开不了口的我(不是)。
老实说,这是一个用户预期的问题,牢记:OpenAI眼中的推理,并不只仅核算才能。
核算确实是“推理”里重要的一部分,但不是悉数,尤其是当谈到真实介入实践使用的推理才能,核算就仅仅是十分小的一部分。
这也是为什么在这次的官方文档里,有一个末节在解说“思想链”:经过仿照人类的思想进程,协助模型逐渐分化复杂问题。
这项才能的提高,在o1-preview应对数学和推理题的进程中,都得到了表现。
仅仅,要说它能全面仿照人类的思想进程,暂时还称不上:人类不只会拆分过程来考虑,更会归纳性、大局性地来考虑。
走向AGI的路途,已有曙光,但仍然绵长。
本文来自微信大众号:APPSO (ID:appsolution),作者:APPSO
发表评论