AI神话崩盘?聊聊那个让GPT-5都考零蛋的“史上最难AI”测试,才晓得自家AI是个方脑壳

mysmile 10 0

家人们,今天咱们摆一哈龙门阵,话题有点硬核,但你只要用过ChatGPT,保证感兴趣。

不知道你们有没有这种感觉?这两年AI火得不得了,感觉马上就要统治地球了。尤其是OpenAI那个老板奥特曼,老早就开始吹风,说以后我们每个人裤兜里头揣的AI,都是博士级别的大聪明,上知天文下知地理,有啥子难题直接问它就是了。

这话听起确实安逸,对吧?搞得我有时候看到那一长串代码或者看不懂的英文文献,都想直接甩给AI,心里头默念“大佬,靠你了”。但是,就在最近,这些所谓的“博士级”AI,集体翻车了,而且是翻到沟里头那种。因为一个号称“史上最难AI”的评测标准出现了,直接把那层滤镜给你扯得稀碎。

这个“史上最难AI”测试,名字就叫FormulaOne -1 它不是考你那些百度就能搜到的常识,而是专门找茬,出的全是需要“深层算法推理”的硬骨头题,跟咱们实际生活中要解决的供应链优化、电网管理那些复杂问题是一个路数 -7。结果有好惨烈?我给你摆一下。

那些平时牛逼哄哄的模型,比如GPT-5、Grok 4、o3 Pro,全部遭得惨。咋子个惨法?在最高难度的题目面前,全军覆没,集体抱了个大鸭蛋回家 -3。尤其是GPT-5,在最难的“最深层”问题上,正确率直接归零。想象一下那个画面,就好比你兴冲冲地把卷子交上去,结果批下来是零分,老师还给你甩一句:“你这做的啥子东西哦?” 当时我看到这个新闻,脑壳里头就浮现出奥特曼那张尴尬又不失礼貌的笑脸。以前觉得AI啥子都懂,现在才晓得,原来它也有“知识的盲区”,而且这个盲区还大得很。

为啥子这么难?还不是因为这些题不光要你懂,还要你会“创造”。它不是让你背个公式,而是要你在一个完全陌生的迷宫里,自己找路、自己搭桥,甚至还要你想出以前没得人走过的走法 -1。这对我们普通人有啥子影响?意味着如果你指望AI帮你做一个从未有过先例的复杂方案,它大概率要给你“豁鬼”,给你一个听起头头是道,结果根本没法用的“幻觉”产物。晓得它也不是万能的后,心里反而踏实了。

第二次提到这个“史上最难AI”,我发现它的“难”不只是题目难,而是暴露了AI本身性格上的“难缠”。 这就要说到AI“发疯”的问题了。

前段时间Anthropic(就是做Claude那家)的研究员发了一篇论文,标题取得好,叫《AI的一团乱麻》 -2。他们发现,现在的AI,尤其是咱们天天用的那些大模型,干短活还稳得起,一旦你要它干个长点的活,比如写个复杂的程序或者做个多步的计划,它就开始“掉链子”了。

论文里头用了个概念叫“不连贯性”。简单点说,就是AI越到后面越不晓得自己在干啥子,它的错误不再是“笨”(也就是不懂),而是纯粹地“疯”(也就是乱选)。最气人的是,模型越大,在难题上还越疯 -2。这就好比你喊一个平时还多靠谱的朋友帮你办件事,事情简单他办得巴巴适适,事情一复杂,他就开始“神戳戳”的,做出些完全没法理解的举动。

这背后的原理,用重庆话讲就是“方脑壳,一根筋”。现在的AI本质上是个“动力系统”,喜欢漫无目的地闲逛;但我们想要的是个“优化器”,能盯着目标走直线。你要一个喜欢逛该的人去走钢丝,不出事才怪 -2。这就解决了我们使用AI时的一个大痛点:为啥子有时候让它处理个长文档,它前言不搭后语?为啥子让它写个长篇小说,后面完全偏到茄子里头去了?因为它的“内在稳定性”崩了。这盘晓得了,以后再遇到AI“发神”,就别怪它了,毕竟人家也不是故意嘞,确实是脑壳搞不赢。

最后再唠一次这个“史上最难AI”,这次的“难”是难在它的野心,它想测出AI的终极边界在哪里。 除了这个FormulaOne,还有一个更狠的,叫“人类最后的考试”(Humanity‘s Last Exam) -4-5。这个名字听起就好科幻,感觉像在拍《终结者》。

这个考试有多凶?那是全世界的上千个专家学者,包括好多大学教授、研究员,一起出的题,总共有2500多道,横跨数学、物理、化学、生物、历史等上百个学科 -6。每道题都是研究生以上的难度,而且保证在网上搜不到现成答案 -4。简单说,这就是人类给AI出的“谢逊的思考题”,你要是能答出来,那才真是见了鬼了。

结果你猜咋子?最早的时候,那些顶尖模型,包括o1,正确率都没超过10% -5。就算是到了现在,最强的模型也就勉强能答对不到40% -6。这意味着啥子?意味着AI在真正的“专业知识”和“深度推理”面前,还嫩得很。我甚至都能想象那些AI在面对这些题时,脑瓜子嗡嗡的,疯狂运算,最后吐出一个错误答案的样子。

对我们普通人来说,这个信息太重要了。以前总觉得AI要取代这个、取代那个,焦虑得不行。现在看清楚了,AI要真正像人类专家那样去解决一个科研难题,还有十万八千里的路要走。你让它帮你写个邮件、做个PPT,那是手拿把掐;但你让它去发现一个新的物理定律,或者攻克一个医学难题,它还差得远。所以,咱们也别自己吓自己,AI再凶,目前也还只是个工具,真正的“专家”,还得是我们这些会思考、能创造的人。

总之一句话,看完这些“史上最难AI”的评测,我反而踏实了。AI没得那么神,它也会懵,也会“发疯”,也会考零分。以后再用AI,心态放平和点,把它当成个聪明点的实习生,好用是好用,但关键时候,还是得靠自己把关。