AI神话崩盘？聊聊那个让GPT-5都考零蛋的“史上最难AI”测试，才晓得自家AI是个方脑壳

mysmile 2026年05月18日 14:54 10 0

家人们，今天咱们摆一哈龙门阵，话题有点硬核，但你只要用过ChatGPT，保证感兴趣。

不知道你们有没有这种感觉？这两年AI火得不得了，感觉马上就要统治地球了。尤其是OpenAI那个老板奥特曼，老早就开始吹风，说以后我们每个人裤兜里头揣的AI，都是博士级别的大聪明，上知天文下知地理，有啥子难题直接问它就是了。

这话听起确实安逸，对吧？搞得我有时候看到那一长串代码或者看不懂的英文文献，都想直接甩给AI，心里头默念“大佬，靠你了”。但是，就在最近，这些所谓的“博士级”AI，集体翻车了，而且是翻到沟里头那种。因为一个号称“史上最难AI”的评测标准出现了，直接把那层滤镜给你扯得稀碎。

这个“史上最难AI”测试，名字就叫FormulaOne -1。 它不是考你那些百度就能搜到的常识，而是专门找茬，出的全是需要“深层算法推理”的硬骨头题，跟咱们实际生活中要解决的供应链优化、电网管理那些复杂问题是一个路数 -7。结果有好惨烈？我给你摆一下。

那些平时牛逼哄哄的模型，比如GPT-5、Grok 4、o3 Pro，全部遭得惨。咋子个惨法？在最高难度的题目面前，全军覆没，集体抱了个大鸭蛋回家 -3。尤其是GPT-5，在最难的“最深层”问题上，正确率直接归零。想象一下那个画面，就好比你兴冲冲地把卷子交上去，结果批下来是零分，老师还给你甩一句：“你这做的啥子东西哦？” 当时我看到这个新闻，脑壳里头就浮现出奥特曼那张尴尬又不失礼貌的笑脸。以前觉得AI啥子都懂，现在才晓得，原来它也有“知识的盲区”，而且这个盲区还大得很。

为啥子这么难？还不是因为这些题不光要你懂，还要你会“创造”。它不是让你背个公式，而是要你在一个完全陌生的迷宫里，自己找路、自己搭桥，甚至还要你想出以前没得人走过的走法 -1。这对我们普通人有啥子影响？意味着如果你指望AI帮你做一个从未有过先例的复杂方案，它大概率要给你“豁鬼”，给你一个听起头头是道，结果根本没法用的“幻觉”产物。晓得它也不是万能的后，心里反而踏实了。

第二次提到这个“史上最难AI”，我发现它的“难”不只是题目难，而是暴露了AI本身性格上的“难缠”。 这就要说到AI“发疯”的问题了。

前段时间Anthropic（就是做Claude那家）的研究员发了一篇论文，标题取得好，叫《AI的一团乱麻》 -2。他们发现，现在的AI，尤其是咱们天天用的那些大模型，干短活还稳得起，一旦你要它干个长点的活，比如写个复杂的程序或者做个多步的计划，它就开始“掉链子”了。

论文里头用了个概念叫“不连贯性”。简单点说，就是AI越到后面越不晓得自己在干啥子，它的错误不再是“笨”（也就是不懂），而是纯粹地“疯”（也就是乱选）。最气人的是，模型越大，在难题上还越疯 -2。这就好比你喊一个平时还多靠谱的朋友帮你办件事，事情简单他办得巴巴适适，事情一复杂，他就开始“神戳戳”的，做出些完全没法理解的举动。

这背后的原理，用重庆话讲就是“方脑壳，一根筋”。现在的AI本质上是个“动力系统”，喜欢漫无目的地闲逛；但我们想要的是个“优化器”，能盯着目标走直线。你要一个喜欢逛该的人去走钢丝，不出事才怪 -2。这就解决了我们使用AI时的一个大痛点：为啥子有时候让它处理个长文档，它前言不搭后语？为啥子让它写个长篇小说，后面完全偏到茄子里头去了？因为它的“内在稳定性”崩了。这盘晓得了，以后再遇到AI“发神”，就别怪它了，毕竟人家也不是故意嘞，确实是脑壳搞不赢。

最后再唠一次这个“史上最难AI”，这次的“难”是难在它的野心，它想测出AI的终极边界在哪里。 除了这个FormulaOne，还有一个更狠的，叫“人类最后的考试”（Humanity‘s Last Exam） -4-5。这个名字听起就好科幻，感觉像在拍《终结者》。

这个考试有多凶？那是全世界的上千个专家学者，包括好多大学教授、研究员，一起出的题，总共有2500多道，横跨数学、物理、化学、生物、历史等上百个学科 -6。每道题都是研究生以上的难度，而且保证在网上搜不到现成答案 -4。简单说，这就是人类给AI出的“谢逊的思考题”，你要是能答出来，那才真是见了鬼了。

结果你猜咋子？最早的时候，那些顶尖模型，包括o1，正确率都没超过10% -5。就算是到了现在，最强的模型也就勉强能答对不到40% -6。这意味着啥子？意味着AI在真正的“专业知识”和“深度推理”面前，还嫩得很。我甚至都能想象那些AI在面对这些题时，脑瓜子嗡嗡的，疯狂运算，最后吐出一个错误答案的样子。

对我们普通人来说，这个信息太重要了。以前总觉得AI要取代这个、取代那个，焦虑得不行。现在看清楚了，AI要真正像人类专家那样去解决一个科研难题，还有十万八千里的路要走。你让它帮你写个邮件、做个PPT，那是手拿把掐；但你让它去发现一个新的物理定律，或者攻克一个医学难题，它还差得远。所以，咱们也别自己吓自己，AI再凶，目前也还只是个工具，真正的“专家”，还得是我们这些会思考、能创造的人。

总之一句话，看完这些“史上最难AI”的评测，我反而踏实了。AI没得那么神，它也会懵，也会“发疯”，也会考零分。以后再用AI，心态放平和点，把它当成个聪明点的实习生，好用是好用，但关键时候，还是得靠自己把关。