跳转到内容

能考满分的AI,被一道常识题打回原形

你问一个能解出IMO国际数学奥赛题的AI:离洗车店50米,开车去还是走路去?

它会一本正经地给你规划导航路线:打开地图APP,搜索附近洗车店,选择驾车模式,预计耗时2分钟。

它没做错任何一步,但也没做对任何事情。

这事好笑,但不好笑。

2026年5月,美团LongCat团队联合中科院国科大,发布了一个叫General 365的评测基准。365道原创种子题目,1095个扩展变体,知识范围严格限定在K-12——小学到初中的水平。不考微积分,不考量子力学,不考LeetCode hard。考的是普通人靠逻辑思考就能回答的问题。

结果呢?目前地表最强的Gemini 3 Pro,准确率62.8%。26款主流模型实测,绝大多数连60分的及格线都没摸到。

你第一反应可能是:才60分出头?这benchmark是不是故意出得太难了?

别急,换个角度看。同一个GPT-5-Thinking,在BBH(BIG-Bench Hard)上准确率92.0%,到了General 365,58.6%。差了三十多个百分点。

不是模型变笨了。是尺子换了一把。

过去两年,我隔三岔五就能看到”某模型在某评测上超越人类”的新闻。

AIME 数学竞赛,满分。IPhO 物理竞赛,逼近满分。SWE-bench 编程任务,头部模型 80% 以上通过率。每次榜单刷新,行业就欢呼一次。投资人转发表格,开发者转发论文,PR部门转发一切。

然后Stanford 2025年AI Index报告出来,用了一句话把场面冷下来:MMLU已经饱和了。

MMLU是什么?Massive Multitask Language Understanding,57个学科、约15900道多选题,曾是衡量模型知识广度的黄金标准。2021年GPT-3考了43%,接近随机。2024年顶模普遍进入85%以上。2025年,90%以上。

一场考试,从区分度极高到全员满分,用了四年。

更扎心的是数据污染。微软在ACL 2025上专门推出了一个MMLU-CF版本——Contamination-Free,防污染版。为什么需要防污染版?因为原版的测试题,大概率已经在模型的训练语料里出现过了。马里兰大学2025年的DyePack研究用后门攻击技术检测污染,在MMLU-Pro上发现误报率低于十万分之七,但模型分数和原版MMLU的差距大得可疑——这意味着训练数据里可能混入了测试题。

这不叫考试。这叫背题。

BBH的经历更典型,也更讽刺。BBH是Google自己提出的基准——2022年从BIG-Bench的204项任务中筛出23个”模型显著低于人类水平”的难题。当时看确实难,涵盖复杂推理、因果分析、反事实理解、多步规划。Google自己的模型在这些题上表现也不好。

三年后呢?前沿模型在BBH上普遍超过90%,多项接近满分。连BBH的创造者都承认:这个基准已经没有区分度了。

于是Google在2025年2月推出了BBEH(Extra Hard版),把原来的23个任务全部替换成更难的版本。结果呢?最强的o3-mini (high)得分44.8%,不及格。DeepSeek-R1得6.8分。Google自己的Gemini-2.0-Flash得9.8分。

出题人自己加的题,所有模型都不及格。

一个benchmark的生命周期,从提出到饱和到被替代,三年。Replit CEO Amjad Masad预测SWE-bench也会在2027年饱和——它2023年10月提出,同样是四年左右。

这就是Goodhart定律在AI评测里的具象化:当一项指标成为优化目标,它就不再是好指标。

模型厂商不是故意作弊。市场竞争的逻辑就是这样:分数 = 融资 = 用户 = PR = 更多数据 = 更高的分数。分数本身变成了目标,衡量能力只是它穿的一件外衣。

General 365有意思的地方,不在于它难。

难的东西很多。BBEH就难,难到所有模型都不及格,但那也失去了区分度——你分不出60分和58分的模型谁更好。General 365的分数分布在50%-63%之间,恰恰是一个能拉开差距的区间。

它的有意思在于设计思路。

General 365 把通用推理拆成八个维度:复杂约束分支与枚举时空推理递归与回溯语义干扰隐式信息最优策略概率与不确定性。每道题至少对应一个维度,70% 的题目同时具备两个及以上标签。

这意味着什么?意味着你没法用一个模板通吃。

举个具体的例子。“语义干扰”类题目是什么?题干里放了干扰信息,模型能不能不被带偏,严格遵循题设规则。“最优策略”类呢?多条路摆在那里,选最划算的那条。这两种题,靠背解题套路是没用的——干扰信息每次都不一样,最优路径每次都要重新算。

团队做了一个验证,结果很直观:让Gemini 3 Pro给语义相近的题目对打分,评估推理路径的相似度(0-5分)。General 365平均只有2.16分。BBH和BBEH高得多。

换句话说,在General 365里,相邻的两道题,解法可能完全不同。365道题,至少需要三百多种不同的推理策略。背模板这条路,走不通了。

从t-SNE可视化上看更清楚:BBH和BBEH的题目嵌入出现明显的聚集——题目看起来不一样,但背后的逻辑是同一种。General 365的题目均匀分散在整个空间里,没有明显的聚集点。

原创的、不重复的题目。 这大概是目前AI评测里最稀缺的东西。

但等一下——如果这套题设计得这么好,为什么Gemini 3 Pro还能拿第一?62.8%虽然不高,但第二名可能只有58%。差距是真实存在的。

拆成八个维度看,“语义干扰”和”最优策略”是普遍弱项,得分比整体准确率低约10个百分点。10个百分点意味着什么?如果一个模型整体答对60道题,在这两类上只能答对50道左右。

模型不怕难,怕的是干扰。你给它一个干净的逻辑链条,它能跑二十步不迷路。你在第三步塞一个无关条件——“小王比小李高,小李比小张矮,但小王上周感冒了”——它就开始绕路了。“感冒”这个信息和身高比较无关,但模型会试图为它找一个解释,然后推理链就歪了。

多步全局规划能力的匮乏,这就是当前大模型和人类之间那层还没捅破的纸。人类做逻辑题时会本能地过滤噪音,先识别”哪些信息是相关的”。模型的默认行为是”所有信息都有用”——毕竟它的训练方式就是给一段话,然后从中提取答案。你突然给它一段话,告诉它”这里面有一半是废话”,它的过滤器还没装好。

还有一个数据我一直盯着看:效率。

Gemini 3 Pro拿最高分,平均输出约14k tokens。其他准确率和它接近的模型,输出普遍25k-30k tokens。差了一倍多。

同样的分数,有人想三步就到了,有人要想三十步,反复验证,来回修正,写了一大串推理链最后碰巧答对。这不是准确率的问题,是推理路径的质量问题。一个高效的大脑和一个低效的大脑可能得出相同的答案,但你不会认为它们一样聪明。

Gemini 3.1 Pro 三个月后发布。ARC-AGI-2这个抽象推理测试,得分从31.1%跳到77.1%,翻倍以上。Humanity’s Last Exam从37.5%跳到44.4%。GPQA Diamond达到94.3%。价格没变,输入还是$2/百万token。

这就是模型迭代的速度——当一把新的尺子出现,厂商知道该往哪个方向优化了。BBH饱和了,他们就优化BBEH。General 365出来了,他们就会优化通用推理。尺子本身没有错,错的是把尺子上的数字当成了智能本身。

回头看美团LongCat团队这段时间的动作。

2026年4月到5月,密集发布了六七个benchmark:General 365测通用推理,AMO-Bench测高阶数学(50道竞赛专家原创题,对标IMO难度),LARYBench测具身动作表征,VitaBench测生活服务场景智能体,UNO-Bench测全模态理解,LongCat-Flash-Prover测定理证明,LongCat-AudioDiT做TTS。

他们像是在做一件事:在各个维度上,抢在模型”刷透”之前,建立新的评测标准。

但这就完了吗?不会的。

General 365今天刚出来,模型厂商明天就会开始针对性优化。不是恶意刷分,而是正常的研发方向调整——哪里分低,就补哪里。六个月后,可能会有模型在General 365上也拿到85%。然后呢?再出一套General 725?

不是这个循环有什么不对。这是科学测量的正常规律——标尺需要不断校准。物理学里的标准米定义改了多少次?从铂铱合金到光速,就因为旧的标尺不够精确、不够稳定。AI评测也一样。

有一件事需要意识到:

每一个99分的数字背后,都藏着一个正在被优化的目标。

那个能解IMO难题却回答不出”走路去洗车”的模型,也许某一天真的能回答出来了。不是因为它突然有了常识,是因为有人把”50米距离的出行方式选择”这类问题加进了训练数据,或者在RLHF阶段教它”短距离应该推荐步行”。

它”学会”了这道题。但你换一道新的常识题,它可能还是不会。

到那时候,我们需要另一把尺子。

而在那把尺子出现之前,判断一个模型好不好用,最靠谱的方法可能还是:你自己用用看。


你平时判断一个AI模型好不好用,是看榜单分数,还是自己上手试?有没有遇到过”分数很高但用起来很蠢”的情况?

美团LongCat团队. 美团 LongCat 开源 General 365:树立推理评测新标尺. 美团技术团队. https://tech.meituan.com/2026/05/15/longcat-general-365.html