能考满分的AI，被一道常识题打回原形

你问一个能解出IMO国际数学奥赛题的AI：离洗车店50米，开车去还是走路去？

它会一本正经地给你规划导航路线：打开地图APP，搜索附近洗车店，选择驾车模式，预计耗时2分钟。

它没做错任何一步，但也没做对任何事情。

这事好笑，但不好笑。

2026年5月，美团LongCat团队联合中科院国科大，发布了一个叫General 365的评测基准。365道原创种子题目，1095个扩展变体，知识范围严格限定在K-12——小学到初中的水平。不考微积分，不考量子力学，不考LeetCode hard。考的是普通人靠逻辑思考就能回答的问题。

结果呢？目前地表最强的Gemini 3 Pro，准确率62.8%。26款主流模型实测，绝大多数连60分的及格线都没摸到。

你第一反应可能是：才60分出头？这benchmark是不是故意出得太难了？

别急，换个角度看。同一个GPT-5-Thinking，在BBH（BIG-Bench Hard）上准确率92.0%，到了General 365，58.6%。差了三十多个百分点。

不是模型变笨了。是尺子换了一把。

刷分两年半

过去两年，我隔三岔五就能看到”某模型在某评测上超越人类”的新闻。

AIME 数学竞赛，满分。IPhO 物理竞赛，逼近满分。SWE-bench 编程任务，头部模型 80% 以上通过率。每次榜单刷新，行业就欢呼一次。投资人转发表格，开发者转发论文，PR部门转发一切。

然后Stanford 2025年AI Index报告出来，用了一句话把场面冷下来：MMLU已经饱和了。

MMLU是什么？Massive Multitask Language Understanding，57个学科、约15900道多选题，曾是衡量模型知识广度的黄金标准。2021年GPT-3考了43%，接近随机。2024年顶模普遍进入85%以上。2025年，90%以上。

一场考试，从区分度极高到全员满分，用了四年。

更扎心的是数据污染。微软在ACL 2025上专门推出了一个MMLU-CF版本——Contamination-Free，防污染版。为什么需要防污染版？因为原版的测试题，大概率已经在模型的训练语料里出现过了。马里兰大学2025年的DyePack研究用后门攻击技术检测污染，在MMLU-Pro上发现误报率低于十万分之七，但模型分数和原版MMLU的差距大得可疑——这意味着训练数据里可能混入了测试题。

这不叫考试。这叫背题。

BBH的经历更典型，也更讽刺。BBH是Google自己提出的基准——2022年从BIG-Bench的204项任务中筛出23个”模型显著低于人类水平”的难题。当时看确实难，涵盖复杂推理、因果分析、反事实理解、多步规划。Google自己的模型在这些题上表现也不好。

三年后呢？前沿模型在BBH上普遍超过90%，多项接近满分。连BBH的创造者都承认：这个基准已经没有区分度了。

于是Google在2025年2月推出了BBEH（Extra Hard版），把原来的23个任务全部替换成更难的版本。结果呢？最强的o3-mini (high)得分44.8%，不及格。DeepSeek-R1得6.8分。Google自己的Gemini-2.0-Flash得9.8分。

出题人自己加的题，所有模型都不及格。

一个benchmark的生命周期，从提出到饱和到被替代，三年。Replit CEO Amjad Masad预测SWE-bench也会在2027年饱和——它2023年10月提出，同样是四年左右。

这就是Goodhart定律在AI评测里的具象化：当一项指标成为优化目标，它就不再是好指标。

模型厂商不是故意作弊。市场竞争的逻辑就是这样：分数 = 融资 = 用户 = PR = 更多数据 = 更高的分数。分数本身变成了目标，衡量能力只是它穿的一件外衣。

一把不容易被”背”的尺子

General 365有意思的地方，不在于它难。

难的东西很多。BBEH就难，难到所有模型都不及格，但那也失去了区分度——你分不出60分和58分的模型谁更好。General 365的分数分布在50%-63%之间，恰恰是一个能拉开差距的区间。

它的有意思在于设计思路。

General 365 把通用推理拆成八个维度：复杂约束、分支与枚举、时空推理、递归与回溯、语义干扰、隐式信息、最优策略、概率与不确定性。每道题至少对应一个维度，70% 的题目同时具备两个及以上标签。

这意味着什么？意味着你没法用一个模板通吃。

举个具体的例子。“语义干扰”类题目是什么？题干里放了干扰信息，模型能不能不被带偏，严格遵循题设规则。“最优策略”类呢？多条路摆在那里，选最划算的那条。这两种题，靠背解题套路是没用的——干扰信息每次都不一样，最优路径每次都要重新算。

团队做了一个验证，结果很直观：让Gemini 3 Pro给语义相近的题目对打分，评估推理路径的相似度（0-5分）。General 365平均只有2.16分。BBH和BBEH高得多。

换句话说，在General 365里，相邻的两道题，解法可能完全不同。365道题，至少需要三百多种不同的推理策略。背模板这条路，走不通了。

从t-SNE可视化上看更清楚：BBH和BBEH的题目嵌入出现明显的聚集——题目看起来不一样，但背后的逻辑是同一种。General 365的题目均匀分散在整个空间里，没有明显的聚集点。

原创的、不重复的题目。 这大概是目前AI评测里最稀缺的东西。

模型的软肋在哪

但等一下——如果这套题设计得这么好，为什么Gemini 3 Pro还能拿第一？62.8%虽然不高，但第二名可能只有58%。差距是真实存在的。

拆成八个维度看，“语义干扰”和”最优策略”是普遍弱项，得分比整体准确率低约10个百分点。10个百分点意味着什么？如果一个模型整体答对60道题，在这两类上只能答对50道左右。

模型不怕难，怕的是干扰。你给它一个干净的逻辑链条，它能跑二十步不迷路。你在第三步塞一个无关条件——“小王比小李高，小李比小张矮，但小王上周感冒了”——它就开始绕路了。“感冒”这个信息和身高比较无关，但模型会试图为它找一个解释，然后推理链就歪了。

多步全局规划能力的匮乏，这就是当前大模型和人类之间那层还没捅破的纸。人类做逻辑题时会本能地过滤噪音，先识别”哪些信息是相关的”。模型的默认行为是”所有信息都有用”——毕竟它的训练方式就是给一段话，然后从中提取答案。你突然给它一段话，告诉它”这里面有一半是废话”，它的过滤器还没装好。

还有一个数据我一直盯着看：效率。

Gemini 3 Pro拿最高分，平均输出约14k tokens。其他准确率和它接近的模型，输出普遍25k-30k tokens。差了一倍多。

同样的分数，有人想三步就到了，有人要想三十步，反复验证，来回修正，写了一大串推理链最后碰巧答对。这不是准确率的问题，是推理路径的质量问题。一个高效的大脑和一个低效的大脑可能得出相同的答案，但你不会认为它们一样聪明。

Gemini 3.1 Pro 三个月后发布。ARC-AGI-2这个抽象推理测试，得分从31.1%跳到77.1%，翻倍以上。Humanity’s Last Exam从37.5%跳到44.4%。GPQA Diamond达到94.3%。价格没变，输入还是$2/百万token。

这就是模型迭代的速度——当一把新的尺子出现，厂商知道该往哪个方向优化了。BBH饱和了，他们就优化BBEH。General 365出来了，他们就会优化通用推理。尺子本身没有错，错的是把尺子上的数字当成了智能本身。

尺子之后是什么

回头看美团LongCat团队这段时间的动作。

2026年4月到5月，密集发布了六七个benchmark：General 365测通用推理，AMO-Bench测高阶数学（50道竞赛专家原创题，对标IMO难度），LARYBench测具身动作表征，VitaBench测生活服务场景智能体，UNO-Bench测全模态理解，LongCat-Flash-Prover测定理证明，LongCat-AudioDiT做TTS。

他们像是在做一件事：在各个维度上，抢在模型”刷透”之前，建立新的评测标准。

但这就完了吗？不会的。

General 365今天刚出来，模型厂商明天就会开始针对性优化。不是恶意刷分，而是正常的研发方向调整——哪里分低，就补哪里。六个月后，可能会有模型在General 365上也拿到85%。然后呢？再出一套General 725？

不是这个循环有什么不对。这是科学测量的正常规律——标尺需要不断校准。物理学里的标准米定义改了多少次？从铂铱合金到光速，就因为旧的标尺不够精确、不够稳定。AI评测也一样。

有一件事需要意识到：

每一个99分的数字背后，都藏着一个正在被优化的目标。

那个能解IMO难题却回答不出”走路去洗车”的模型，也许某一天真的能回答出来了。不是因为它突然有了常识，是因为有人把”50米距离的出行方式选择”这类问题加进了训练数据，或者在RLHF阶段教它”短距离应该推荐步行”。

它”学会”了这道题。但你换一道新的常识题，它可能还是不会。

到那时候，我们需要另一把尺子。

而在那把尺子出现之前，判断一个模型好不好用，最靠谱的方法可能还是：你自己用用看。

你平时判断一个AI模型好不好用，是看榜单分数，还是自己上手试？有没有遇到过”分数很高但用起来很蠢”的情况？

原文参考

美团LongCat团队. 美团 LongCat 开源 General 365：树立推理评测新标尺. 美团技术团队. https://tech.meituan.com/2026/05/15/longcat-general-365.html