刷榜不是道德问题——从 Open ASR Leaderboard 的私有数据说起

当评测变成了考纲——Open ASR Leaderboard 私有数据背后的博弈

我最近在刷 Hugging Face 的 Open ASR Leaderboard 时，看到一条更新：他们引入了一批私有数据集来做评测。

“私有”这个词放在开源社区里，天然带着一种违和感。Hugging Face 一直高举开放旗帜——代码开源、数据集公开、评测透明。现在突然说”这批数据不给你们看了”，怎么看都像是在开倒车。

但我读完那篇博客之后，反而觉得这件事做得漂亮。

它触及了 AI 评测体系一个被长期回避的问题：当一个评测足够重要的时候，它就不再只是”衡量标准”——它会变成”优化目标”。而一旦变成优化目标，它就不再是好的衡量标准。

这就是 Goodhart’s Law。

Goodhart’s Law 不是道德审判

Goodhart’s Law 原话是：“When a measure becomes a target, it ceases to be a good measure.”

这句话本来是说货币政策的，但放在 AI 领域，简直是量身定制。

Open ASR Leaderboard 自 2023 年 9 月上线以来，访问量超过 71 万次。它用统一的 normalizer 处理所有模型的输出——去除标点、统一大小写、转换为美式拼写——然后用 WER（词错误率）排座次。公平、透明、可复现。

问题恰恰出在”可复现”上。

当你知道测试集包含哪些音频、知道评分规则是 WER、甚至能在本地完整复现评估流程——那你训练模型的时候，怎么可能不被这些东西牵引？不是模型开发者道德败坏，是机制本身在发出一个清晰的信号：往这个方向优化，分数就会涨。

换个场景你就懂了。如果高考真题每年提前半年公布，最好的备考策略一定是”研究真题”而不是”学好知识”。没一个学生会说自己作弊——考卷是你公布的，我只是认真准备了而已。

AI 模型的 benchmaxxing 本质上是一样的。训练数据里混入测试集的录音风格、词汇分布、说话节奏——这些不是”作弊”，是在公开规则下的理性优化。

截至 2025 年 12 月，排行榜前 11 名模型在 8 个常用公开数据集上的 WER 差距已经极小。不是说模型真的都做到极致了——更像是评测的区分度快被榨干了。

私有数据：一个让你不舒服但有效的解法

Open ASR Leaderboard 这次的应对方式是和两家数据公司合作——Appen（澳鹏）和 DataoceanAI（海天瑞声）。

Appen 是 1996 年成立于澳大利亚的老牌 AI 数据公司，全球 200 多个国家有众包资源，做了近 30 年数据标注。DataoceanAI 原名 SpeechOcean，专注语音数据，2023 年从语音领域向多模态 AI 数据转型。

他们各自提供了一批”私有”测试数据：澳洲、加拿大、印度、美国、英国五种口音，朗读和自然对话两种场景，总计约 30 小时音频。

这些数据不公开。你不能下载，不知道哪段录音被选中，只能在提交模型后由 Hugging Face 跑一遍评估，然后等结果。

第一反应确实不太舒服——开源社区最重要的资产之一就是可复现性。你连评测能不能复现都不知道，凭什么相信这个分数？

但再想一层：正是因为不能复现，这个分数才值得信任。

如果模型开发者看不到测试数据，就没法针对它做优化。你唯一能做的就是把模型的整体能力提上去——更好地处理各种口音、适应朗读和对话场景、在噪音环境中保持稳定。而这，恰恰是我们希望 ASR 模型真正拥有的能力。

这有点像大学的突击点名。教授不提前说哪天查考勤，不是为了抓逃课，是为了让”来上课”成为最优策略。

那个 toggle 开关才是精髓

排行榜还做了一个很巧妙的设计：默认排名不包含私有数据。

首页的排名还是基于那 8 个公开数据集的 WER 宏平均。私有数据的结果放在单独的 tab 里，旁边有一个”Rank Δ”按钮，告诉你纳入私有数据后排名怎么变。

这个设计的妙处在于——它把”以什么标准评测”变成了一个选择，而不是一个结论。

你想看模型在公开学术数据集上的表现？可以，这是默认视图。你想看它在真实分布外数据上的泛化能力？切一下 toggle。

它承认了一个在 AI 评测里很少被承认的事实：没有”最好”的模型，只有最适合你场景的模型。

做会议转写的人在意对话场景下的 WER，做语音助手的人关心多口音表现。一个笼统的宏观排名掩盖了所有这些差异——toggle 让它们重新可见。

Hugging Face 在之前的报告里写过一句话：

没有哪个”全能”ASR 模型——有些模型在美式英语上表现更好，有些在多口音和多语言场景下更优，有些则侧重速度或对话类音频。

选模型这件事，离不开你想拿它来干什么。

信任靠的不只是透明，更是结构

回到最开始的问题——私有数据到底算不算对”开放精神”的背叛？

不用绕弯子：是的，在透明度这个维度上退了一步。但这种退让，是为了在可信度这个维度上进两步。

信任有两种来源。一种是透明信任——你能看到所有东西，所以你信。开源代码、公开数据、可复现结果，都属这类。另一种是结构信任——你看不到所有东西，但系统的设计让你相信它不会骗你。

私有数据走的是第二条路。你看不到测试集，但你知道：

数据来自两家独立的供应商，没人能同时拿到两家的数据来刷
默认排名不含私有数据，看不懂的指标不会影响你的位置
评估代码是开源的——数据不公开，但算分逻辑明明白白

这其实比完全透明更坚固。完全透明的系统容易被懂规则的人钻空子，而结构信任不需要依赖每个人的自觉。

靠善良防不了刷榜。靠结构可以。

这不是 ASR 的问题，是所有 AI 评测的宿命

跳出语音识别这个领域来看，LLM 排行榜、代码能力评测、多模态 benchmark——全在经历同一件事：排名发布 → 社区针对性优化 → 分数趋同 → 评测失效 → 换新数据集 → 再来一轮。

这几乎是公开评测的宿命。

Open ASR Leaderboard 的私有数据方案不是终极答案。私有数据也有自己的问题——数据怎么挑选？样本是否有偏？谁来监督质量？如果哪天真有人拿到了这些数据怎么办？

但它至少给出了一个思考方向：不要在评测已经变成优化目标之后才去补救。在设计评测系统的第一天，就应该假设它会被当成优化目标，然后据此设计结构。

Goodhart’s Law 不是道德判断，它是一种结构性规律。你不能靠呼吁大家”别刷榜”来对抗它，就像你喊口号对抗不了万有引力。

你能做的，是造一套让规律为你所用的机制。

Open ASR Leaderboard 的私有数据集 + toggle 开关，就是这么一种尝试。

你用过哪些 AI 模型的评测？有没有感觉分数很高、实际体验却一言难尽的时候？

原文参考

Vaibhav Srivastav et al. Adding Benchmaxxer Repellant to the Open ASR Leaderboard. Hugging Face Blog, 2026-05-04. https://huggingface.co/blog/open-asr-leaderboard-private-data