刷榜不是道德问题——从 Open ASR Leaderboard 的私有数据说起

当评测变成了考纲——Open ASR Leaderboard 私有数据背后的博弈
Section titled “当评测变成了考纲——Open ASR Leaderboard 私有数据背后的博弈”我最近在刷 Hugging Face 的 Open ASR Leaderboard 时,看到一条更新:他们引入了一批私有数据集来做评测。
“私有”这个词放在开源社区里,天然带着一种违和感。Hugging Face 一直高举开放旗帜——代码开源、数据集公开、评测透明。现在突然说”这批数据不给你们看了”,怎么看都像是在开倒车。
但我读完那篇博客之后,反而觉得这件事做得漂亮。
它触及了 AI 评测体系一个被长期回避的问题:当一个评测足够重要的时候,它就不再只是”衡量标准”——它会变成”优化目标”。而一旦变成优化目标,它就不再是好的衡量标准。
这就是 Goodhart’s Law。

Goodhart’s Law 不是道德审判
Section titled “Goodhart’s Law 不是道德审判”Goodhart’s Law 原话是:“When a measure becomes a target, it ceases to be a good measure.”
这句话本来是说货币政策的,但放在 AI 领域,简直是量身定制。
Open ASR Leaderboard 自 2023 年 9 月上线以来,访问量超过 71 万次。它用统一的 normalizer 处理所有模型的输出——去除标点、统一大小写、转换为美式拼写——然后用 WER(词错误率)排座次。公平、透明、可复现。
问题恰恰出在”可复现”上。
当你知道测试集包含哪些音频、知道评分规则是 WER、甚至能在本地完整复现评估流程——那你训练模型的时候,怎么可能不被这些东西牵引?不是模型开发者道德败坏,是机制本身在发出一个清晰的信号:往这个方向优化,分数就会涨。
换个场景你就懂了。如果高考真题每年提前半年公布,最好的备考策略一定是”研究真题”而不是”学好知识”。没一个学生会说自己作弊——考卷是你公布的,我只是认真准备了而已。
AI 模型的 benchmaxxing 本质上是一样的。训练数据里混入测试集的录音风格、词汇分布、说话节奏——这些不是”作弊”,是在公开规则下的理性优化。

截至 2025 年 12 月,排行榜前 11 名模型在 8 个常用公开数据集上的 WER 差距已经极小。不是说模型真的都做到极致了——更像是评测的区分度快被榨干了。
私有数据:一个让你不舒服但有效的解法
Section titled “私有数据:一个让你不舒服但有效的解法”Open ASR Leaderboard 这次的应对方式是和两家数据公司合作——Appen(澳鹏)和 DataoceanAI(海天瑞声)。
Appen 是 1996 年成立于澳大利亚的老牌 AI 数据公司,全球 200 多个国家有众包资源,做了近 30 年数据标注。DataoceanAI 原名 SpeechOcean,专注语音数据,2023 年从语音领域向多模态 AI 数据转型。
他们各自提供了一批”私有”测试数据:澳洲、加拿大、印度、美国、英国五种口音,朗读和自然对话两种场景,总计约 30 小时音频。
这些数据不公开。你不能下载,不知道哪段录音被选中,只能在提交模型后由 Hugging Face 跑一遍评估,然后等结果。
第一反应确实不太舒服——开源社区最重要的资产之一就是可复现性。你连评测能不能复现都不知道,凭什么相信这个分数?
但再想一层:正是因为不能复现,这个分数才值得信任。

如果模型开发者看不到测试数据,就没法针对它做优化。你唯一能做的就是把模型的整体能力提上去——更好地处理各种口音、适应朗读和对话场景、在噪音环境中保持稳定。而这,恰恰是我们希望 ASR 模型真正拥有的能力。
这有点像大学的突击点名。教授不提前说哪天查考勤,不是为了抓逃课,是为了让”来上课”成为最优策略。
那个 toggle 开关才是精髓
Section titled “那个 toggle 开关才是精髓”排行榜还做了一个很巧妙的设计:默认排名不包含私有数据。
首页的排名还是基于那 8 个公开数据集的 WER 宏平均。私有数据的结果放在单独的 tab 里,旁边有一个”Rank Δ”按钮,告诉你纳入私有数据后排名怎么变。
这个设计的妙处在于——它把”以什么标准评测”变成了一个选择,而不是一个结论。
你想看模型在公开学术数据集上的表现?可以,这是默认视图。你想看它在真实分布外数据上的泛化能力?切一下 toggle。
它承认了一个在 AI 评测里很少被承认的事实:没有”最好”的模型,只有最适合你场景的模型。
做会议转写的人在意对话场景下的 WER,做语音助手的人关心多口音表现。一个笼统的宏观排名掩盖了所有这些差异——toggle 让它们重新可见。
Hugging Face 在之前的报告里写过一句话:
没有哪个”全能”ASR 模型——有些模型在美式英语上表现更好,有些在多口音和多语言场景下更优,有些则侧重速度或对话类音频。
选模型这件事,离不开你想拿它来干什么。
信任靠的不只是透明,更是结构
Section titled “信任靠的不只是透明,更是结构”回到最开始的问题——私有数据到底算不算对”开放精神”的背叛?
不用绕弯子:是的,在透明度这个维度上退了一步。但这种退让,是为了在可信度这个维度上进两步。
信任有两种来源。一种是透明信任——你能看到所有东西,所以你信。开源代码、公开数据、可复现结果,都属这类。另一种是结构信任——你看不到所有东西,但系统的设计让你相信它不会骗你。

私有数据走的是第二条路。你看不到测试集,但你知道:
- 数据来自两家独立的供应商,没人能同时拿到两家的数据来刷
- 默认排名不含私有数据,看不懂的指标不会影响你的位置
- 评估代码是开源的——数据不公开,但算分逻辑明明白白
这其实比完全透明更坚固。完全透明的系统容易被懂规则的人钻空子,而结构信任不需要依赖每个人的自觉。
靠善良防不了刷榜。靠结构可以。
这不是 ASR 的问题,是所有 AI 评测的宿命
Section titled “这不是 ASR 的问题,是所有 AI 评测的宿命”跳出语音识别这个领域来看,LLM 排行榜、代码能力评测、多模态 benchmark——全在经历同一件事:排名发布 → 社区针对性优化 → 分数趋同 → 评测失效 → 换新数据集 → 再来一轮。
这几乎是公开评测的宿命。
Open ASR Leaderboard 的私有数据方案不是终极答案。私有数据也有自己的问题——数据怎么挑选?样本是否有偏?谁来监督质量?如果哪天真有人拿到了这些数据怎么办?
但它至少给出了一个思考方向:不要在评测已经变成优化目标之后才去补救。在设计评测系统的第一天,就应该假设它会被当成优化目标,然后据此设计结构。
Goodhart’s Law 不是道德判断,它是一种结构性规律。你不能靠呼吁大家”别刷榜”来对抗它,就像你喊口号对抗不了万有引力。
你能做的,是造一套让规律为你所用的机制。
Open ASR Leaderboard 的私有数据集 + toggle 开关,就是这么一种尝试。
你用过哪些 AI 模型的评测?有没有感觉分数很高、实际体验却一言难尽的时候?
Vaibhav Srivastav et al. Adding Benchmaxxer Repellant to the Open ASR Leaderboard. Hugging Face Blog, 2026-05-04. https://huggingface.co/blog/open-asr-leaderboard-private-data