OpenAI 员工公然责备 xAI：Grok 3 基准测试成果存在

作者：[db:作者] 日期：2025/02/24 09:02 浏览：

IT之家 2 月 23 日新闻，本周，OpenAI 的一名员工公然责备埃隆・马斯克旗下的 xAI 公司，称其宣布的最新 AI 模子 Grok 3 的基准测试成果存在误导性。对此，xAI 的结合开创人伊戈尔・巴布什金（Igor Babushkin）则坚称公司并无不当。xAI 在其博客上宣布了一张图表，展现了 Grok 3 在 AIME 2025（一项近期约请制数学测验中的高难度数学题集）上的表示。只管一些专家质疑 AIME 作为 AI 基准的无效性，但 AIME 2025 及其晚期版本仍被普遍用于评价模子的数学才能。IT之家留神到，xAI 的图表表现，Grok 3 的两个版本 ——Grok 3 Reasoning Beta 跟 Grok 3 mini Reasoning—— 在 AIME 2025 上的表示超越了 OpenAI 以后最强的可用模子 o3-mini-high。但是，OpenAI 的员工很快在 X 平台上指出，xAI 的图表并未包括 o3-mini-high 在“cons@64”前提下的 AIME 2025 得分。“cons@64”是指“consensus@64”，即容许模子在基准测试中对每个成绩实验 64 次，并将呈现频率最高的谜底作为终极谜底。可想而知，这种方法每每会明显晋升模子的基准测试分数，假如图表中省略这一数据，就可能让人误认为某个模子的表示优于另一模子，而现实情形未必如斯。在 AIME 2025 的“@1”前提下（即模子初次实验的得分），Grok 3 Reasoning Beta 跟 Grok 3 mini Reasoning 的得分低于 o3-mini-high。Grok 3 Reasoning Beta 的表示也略低于 OpenAI 的 o1 模子在“中等盘算”设置下的得分。但是，xAI 仍在宣扬 Grok 3 为“天下上最聪慧的 AI”。巴布什金在 X 平台上辩称，OpenAI 从前也曾宣布过相似的误导性基准测试图表。只管这些图表是用于比拟其本身模子的表示。开展全文在这场争议中，一位中破的第三方从新绘制了一张更为“正确”的图表：但正如 AI 研讨员内森・兰伯特（Nathan Lambert）在一篇文章中指出的，或者最主要的指标依然未知：每个模子到达最佳分数所需的盘算（跟款项）本钱。这偏偏标明，年夜少数 AI 基准测试在转达模子的范围性跟上风方面依然存在很年夜的缺乏。前往搜狐，检查更多

新闻资讯

联系我们

OpenAI 员工公然责备 xAI：Grok 3 基准测试成果存在