OpenAI 员工公然责备 xAI:Grok 3 基准测试成果存在
作者:[db:作者] 日期:2025/02/24 09:02 浏览:
IT之家 2 月 23 日新闻,本周,OpenAI 的一名员工公然责备埃隆・马斯克旗下的 xAI 公司,称其宣布的最新 AI 模子 Grok 3 的基准测试成果存在误导性。对此,xAI 的结合开创人伊戈尔・巴布什金(Igor Babushkin)则坚称公司并无不当。xAI 在其博客上宣布了一张图表,展现了 Grok 3 在 AIME 2025(一项近期约请制数学测验中的高难度数学题集)上的表示。只管一些专家质疑 AIME 作为 AI 基准的无效性,但 AIME 2025 及其晚期版本仍被普遍用于评价模子的数学才能。IT之家留神到,xAI 的图表表现,Grok 3 的两个版本 ——Grok 3 Reasoning Beta 跟 Grok 3 mini Reasoning—— 在 AIME 2025 上的表示超越了 OpenAI 以后最强的可用模子 o3-mini-high。但是,OpenAI 的员工很快在 X 平台上指出,xAI 的图表并未包括 o3-mini-high 在“cons@64”前提下的 AIME 2025 得分。“cons@64”是指“consensus@64”,即容许模子在基准测试中对每个成绩实验 64 次,并将呈现频率最高的谜底作为终极谜底。可想而知,这种方法每每会明显晋升模子的基准测试分数,假如图表中省略这一数据,就可能让人误认为某个模子的表示优于另一模子,而现实情形未必如斯。在 AIME 2025 的“@1”前提下(即模子初次实验的得分),Grok 3 Reasoning Beta 跟 Grok 3 mini Reasoning 的得分低于 o3-mini-high。Grok 3 Reasoning Beta 的表示也略低于 OpenAI 的 o1 模子在“中等盘算”设置下的得分。但是,xAI 仍在宣扬 Grok 3 为“天下上最聪慧的 AI”。巴布什金在 X 平台上辩称,OpenAI 从前也曾宣布过相似的误导性基准测试图表。只管这些图表是用于比拟其本身模子的表示。 开展全文
在这场争议中,一位中破的第三方从新绘制了一张更为“正确”的图表:
但正如 AI 研讨员内森・兰伯特(Nathan Lambert)在一篇文章中指出的,或者最主要的指标依然未知:每个模子到达最佳分数所需的盘算(跟款项)本钱。这偏偏标明,年夜少数 AI 基准测试在转达模子的范围性跟上风方面依然存在很年夜的缺乏。前往搜狐,检查更多