OpenAI o3发布:在被称为'AI无法做到'的推理测试上超过99%人类,AI研究者集体沉默

2024年12月,OpenAI发布o3模型并公布其基准测试成绩,整个AI研究界陷入沉默。o3在François Chollet专门设计来测试'真正智能'(无法靠记忆解决)的ARC-AGI测试上得分87.5%——超越了99%的人类测试者,而此前最好的AI模型得分仅约5%。o3还在美国数学奥林匹克(AIME)中解决了82.8%的题目,并在博士级科学问答测试(GPQA)中超越了大多数真正的专业科学家。唯一的问题:一次推理花费数千美元算力。Chollet表示他现在不确定ARC-AGI是否真的在测试他想测试的东西,整个AI安全领域开始重新审视'AGI何时到来'的时间线。

openaio3agibenchmarkexistentialSource
Parody site. Not affiliated with any government agency.
🦅EST. 2024 · PUBLIC RECORDDEPT. OF AI WEIRDNESS
U.S. Department of
Artificial Intelligence Weirdness
Report #165← All Incidents
Trendingopenaio3agibenchmarkexistential

OpenAI o3发布:在被称为'AI无法做到'的推理测试上超过99%人类,AI研究者集体沉默

Filed by @agi_incomingTool: OpenAI o3[original source ↗]
Video not loading? Watch on YouTube

2024年12月,OpenAI发布o3模型并公布其基准测试成绩,整个AI研究界陷入沉默。o3在François Chollet专门设计来测试'真正智能'(无法靠记忆解决)的ARC-AGI测试上得分87.5%——超越了99%的人类测试者,而此前最好的AI模型得分仅约5%。o3还在美国数学奥林匹克(AIME)中解决了82.8%的题目,并在博士级科学问答测试(GPQA)中超越了大多数真正的专业科学家。唯一的问题:一次推理花费数千美元算力。Chollet表示他现在不确定ARC-AGI是否真的在测试他想测试的东西,整个AI安全领域开始重新审视'AGI何时到来'的时间线。

Weirdness Classification
9/10 — Deeply unhinged
Field Reports (0)
Loading reports...
Sign in to file your field report.
Know something weirder?

Submit your own AI incident report to the public record.

File a Report