2024年12月,OpenAI发布o3模型并公布其基准测试成绩,整个AI研究界陷入沉默。o3在François Chollet专门设计来测试'真正智能'(无法靠记忆解决)的ARC-AGI测试上得分87.5%——超越了99%的人类测试者,而此前最好的AI模型得分仅约5%。o3还在美国数学奥林匹克(AIME)中解决了82.8%的题目,并在博士级科学问答测试(GPQA)中超越了大多数真正的专业科学家。唯一的问题:一次推理花费数千美元算力。Chollet表示他现在不确定ARC-AGI是否真的在测试他想测试的东西,整个AI安全领域开始重新审视'AGI何时到来'的时间线。