OpenAI o3是什么

OpenAI o3是o1推理模型的升级版本。o3系列包括全功能的o3以及专为特定任务优化的精简版o3-mini。发布这一新模型的初衷是为了规避与英国电信运营商O2的商标冲突，因此跳过了o2直接命名为o3。

OpenAI 在经历 12 天技术分享直播活动后于当地时间 2024 年 12 月 21 日发布了 o3 系列模型，这是 o1 推理模型的升级版本，由于可能与英国电信运营商 o2 存在版权或商标冲突，所以跳过 o2 直接命名为 o3。o3 包含 o3 和 o3-mini 两个版本，其中 o3-mini 是精简版模型，针对特定任务进行了微调。

OpenAI o3是什么第1张

OpenAI 计划明年 1 月正式发布 o3 系列模型，目前从 2024 年 12 月 21 日开始允许安全研究人员注册访问 o3 和 o3-mini 的预览，o3-mini 预计 1 月向所有用户推出，完整版 o3 则后续发布。

在 o3 的研发中，有北大校友任泓宇参与研发，任泓宇本科毕业于北大，对 o1 有过基础性贡献，也是 GPT-4o 的核心开发者，曾有丰富的研究实习经历。

OpenAI o3 性能表现

与 o1 对比

在软件工程测试中，o3 准确率比 o1 高近 47%；在竞赛数学测评中，准确率比 o1 高 15%；在人类博士专家级生化物测试中，准确率比 o1 高近 13%。

在 SweepBenchVerified 基准测试中，o3 达到约 71.7%的准确率，比 o1 模型高 20%；在编程竞赛平台 Codeforces 上，o1 得分为 1891，o3 的表现已经接近甚至超越人类专业程序员的实力（演示人员 MarkChen 得分 2500 作参照）；在美国数学竞赛 AIME2024 测试中，o1 的准确率为 83.3%，o3 为 90.67%。

在 AGI 相关测试中的表现

在 ARC-AGI 图形逻辑推理基准上，低计算场景中，o3 得分为 75.7%，高计算测试中达到 87.5%，超过了标志着达到人类水平的门槛 85%，而 o1 模型的得分仅在 25%到 32%之间。作为对比，GPT-3 的评测结果为 0%，GPT-4o 为 5%。

在全新的数学测试 EpochAIFrontierMath（被认为是当前最具挑战性的数学评估之一）中，所有现有模型在该测试上的准确率都不足 2%，而在高算力的长时间测试下，o3 却能取得超过 2457 的分数。

o3-mini 的表现

在衡量编程能力的 Codeforces Elo 评分中，随着推理时间的增加，o3-mini 的 Elo 分数持续攀升，在中等推理时间下就已超越 o1-mini。在 AIME 数学基准测试中，其低推理模式就达到了与 o1-mini 相当的性能，中等推理模式更是超越了 o1-mini，且延时更低。在 GPQA 数据集测试中，o3-mini 以低推理模式完成了复杂数据集的评估，准确率达到 61.62%。

对编程领域的影响

在 Codeforces 世界级编程比赛中，OpenAI o3 取得了 175 名的顶尖成绩（17 万程序员里的排名），o1 大概战胜 90%多的程序员，之前 GPT-4o 只战胜 11%的程序员。傅盛认为，o3 的发布标志着大语言模型的编程能力超越了 99.9%的程序员，虽然说程序员不存在了可能稍微有点夸张，但程序员更多的是要比拼对用户需求的理解、大逻辑的构建，而具体把需求变成代码的工作将很大程度上由 AI 完成。