OpenAI o3是o1推理模型的升级版本。o3系列包括全功能的o3以及专为特定任务优化的精简版o3-mini。发布这一新模型的初衷是为了规避与英国电信运营商O2的商标冲突,因此跳过了o2直接命名为o3。
OpenAI 在经历 12 天技术分享直播活动后于当地时间 2024 年 12 月 21 日发布了 o3 系列模型,这是 o1 推理模型的升级版本,由于可能与英国电信运营商 o2 存在版权或商标冲突,所以跳过 o2 直接命名为 o3。o3 包含 o3 和 o3-mini 两个版本,其中 o3-mini 是精简版模型,针对特定任务进行了微调。
OpenAI 计划明年 1 月正式发布 o3 系列模型,目前从 2024 年 12 月 21 日开始允许安全研究人员注册访问 o3 和 o3-mini 的预览,o3-mini 预计 1 月向所有用户推出,完整版 o3 则后续发布。
在 o3 的研发中,有北大校友任泓宇参与研发,任泓宇本科毕业于北大,对 o1 有过基础性贡献,也是 GPT-4o 的核心开发者,曾有丰富的研究实习经历。
OpenAI o3 性能表现
与 o1 对比
在软件工程测试中,o3 准确率比 o1 高近 47%;在竞赛数学测评中,准确率比 o1 高 15%;在人类博士专家级生化物测试中,准确率比 o1 高近 13%。
在 SweepBenchVerified 基准测试中,o3 达到约 71.7%的准确率,比 o1 模型高 20%;在编程竞赛平台 Codeforces 上,o1 得分为 1891,o3 的表现已经接近甚至超越人类专业程序员的实力(演示人员 MarkChen 得分 2500 作参照);在美国数学竞赛 AIME2024 测试中,o1 的准确率为 83.3%,o3 为 90.67%。
在 AGI 相关测试中的表现
在 ARC-AGI 图形逻辑推理基准上,低计算场景中,o3 得分为 75.7%,高计算测试中达到 87.5%,超过了标志着达到人类水平的门槛 85%,而 o1 模型的得分仅在 25%到 32%之间。作为对比,GPT-3 的评测结果为 0%,GPT-4o 为 5%。
在全新的数学测试 EpochAIFrontierMath(被认为是当前最具挑战性的数学评估之一)中,所有现有模型在该测试上的准确率都不足 2%,而在高算力的长时间测试下,o3 却能取得超过 2457 的分数。
o3-mini 的表现
在衡量编程能力的 Codeforces Elo 评分中,随着推理时间的增加,o3-mini 的 Elo 分数持续攀升,在中等推理时间下就已超越 o1-mini。在 AIME 数学基准测试中,其低推理模式就达到了与 o1-mini 相当的性能,中等推理模式更是超越了 o1-mini,且延时更低。在 GPQA 数据集测试中,o3-mini 以低推理模式完成了复杂数据集的评估,准确率达到 61.62%。
对编程领域的影响
在 Codeforces 世界级编程比赛中,OpenAI o3 取得了 175 名的顶尖成绩(17 万程序员里的排名),o1 大概战胜 90%多的程序员,之前 GPT-4o 只战胜 11%的程序员。傅盛认为,o3 的发布标志着大语言模型的编程能力超越了 99.9%的程序员,虽然说程序员不存在了可能稍微有点夸张,但程序员更多的是要比拼对用户需求的理解、大逻辑的构建,而具体把需求变成代码的工作将很大程度上由 AI 完成。