要点总结
OpenAI的o3模型能够利用图像进行思考,并使用网络浏览和Python等工具解决复杂的多步骤问题。
o4-mini经过优化,具备更高的速度和成本效率,在数学、编程和非STEM任务中表现优于之前的模型。
OpenAI今天发布了两个新的AI模型,o3和o4-mini,扩展了其在推理和视觉智能方面的能力。
o3代表了公司迄今为止最先进的推理模型,而o4-mini则以更低的成本提供了数学、编程和视觉任务的改进性能。
o3是o系列中首个能够独立利用所有可用ChatGPT工具的模型,包括网络浏览、Python、图像理解和生成。两个模型都引入了“图像思维”,使其推理过程能够直接整合视觉输入。
o3模型在软件工程、数学和科学推理方面建立了新的基准,在需要详细分析、假设生成和视觉内容解读的任务中超越了o1。外部测试显示,o3相比o1减少了20%的重大错误。
o4-mini经过优化以实现高吞吐性能,在包括AIME 2024和2025的基准测试中排名第一,展示了在STEM和非STEM领域的强大准确性。
OpenAI还发布了Codex CLI,这是一个用于从终端运行模型的本地编码代理。一个价值100万美元的资助计划将支持开发者使用它进行开发。
这两个模型都经过了使用OpenAI更新的准备框架的安全测试,评估确认在生物安全、网络安全和自我改进类别中的风险水平低于阈值。
这些模型今天对ChatGPT Plus、Pro和Team用户开放,取代了o1和o3-mini。ChatGPT Enterprise和Edu客户将在下周获得访问权限。免费用户可以在查询前使用“思考”选项测试o4-mini。
OpenAI计划在未来几周内推出o3-pro,将o3的能力与对高级推理任务的完整工具支持相结合。