OpenAI 终于发布新模型！不是 GPT-5，而是一款名为OpenAI o1 模型

GPT-4o2024-09-14423

OpenAI 终于发布新模型！但这次等来的不是 Strawberry，也不是 GPT-5，而是一款名为 o1 模型。

在科学、技术、工程和数学领域相关的任务性能迎来质变。

草莓哥这是改名字了？

OpenAI o1 一共是有两个版本：o1-preview 和 o1-mini，可以自行沉思、推理，最终得出一个正确答案。

o1 模型擅长准确生成和调试复杂代码，而 o1-mini 是一种速度更快、成本更低的推理模型，在编码方面尤其有效。

这次的进步归功于一种新的强化学习训练方法，教会模型在回答问题之前花更多时间仔细思考问题。

就有点类似于人类思考的过程。

随着强化学习的增加训练时间计算和思考时间的增加测试时间计算，o1 的性能也会持续提高。

既然是思考，那得到结果的时间自然就会更久一点，o1 在过程中会尝试不同的策略并识别修正自己的错误。

推理能力质变

AIME 是一项旨在挑战美国最聪明的高中数学学生的考试，在 2024 年的 AIME 考试中，GPT-4o 平均仅解决了12%的问题。

而 o1 在每个问题单个样本中平均为74%，在 64 个样本中达成共识为 83%，在使用学习到的评分函数对 1000 个样本重新排名时为93%。

以 13.9 的分数使其跻身全国前 500 名学生之列，并超过了美国数学奥林匹克的分数线。

在绝大多数推理能力较强的任务中，o1 的表现明显优于 GPT-4o。

在具有挑战性的推理基准上大大优于 GPT-4o，实线表示为准确率，阴影区域表示64个样本的多数投票结果。

在模拟 Codeforces 主办的竞争性编程竞赛中，GPT-4o 的 Elo 评级为808分，位于人类竞争对手的第11个百分位。

而 o1-mini 远远超过了 GPT-4o 和 o1，Elo 评级为1807分，表现优于93%的竞争对手。

在广泛领域的具有挑战性的开放式提示上评估了人类对 o1-preview 和 GPT-4o 的偏好。

在数据分析、编码和数学等推理能力较强的类别中，o1-preview 的受欢迎程度远远高于 gpt-4o。

但 o1-preview 在某些自然语言任务上并不受欢迎。

o1-preview 和 o1-mini 现在可以在模型选择器中手动选择，每周发送消息次数限制为 o1-preview 30条消息和 o1-mini 50条消息。

作为目前 OpenAI 提供的最昂贵的 AI 模型，每输入100万个代币的成本为15美元，每输出100万个代币的成本为60美元。

新的完整 o1 预览模型的价格要贵 200%-300%，然而，o1-mini 模型的价格非常便宜，每100万个输入代币售价3美元，每100万个输出代币售价12美元，足足便宜了80%。

是真的贵。

经历 claude-3.5-sonnet 霸榜85天后，o1-preview 终于在 LiveBench 上重回第一。

表现上看，o1-mini 模型虽然在纯推理任务上甚至比 o1-preview 更好，但在小模型通常难以完成的任务上表现却要差得多。

而且 Claude-3.5-Sonnet 在编码任务方面仍然优于 o1-preview。

尽管不是每个任务都做到完美，但依旧稳坐王位。

高考数学满分

前有 Deepmind 在国际数学奥赛中差一分拿金牌，当时超过陶哲轩前两次的成绩，并超过美国奥赛总教练罗博深的分数。

现有 OpenAI 推出的 o1 模型测试做2024 年高考数学卷150分满分。

除了证明题没有测试之外几乎可以搞定所有几何证明题……

有人问：

目前 o1-mini 还不支持多模态，是如何解决图形题/公式题的？

其实很容易解决，公式题用 LaTeX 就可以，图形题中的图形只是便于考生直观看并且做辅助线的，并不是以一个独立条件。

看来明年的高考生有福了。

o1-preview 和 o1-min 模型目前仅限于文本输入和输出，而 GPT-4o 作为 OpenAI 最新最先进的模型，提供多模式输入和输出，包括分析文件附件和生成图像。

以目前来看，是不太可能取代 GPT-4o 的地位。

加上 o1 模型输出响应速度也比较慢，回答一个问题需要一分钟甚至几分钟才有结果。

毕竟 o1 是在推理方面能力更强一点，但对于需要图像输入、函数调用或持续快速响应时间的应用程序，综合下来还是 GPT-4o 和 GPT-4o mini 模型更合适。

如果是开发需要深度推理并能适应更长响应时间的应用程序，那就可以换成 o1 模型。

根据任务自行挑选，对症下药。

英伟达高级研究经理 Jim Fan 对此称赞表示：

这可能是自 2022 年 OG Chinchilla 缩放定律以来 LLM 研究中最重要的数据。

在 Claude 和 ChatGPT 之间切换订阅，就像切换我这个月要和哪个孩子住在一起一样。

手心手背都是肉，就是钱包有点顶不住。

玩出花了

Cursor 速度也很快，第一时间也是把新 o1 模型整合进去。

不过可能是不太成熟的原因，Cursor 官方仍然建议在大多数任务中使用 Sonnet 或者 4o。

这不，AI 初创公司 ElevenLabs 的设计主管 Ammaar Reshi 就用 o1 和 Cursor Composer 做了一个带有动画的完整 iOS 天气应用程序。

用 o1-mini 启动项目，再切换到 o1 完成细节。

前前后后仅用了不到 10 分钟。

甚至在一分钟内也能制作出 3D 版《贪吃蛇》！

经典问题“9.11和9.8谁大”的问题也已经完美解决了。

从推理的逻辑看也是非常合理，还知道9.8可以用9.80代替着去比较。

如果问它到单词 strawberry 中有多少个 r，也能回复说有3个。

OpenAI 也将这一里程碑放进了题目中

正当人们庆祝现在 o1 可以正确计算 Strawberry 中的 r，却发现另一个单词 Raspberry o1 只回答有两个 r。

这....Strawberry 的 r 计算不会是硬编码的吧。

本文链接：https://gpt-4o.net/chatgpt/519.html

OpenAI-o1 OpenAI o1 OpenAI01 chatgpt o1 o1-mini o1-preview OpenAI o1 mini OpenAI o1 preview OpenAI o1官网 OpenAI o1官网入口 OpenAI o1地址 OpenAI o1中文版 openai o1模型简介

相关文章

十个专属于ChatGPT 4o生图的优质提示词，10个专属ChatGPT 4o生图的优质AI绘画提示词
最近是不是被各种吉卜力风格AI图刷屏了？说实话，都快看吐了......但你知道吗,ChatGPT4o的图片生成能力可远不止这点皮毛！今天就跟大家分享10个超实用的生图玩法，手把手教学+案例展示，保...
ChatGpt资讯2025-04-0152ChatGPT 4o AI绘画提示词
地表上最强的多模态Gpt 4o ，一起实测看看他到底强在哪里？，实测最强多模态GPT-4o，地表最强AI究竟强在哪？
** ，OpenAI推出的GPT-4o被誉为目前地表最强的多模态AI模型，其核心优势在于真正融合了文本、图像、音频等多模态理解与生成能力，实现了更自然的人机交互，实测显示，GPT-4o在响应速度、跨...
ChatGpt资讯2025-04-0144多模态 GPT4o
免费开放！GPT-4o图像生成功能上线，网友实测效果炸裂！，GPT-4o图像生成功能免费开放！网友实测效果惊艳全网
OpenAI宣布免费开放GPT-4o的图像生成功能，引发用户狂欢，实测显示，新模型生成的图像细节精细、光影自然，无论是概念艺术、产品设计还是日常场景还原都展现出惊人效果，社交媒体上网友纷纷晒出“用文字...
ChatGpt资讯2025-04-0148GPT4o 图像生成
实测，GPT-4o原生图像生成，这下可以用嘴画图，GPT-4o实测，原生图像生成功能，用嘴画图时代已来！
OpenAI最新发布的GPT-4o模型原生支持图像生成功能，用户现在可以通过自然语言描述直接生成图片，实测表明，该功能对文字指令的理解准确，能快速生成符合要求的图像（如"戴着墨镜的柴犬程序员"等创意场...
ChatGpt资讯2025-04-0149GPT4o 图像生成
GPT-4o图像生成效果炸裂！创业请避开大厂的赛道，GPT-4o图像生成效果震撼！创业者如何避开大厂竞争赛道？
** ，GPT-4o的图像生成能力表现惊人，技术效果堪称“炸裂”，其高精度和创意输出为AI领域带来新的突破，进一步拉大了与竞品的差距，对于创业者而言，专家建议避免直接与大厂（如OpenAI、谷歌等）...
ChatGpt资讯2025-04-0147GPT4o 创业赛道

网友评论