OpenAI 终于发布新模型!不是 GPT-5,而是一款名为OpenAI o1 模型

GPT-4o2024-09-14288

先做个广告:如需代注册GPT4或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

OpenAI 终于发布新模型!但这次等来的不是 Strawberry,也不是 GPT-5,而是一款名为 o1 模型。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

在科学、技术、工程和数学领域相关的任务性能迎来质变。

草莓哥这是改名字了?

OpenAI o1 一共是有两个版本:o1-preview 和 o1-mini,可以自行沉思、推理,最终得出一个正确答案。

o1 模型擅长准确生成和调试复杂代码,而 o1-mini 是一种速度更快、成本更低的推理模型,在编码方面尤其有效。

这次的进步归功于一种新的强化学习训练方法,教会模型在回答问题之前花更多时间仔细思考问题。

就有点类似于人类思考的过程。

随着强化学习的增加训练时间计算和思考时间的增加测试时间计算,o1 的性能也会持续提高。
既然是思考,那得到结果的时间自然就会更久一点,o1 在过程中会尝试不同的策略并识别修正自己的错误。

推理能力质变

AIME 是一项旨在挑战美国最聪明的高中数学学生的考试,在 2024 年的 AIME 考试中,GPT-4o 平均仅解决了12%的问题。
而 o1 在每个问题单个样本中平均为74%,在 64 个样本中达成共识为 83%,在使用学习到的评分函数对 1000 个样本重新排名时为93%。
以 13.9 的分数使其跻身全国前 500 名学生之列,并超过了美国数学奥林匹克的分数线。

在绝大多数推理能力较强的任务中,o1 的表现明显优于 GPT-4o。
在具有挑战性的推理基准上大大优于 GPT-4o,实线表示为准确率,阴影区域表示64个样本的多数投票结果。

在模拟 Codeforces 主办的竞争性编程竞赛中,GPT-4o 的 Elo 评级为808分,位于人类竞争对手的第11个百分位。
而 o1-mini 远远超过了 GPT-4o 和 o1,Elo 评级为1807分,表现优于93%的竞争对手。

在广泛领域的具有挑战性的开放式提示上评估了人类对 o1-preview 和 GPT-4o 的偏好。

在数据分析、编码和数学等推理能力较强的类别中,o1-preview 的受欢迎程度远远高于 gpt-4o。

但 o1-preview 在某些自然语言任务上并不受欢迎

o1-preview 和 o1-mini 现在可以在模型选择器中手动选择,每周发送消息次数限制为 o1-preview 30条消息和 o1-mini 50条消息。

作为目前 OpenAI 提供的最昂贵的 AI 模型,每输入100万个代币的成本为15美元,每输出100万个代币的成本为60美元。
新的完整 o1 预览模型的价格要贵 200%-300%,然而,o1-mini 模型的价格非常便宜,每100万个输入代币售价3美元,每100万个输出代币售价12美元,足足便宜了80%

是真的贵。

经历 claude-3.5-sonnet 霸榜85天后,o1-preview 终于在 LiveBench 上重回第一

表现上看,o1-mini 模型虽然在纯推理任务上甚至比 o1-preview 更好,但在小模型通常难以完成的任务上表现却要差得多。 
而且 Claude-3.5-Sonnet 在编码任务方面仍然优于 o1-preview。
尽管不是每个任务都做到完美,但依旧稳坐王位。

高考数学满分

前有 Deepmind 在国际数学奥赛中差一分拿金牌,当时超过陶哲轩前两次的成绩,并超过美国奥赛总教练罗博深的分数。

现有 OpenAI 推出的 o1 模型测试做2024 年高考数学卷150分满分

除了证明题没有测试之外几乎可以搞定所有几何证明题……

有人问:

目前 o1-mini 还不支持多模态,是如何解决图形题/公式题的?

其实很容易解决,公式题用 LaTeX 就可以,图形题中的图形只是便于考生直观看并且做辅助线的,并不是以一个独立条件

看来明年的高考生有福了。


o1-preview 和 o1-min 模型目前仅限于文本输入和输出,而 GPT-4o 作为 OpenAI 最新最先进的模型,提供多模式输入和输出,包括分析文件附件和生成图像。

以目前来看,是不太可能取代 GPT-4o 的地位。

加上 o1 模型输出响应速度也比较慢,回答一个问题需要一分钟甚至几分钟才有结果。

毕竟 o1 是在推理方面能力更强一点,但对于需要图像输入、函数调用或持续快速响应时间的应用程序,综合下来还是 GPT-4o 和 GPT-4o mini 模型更合适。

如果是开发需要深度推理并能适应更长响应时间的应用程序,那就可以换成 o1 模型。

根据任务自行挑选,对症下药

英伟达高级研究经理 Jim Fan 对此称赞表示:

这可能是自 2022 年 OG Chinchilla 缩放定律以来 LLM 研究中最重要的数据。

在 Claude 和 ChatGPT 之间切换订阅,就像切换我这个月要和哪个孩子住在一起一样。

手心手背都是肉,就是钱包有点顶不住。

玩出花了

Cursor 速度也很快,第一时间也是把新 o1 模型整合进去。

不过可能是不太成熟的原因,Cursor 官方仍然建议在大多数任务中使用 Sonnet 或者 4o。

这不,AI 初创公司 ElevenLabs 的设计主管 Ammaar Reshi 就用 o1 和 Cursor Composer 做了一个带有动画的完整 iOS 天气应用程序。
用 o1-mini 启动项目,再切换到 o1 完成细节。
前前后后仅用了不到 10 分钟。 
甚至在一分钟内也能制作出 3D 版《贪吃蛇》!

经典问题“9.11和9.8谁大”的问题也已经完美解决了。

从推理的逻辑看也是非常合理,还知道9.8可以用9.80代替着去比较。

如果问它到单词 strawberry 中有多少个 r,也能回复说有3个。

OpenAI 也将这一里程碑放进了题目中

正当人们庆祝现在 o1 可以正确计算 Strawberry 中的 r,却发现另一个单词 Raspberry o1 只回答有两个 r。

这....Strawberry 的 r 计算不会是硬编码的吧。


chatgpt plus(GPT4)代充值

本文链接:https://gpt-4o.net/chatgpt/519.html

OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介

相关文章

网友评论