先做个广告:如需代注册GPT4或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
OpenAI 终于发布新模型!但这次等来的不是 Strawberry,也不是 GPT-5,而是一款名为 o1 模型。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
在科学、技术、工程和数学领域相关的任务性能迎来质变。
草莓哥这是改名字了?
OpenAI o1 一共是有两个版本:o1-preview 和 o1-mini,可以自行沉思、推理,最终得出一个正确答案。
o1 模型擅长准确生成和调试复杂代码,而 o1-mini 是一种速度更快、成本更低的推理模型,在编码方面尤其有效。
这次的进步归功于一种新的强化学习训练方法,教会模型在回答问题之前花更多时间仔细思考问题。
就有点类似于人类思考的过程。
推理能力质变
在广泛领域的具有挑战性的开放式提示上评估了人类对 o1-preview 和 GPT-4o 的偏好。
在数据分析、编码和数学等推理能力较强的类别中,o1-preview 的受欢迎程度远远高于 gpt-4o。
但 o1-preview 在某些自然语言任务上并不受欢迎。
o1-preview 和 o1-mini 现在可以在模型选择器中手动选择,每周发送消息次数限制为 o1-preview 30条消息和 o1-mini 50条消息。
是真的贵。
经历 claude-3.5-sonnet 霸榜85天后,o1-preview 终于在 LiveBench 上重回第一。
高考数学满分
前有 Deepmind 在国际数学奥赛中差一分拿金牌,当时超过陶哲轩前两次的成绩,并超过美国奥赛总教练罗博深的分数。
现有 OpenAI 推出的 o1 模型测试做2024 年高考数学卷150分满分。
除了证明题没有测试之外几乎可以搞定所有几何证明题……
有人问:
目前 o1-mini 还不支持多模态,是如何解决图形题/公式题的?
其实很容易解决,公式题用 LaTeX 就可以,图形题中的图形只是便于考生直观看并且做辅助线的,并不是以一个独立条件。
看来明年的高考生有福了。
o1-preview 和 o1-min 模型目前仅限于文本输入和输出,而 GPT-4o 作为 OpenAI 最新最先进的模型,提供多模式输入和输出,包括分析文件附件和生成图像。
以目前来看,是不太可能取代 GPT-4o 的地位。
加上 o1 模型输出响应速度也比较慢,回答一个问题需要一分钟甚至几分钟才有结果。
毕竟 o1 是在推理方面能力更强一点,但对于需要图像输入、函数调用或持续快速响应时间的应用程序,综合下来还是 GPT-4o 和 GPT-4o mini 模型更合适。
如果是开发需要深度推理并能适应更长响应时间的应用程序,那就可以换成 o1 模型。
根据任务自行挑选,对症下药。
英伟达高级研究经理 Jim Fan 对此称赞表示:
这可能是自 2022 年 OG Chinchilla 缩放定律以来 LLM 研究中最重要的数据。
在 Claude 和 ChatGPT 之间切换订阅,就像切换我这个月要和哪个孩子住在一起一样。
手心手背都是肉,就是钱包有点顶不住。
玩出花了
Cursor 速度也很快,第一时间也是把新 o1 模型整合进去。
不过可能是不太成熟的原因,Cursor 官方仍然建议在大多数任务中使用 Sonnet 或者 4o。
经典问题“9.11和9.8谁大”的问题也已经完美解决了。
从推理的逻辑看也是非常合理,还知道9.8可以用9.80代替着去比较。
如果问它到单词 strawberry 中有多少个 r,也能回复说有3个。
OpenAI 也将这一里程碑放进了题目中
正当人们庆祝现在 o1 可以正确计算 Strawberry 中的 r,却发现另一个单词 Raspberry o1 只回答有两个 r。
这....Strawberry 的 r 计算不会是硬编码的吧。
本文链接:https://gpt-4o.net/chatgpt/519.html
OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介
网友评论