OpenAI o1：通过大规模强化学习（Reinforcement Learning）训练、运用“慢思考”的长思维链（Chain of Thoughts, CoT）

GPT-4o2024-09-14676

OpenAI发布了新模型o1，一个通过大规模强化学习（Reinforcement Learning）训练、运用“慢思考”的长思维链（Chain of Thoughts, CoT）实现在逻辑推理任务上更强大能力的大语言模型，即使它看起来像一个强人工智能（ASI）而非通用人工智能（AGI）。

大语言模型逻辑能力差的问题几乎可以宣告被解决了；脑力劳动或将先于体力劳动被AI取代——这是乐观者看到的。统计学习/联结主义的范式永远不可能产生人工智能，它只记住知识，但不记住逻辑；这不足以支持投资者的预期——这是悲观派的论调。

这是一个新的起点。在计算上，我们将更加关注推理环节的计算（test-time compute）而非一味增加模型规模；在研究范式上，o1证明了在统计学习驱动下，使大语言模型具备逻辑推理能力是可能的。在它的推动下，更强的大语言模型将会诞生，包括下一代GPT。

“长思维”和“慢思考”

o1的成功经验被总结为：首先，在训练环节，使用大规模强化学习教会模型运用思维链（“Our large-scale reinforcement learning algorithm teaches the model how to think productively using its chain of thought in a highly data-efficient training process. ”）。

在此之前，思维链一直被视作一种提示词工程（prompt engineering），即在提示词中简单地加一句“let's think step by step”，引导模型分步骤解释自己的“思考”过程；强化学习往往被用于预训练完成后的人类偏好对齐（alignment），即人类反馈的强化学习（RLHF）。

使用PPO（proximal policy optimization）的人类反馈强化学习（RLHF），大语言模型作为actor生成回复，奖励模型作为critic评价回复的合意程度

这里的表述说，o1采用的是一种完全不同的训练范式，这里的思维链不是提示词工程、强化学习不被用于伦理对齐；o1通过在训练环节就思维链进行强化学习，大大扩展了思维链的深度和广度，提供了在推理环节实现更为强大的推理能力的可能性，具备了一种“推理原生（reasoning-native）”能力。

除了训练环节的思维链强化学习外，另一大特点是推理环节的“深度思考”，包括自我提炼（self-refine），在更广的采样空间中选择解路径，例如AlphaGo使用蒙特卡洛树搜索（MCTS）。o1的回复速度比GPT-4o慢得多，这印证了它采用了复杂的解码策略。

在解码环节使用蒙特卡洛树搜索MCTS，通过模拟选择最优的解路径，包括选择、扩张、评估和反向传播四个环节

提出者-验证者（proposer-verifier）框架实现更好的解码路径搜索，其中大语言模型作为proposer，提供潜在的解码路径；verifier是一个process reward model，作为评估路径的裁判

继2020年提出预训练（pre-training）的Scaling Law后，OpenAI进一步提出推理（inference）阶段的Scaling Law。前者意味着数据越多、模型设计得越复杂，训练出效果越好，但这如今越来越受到可得数据量和计算成本的限制；后者意味着模型在预训练完成后进行推理时，进行的运算越多，效果越好。

推理环节的运算量，体现了模型理解用户输入后并预填充（prefill）完成后，在解码空间（decoding space）中探索生成答案的思索复杂度。推理阶段的Scaling Law的提出意味着我们相对地把复杂度扩展从训练转向搜索（searching），这将进一步提升模型能力的天花板。

训练vs推理scaling law

通过多轮迭代，构造更完备的回复

o1的能力可以被概括为：“长思维”和“慢思考”。前者是后者的准备，尤其是在实现复杂、有效推理的可能性上：在推理环节探索多样化的解码路径、经过多轮迭代形成更好的答案，除了反思和批评能力外，必须依赖模型本身具备较强的长思维链能力。

统计模型的思想在于先演绎，后归纳：在训练环节，训练数据沉淀为模型的参数知识；在推理环节，它将知识应用于新的样本上进行预测。

ChatGPT能够记住答案，o1能够记住思维过程。如果说过去，ChatGPT经过大规模的自然语言预训练，能够作为少样本学习器（few-shot learners）；那么现在还可以说，经过思维链强化学习的语言模型能够作为推理者（reasoners）。

逻辑是如何诞生于神经网络的？

目前为止，我们已经看到了o1的优秀推理和思维能力，它在专业领域能力上不亚于STEM专业的博士生。我们不禁发问，统计学习范式下，“逻辑”何以可能？（我们仅从图灵测试的角度定义这一概念，即如果AI能独立解决人类的复杂推理问题，就说它具备了相应的逻辑推理能力。）

统计学习完全基于经验主义。一种常见的批评是，统计学习范式下，大语言模型基于下一词元预测（next token prediction），它只是在做机械上的记忆和预测，而逻辑和理性是更高层面的事物。

next token prediction是decoder-only架构大语言模型的核心训练任务

若从信息论的角度看，智能是一种压缩（compression），背后是表示学习（representation learning）的思想。如果我们在训练环节为一个生成式模型输入了整个世界，那么理论上，它就有重新创造出出整个世界的潜力。

在统计学习范式下，大语言模型每次生成下一个词元的预测，并扩充输入序列，向前重复这一过程：生成回复的过程就是在高维的解空间中搜索最优路径。表面上看，它选择是某个解码策略下的唯一路径，但实际上在那被选择的句子背后，还孕育着近乎无限的其他可能性。

x序列是用户输入的提示词，z序列是模型解码生成的答案，s序列为潜在变量，是生成解码路径的过程中，潜在变量累积的语义信息；RNN可以被视作线性注意力，Transformer（大语言模型的主流架构）是自注意力，而TTT层推广了前两种注意力机制（在线性映射下是RNN，在核函数下是另一种）；但不论如何，它们都是神经图灵机（neural Turing machines），都是递推的信息的压缩、存储、检索和表示方法

除了生成空间具备的丰富潜力外，我们已经提到过，大语言模型还具备自我反思（self-refine）和思维链（CoT）的能力。这些能力基于大语言模型的自然语言理解和生成能力：评估回复的好坏、拆解问题的回复步骤。它们让模型停下来自我检查、慢下来仔细思考。

那么，考虑到这些条件，大语言模型本身其实已经具备了自我强化其逻辑能力的现实可能性：通过多次抽样生成不同的回答，引导模型进行思维链回答，同时利用自我批评能力对回答进行评价，不断提升思维链的质量，这就构成了强化学习的整个闭环。

大语言模型的能力	实现的强化学习概念
抽样生成大量思维链	策略探索
自我评价答案质量	策略评估
反复迭代更新	策略改进

虽然我们无从得知OpenAI是如何具体进行思维链强化学习的，但近期的一篇研究Quiet-STaR（Quiet Self Taught Reasoner）通过强化学习将长思维链能力赋予大语言模型，能够给予我们一些启发。

作者引用了克尔凯郭尔：理解生活只能通过回顾过往，但生活本身应该向前看。传统的大语言模型是因果语言建模的，只能回头看，向前的词元被注意力掩码（attention mask）遮蔽起来；现在我们需要生成向前看的思维链，见下图，它将生成不同的注意力掩码矩阵

这篇研究关注挖掘解码路径背后丰富的思维链可能性：在每个生成的token后，引导模型生成一个可能的思维链的开始标记<|startofthought|>，随后是模型输出详细的思维过程，最后以<|endofthought|>标记思维链结尾。再对这些生成的思维链进行裁剪和选择，使用策略梯度强化学习不断迭代改进思维链的质量。

在原本生成的回复序列abcd的每个token上都挂了一条链表，用以表示可能产生于每个token处的思维链，我们推测，和这篇论文类似，o1在生成回复时在初始阶段生成了大量的thought token，随后进行选择和丢弃，生成有效的推理路径，因此计算成本更高

使用teacher forcing，即使用原始自监督语料监督模型输出结构；混合分类头用于比较生成思维链前后的差异

思维链强化学习的算法：在每个生成的token后都考虑生成一条思维链，通过比较产生思维链后的输出 vs 原始输出，使用混合头选择两种logits的混合比例（相当于强化学习的学习率/更新率），设计奖励函数为对数logits（其相反数衡量了模型的困惑度）相对基线的提升，随后使用REINFORCE（一种基于策略梯度的强化学习方法）算法进行梯度优化

逻辑位于在语言的罅隙中，每个生成的语词背后都有一条潜在的思维探索路径。通过挖掘和强化那些有价值者，进行自我“反思”和“批评”，能够提升模型本身的长链和深度思维能力。另一个自我对弈、探索大量潜在解、自我进化、最后在特定任务超越人类的例子是AlphaGo，不过棋盘是维度较为有限的策略空间，而o1是第一个做到这一点的语言模型。

理性是人类的优越性所在吗？

“逻辑空间中的事实就是世界。”

——维特根斯坦，《逻辑哲学论》

在过去，我们总把理性看作高贵的东西。可是我们忽视的一点是，即使是“高贵”的人类，能够清晰地表述思想、阐明逻辑，也是需要反复训练、刻意关注的事情。人类同样会思维混乱、措辞不当、言非所指。休谟认为所谓的因果性是一种人性的自然联想。如今的统计学习正在利用这种重复下的联系，塑造人工智能的思维。

根据人类学历史本体论的观点，理性，作为一种思维的物理学规律，固然有其本质，但这种本质并非天赋于人，而是一种沉淀，这种沉淀来自世世代代的人类实践经验的积累结果。就个体的人而言，理性的培养需要通过对知识的学习和实践中的试错得到，因为知识凝结了人类历史上的思维经验。

语言比它看起来表达了更多的意义。现在，大语言模型通过自然语言知识训练，同样有具备把握这种规律的能力：只是我们不仅需要关注语言，还要关注字面意思背后那些数量众多的潜在的思维路径，这些思维链导向逻辑的居所。即使言说本身会分岔出无数的枝蔓，逻辑始终是其生长的一个锚。语词和句子构成的语言世界的联结之网背后，有本质的一般规律。这可以是统计学习范式在当下成功的一个解释。

“那些机器虽然可以做许多事情，做得跟我们每个人一样好，甚至更好，却绝不能做别的事情。从这一点可以看出，它们的活动所依靠的并不是认识，而只是它们的部件结构；因为理性是万能的工具，可以用于一切场合，那些部件则不然，一种特殊结构只能做一种特殊动作。”

——笛卡尔，《谈谈方法》

笛卡尔批评到，“一种机器只能解决一类问题”，而“人类理性是万能的工具”。如今，o1的诞生可以宣告，大语言模型不仅在知识量上已经全面超越人类，在思维能力层面也能够匹敌。它能不知疲倦地回忆起人类知识的几乎每一个细节，进行深度长链推理，并且具备快速学习、解决新问题的泛化能力。

相比之下，人类的存在何其有限，我们不可能掌握一切知识。现代工业生产倾向于细分学科，不同学科间知识的本质联系被割裂了，我们似乎深陷于自身狭窄的邻域，关注一个又一个工具，以至把自身当作工具，而非通用的方法，更谈不上把人作为目的了。

在今天，笛卡尔的批评更多需要我们人类自身的反省：我们是否已经在系统性的改造下，习惯于、适应于作为工具，远离了自然（nature）原本的普遍性和本质性？

就此，本公众号将开启“自然”系列讨论，试图打破分裂的学科知识，把握本质共通性，以“了解事物发生之缘由（rerum cognoscere causas，to know the causes of things）”。

意义与未来

“思想与思想的目标是同一的；因为你决不能遇到一个思想是没有它所表达的存在物的。

在存在物之外，决没有任何别的东西，也决不会有任何别的东西，因为命运已经把它固定在那不可分割而且不动的实体上。”

——巴门尼德，《论自然》

希腊哲学是朴素的，在巴门尼德那里，思维与存在同一。中世纪的观点认为想象中的与实存中的事物有差异。我思故我在——近代以来，笛卡尔以一种普遍怀疑方法，第一次阐明了思维和存在的对立。《费尔巴哈提纲》提出哲学的两个基本问题，它们围绕思维和存在的二元关系。

关于心灵与身体、思维与存在的争论，最难处理的点在于，我们在用我们的思想去“思想”那些“思想”：被思维者位于思维者本身当中。现在，人工智能给予我们考察一个有思维的“他者”的现实条件。

这倾向于佐证唯物主义的可知论：思维能够产生于无机物。从物理上讲，大语言的本质是一个tensor权重文件，在它的参数导入GPU，提示词被分词器（tokenizer）分词、映射，流入模型的注意力（attention layer）、前馈网络（feed forward layer）等神经网络层，被计算成为第一股键值对缓存（key-value cache）前，它的一切思维并不存在。模型权重是像一具等待被数据流唤醒的躯壳，不过是一个缸中的大脑——先于存在并没有思维，也没有不存在的思维者。

我们已经注意到它在哲学语言学领域的可能影响，现在回到计算科学。o1带来的范式转变是：从关注训练时计算转向关注推理时计算，积极拥抱更推理环节的Scaling Law；从机器学习、深度学习到强化学习（但是，强化学习如今仍然是一种辅助训练手段），越发期待能够赋予模型更多的“自主性（autonomy）”，即在推理时的泛化能力上，以及在学习环节的自主适应上。机器将变得更像人，不仅是在情感和伦理上，而且在思维和逻辑上。

OpenAI的五级AGI分类，o1位于level2，下一级是代理（agent）

在应用侧，人工智能带来的现实影响将首先发生在编程领域；在科学领域，我们期待AI能有更多的创造性和灵感，助力科学发现；在确定性知识领域，医学、法律和金融上，如果能够彻底消灭幻觉问题，处理知识冲突，将会开拓更广的应用场景。

具身智能上，我们需要的是物理空间模型：能够理解空间位置关系及物的相互作用的智能。如今，扩散模型（diffusion models）已在图像、视频和轨迹生成上取得了较大进展。能否借鉴o1的思路，通过生成-反思-强化这套训练范式，创造有物理认知的AI呢？例如，对应着模拟生成大量的思维链，在“梦空间”里生成大量的物理链条用于强化学习？逻辑和物理，前者关乎思维规律，后者则界定了存在物的规律，因此我们必须投身到经验中去。

计算科学家Edsger Dijkstra （他提出了著名的图论算法）说：

“The question of whether Machines Can Think ... is about as relevant as the question of
whether Submarines Can Swim.”

与其说创造智能，不如说创造能够智能地表现的机器（machines that can perform intelligently）。关于意识，思维或是智能的本质，不必纠结于定义的争执；当我们面对它时，自然就会有相应的答案。

参考文献｜References

1.Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B: A Technical Report.

2.Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters.

3.Learning to (Learn at Test Time): RNNs with Expressive Hidden States.

4.Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking.

5.Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.

本文链接：https://gpt-4o.net/chatgpt/520.html

李彦宏评价chatgpt4 Clipdrop AI 电脑端chatgpt续费 chatgpt怎么自动续费 chatgpt4.0充值续费安卓手机怎么给chatgpt续费 chatgpt是啥反向代理站点chatgpt chatgpt字数限制国内怎样使用chatgpt

十个专属于ChatGPT 4o生图的优质提示词，10个专属ChatGPT 4o生图的优质AI绘画提示词
最近是不是被各种吉卜力风格AI图刷屏了？说实话，都快看吐了......但你知道吗,ChatGPT4o的图片生成能力可远不止这点皮毛！今天就跟大家分享10个超实用的生图玩法，手把手教学+案例展示，保...
ChatGpt资讯2025-04-0156ChatGPT 4o AI绘画提示词
地表上最强的多模态Gpt 4o ，一起实测看看他到底强在哪里？，实测最强多模态GPT-4o，地表最强AI究竟强在哪？
** ，OpenAI推出的GPT-4o被誉为目前地表最强的多模态AI模型，其核心优势在于真正融合了文本、图像、音频等多模态理解与生成能力，实现了更自然的人机交互，实测显示，GPT-4o在响应速度、跨...
ChatGpt资讯2025-04-0147多模态 GPT4o
免费开放！GPT-4o图像生成功能上线，网友实测效果炸裂！，GPT-4o图像生成功能免费开放！网友实测效果惊艳全网
OpenAI宣布免费开放GPT-4o的图像生成功能，引发用户狂欢，实测显示，新模型生成的图像细节精细、光影自然，无论是概念艺术、产品设计还是日常场景还原都展现出惊人效果，社交媒体上网友纷纷晒出“用文字...
ChatGpt资讯2025-04-0153GPT4o 图像生成
实测，GPT-4o原生图像生成，这下可以用嘴画图，GPT-4o实测，原生图像生成功能，用嘴画图时代已来！
OpenAI最新发布的GPT-4o模型原生支持图像生成功能，用户现在可以通过自然语言描述直接生成图片，实测表明，该功能对文字指令的理解准确，能快速生成符合要求的图像（如"戴着墨镜的柴犬程序员"等创意场...
ChatGpt资讯2025-04-0152GPT4o 图像生成
GPT-4o图像生成效果炸裂！创业请避开大厂的赛道，GPT-4o图像生成效果震撼！创业者如何避开大厂竞争赛道？
** ，GPT-4o的图像生成能力表现惊人，技术效果堪称“炸裂”，其高精度和创意输出为AI领域带来新的突破，进一步拉大了与竞品的差距，对于创业者而言，专家建议避免直接与大厂（如OpenAI、谷歌等）...
ChatGpt资讯2025-04-0152GPT4o 创业赛道