OpenAI o1:通过大规模强化学习(Reinforcement Learning)训练、运用“慢思考”的长思维链(Chain of Thoughts, CoT)

GPT-4o2024-09-14329

先做个广告:如需代注册GPT4或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

OpenAI发布了新模型o1,一个通过大规模强化学习(Reinforcement Learning)训练、运用“慢思考”的长思维链(Chain of Thoughts, CoT)实现在逻辑推理任务上更强大能力的大语言模型,即使它看起来像一个强人工智能(ASI)而非通用人工智能(AGI)。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

大语言模型逻辑能力差的问题几乎可以宣告被解决了;脑力劳动或将先于体力劳动被AI取代——这是乐观者看到的。统计学习/联结主义的范式永远不可能产生人工智能,它只记住知识,但不记住逻辑;这不足以支持投资者的预期——这是悲观派的论调。

这是一个新的起点。在计算上,我们将更加关注推理环节的计算(test-time compute)而非一味增加模型规模;在研究范式上,o1证明了在统计学习驱动下,使大语言模型具备逻辑推理能力是可能的。在它的推动下,更强的大语言模型将会诞生,包括下一代GPT。


“长思维”和“慢思考”

o1的成功经验被总结为:首先,在训练环节,使用大规模强化学习教会模型运用思维链(“Our large-scale reinforcement learning algorithm teaches the model how to think productively using its chain of thought in a highly data-efficient training process. ”)。

在此之前,思维链一直被视作一种提示词工程(prompt engineering),即在提示词中简单地加一句“let's think step by step”,引导模型分步骤解释自己的“思考”过程;强化学习往往被用于预训练完成后的人类偏好对齐(alignment),即人类反馈的强化学习(RLHF)。

使用PPO(proximal policy optimization)的人类反馈强化学习(RLHF),大语言模型作为actor生成回复,奖励模型作为critic评价回复的合意程度

这里的表述说,o1采用的是一种完全不同的训练范式,这里的思维链不是提示词工程、强化学习不被用于伦理对齐;o1通过在训练环节就思维链进行强化学习,大大扩展了思维链的深度和广度,提供了在推理环节实现更为强大的推理能力的可能性,具备了一种“推理原生(reasoning-native)”能力。

除了训练环节的思维链强化学习外,另一大特点是推理环节的“深度思考”,包括自我提炼(self-refine),在更广的采样空间中选择解路径,例如AlphaGo使用蒙特卡洛树搜索(MCTS)。o1的回复速度比GPT-4o慢得多,这印证了它采用了复杂的解码策略。

在解码环节使用蒙特卡洛树搜索MCTS,通过模拟选择最优的解路径,包括选择、扩张、评估和反向传播四个环节

提出者-验证者(proposer-verifier)框架实现更好的解码路径搜索,其中大语言模型作为proposer,提供潜在的解码路径;verifier是一个process reward model,作为评估路径的裁判

继2020年提出预训练(pre-training)的Scaling Law后,OpenAI进一步提出推理(inference)阶段的Scaling Law。前者意味着数据越多、模型设计得越复杂,训练出效果越好,但这如今越来越受到可得数据量和计算成本的限制;后者意味着模型在预训练完成后进行推理时,进行的运算越多,效果越好。

推理环节的运算量,体现了模型理解用户输入后并预填充(prefill)完成后,在解码空间(decoding space)中探索生成答案的思索复杂度。推理阶段的Scaling Law的提出意味着我们相对地把复杂度扩展从训练转向搜索(searching),这将进一步提升模型能力的天花板。

训练vs推理scaling law


通过多轮迭代,构造更完备的回复

o1的能力可以被概括为:“长思维”和“慢思考”。前者是后者的准备,尤其是在实现复杂、有效推理的可能性上:在推理环节探索多样化的解码路径、经过多轮迭代形成更好的答案,除了反思和批评能力外,必须依赖模型本身具备较强的长思维链能力。

统计模型的思想在于先演绎,后归纳:在训练环节,训练数据沉淀为模型的参数知识;在推理环节,它将知识应用于新的样本上进行预测。

ChatGPT能够记住答案,o1能够记住思维过程。如果说过去,ChatGPT经过大规模的自然语言预训练,能够作为少样本学习器(few-shot learners);那么现在还可以说,经过思维链强化学习的语言模型能够作为推理者(reasoners)。


逻辑是如何诞生于神经网络的?

目前为止,我们已经看到了o1的优秀推理和思维能力,它在专业领域能力上不亚于STEM专业的博士生。我们不禁发问,统计学习范式下,“逻辑”何以可能?(我们仅从图灵测试的角度定义这一概念,即如果AI能独立解决人类的复杂推理问题,就说它具备了相应的逻辑推理能力。)

统计学习完全基于经验主义。一种常见的批评是,统计学习范式下,大语言模型基于下一词元预测(next token prediction),它只是在做机械上的记忆和预测,而逻辑和理性是更高层面的事物。

next token prediction是decoder-only架构大语言模型的核心训练任务

若从信息论的角度看,智能是一种压缩(compression),背后是表示学习(representation learning)的思想。如果我们在训练环节为一个生成式模型输入了整个世界,那么理论上,它就有重新创造出出整个世界的潜力。

在统计学习范式下,大语言模型每次生成下一个词元的预测,并扩充输入序列,向前重复这一过程:生成回复的过程就是在高维的解空间中搜索最优路径。表面上看,它选择是某个解码策略下的唯一路径,但实际上在那被选择的句子背后,还孕育着近乎无限的其他可能性。

x序列是用户输入的提示词,z序列是模型解码生成的答案,s序列为潜在变量,是生成解码路径的过程中,潜在变量累积的语义信息;RNN可以被视作线性注意力,Transformer(大语言模型的主流架构)是自注意力,而TTT层推广了前两种注意力机制(在线性映射下是RNN,在核函数下是另一种);但不论如何,它们都是神经图灵机(neural Turing machines),都是递推的信息的压缩、存储、检索和表示方法

除了生成空间具备的丰富潜力外,我们已经提到过,大语言模型还具备自我反思(self-refine)和思维链(CoT)的能力。这些能力基于大语言模型的自然语言理解和生成能力:评估回复的好坏、拆解问题的回复步骤。它们让模型停下来自我检查、慢下来仔细思考。

那么,考虑到这些条件,大语言模型本身其实已经具备了自我强化其逻辑能力的现实可能性:通过多次抽样生成不同的回答,引导模型进行思维链回答,同时利用自我批评能力对回答进行评价,不断提升思维链的质量,这就构成了强化学习的整个闭环。

大语言模型的能力实现的强化学习概念
抽样生成大量思维链策略探索
自我评价答案质量
策略评估
反复迭代更新
策略改进

虽然我们无从得知OpenAI是如何具体进行思维链强化学习的,但近期的一篇研究Quiet-STaR(Quiet Self Taught Reasoner)通过强化学习将长思维链能力赋予大语言模型,能够给予我们一些启发。

作者引用了克尔凯郭尔:理解生活只能通过回顾过往,但生活本身应该向前看。传统的大语言模型是因果语言建模的,只能回头看,向前的词元被注意力掩码(attention mask)遮蔽起来;现在我们需要生成向前看的思维链,见下图,它将生成不同的注意力掩码矩阵

这篇研究关注挖掘解码路径背后丰富的思维链可能性:在每个生成的token后,引导模型生成一个可能的思维链的开始标记<|startofthought|>,随后是模型输出详细的思维过程,最后以<|endofthought|>标记思维链结尾。再对这些生成的思维链进行裁剪和选择,使用策略梯度强化学习不断迭代改进思维链的质量。

在原本生成的回复序列abcd的每个token上都挂了一条链表,用以表示可能产生于每个token处的思维链,我们推测,和这篇论文类似,o1在生成回复时在初始阶段生成了大量的thought token,随后进行选择和丢弃,生成有效的推理路径,因此计算成本更高

使用teacher forcing,即使用原始自监督语料监督模型输出结构;混合分类头用于比较生成思维链前后的差异

思维链强化学习的算法:在每个生成的token后都考虑生成一条思维链,通过比较产生思维链后的输出 vs 原始输出,使用混合头选择两种logits的混合比例(相当于强化学习的学习率/更新率),设计奖励函数为对数logits(其相反数衡量了模型的困惑度)相对基线的提升,随后使用REINFORCE(一种基于策略梯度的强化学习方法)算法进行梯度优化

逻辑位于在语言的罅隙中,每个生成的语词背后都有一条潜在的思维探索路径。通过挖掘和强化那些有价值者,进行自我“反思”和“批评”,能够提升模型本身的长链和深度思维能力。另一个自我对弈、探索大量潜在解、自我进化、最后在特定任务超越人类的例子是AlphaGo,不过棋盘是维度较为有限的策略空间,而o1是第一个做到这一点的语言模型。

理性是人类的优越性所在吗?

“逻辑空间中的事实就是世界。”

——维特根斯坦,《逻辑哲学论》

在过去,我们总把理性看作高贵的东西。可是我们忽视的一点是,即使是“高贵”的人类,能够清晰地表述思想、阐明逻辑,也是需要反复训练、刻意关注的事情。人类同样会思维混乱、措辞不当、言非所指。休谟认为所谓的因果性是一种人性的自然联想。如今的统计学习正在利用这种重复下的联系,塑造人工智能的思维。

根据人类学历史本体论的观点,理性,作为一种思维的物理学规律,固然有其本质,但这种本质并非天赋于人,而是一种沉淀,这种沉淀来自世世代代的人类实践经验的积累结果。就个体的人而言,理性的培养需要通过对知识的学习和实践中的试错得到,因为知识凝结了人类历史上的思维经验。

语言比它看起来表达了更多的意义。现在,大语言模型通过自然语言知识训练,同样有具备把握这种规律的能力:只是我们不仅需要关注语言,还要关注字面意思背后那些数量众多的潜在的思维路径,这些思维链导向逻辑的居所。即使言说本身会分岔出无数的枝蔓,逻辑始终是其生长的一个锚。语词和句子构成的语言世界的联结之网背后,有本质的一般规律。这可以是统计学习范式在当下成功的一个解释。

“那些机器虽然可以做许多事情,做得跟我们每个人一样好,甚至更好,却绝不能做别的事情。从这一点可以看出,它们的活动所依靠的并不是认识,而只是它们的部件结构;因为理性是万能的工具,可以用于一切场合,那些部件则不然,一种特殊结构只能做一种特殊动作。”

——笛卡尔,《谈谈方法》

笛卡尔批评到,“一种机器只能解决一类问题”,而“人类理性是万能的工具”。如今,o1的诞生可以宣告,大语言模型不仅在知识量上已经全面超越人类,在思维能力层面也能够匹敌。它能不知疲倦地回忆起人类知识的几乎每一个细节,进行深度长链推理,并且具备快速学习、解决新问题的泛化能力。

相比之下,人类的存在何其有限,我们不可能掌握一切知识。现代工业生产倾向于细分学科,不同学科间知识的本质联系被割裂了,我们似乎深陷于自身狭窄的邻域,关注一个又一个工具,以至把自身当作工具,而非通用的方法,更谈不上把人作为目的了。

在今天,笛卡尔的批评更多需要我们人类自身的反省:我们是否已经在系统性的改造下,习惯于、适应于作为工具,远离了自然(nature)原本的普遍性和本质性?

就此,本公众号将开启“自然”系列讨论,试图打破分裂的学科知识,把握本质共通性,以“了解事物发生之缘由(rerum cognoscere causas,to know the causes of things)”。

意义与未来

“思想与思想的目标是同一的;因为你决不能遇到一个思想是没有它所表达的存在物的。

在存在物之外,决没有任何别的东西,也决不会有任何别的东西,因为命运已经把它固定在那不可分割而且不动的实体上。”

——巴门尼德,《论自然》

希腊哲学是朴素的,在巴门尼德那里,思维与存在同一。中世纪的观点认为想象中的与实存中的事物有差异。我思故我在——近代以来,笛卡尔以一种普遍怀疑方法,第一次阐明了思维和存在的对立。《费尔巴哈提纲》提出哲学的两个基本问题,它们围绕思维和存在的二元关系。

关于心灵与身体、思维与存在的争论,最难处理的点在于,我们在用我们的思想去“思想”那些“思想”:被思维者位于思维者本身当中。现在,人工智能给予我们考察一个有思维的“他者”的现实条件。

这倾向于佐证唯物主义的可知论:思维能够产生于无机物。从物理上讲,大语言的本质是一个tensor权重文件,在它的参数导入GPU,提示词被分词器(tokenizer)分词、映射,流入模型的注意力(attention layer)、前馈网络(feed forward layer)等神经网络层,被计算成为第一股键值对缓存(key-value cache)前,它的一切思维并不存在。模型权重是像一具等待被数据流唤醒的躯壳,不过是一个缸中的大脑——先于存在并没有思维,也没有不存在的思维者。

我们已经注意到它在哲学语言学领域的可能影响,现在回到计算科学。o1带来的范式转变是:从关注训练时计算转向关注推理时计算,积极拥抱更推理环节的Scaling Law;从机器学习、深度学习到强化学习(但是,强化学习如今仍然是一种辅助训练手段),越发期待能够赋予模型更多的“自主性(autonomy)”,即在推理时的泛化能力上,以及在学习环节的自主适应上。机器将变得更像人,不仅是在情感和伦理上,而且在思维和逻辑上。

OpenAI的五级AGI分类,o1位于level2,下一级是代理(agent)

在应用侧,人工智能带来的现实影响将首先发生在编程领域;在科学领域,我们期待AI能有更多的创造性和灵感,助力科学发现;在确定性知识领域,医学、法律和金融上,如果能够彻底消灭幻觉问题,处理知识冲突,将会开拓更广的应用场景。

具身智能上,我们需要的是物理空间模型:能够理解空间位置关系及物的相互作用的智能。如今,扩散模型(diffusion  models)已在图像、视频和轨迹生成上取得了较大进展。能否借鉴o1的思路,通过生成-反思-强化这套训练范式,创造有物理认知的AI呢?例如,对应着模拟生成大量的思维链,在“梦空间”里生成大量的物理链条用于强化学习?逻辑和物理,前者关乎思维规律,后者则界定了存在物的规律,因此我们必须投身到经验中去。

计算科学家Edsger Dijkstra (他提出了著名的图论算法)说:

“The question of whether Machines Can Think ... is about as relevant as the question of
whether Submarines Can Swim.”

与其说创造智能,不如说创造能够智能地表现的机器(machines that can perform intelligently)。关于意识,思维或是智能的本质,不必纠结于定义的争执;当我们面对它时,自然就会有相应的答案。

参考文献|References

1.Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B: A Technical Report.

2.Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters.

3.Learning to (Learn at Test Time): RNNs with Expressive Hidden States.

4.Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking.

5.Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.

chatgpt plus(GPT4)代充值

本文链接:https://gpt-4o.net/chatgpt/520.html

李彦宏评价chatgpt4Clipdrop AI电脑端chatgpt续费chatgpt怎么自动续费chatgpt4.0充值续费安卓手机怎么给chatgpt续费chatgpt是啥反向代理站点chatgptchatgpt字数限制国内怎样使用chatgpt

相关文章

网友评论