在GPT4o发布之后，Altman进行了最新的长篇访谈，主题涵盖GPT4o的技术突破、AGI（人工通用智能）的未来，以及AI初创企业的大胆尝试

GPT-4o2024-06-05316

在GPT4o发布之后，Altman进行了最新的长篇访谈，主题涵盖GPT4o的技术突破、AGI（人工通用智能）的未来，以及AI初创企业的大胆尝试。

Logan：今天早些时候，你宣布了一个新的消息。新的多模态模型GPT-4o，也就是Omni，能够在文本、语音和视觉领域之间无缝工作。

多模态AI的突破

今天我们来探讨一下多模态AI的应用前景，特别是其结合文本、语音和视觉功能，使得人机交互变得更加自然和高效。在实际操作中，它提供了显著的便利性，例如无需切换程序即可通过语音指令获取即时响应。这种新型AI技术有望彻底改造用户体验和工作流程。

揭开GPT-4o多模态的面纱：技术，用例和幕后

Logan：你今天早些时候发布了关于新多模态模型GPT-4o的消息。这个Omni模型可以处理文本、语音和视觉工作。你能解释一下为何这如此重要吗？

Sam：因为这为使用计算机提供了一种新颖的方式。之前我们已有语音控制的计算机，例如Siri，但它们总是感觉不那么自然。而GPT-4o因其多功能、响应速度和自然的语调，能够完成许多新的任务。用户可以简单地说“换个声音”或“快点说”，带来了流畅和灵活的使用体验。我自己使用后也极为喜欢。

Logan：Spike Jonze会为此感到自豪。你特别喜欢哪类用例呢？

Sam：我只使用了4o大约一个星期。在工作时，我把手机放在桌子上，不需要切换窗口或改变当前任务，可以直接通过语音获取帮助。在未使用4o之前，我需要停止当前工作，切换到其他标签页查找信息。但现在，通过4o，可以在不改变电脑显示内容的情况下，立即得到回应，这实在是很方便。

Logan：是什么使这变为可能？是架构上的突破还是什么其他因素？

Sam：这融合了我们这几年学到的各类技术，包括音频模型、视觉模型，并研究如何将它们结合。也投入了大量精力在更高效地训练模型上。GPT-4o并非一夜间出现的，而是我们将很多技术模块整合的结果。

Logan：你认为需要在设备上开发一个模型来减少延迟以提高实用性吗？

Sam：你指的是视频吗？确实，网络延迟会带来挑战。我一直认为穿戴AR眼镜实时互动是一项很棒的功能，但网络延迟可能会影响表现。不过，对于GPT-4o，两三百毫秒的延迟还是完全可以接受的，甚至比人与人之间的响应更快。

Logan：视频指的是图像吗？

Sam：哦，抱歉。我指的是生成的视频，而不是输入的视频。

Logan：明白。所以目前它是处理现有的视频内容。

Sam：是的，逐帧处理。

Logan：你们似乎采用一种迭代的方法开发模型。可以理解为不会有一个重大的GPT-5发布，而是？

Sam：实际情况是我们还不确定。我了解到的一点是，AI和惊喜并不相容。我们将以不同于传统科技公司的方式发布产品。我们可能会称当前模型为GPT-5，以各种方式发布，也可能换个名字。目前我们有个想法是打造一个基础虚拟大脑，在有些情况下表现出更强的思考能力。具体如何营销这些产品我们还在摸索中。

Logan：逐步改进模型所需的计算能力是否会减少？

Sam：我们始终尽可能多地利用计算能力，最近找到了一些高效提升的方法，这对我们很重要。我们当前推出的语音模式非常酷，关键是其高效性使其能够免费提供给用户。现有的模型是世界上最先进的，特别是GPT-4和GPT-4 turbo的效率提升非常显著。当然，我们还有很多可以改进的地方。

初创企业的AI战略

初创公司不应赌AI不会进一步发展： AI初创企业必须预见到未来AI模型的持续进步。那些仅仅专注于当前AI模型稍微超过能力范围内的特定用例的企业， 可能会因通用模型的进步而失去竞争力。反之，那些紧跟AI技术进步的企业，将会在模型能力提升时获得更大的优势和更多的应用场景。因此，初创企业应专注于建立能够随着AI技术进步而扩展的业务，而不是赌AI发展会停滞。

Logan的提问

Logan：你最近提到基于GPT-4构建的许多企业将被未来的GPT“超越”，这是你用的词。你能详细解释一下吗？你认为哪些特征能让以AI为核心的企业在GPT进步的过程中存活？

Sam的回答

Sam：唯一有效的框架如下：你要么建立基于下一代模型不会非常优越的业务，要么创建一个能从GPT进步中获益的模型。如果你花了很多力气让一个稍微超出GPT-4能力的用例发挥作用，当GPT-5出现并且它把这个任务做得更好时，你可能会失望。但如果你做了一些事情，效果不错，用户会使用，然后GPT-5或其他版本出来后，一切能力都更强，那么你会从技术进步中受益。 在大多数情况下，你不是在建立一个AI业务，而是一个使用AI技术的业务。

Logan关于现有业务的讨论

Logan：我能想到很多利用你们技术的现有业务，它们符合你描述的框架。在这种情况下，有什么新的概念吗？可以是新公司，也可以是像Uber那样有趣的想法？

Sam关于新公司的观点

Sam：我实际上会赌新的公司。人们常举例试图建立AI医生、AI诊断师。他们会说，不想进入这个领域创业，因为梅奥诊所或其他大型机构会这样做。但我认为新公司有可能在这些领域取得成功。

Logan对CEO们的建议

Logan：对于那些希望积极准备应对这些颠覆性变化的CEO们，你有什么建议？

Sam：你们需要相信智能服务每年会变得更好、更便宜。这是成功的必要条件，但还需更多努力。因此，那些花数年时间实施这项技术的大公司，你可能会打败他们。但每个关注这个领域的初创企业也会这样做，所以你仍需弄明白如何在长期内建立公司的护城河。 现在的竞争环境比过去更开放，有更多新事物可做，但你不能因为有更多方式实现价值而放弃艰苦工作。

Logan关于"迭代部署"的决策

Logan：你们决定采用“迭代部署”，这是非常重要的决定。我们不会秘密创建AGI然后一次性推出，而这是过去的主流计划。我认为这是一个非常重要的决策。

AGI发展的连续过程

AI的发展需要逐步推进：OpenAI在其AI研究和部署过程中采用了“迭代部署”策略，而非一下子发布一个全新的、极其强大的模型。

通过逐步改进与持续测试，能够确保AI的安全和可靠性。这种方法不仅降低了潜在风险，也使得公众和企业更容易接受和适应新技术。

未来的AI进展将会是一条连续的进步之路，而不是瞬间的飞跃。

AGI的发展将是一个连续的过程

AGI的发展不会在某个特定时刻突然实现，而是一个循序渐进的过程。虽然最初的设想是AGI会在某个时刻突然达成，但现在看来，AGI的发展更可能是一个持续进步的过程，每年都会有显著的提升，而不是一次性的飞跃。

对话

Logan：你认为实现AGI的最大障碍是什么？听起来你认为目前规模效应还有待发展，并且会持续几年。

Sam：我认为最大的障碍在于新研究。从互联网软件转向AI的过程中，我学到的一件事是，研究不像工程那样按时间表进行。研究往往需要更长的时间，有时也比任何人的预期要快得多。

Sam：我们决定采取所谓的迭代部署策略，这个决定非常重要。我们不会秘密研发AGI然后一次性发布，这在以前曾是主流的计划。我认为这是一个非常关键的抉择。另一个重要的决策是押注语言模型。

Logan：我其实不知道押注语言模型的背后故事。这是怎么开始的？

Sam：我们当时有其他项目，比如机器人和视频游戏。有一个人开始研究语言建模，Ilya对此非常有信心，相信这个方向会成为主流。于是我们做了GPT-1，GPT-2，研究规模效应，拓展了GPT-3，并进行了投注。当时这些决定的方向并不像现在看来那样显而易见。

Logan：你在关于AGI及其未来规划的文章中写道，第一个AGI只是智能连续体上的一个点。我们认为，从这一点开始，可能会发生持续的进步，并且在很长时间内保持我们过去十年所见的进展速度。你是否曾经停下来思考或想象未来会是什么样子，还是这种设想过于抽象？

Sam：我不会把未来想象成《星球大战》中的飞车和未来城市，但确实会想象，当一名个体能完成数百或数千名协调良好的人所做的工作时，会是什么样的场景？当我们能够揭示所有科学知识时又会如何？这将是一个非常有趣的世界。

AI的商业化和社会影响

Logan：你最近提到模型可能会随着时间推移而最终商品化，但最重要的可能是模型的个性化。我说得对吗？

Sam：我不完全确定，但这个想法听上去很合理。

Logan：除了个性化外，你认为模型在终端用户面前脱颖而出的关键是商业UI和易用性吗？

Sam：这些因素肯定是非常重要的，总是如此。我可以想象未来会有某种市场或网络，代理人之间进行交流，不同公司在统一的应用商店内共存。我认为商业规则仍然适用。每次有新技术出现时，人们总觉得旧规则不再适用，但这通常是错误的。传统的持久价值创造方法在这里仍然重要。

未来的工作岗位

Logan：你认为五年后会有因为AI而出现或成为主流的工作岗位，而现在这些工作要么是小众要么是不存在的？

Sam：这是个很好的问题，以前没有人问过我。人们总是在问哪些工作会消失，但考虑新的工作更有趣。我觉得新的工作会出现在新型艺术、娱乐和更具人际联系的新形式中。具体职位我无法预测，但这是一个非常大的新类别。我认为人与人之间的亲身体验将会溢价。

AI的技术进展与意外发现

Logan：关于AI商业模式的讨论有许多有趣的观点。你提到过它会先取代体力劳动，然后是白领工作，最后是创造性工作，但事实上它在一些领域已经表现出了与此相反的能力。有没有什么其他事情让你感到意外？

Sam：最让我惊讶的正是你提到的那些案例。我原本认为它不会如此早胜任法律工作，因为那是一个非常精细、复杂的领域，然而它已经开始展现出能力。最大的不解是它在体力劳动、认知劳动和创造性劳动之间的表现差异。

AI业务框架

Sam：唯一有效的业务框架是这样的：要么建立基于下一代模型不会非常好的业务，要么建立一个能从GPT提升中受益的模型。如果你努力开发一个超出GPT-4能力的用例，但GPT-5出来后完成任务更好，那么你可能会失望。但如果你创造的东西效果不错，用户使用它，那么GPT-5或更高级版本出来时，你会因为能力的提升而受益。在大部分情况下，你不是在建立一个AI业务，而是在建立一个使用AI技术的业务。在App Store早期，很多缺口需要填补，但最终苹果会解决这些问题。你不再需要独立的手电筒应用，因为它已经是操作系统的一部分。这是不可避免的。相反，像Uber这样的公司由智能手机推动，但建立了长期有竞争力的业务。我认为你应该追求后者的模式。

新兴业务概念

Logan：我能想到很多利用你们技术的现有业务，它们符合这个框架。在这种情况下，你认为有哪些新颖的概念？它可以是真实的公司，也可以是像Uber那样有趣的想法？

Sam：我实际上会押注新公司。人们常用的例子是尝试建立AI医生或AI诊断师。他们会说，我不想在这个领域创业，因为像梅奥诊所这样的机构会这样做。但我实际上会赌一个新公司会做这件事。

CEO的应对策略

Logan：你对那些希望积极准备应对这些颠覆的CEO有何建议？

Sam：你需要押注智能服务每年都会变得更好更便宜。这是成功的必要条件，但不是充分条件。所以，那些花费数年时间来实施这项技术的大公司，你们可以打败他们。但每个关注这一领域的初创企业也在努力，所以你仍然需要弄清楚如何在长期内建立公司护城河。现在的竞争环境比过去更加开放，有很多新事物可以做，但你不能因为实现价值的方式更多而忽略艰苦的工作。

开源模型的影响

Logan：当你看到开源模型在基准测试中赶上GPT时，你的反应是什么？

Sam：这很好。像其他许多技术一样，开源模型有其位置，托管模型也有其位置，这是很好的现象。

AI基础设施需求

Logan：我不会问过于具体的问题，但有报道称你们正在筹集大量资金。华尔街日报称这些资金将用于投资晶圆厂。在半导体行业，台积电和英伟达一直在积极扩展以满足AI基础设施需求。你最近也提到世界需要更多的AI基础设施。

Sam：是的，我认为是这样的。

为何需要更多的AI基础设施

Logan：你观察到哪些需求，让你觉得我们需要比台积电和英伟达当前提供的更多AI基础设施？

Sam：首先，我相信我们会找到显著降低现有系统交付成本的方法。同时，我也相信随着我们的进步，需求会大幅增加。第三，通过构建更大更好的系统，需求也会增长。我们应该期待一个智能丰富得无法衡量的世界。人们会用它来做各种各样的事情。你不需要考虑“我是否希望这个东西帮我读所有的邮件并回复”或“我是否希望它治愈癌症”。显然，你会选择后者，但更好的答案是：你希望它同时实现这两件事。我想确保每个人都能充分享有资源。

AI伦理和安全性

Logan：虽然称之为指控可能有些过分，但人们确实对AI在AGI的发展以及你个人对OpenAI的控制和独断决策感到担忧，这引发了一些讨论。有些人认为应该建立政府结构，通过选举领导来掌控OpenAI，而不是由你来做所有决策。

Sam：是的。我认为严格监管现有的能力模型是不对的。但如果某个模型会对世界构成重大灾难性风险时，某种监督可能是必要的。当然，设定这些阈值和测试方法是复杂的。如果国际上有核武器规则，这是好事。

Logan：对于那些批评监管是为了维护既得利益的风投组织，你认为他们有哪些对AI潜在风险的误解？

Sam：我认为他们没有认真思考AGI。很多对AI监管持强烈反对意见的人，之前还完全否认其可能性。但我理解他们的立场，认为监管会对技术不利。看看欧洲科技行业发生了什么，我真的能理解他们的担忧。但我认为我们正在迈向一个新的门槛，这可能会改变我们的看法。

Logan：你认为开源模型本身在某些方面有内在风险吗？

Sam：目前没有。但我可以想象有这种可能性。

Logan：我听你提到过安全性在某些方面是个错误的框架，因为它涉及我们明确接受的风险，例如航空领域。

Sam：是的，安全性不是一个非此即彼的概念。你愿意乘坐飞机，因为你认为它们相当安全，尽管你知道有时会发生坠机事故。对航空公司安全性的定义是可以讨论的，不同的人会有不同的看法。这是个热门话题。

Logan：总体上，飞机变得非常安全，但这并不意味着没有人会在事故中丧生。同样的，药物也有副作用，有些人会有不良反应。有些隐性的安全问题，比如社交媒体对用户的负面影响。

Logan：在安全性方面，有没有什么情况会让你采取不同的行动？

Sam：是的，我们有一个叫做“准备框架”的机制，正是为此设计的。它规定了我们在不同级别下所应采取的行动。

Logan：我曾在播客中采访过Eliezer。（注：Eliezer Yudkowsky是AI安全领域的知名人物，机器智能研究所（MIRI）的研究员，专注于开发安全且有益的人工智能系统，提倡进行严格的研究，以确保未来AI发展符合人类的价值观和安全标准）

Sam：那感觉怎么样？

Logan：非常好。这是我记录的最长的一次播客，大约聊了四个小时。

Sam：我非常感谢他的存在。

Logan：和他面对面聊四个小时非常有趣。

本文链接：https://gpt-4o.net/chatgpt/503.html

styledrop入口 chatgpt4.0股票有哪些 ChapGPT4.0注册教程如何关闭chatgpt的自动续费 chatgptplus续费礼品卡 chatgpt4.0充值续费 chatgpt过期不能续费 chatgpt4.0要一直续费吗 chatgpt是什么意思 chatgpt下载

十个专属于ChatGPT 4o生图的优质提示词，10个专属ChatGPT 4o生图的优质AI绘画提示词
最近是不是被各种吉卜力风格AI图刷屏了？说实话，都快看吐了......但你知道吗,ChatGPT4o的图片生成能力可远不止这点皮毛！今天就跟大家分享10个超实用的生图玩法，手把手教学+案例展示，保...
ChatGpt资讯2025-04-0175ChatGPT 4o AI绘画提示词
地表上最强的多模态Gpt 4o ，一起实测看看他到底强在哪里？，实测最强多模态GPT-4o，地表最强AI究竟强在哪？
** ，OpenAI推出的GPT-4o被誉为目前地表最强的多模态AI模型，其核心优势在于真正融合了文本、图像、音频等多模态理解与生成能力，实现了更自然的人机交互，实测显示，GPT-4o在响应速度、跨...
ChatGpt资讯2025-04-0159多模态 GPT4o
免费开放！GPT-4o图像生成功能上线，网友实测效果炸裂！，GPT-4o图像生成功能免费开放！网友实测效果惊艳全网
OpenAI宣布免费开放GPT-4o的图像生成功能，引发用户狂欢，实测显示，新模型生成的图像细节精细、光影自然，无论是概念艺术、产品设计还是日常场景还原都展现出惊人效果，社交媒体上网友纷纷晒出“用文字...
ChatGpt资讯2025-04-0165GPT4o 图像生成
实测，GPT-4o原生图像生成，这下可以用嘴画图，GPT-4o实测，原生图像生成功能，用嘴画图时代已来！
OpenAI最新发布的GPT-4o模型原生支持图像生成功能，用户现在可以通过自然语言描述直接生成图片，实测表明，该功能对文字指令的理解准确，能快速生成符合要求的图像（如"戴着墨镜的柴犬程序员"等创意场...
ChatGpt资讯2025-04-0162GPT4o 图像生成
GPT-4o图像生成效果炸裂！创业请避开大厂的赛道，GPT-4o图像生成效果震撼！创业者如何避开大厂竞争赛道？
** ，GPT-4o的图像生成能力表现惊人，技术效果堪称“炸裂”，其高精度和创意输出为AI领域带来新的突破，进一步拉大了与竞品的差距，对于创业者而言，专家建议避免直接与大厂（如OpenAI、谷歌等）...
ChatGpt资讯2025-04-0164GPT4o 创业赛道