先做个广告:如需代注册GPT4或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
在GPT4o发布之后,Altman进行了最新的长篇访谈,主题涵盖GPT4o的技术突破、AGI(人工通用智能)的未来,以及AI初创企业的大胆尝试。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
Logan:今天早些时候,你宣布了一个新的消息。新的多模态模型GPT-4o,也就是Omni,能够在文本、语音和视觉领域之间无缝工作。
多模态AI的突破
今天我们来探讨一下多模态AI的应用前景,特别是其结合文本、语音和视觉功能,使得人机交互变得更加自然和高效。在实际操作中,它提供了显著的便利性,例如无需切换程序即可通过语音指令获取即时响应。这种新型AI技术有望彻底改造用户体验和工作流程。
揭开GPT-4o多模态的面纱:技术,用例和幕后
Logan:你今天早些时候发布了关于新多模态模型GPT-4o的消息。这个Omni模型可以处理文本、语音和视觉工作。你能解释一下为何这如此重要吗?
Sam:因为这为使用计算机提供了一种新颖的方式。之前我们已有语音控制的计算机,例如Siri,但它们总是感觉不那么自然。而GPT-4o因其多功能、响应速度和自然的语调,能够完成许多新的任务。用户可以简单地说“换个声音”或“快点说”,带来了流畅和灵活的使用体验。我自己使用后也极为喜欢。
Logan:Spike Jonze会为此感到自豪。你特别喜欢哪类用例呢?
Sam:我只使用了4o大约一个星期。在工作时,我把手机放在桌子上,不需要切换窗口或改变当前任务,可以直接通过语音获取帮助。在未使用4o之前,我需要停止当前工作,切换到其他标签页查找信息。但现在,通过4o,可以在不改变电脑显示内容的情况下,立即得到回应,这实在是很方便。
Logan:是什么使这变为可能?是架构上的突破还是什么其他因素?
Sam:这融合了我们这几年学到的各类技术,包括音频模型、视觉模型,并研究如何将它们结合。也投入了大量精力在更高效地训练模型上。GPT-4o并非一夜间出现的,而是我们将很多技术模块整合的结果。
Logan:你认为需要在设备上开发一个模型来减少延迟以提高实用性吗?
Sam:你指的是视频吗?确实,网络延迟会带来挑战。我一直认为穿戴AR眼镜实时互动是一项很棒的功能,但网络延迟可能会影响表现。不过,对于GPT-4o,两三百毫秒的延迟还是完全可以接受的,甚至比人与人之间的响应更快。
Logan:视频指的是图像吗?
Sam:哦,抱歉。我指的是生成的视频,而不是输入的视频。
Logan:明白。所以目前它是处理现有的视频内容。
Sam:是的,逐帧处理。
Logan:你们似乎采用一种迭代的方法开发模型。可以理解为不会有一个重大的GPT-5发布,而是?
Sam:实际情况是我们还不确定。我了解到的一点是,AI和惊喜并不相容。我们将以不同于传统科技公司的方式发布产品。我们可能会称当前模型为GPT-5,以各种方式发布,也可能换个名字。目前我们有个想法是打造一个基础虚拟大脑,在有些情况下表现出更强的思考能力。具体如何营销这些产品我们还在摸索中。
Logan:逐步改进模型所需的计算能力是否会减少?
Sam:我们始终尽可能多地利用计算能力,最近找到了一些高效提升的方法,这对我们很重要。我们当前推出的语音模式非常酷,关键是其高效性使其能够免费提供给用户。现有的模型是世界上最先进的,特别是GPT-4和GPT-4 turbo的效率提升非常显著。当然,我们还有很多可以改进的地方。
初创企业的AI战略
初创公司不应赌AI不会进一步发展: AI初创企业必须预见到未来AI模型的持续进步。那些仅仅专注于当前AI模型稍微超过能力范围内的特定用例的企业, 可能会因通用模型的进步而失去竞争力。反之,那些紧跟AI技术进步的企业,将会在模型能力提升时获得更大的优势和更多的应用场景。因此,初创企业应专注于建立能够随着AI技术进步而扩展的业务,而不是赌AI发展会停滞。
Logan的提问
Logan:你最近提到基于GPT-4构建的许多企业将被未来的GPT“超越”,这是你用的词。你能详细解释一下吗?你认为哪些特征能让以AI为核心的企业在GPT进步的过程中存活?
Sam的回答
Sam:唯一有效的框架如下: 你要么建立基于下一代模型不会非常优越的业务,要么创建一个能从GPT进步中获益的模型。如果你花了很多力气让一个稍微超出GPT-4能力的用例发挥作用, 当GPT-5出现并且它把这个任务做得更好时, 你可能会失望。但如果你做了一些事情,效果不错,用户会使用, 然后GPT-5或其他版本出来后,一切能力都更强, 那么你会从技术进步中受益。 在大多数情况下,你不是在建立一个AI业务,而是一个使用AI技术的业务。
Logan关于现有业务的讨论
Logan:我能想到很多利用你们技术的现有业务,它们符合你描述的框架。在这种情况下,有什么新的概念吗?可以是新公司,也可以是像Uber那样有趣的想法?
Sam关于新公司的观点
Sam:我实际上会赌新的公司。人们常举例试图建立AI医生、AI诊断师。 他们会说,不想进入这个领域创业,因为梅奥诊所或其他大型机构会这样做。但我认为新公司有可能在这些领域取得成功。
Logan对CEO们的建议
Logan:对于那些希望积极准备应对这些颠覆性变化的CEO们,你有什么建议?
Sam:你们需要相信智能服务每年会变得更好、更便宜。 这是成功的必要条件,但还需更多努力。因此,那些花数年时间实施这项技术的大公司, 你可能会打败他们。但每个关注这个领域的初创企业也会这样做, 所以你仍需弄明白如何在长期内建立公司的护城河。 现在的竞争环境比过去更开放, 有更多新事物可做,但你不能因为有更多方式实现价值而放弃艰苦工作。
Logan关于"迭代部署"的决策
Logan:你们决定采用“迭代部署”,这是非常重要的决定。我们不会秘密创建AGI然后一次性推出,而这是过去的主流计划。我认为这是一个非常重要的决策。
AGI发展的连续过程
AI的发展需要逐步推进:OpenAI在其AI研究和部署过程中采用了“迭代部署”策略,而非一下子发布一个全新的、极其强大的模型。
通过逐步改进与持续测试,能够确保AI的安全和可靠性。这种方法不仅降低了潜在风险,也使得公众和企业更容易接受和适应新技术。
未来的AI进展将会是一条连续的进步之路,而不是瞬间的飞跃。
AGI的发展将是一个连续的过程
AGI的发展不会在某个特定时刻突然实现,而是一个循序渐进的过程。虽然最初的设想是AGI会在某个时刻突然达成,但现在看来,AGI的发展更可能是一个持续进步的过程,每年都会有显著的提升,而不是一次性的飞跃。
对话
Logan:你认为实现AGI的最大障碍是什么?听起来你认为目前规模效应还有待发展,并且会持续几年。
Sam:我认为最大的障碍在于新研究。从互联网软件转向AI的过程中,我学到的一件事是,研究不像工程那样按时间表进行。研究往往需要更长的时间,有时也比任何人的预期要快得多。
Sam:我们决定采取所谓的迭代部署策略,这个决定非常重要。我们不会秘密研发AGI然后一次性发布,这在以前曾是主流的计划。我认为这是一个非常关键的抉择。另一个重要的决策是押注语言模型。
Logan:我其实不知道押注语言模型的背后故事。这是怎么开始的?
Sam:我们当时有其他项目,比如机器人和视频游戏。有一个人开始研究语言建模,Ilya对此非常有信心,相信这个方向会成为主流。于是我们做了GPT-1,GPT-2,研究规模效应,拓展了GPT-3,并进行了投注。当时这些决定的方向并不像现在看来那样显而易见。
Logan:你在关于AGI及其未来规划的文章中写道,第一个AGI只是智能连续体上的一个点。我们认为,从这一点开始,可能会发生持续的进步,并且在很长时间内保持我们过去十年所见的进展速度。你是否曾经停下来思考或想象未来会是什么样子,还是这种设想过于抽象?
Sam:我不会把未来想象成《星球大战》中的飞车和未来城市,但确实会想象,当一名个体能完成数百或数千名协调良好的人所做的工作时,会是什么样的场景?当我们能够揭示所有科学知识时又会如何?这将是一个非常有趣的世界。
AI的商业化和社会影响
Logan:你最近提到模型可能会随着时间推移而最终商品化,但最重要的可能是模型的个性化。我说得对吗?
Sam:我不完全确定,但这个想法听上去很合理。
Logan:除了个性化外,你认为模型在终端用户面前脱颖而出的关键是商业UI和易用性吗?
Sam:这些因素肯定是非常重要的,总是如此。我可以想象未来会有某种市场或网络,代理人之间进行交流,不同公司在统一的应用商店内共存。我认为商业规则仍然适用。每次有新技术出现时,人们总觉得旧规则不再适用,但这通常是错误的。传统的持久价值创造方法在这里仍然重要。
未来的工作岗位
Logan:你认为五年后会有因为AI而出现或成为主流的工作岗位,而现在这些工作要么是小众要么是不存在的?
Sam:这是个很好的问题,以前没有人问过我。人们总是在问哪些工作会消失,但考虑新的工作更有趣。我觉得新的工作会出现在新型艺术、娱乐和更具人际联系的新形式中。具体职位我无法预测,但这是一个非常大的新类别。我认为人与人之间的亲身体验将会溢价。
AI的技术进展与意外发现
Logan:关于AI商业模式的讨论有许多有趣的观点。你提到过它会先取代体力劳动,然后是白领工作,最后是创造性工作,但事实上它在一些领域已经表现出了与此相反的能力。有没有什么其他事情让你感到意外?
Sam:最让我惊讶的正是你提到的那些案例。我原本认为它不会如此早胜任法律工作,因为那是一个非常精细、复杂的领域,然而它已经开始展现出能力。最大的不解是它在体力劳动、认知劳动和创造性劳动之间的表现差异。
AI业务框架
Sam:唯一有效的业务框架是这样的:要么建立基于下一代模型不会非常好的业务,要么建立一个能从GPT提升中受益的模型。如果你努力开发一个超出GPT-4能力的用例,但GPT-5出来后完成任务更好,那么你可能会失望。但如果你创造的东西效果不错,用户使用它,那么GPT-5或更高级版本出来时,你会因为能力的提升而受益。在大部分情况下,你不是在建立一个AI业务,而是在建立一个使用AI技术的业务。在App Store早期,很多缺口需要填补,但最终苹果会解决这些问题。你不再需要独立的手电筒应用,因为它已经是操作系统的一部分。这是不可避免的。相反,像Uber这样的公司由智能手机推动,但建立了长期有竞争力的业务。我认为你应该追求后者的模式。
新兴业务概念
Logan:我能想到很多利用你们技术的现有业务,它们符合这个框架。在这种情况下,你认为有哪些新颖的概念?它可以是真实的公司,也可以是像Uber那样有趣的想法?
Sam:我实际上会押注新公司。人们常用的例子是尝试建立AI医生或AI诊断师。他们会说,我不想在这个领域创业,因为像梅奥诊所这样的机构会这样做。但我实际上会赌一个新公司会做这件事。
CEO的应对策略
Logan:你对那些希望积极准备应对这些颠覆的CEO有何建议?
Sam:你需要押注智能服务每年都会变得更好更便宜。这是成功的必要条件,但不是充分条件。所以,那些花费数年时间来实施这项技术的大公司,你们可以打败他们。但每个关注这一领域的初创企业也在努力,所以你仍然需要弄清楚如何在长期内建立公司护城河。现在的竞争环境比过去更加开放,有很多新事物可以做,但你不能因为实现价值的方式更多而忽略艰苦的工作。
开源模型的影响
Logan:当你看到开源模型在基准测试中赶上GPT时,你的反应是什么?
Sam:这很好。像其他许多技术一样,开源模型有其位置,托管模型也有其位置,这是很好的现象。
AI基础设施需求
Logan:我不会问过于具体的问题,但有报道称你们正在筹集大量资金。华尔街日报称这些资金将用于投资晶圆厂。在半导体行业,台积电和英伟达一直在积极扩展以满足AI基础设施需求。你最近也提到世界需要更多的AI基础设施。
Sam:是的,我认为是这样的。
为何需要更多的AI基础设施
Logan:你观察到哪些需求,让你觉得我们需要比台积电和英伟达当前提供的更多AI基础设施?
Sam:首先,我相信我们会找到显著降低现有系统交付成本的方法。同时,我也相信随着我们的进步,需求会大幅增加。第三,通过构建更大更好的系统,需求也会增长。我们应该期待一个智能丰富得无法衡量的世界。人们会用它来做各种各样的事情。你不需要考虑“我是否希望这个东西帮我读所有的邮件并回复”或“我是否希望它治愈癌症”。显然,你会选择后者,但更好的答案是:你希望它同时实现这两件事。我想确保每个人都能充分享有资源。
AI伦理和安全性
Logan:虽然称之为指控可能有些过分,但人们确实对AI在AGI的发展以及你个人对OpenAI的控制和独断决策感到担忧, 这引发了一些讨论。有些人认为应该建立政府结构,通过选举领导来掌控OpenAI,而不是由你来做所有决策。
Sam:是的。我认为严格监管现有的能力模型是不对的。但如果某个模型会对世界构成重大灾难性风险时,某种监督可能是必要的。当然,设定这些阈值和测试方法是复杂的。如果国际上有核武器规则,这是好事。
Logan:对于那些 批评监管是为了维护既得利益的风投组织,你认为他们有哪些对AI潜在风险的误解?
Sam:我认为他们没有认真思考AGI。很多对AI监管持强烈反对意见的人,之前还完全否认其可能性。但我理解他们的立场,认为监管会对技术不利。看看欧洲科技行业发生了什么,我真的能理解他们的担忧。但我认为我们正在迈向一个新的门槛,这可能会改变我们的看法。
Logan:你认为 开源模型本身在某些方面有内在风险 吗?
Sam:目前没有。但我可以想象有这种可能性。
Logan:我听你提到过 安全性在某些方面是个错误的框架,因为它涉及我们明确接受的风险,例如航空领域。
Sam:是的,安全性不是一个非此即彼的概念。你愿意乘坐飞机,因为你认为它们相当安全,尽管你知道有时会发生坠机事故。对航空公司安全性的定义是可以讨论的,不同的人会有不同的看法。这是个热门话题。
Logan:总体上,飞机变得非常安全,但这并不意味着没有人会在事故中丧生。同样的,药物也有副作用,有些人会有不良反应。有些隐性的安全问题,比如社交媒体对用户的负面影响。
Logan:在安全性方面,有没有什么情况会让你采取不同的行动?
Sam:是的,我们有一个叫做“准备框架”的机制,正是为此设计的。它规定了我们在不同级别下所应采取的行动。
Logan:我曾在播客中采访过Eliezer。(注:Eliezer Yudkowsky是AI安全领域的知名人物,机器智能研究所(MIRI)的研究员,专注于开发安全且有益的人工智能系统, 提倡进行严格的研究,以确保未来AI发展符合人类的价值观和安全标准)
Sam:那感觉怎么样?
Logan:非常好。这是我记录的最长的一次播客,大约聊了四个小时。
Sam:我非常感谢他的存在。
Logan:和他面对面聊四个小时非常有趣。
本文链接:https://gpt-4o.net/chatgpt/503.html
styledrop入口chatgpt4.0股票有哪些ChapGPT4.0注册教程如何关闭chatgpt的自动续费chatgptplus续费礼品卡chatgpt4.0充值续费chatgpt过期不能续费chatgpt4.0要一直续费吗chatgpt是什么意思chatgpt下载
网友评论