OpenAI发布GPT-4o，GPT-4o不仅免费可用，能力更是横跨听图片、看图片、说图片

GPT-4o2024-05-18255

这一夜，OpenAI要改变历史。看完发布会的观众们，久久未从巨大的震惊中走出——科幻电影中的“Her”，在此刻成真了！

OpenAI最新旗舰大模型GPT-4o震撼发布，是一次用户体验的革命。GPT-4o不仅免费可用，能力更是横跨听图片、看图片、说图片，丝滑流畅毫无延迟，就像在打一个视频电话。

现场演示的效果更是令人惊叹。GPT-4o能感受到你的呼吸节奏，也能用比以前更丰富的语气实时回复，甚至可以随时打断他。

在全场欢呼中，CTO Mira Murati走上舞台，为全世界揭晓了OpenAI神秘新产品的面纱。

GPT-4o登场的瞬间，全场爆发出热烈的掌声。现场演示中，它的表现仿佛一个人正坐在旁边，与人类的对话节奏自然、融洽，完全听不出是个AI。

这次发布会中，OpenAI的工程师演示了新模型的几种主要能力，包括实时语音对话、视觉能力和代码能力。实时语音对话中，ChatGPT可以随时打断对话，反应极快，比人类的回应还快，并且能够充分理解人类的情感。视觉能力方面，ChatGPT可以解释复杂的数学方程，教人一步步解题。代码能力方面，ChatGPT对代码的解释和回答都对答如流。

OpenAI的CEO Sam Altman都惊叹：这就像电影Her里的一样。

GPT-4o名字中暗藏玄机，“o”代表着“omni”。它可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类在对话中的反应速度一致。

这是一次彻底的技术革命。GPT-4o能够接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出。在直播现场，CTO Murati表示，这款模型的性能已经高于GPT-4-Turbo级别，ELO分数遥遥领先。

GPT-4o还在英语文本和代码基准测试中表现优异，尤其是在非英语文本方面取得了显著改进。

它将ChatGPT Plus会员版的所有能力，包括视觉、联网、记忆、执行代码和GPT Store，全部免费向所有用户开放。

Sam Altman在X上发起了产品介绍，他强调：“我们的初心，就是把最出色的AI工具，交到每个人的手中。”

新的GPT-4o模型也将提供API服务，价格打五折，速度提高一倍，单位时间调用次数是原来的五倍。这一技术突破让网友们纷纷设想可能的应用，比如替代盲人看世界，并且确实比之前的语音模式体验上强了不少。

今天的发布会，OpenAI用行动展示了未来人机交互的无限可能。

旗舰登场：GPT-4o实时语音对话与多模态互动

实时语音对话

研发负责人Mark Chen首先展示了GPT-4o的关键功能之一——实时语音对话。他向ChatGPT提问：“我正在台上做现场演示，有点紧张，该怎么办？”ChatGPT体贴地回答：“你在台上做演示，真的太棒了！深呼吸一下，记得你是个专家！”

Mark试着大喘气几次，问ChatGPT能否给自己一些建议。ChatGPT幽默地回应：“放松，Mark，慢点呼吸，你可不是个吸尘器！”全场顿时爆发出笑声。

在这个过程中，ChatGPT与Mark的互动几乎无延迟，能够随时接梗并共情。这种高情商的表现让观众们惊呼不已，ChatGPT不仅能够理解对话中的适时打断，还能及时停下来听你说话，并给出相应的回复，完全没有AI的机械感和僵硬感。

扮演不同角色：给任性的人类讲睡前故事

接下来，ChatGPT被要求讲一个“恋爱中的机器人”的睡前故事。讲到一半被人类打断要求多点情绪，ChatGPT用更起伏的声调、更夸张的语气重新讲起了故事。结果再次被打断，要求更富戏剧性。ChatGPT随后表现得像个戏剧演员，还在要求下切换成机器人声和唱歌模式，展现了极高的适应能力。

当被要求唱歌时，ChatGPT甚至叹了口气，然后开始唱歌。它的无奈叹气让观众们笑翻了天，感觉就像是一个真实的人类在互动。

视频实时互动解方程

接下来，另一位研发负责人Barret手写了一个方程，并打开摄像头拍给ChatGPT，让它扮演“在线导师”帮助解题。ChatGPT开心地接受任务，开始一步步指导解题过程，并实时给出鼓励和引导。整个过程自然连贯，毫无延迟，仿佛背后藏着一个真人。

当被问到“学习线性方程在生活中有什么用”时，ChatGPT详细解释了线性方程在日常生活中的应用，比如计算花销、规划旅行、烹饪等，展示了其强大的推理和解释能力。

桌面版ChatGPT秒解代码难题

最后，OpenAI展示了桌面版ChatGPT的代码解读能力。模型立即理解了代码，并给出了完整的描述。比如准确解释了函数名及其功能，并识别出了取平均值、最高值等操作的意图。当被问到“如果没有foo这个函数，绘制的图表会是什么样子”时，ChatGPT立即做出了正确回复，显示了它对代码内在逻辑的完美理解。

接下来，ChatGPT还被要求概述代码生成的图表，并回答相关问题。比如“哪个月的气温最高？”等。ChatGPT都能精准回答，展示了其强大的图表理解和实时应对能力。

直播观众提问：给你看看我的自拍

发布会还设置了互动环节，主持人收集了一些推特网友的提问进行展示。比如，有网友问“GPT-4o是否具有实时翻译功能？”在Mark的任务定义下，ChatGPT完成了将英语同声传译为意大利语的任务。

一位网友问“模型可以通过表情识别情绪吗？”研发负责人Barett现场自拍并甩给ChatGPT，问其情绪。ChatGPT幽默地回答：“看起来你非常开心，带着大大的笑容，可能有点兴奋。”这种人性化的表现再次引起了全场哄笑。

GPT-4o的强大之处

毫秒级响应，与人类对话一致

在日常对话中，人类交流会涉及许多复杂的因素，比如对话的频繁打断、背景噪声、多位说话者的参与以及语气和语调的微妙变化。OpenAI克服了这些挑战，花费数月时间打造了GPT-4o，使其能够完美适应这些状况。

GPT-4o发布前，ChatGPT的语音模式（Voice Mode）平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。当时的语音模式由三个独立模型组成：一个将音频转录成文本，GPT-3.5或GPT-4接收文本并输出文本，最后一个将文本转换回音频。这种过程导致了延迟，并丢失了大量信息，破坏了沉浸感。

而现在，GPT-4o的平均响应时间仅为320毫秒，实现了真正的毫秒级响应，让一切都变得自然流畅。

全能模型：端到端训练，跨越多模态

GPT-4o是一个端到端训练的跨越文本、视觉和音频的新模型，意味着所有输入和输出都由同一神经网络处理。这种集成使其在文本、视觉和音频的理解和处理上表现出色。

OpenAI的CTO Mira Murati表示，GPT-4o在英语文本和代码上的性能与GPT-4 Turbo相当，但在非英语文本上的表现显著提高。它的API速度更快，成本降低了50%。

与现有模型相比，GPT-4o在视觉和音频理解方面尤为出色，最快可以在232毫秒内响应音频输入，平均响应时间为320毫秒，与人类相似。

这种端到端的训练方法，解决了之前模型在多模态处理上的不足，使GPT-4o能够直接进行推理，实现了跨越语音、文本和视觉的无缝互动。

实时推理与自然互动

在音频翻译任务上，GPT-4o表现优于OpenAI专门的语音模型Whisper-V3以及谷歌和Meta的语音模型。在视觉理解上，它也领先于竞争对手，包括Gemini 1.0 Ultra和Claude Opus。

强大的推理与记忆能力

GPT-4o不仅在实时互动中表现出色，其推理和记忆能力也得到了显著提升。它能够记住对话中的细节，为用户提供“连续感”的交流体验。用户可以上传各种图片、视频以及包含图片和文字的文档，GPT-4o能够讨论其中的内容，提供实时的搜索和分析。

为了实现“让AGI惠及全人类”的愿景，GPT-4o支持50种语言，改进了推理的质量和速度，使全球97%的人口都能够使用这一强大的AI工具。

刷新SOTA，领先各大模型

在传统基准测试中，GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉能力上创下新高。在零样本的COT MMLU（常识问题）测试中，GPT-4o创造了88.7%的新高分。

在音频ASR（自动语音识别）表现上，GPT-4o显著提高了所有语言的语音识别性能，特别是在资源较少的语言上表现尤为出色。在语音翻译能力上，GPT-4o刷新了SOTA，在MLS基准测试中优于Whisper-V3。

在视觉理解基准EVALS评估中，GPT-4o也取得了领先性能，击败了包括GPT-4 Turbo、Gemini 1.0 Ultra、Gemini 1.5 Pro以及Claude 3 Opus在内的多个强大对手。

GPT-4o免费用，API价格大降

OpenAI官方博客介绍了ChatGPT-4o的新功能，并且这些功能对免费用户也开放了，让更多人能够体验顶级AI的强大功能。以下是免费用户可以访问的新功能：

免费用户现在可以体验到GPT-4级别的智能；

可以从联网后的模型得到响应；

可以使用数据分析和图表创建功能；

可以与拍摄的照片进行互动；

用户还可以上传文件，获取总结、撰写或分析的帮助；

可以发现和使用GPTs以及GPT Store；

可以使用记忆功能可以打造更有用的体验。

不过，免费用户在使用GPT-4o时，消息数量会有一定限制。当达到限制时，ChatGPT将自动切换到GPT-3.5，以便用户可以继续使用。

此外，OpenAI计划在未来几周内向ChatGPT Plus用户推出新版本的语音模式GPT-4o alpha，并通过API向一小部分值得信赖的合作伙伴推出更多新的音频和视频功能。这些功能将进一步提升ChatGPT的实用性和互动性。

GPT-4o的API性能也得到了显著提升。相比GPT-4 Turbo，推理速度提升2倍，消息限制提高五倍，价格降低50%。这使得开发者能够更高效、更经济地部署各种应用程序，从而加速技术的普及和应用。

ChatGPT桌面版也来了

为了让每个人无论身在何处都能随时用上ChatGPT，OpenAI发布了MacOS的ChatGPT的桌面版本。它拥有全新的用户界面，可以轻松融入我们的工作流。

只需一个简单的快捷键——Option+空格键，就可以立即召唤桌面版ChatGPT。用户可以直接在应用程序中截图并进行提问，例如“将其总结成5个主题，并列出行动计划”。ChatGPT会迅速解决提出的问题。

用户甚至可以从电脑上直接与ChatGPT进行语音对话，点击桌面应用程序右下角的耳机图标即可开始。

从今天起，OpenAI将向Plus用户推出macOS应用程序，并将在未来几周内更广泛地提供该应用程序。今年晚些时候，OpenAI还将推出Windows版本。

神秘gpt2就是GPT-4o

几天前，在大模型LMSYS竞技场上，一个名为gpt2的神秘模型突然现身，其性能甚至超越了GPT-4。

这个模型最初以gpt2命名，现在升级为两个版本：“im-also-a-good-gpt2-chatbot”和“im-a-good-gpt2-chatbot”。这个模型在LMSYS竞技场的总ELO得分超过了最新的gpt4-turbo-2024-04-09。全网纷纷猜测这个模型可能就是GPT-4.5或GPT-5。

就连OpenAI CEO Sam Altman也多次发帖，暗示gpt2的强大能力。

如今，gpt2的身份终于解密了。OpenAI研究科学家William Fedus刚刚发文，揭示一直在测试的版本“im-also-a-good-gpt2-chatbot”就是GPT-4o。

如果你觉得这篇文章对你有所帮助，欢迎点赞、收藏以及转发分享。同时，请关注我，以获取更多关于人工智能的最新资讯和见解！

参考：

https://openai.com/index/hello-gpt-4o/

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

https://www.youtube.com/openai

https://twitter.com/sama/status/1790064310615453891

https://blog.samaltman.com/gpt-4o

本文链接：https://gpt-4o.net/chatgpt/492.html

stability AI chatgpt会员能续费吗 chatgpt升级plus后自动续费 chatgpt如何停止自动续费 chatgpt可以连续续费吗 chatgpt续费问题 chatgpt怎么关闭自动续费 chatgpt续费为啥没扣款 chatgpt入口 chatgpt怎么下载

十个专属于ChatGPT 4o生图的优质提示词，10个专属ChatGPT 4o生图的优质AI绘画提示词
最近是不是被各种吉卜力风格AI图刷屏了？说实话，都快看吐了......但你知道吗,ChatGPT4o的图片生成能力可远不止这点皮毛！今天就跟大家分享10个超实用的生图玩法，手把手教学+案例展示，保...
ChatGpt资讯2025-04-0156ChatGPT 4o AI绘画提示词
地表上最强的多模态Gpt 4o ，一起实测看看他到底强在哪里？，实测最强多模态GPT-4o，地表最强AI究竟强在哪？
** ，OpenAI推出的GPT-4o被誉为目前地表最强的多模态AI模型，其核心优势在于真正融合了文本、图像、音频等多模态理解与生成能力，实现了更自然的人机交互，实测显示，GPT-4o在响应速度、跨...
ChatGpt资讯2025-04-0147多模态 GPT4o
免费开放！GPT-4o图像生成功能上线，网友实测效果炸裂！，GPT-4o图像生成功能免费开放！网友实测效果惊艳全网
OpenAI宣布免费开放GPT-4o的图像生成功能，引发用户狂欢，实测显示，新模型生成的图像细节精细、光影自然，无论是概念艺术、产品设计还是日常场景还原都展现出惊人效果，社交媒体上网友纷纷晒出“用文字...
ChatGpt资讯2025-04-0153GPT4o 图像生成
实测，GPT-4o原生图像生成，这下可以用嘴画图，GPT-4o实测，原生图像生成功能，用嘴画图时代已来！
OpenAI最新发布的GPT-4o模型原生支持图像生成功能，用户现在可以通过自然语言描述直接生成图片，实测表明，该功能对文字指令的理解准确，能快速生成符合要求的图像（如"戴着墨镜的柴犬程序员"等创意场...
ChatGpt资讯2025-04-0152GPT4o 图像生成
GPT-4o图像生成效果炸裂！创业请避开大厂的赛道，GPT-4o图像生成效果震撼！创业者如何避开大厂竞争赛道？
** ，GPT-4o的图像生成能力表现惊人，技术效果堪称“炸裂”，其高精度和创意输出为AI领域带来新的突破，进一步拉大了与竞品的差距，对于创业者而言，专家建议避免直接与大厂（如OpenAI、谷歌等）...
ChatGpt资讯2025-04-0152GPT4o 创业赛道