OpenAI发布GPT-4o,GPT-4o不仅免费可用,能力更是横跨听图片、看图片、说图片

GPT-4o2024-05-18114

先做个广告:如需代注册GPT4或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

这一夜,OpenAI要改变历史。看完发布会的观众们,久久未从巨大的震惊中走出——科幻电影中的“Her”,在此刻成真了!

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

OpenAI最新旗舰大模型GPT-4o震撼发布,是一次用户体验的革命。GPT-4o不仅免费可用,能力更是横跨听图片、看图片、说图片,丝滑流畅毫无延迟,就像在打一个视频电话。

现场演示的效果更是令人惊叹。GPT-4o能感受到你的呼吸节奏,也能用比以前更丰富的语气实时回复,甚至可以随时打断他。

在全场欢呼中,CTO Mira Murati走上舞台,为全世界揭晓了OpenAI神秘新产品的面纱。

GPT-4o登场的瞬间,全场爆发出热烈的掌声。现场演示中,它的表现仿佛一个人正坐在旁边,与人类的对话节奏自然、融洽,完全听不出是个AI

这次发布会中,OpenAI的工程师演示了新模型的几种主要能力,包括实时语音对话、视觉能力和代码能力。实时语音对话中,ChatGPT可以随时打断对话,反应极快,比人类的回应还快,并且能够充分理解人类的情感。视觉能力方面,ChatGPT可以解释复杂的数学方程,教人一步步解题。代码能力方面,ChatGPT对代码的解释和回答都对答如流。

OpenAI的CEO Sam Altman都惊叹:这就像电影Her里的一样。

GPT-4o名字中暗藏玄机,“o”代表着“omni”。它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致

这是一次彻底的技术革命。GPT-4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。在直播现场,CTO Murati表示,这款模型的性能已经高于GPT-4-Turbo级别,ELO分数遥遥领先。

GPT-4o还在英语文本和代码基准测试中表现优异,尤其是在非英语文本方面取得了显著改进。

它将ChatGPT Plus会员版的所有能力,包括视觉、联网、记忆、执行代码和GPT Store,全部免费向所有用户开放。

Sam Altman在X上发起了产品介绍,他强调:“我们的初心,就是把最出色的AI工具,交到每个人的手中。”

新的GPT-4o模型也将提供API服务,价格打五折,速度提高一倍,单位时间调用次数是原来的五倍。这一技术突破让网友们纷纷设想可能的应用,比如替代盲人看世界,并且确实比之前的语音模式体验上强了不少。

今天的发布会,OpenAI用行动展示了未来人机交互的无限可能。

旗舰登场:GPT-4o实时语音对话与多模态互动

实时语音对话

研发负责人Mark Chen首先展示了GPT-4o的关键功能之一——实时语音对话。他向ChatGPT提问:“我正在台上做现场演示,有点紧张,该怎么办?”ChatGPT体贴地回答:“你在台上做演示,真的太棒了!深呼吸一下,记得你是个专家!”

Mark试着大喘气几次,问ChatGPT能否给自己一些建议。ChatGPT幽默地回应:“放松,Mark,慢点呼吸,你可不是个吸尘器!”全场顿时爆发出笑声。

在这个过程中,ChatGPT与Mark的互动几乎无延迟,能够随时接梗并共情。这种高情商的表现让观众们惊呼不已,ChatGPT不仅能够理解对话中的适时打断,还能及时停下来听你说话,并给出相应的回复,完全没有AI的机械感和僵硬感。

扮演不同角色:给任性的人类讲睡前故事

接下来,ChatGPT被要求讲一个“恋爱中的机器人”的睡前故事。讲到一半被人类打断要求多点情绪,ChatGPT用更起伏的声调、更夸张的语气重新讲起了故事。结果再次被打断,要求更富戏剧性。ChatGPT随后表现得像个戏剧演员,还在要求下切换成机器人声和唱歌模式,展现了极高的适应能力。

当被要求唱歌时,ChatGPT甚至叹了口气,然后开始唱歌。它的无奈叹气让观众们笑翻了天,感觉就像是一个真实的人类在互动。

视频实时互动解方程

接下来,另一位研发负责人Barret手写了一个方程,并打开摄像头拍给ChatGPT,让它扮演“在线导师”帮助解题。ChatGPT开心地接受任务,开始一步步指导解题过程,并实时给出鼓励和引导。整个过程自然连贯,毫无延迟,仿佛背后藏着一个真人。

当被问到“学习线性方程在生活中有什么用”时,ChatGPT详细解释了线性方程在日常生活中的应用,比如计算花销、规划旅行、烹饪等,展示了其强大的推理和解释能力。

桌面版ChatGPT秒解代码难题

最后,OpenAI展示了桌面版ChatGPT的代码解读能力。模型立即理解了代码,并给出了完整的描述。比如准确解释了函数名及其功能,并识别出了取平均值、最高值等操作的意图。当被问到“如果没有foo这个函数,绘制的图表会是什么样子”时,ChatGPT立即做出了正确回复,显示了它对代码内在逻辑的完美理解。

接下来,ChatGPT还被要求概述代码生成的图表,并回答相关问题。比如“哪个月的气温最高?”等。ChatGPT都能精准回答,展示了其强大的图表理解和实时应对能力。

直播观众提问:给你看看我的自拍

发布会还设置了互动环节,主持人收集了一些推特网友的提问进行展示。比如,有网友问“GPT-4o是否具有实时翻译功能?”在Mark的任务定义下,ChatGPT完成了将英语同声传译为意大利语的任务。

一位网友问“模型可以通过表情识别情绪吗?”研发负责人Barett现场自拍并甩给ChatGPT,问其情绪。ChatGPT幽默地回答:“看起来你非常开心,带着大大的笑容,可能有点兴奋。”这种人性化的表现再次引起了全场哄笑。

GPT-4o的强大之处

毫秒级响应,与人类对话一致

在日常对话中,人类交流会涉及许多复杂的因素,比如对话的频繁打断、背景噪声、多位说话者的参与以及语气和语调的微妙变化。OpenAI克服了这些挑战,花费数月时间打造了GPT-4o,使其能够完美适应这些状况。

GPT-4o发布前,ChatGPT的语音模式(Voice Mode)平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。当时的语音模式由三个独立模型组成:一个将音频转录成文本,GPT-3.5或GPT-4接收文本并输出文本,最后一个将文本转换回音频。这种过程导致了延迟,并丢失了大量信息,破坏了沉浸感。

而现在,GPT-4o的平均响应时间仅为320毫秒,实现了真正的毫秒级响应,让一切都变得自然流畅

全能模型:端到端训练,跨越多模态

GPT-4o是一个端到端训练的跨越文本、视觉和音频的新模型,意味着所有输入和输出都由同一神经网络处理。这种集成使其在文本、视觉和音频的理解和处理上表现出色。

OpenAI的CTO Mira Murati表示,GPT-4o在英语文本和代码上的性能与GPT-4 Turbo相当,但在非英语文本上的表现显著提高。它的API速度更快,成本降低了50%。

与现有模型相比,GPT-4o在视觉和音频理解方面尤为出色,最快可以在232毫秒内响应音频输入,平均响应时间为320毫秒,与人类相似。

这种端到端的训练方法,解决了之前模型在多模态处理上的不足,使GPT-4o能够直接进行推理,实现了跨越语音、文本和视觉的无缝互动。

实时推理与自然互动

在音频翻译任务上,GPT-4o表现优于OpenAI专门的语音模型Whisper-V3以及谷歌和Meta的语音模型。在视觉理解上,它也领先于竞争对手,包括Gemini 1.0 Ultra和Claude Opus。

强大的推理与记忆能力

GPT-4o不仅在实时互动中表现出色,其推理和记忆能力也得到了显著提升。它能够记住对话中的细节,为用户提供“连续感”的交流体验。用户可以上传各种图片、视频以及包含图片和文字的文档,GPT-4o能够讨论其中的内容,提供实时的搜索和分析。

为了实现“让AGI惠及全人类”的愿景,GPT-4o支持50种语言,改进了推理的质量和速度,使全球97%的人口都能够使用这一强大的AI工具

刷新SOTA,领先各大模型

在传统基准测试中,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力上创下新高。在零样本的COT MMLU(常识问题)测试中,GPT-4o创造了88.7%的新高分。

在音频ASR(自动语音识别)表现上,GPT-4o显著提高了所有语言的语音识别性能,特别是在资源较少的语言上表现尤为出色。在语音翻译能力上,GPT-4o刷新了SOTA,在MLS基准测试中优于Whisper-V3。

在视觉理解基准EVALS评估中,GPT-4o也取得了领先性能,击败了包括GPT-4 Turbo、Gemini 1.0 Ultra、Gemini 1.5 Pro以及Claude 3 Opus在内的多个强大对手。

GPT-4o免费用,API价格大降

OpenAI官方博客介绍了ChatGPT-4o的新功能,并且这些功能对免费用户也开放了,让更多人能够体验顶级AI的强大功能。以下是免费用户可以访问的新功能:

免费用户现在可以体验到GPT-4级别的智能;

可以从联网后的模型得到响应;

可以使用数据分析和图表创建功能;

可以与拍摄的照片进行互动;

用户还可以上传文件,获取总结、撰写或分析的帮助;

可以发现和使用GPTs以及GPT Store;

可以使用记忆功能可以打造更有用的体验。

不过,免费用户在使用GPT-4o时,消息数量会有一定限制。当达到限制时,ChatGPT将自动切换到GPT-3.5,以便用户可以继续使用。

此外,OpenAI计划在未来几周内向ChatGPT Plus用户推出新版本的语音模式GPT-4o alpha,并通过API向一小部分值得信赖的合作伙伴推出更多新的音频和视频功能。这些功能将进一步提升ChatGPT的实用性和互动性。

GPT-4o的API性能也得到了显著提升。相比GPT-4 Turbo,推理速度提升2倍,消息限制提高五倍,价格降低50%。这使得开发者能够更高效、更经济地部署各种应用程序,从而加速技术的普及和应用。

ChatGPT桌面版也来了

为了让每个人无论身在何处都能随时用上ChatGPT,OpenAI发布了MacOS的ChatGPT的桌面版本。它拥有全新的用户界面,可以轻松融入我们的工作流。

只需一个简单的快捷键——Option+空格键,就可以立即召唤桌面版ChatGPT。用户可以直接在应用程序中截图并进行提问,例如“将其总结成5个主题,并列出行动计划”。ChatGPT会迅速解决提出的问题。

用户甚至可以从电脑上直接与ChatGPT进行语音对话,点击桌面应用程序右下角的耳机图标即可开始。

从今天起,OpenAI将向Plus用户推出macOS应用程序,并将在未来几周内更广泛地提供该应用程序。今年晚些时候,OpenAI还将推出Windows版本。

神秘gpt2就是GPT-4o

几天前,在大模型LMSYS竞技场上,一个名为gpt2的神秘模型突然现身,其性能甚至超越了GPT-4。

这个模型最初以gpt2命名,现在升级为两个版本:“im-also-a-good-gpt2-chatbot”和“im-a-good-gpt2-chatbot”。这个模型在LMSYS竞技场的总ELO得分超过了最新的gpt4-turbo-2024-04-09。全网纷纷猜测这个模型可能就是GPT-4.5或GPT-5。

就连OpenAI CEO Sam Altman也多次发帖,暗示gpt2的强大能力。

如今,gpt2的身份终于解密了。OpenAI研究科学家William Fedus刚刚发文,揭示一直在测试的版本“im-also-a-good-gpt2-chatbot”就是GPT-4o。

如果你觉得这篇文章对你有所帮助,欢迎点赞、收藏以及转发分享。同时,请关注我,以获取更多关于人工智能的最新资讯和见解!

参考:

https://openai.com/index/hello-gpt-4o/

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

https://www.youtube.com/openai

https://twitter.com/sama/status/1790064310615453891

https://blog.samaltman.com/gpt-4o

chatgpt plus(GPT4)代充值

本文链接:https://gpt-4o.net/chatgpt/492.html

stability AIchatgpt会员能续费吗chatgpt升级plus后自动续费chatgpt如何停止自动续费chatgpt可以连续续费吗chatgpt续费问题chatgpt怎么关闭自动续费chatgpt续费为啥没扣款chatgpt入口chatgpt怎么下载

相关文章

网友评论