OpenAI利用GPT-4o打造的语音版ChatGPT助手

GPT-4o2024-05-14329

5月14日凌晨，OpenAI在其官方网站上正式推出了其最新旗舰模型GPT-4o，该模型能够在视频、音频和文本之间进行实时推理，这无疑在全球生成式AI领域中标志着一个历史性的时刻。

OpenAI利用GPT-4o打造的语音版ChatGPT助手，能够与用户在音频和视频中进行实时交互。例如，GPT-4o可以进行实时翻译、歌唱、解答数学题目、讲述笑话等。简单地说，未来的家庭教师、翻译员、秘书等职业可能会面临巨大的挑战。

2013年，曾获奥斯卡最佳原创剧本奖的电影《Her》向我们展示了一段人与AI的深情“恋爱”，其中Her的无所不能展示了AI的强大力量和可能带来的恐怖。

然而，仅仅11年后，GPT-4o就将这部电影的情节变为了现实，每个人都有可能拥有一个自己的Her。

当各家科技公司还在追赶大模型多模态能力，把总结文本、P 图等功能放进手机里的时候，遥遥领先的 OpenAI 直接开了大招，发布的产品连自家 CEO 奥特曼都惊叹：就像电影里一样。

11年后，GPT-4o将这部电影变成了现实，人人都可以拥有一个Her。

ChatGPT 的这次更新以后，大模型可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出 —— 这才是属于未来的交互方式。

GPT-4o功能展示

OpenAI已经对GPT-4o的功能进行了大量的演示，我们在此挑选几个具有代表性的例子。比如，通过手机与GPT-4o进行视频交流，让其解读你的想法。

首先，OpenAI的一名员工使用手机拍摄了周围的环境，GPT-4o很快就给出了对周围环境的详细描述。紧接着，当员工让GPT-4o猜测他今天的计划时，GPT-4o推测可能会涉及到OpenAI的相关工作，比如举行一个新产品发布会等。

当员工说出这个发布会与“你”有关时，它的回答有点让人觉得恐怖，居然会像人一样表现出惊讶和停顿，这是以往任何语音助手都不具备的技术特征。

OpenAI总裁兼联合创始人Greg Brockman让两个GPT-4o语音助手互相对话并唱歌。

一位父亲希望GPT-4o能够帮助他的儿子解答一道复杂的数学题。GPT-4o并没有像之前的ChatGPT那样直接给出所有答案，而是像一位家庭教师一样，逐步引导他，告诉他应该如何去解答这道题。

看到这里时也为那些辅导老师捏了一把汗，估计在进化几次连家教的饭碗也不保了。

和GPT-4o相处久了，应该向它介绍点朋友吧。这不OpenAI展示了GPT-4o社牛的一面，直接解读了一条宠物狗。

当你需要与法国人、塞尔维亚人或匈牙利人交谈时，怎么办？传统的翻译软件可能太慢，不适合实时交流。但现在，通过GPT-4o，你可以实现实时翻译。当你说完一句话时，GPT-4o已经帮你翻译好了，并且是以语音的形式输出。这无疑大大提升了跨语言交流的效率。

此外，GPT-4o 在理解和生成图像方面的能力比任何现有模型都要好得多，此前很多不可能的任务都变得「易如反掌」。

比如，你可以让它帮忙把 OpenAI 的 logo 印到杯垫上：

经过这段时间的技术攻关，OpenAI 应该已经完美解决了 ChatGPT 生成字体的问题。

同时，GPT-4o 还拥有 3D 视觉内容生成的能力，能够从 6 个生成的图像进行 3D 重建：

这是一首诗，GPT-4o 可以将其排版为手写样式：

更复杂的排版样式也能搞定：

与 GPT-4o 合作，你只需要输入几段文字，就能得到一组连续的漫画分镜：

与 GPT-4o 合作，你只需要输入几段文字，就能得到一组连续的漫画分镜：

而下面这些玩法，应该会让很多设计师有点惊讶：

这是一张由两张生活照演变而来的风格化海报：

还有一些小众的功能，比如「文本转艺术字」：

怎么样，看完这几个案例对GPT-4o有何感受，是不是和电影中的Her几乎差不多了？

GPT-4o测试数据

GPT-4o是一个多模态模型，可以在一个神经网络中输入和输出文本、视频、音频3种数据格式。

根据OpenAI给出的官网评测显示，GPT-4o的语音响应可以短至232毫秒，平均响应为320 毫秒。GPT-4o的英语文本和代码能力和 GPT-4 Turbo 的性能差不多。

GPT-4o在MMLU的评测中创下了88.7% 的新高分，超过了Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0等目前市面上著名大模型。

GPT-4o的音频ASR性能比 Whisper-v3 显着提高了对所有语言的语音识别能力，特别是对于那些非常稀少的小语种，并且音频的翻译能力超过了谷歌的Gemini。

推理提升：GPT-4o 在 5-shot MMLU（常识问题）上创下了 87.2% 的新高分。（注：Llama3 400b 还在训练中）

音频 ASR 性能：GPT-4o 相比 Whisper-v3 显著提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。

GPT-4o 在语音翻译方面取得了新的 SOTA 水平，并且在 MLS 基准测试中优于 Whisper-v3。

M3Exam 基准测试既是多语言评估基准也是视觉评估基准，由来自多个国家 / 地区的标准化测试多项选择题组成，并包括图形、图表。在所有语言基准测试中，GPT-4o 都比 GPT-4 更强。

未来，模型能力的提升将实现更自然、实时的语音对话，并能够通过实时视频与 ChatGPT 进行对话。例如，用户可以向 ChatGPT 展示一场现场体育比赛，并要求它解释规则。

本文链接：https://gpt-4o.net/chatgpt/469.html

ChatGPT联网 chatgpt4.0需要付费吗 chatgpt续费如何关闭chatgpt的自动续费 chatgpt自动续费怎么关闭 chatgpt plus怎么续费 chatgpt怎么关闭自动续费 chatgpt chatgpt下载 chatgpt新版功能

相关文章

十个专属于ChatGPT 4o生图的优质提示词，10个专属ChatGPT 4o生图的优质AI绘画提示词
最近是不是被各种吉卜力风格AI图刷屏了？说实话，都快看吐了......但你知道吗,ChatGPT4o的图片生成能力可远不止这点皮毛！今天就跟大家分享10个超实用的生图玩法，手把手教学+案例展示，保...
ChatGpt资讯2025-04-0152ChatGPT 4o AI绘画提示词
地表上最强的多模态Gpt 4o ，一起实测看看他到底强在哪里？，实测最强多模态GPT-4o，地表最强AI究竟强在哪？
** ，OpenAI推出的GPT-4o被誉为目前地表最强的多模态AI模型，其核心优势在于真正融合了文本、图像、音频等多模态理解与生成能力，实现了更自然的人机交互，实测显示，GPT-4o在响应速度、跨...
ChatGpt资讯2025-04-0144多模态 GPT4o
免费开放！GPT-4o图像生成功能上线，网友实测效果炸裂！，GPT-4o图像生成功能免费开放！网友实测效果惊艳全网
OpenAI宣布免费开放GPT-4o的图像生成功能，引发用户狂欢，实测显示，新模型生成的图像细节精细、光影自然，无论是概念艺术、产品设计还是日常场景还原都展现出惊人效果，社交媒体上网友纷纷晒出“用文字...
ChatGpt资讯2025-04-0148GPT4o 图像生成
实测，GPT-4o原生图像生成，这下可以用嘴画图，GPT-4o实测，原生图像生成功能，用嘴画图时代已来！
OpenAI最新发布的GPT-4o模型原生支持图像生成功能，用户现在可以通过自然语言描述直接生成图片，实测表明，该功能对文字指令的理解准确，能快速生成符合要求的图像（如"戴着墨镜的柴犬程序员"等创意场...
ChatGpt资讯2025-04-0149GPT4o 图像生成
GPT-4o图像生成效果炸裂！创业请避开大厂的赛道，GPT-4o图像生成效果震撼！创业者如何避开大厂竞争赛道？
** ，GPT-4o的图像生成能力表现惊人，技术效果堪称“炸裂”，其高精度和创意输出为AI领域带来新的突破，进一步拉大了与竞品的差距，对于创业者而言，专家建议避免直接与大厂（如OpenAI、谷歌等）...
ChatGpt资讯2025-04-0147GPT4o 创业赛道

网友评论