OpenAI新版GPT-4o有什么不同？

GPT-4o2024-05-15295

北京时间5月13日凌晨，OpenAI春季更新如期而至，推出了GPT-4o新模型。

其中的“o”代表“omni”，意为全能的。可以处理文本、音频和图像任意组合的输入，并生成对应的输出。

那具体有什么不同呢？本文是一篇学习笔记，仅供参考。

GPT-3.5/4

—

老版本的缺陷：

GPT-3.5/4是由三个模型完成，第1步用简单模型将音频转文本，第2步GPT-3.5或GPT-4接收并输出文本，第3步简单模型将文本转换回音频。

所以带来的缺陷就是：

1. 在转换过程中丢失了大量信息：音调、音色（多个说话者的区别）、背景噪音等。所以做不到多模态处理，比如无法输出笑声、歌唱和表达情感。

2. 耗时非常高，GPT-3.5平均延迟2.8秒，GPT-4平均延迟5.4秒。

GPT-4o

—

新版本的优势：

1. 端到端处理：GPT-4o能够跨文本、视觉和音频进行端到端的训练，处理所有输入和输出，交由同一神经网络完成，是端到端的处理。

2. 语音交互改进：因为是端到端的处理，所以可以做到更流畅地进行语音交互，支持随时开始或打断对话，并能识别说话人的语气和情绪。

3. 情感表达：可以根据场景或指令生成多种音调、带有丰富人类情绪特征的音频回复（甚至可以要求GPT-4o唱歌）；

4. 图像理解：GPT-4o在图像处理方面有所提升，能识别手写体（如解答手写的方程组），精准分析数据，并读懂画面中人物的面部表情。

5. 性能优势：根据基准测试，GPT-4o在数据层面的性能对比GPT-4 Turbo基本都处于优势，且大幅领先于其他模型。GPT-4o对音频的处理，可以在短至232毫秒的时间内响应，平均320毫秒的用时已经接近人类在日常对话中的反应时间。

本文链接：https://gpt-4o.net/chatgpt/481.html

GPT-4o人机交互取得进步 GPT-40亮相后科技股不所动 GPT-4o第一波反馈来了 GPT-40免费 GPT-40评测

十个专属于ChatGPT 4o生图的优质提示词，10个专属ChatGPT 4o生图的优质AI绘画提示词
最近是不是被各种吉卜力风格AI图刷屏了？说实话，都快看吐了......但你知道吗,ChatGPT4o的图片生成能力可远不止这点皮毛！今天就跟大家分享10个超实用的生图玩法，手把手教学+案例展示，保...
ChatGpt资讯2025-04-0172ChatGPT 4o AI绘画提示词
地表上最强的多模态Gpt 4o ，一起实测看看他到底强在哪里？，实测最强多模态GPT-4o，地表最强AI究竟强在哪？
** ，OpenAI推出的GPT-4o被誉为目前地表最强的多模态AI模型，其核心优势在于真正融合了文本、图像、音频等多模态理解与生成能力，实现了更自然的人机交互，实测显示，GPT-4o在响应速度、跨...
ChatGpt资讯2025-04-0154多模态 GPT4o
免费开放！GPT-4o图像生成功能上线，网友实测效果炸裂！，GPT-4o图像生成功能免费开放！网友实测效果惊艳全网
OpenAI宣布免费开放GPT-4o的图像生成功能，引发用户狂欢，实测显示，新模型生成的图像细节精细、光影自然，无论是概念艺术、产品设计还是日常场景还原都展现出惊人效果，社交媒体上网友纷纷晒出“用文字...
ChatGpt资讯2025-04-0161GPT4o 图像生成
实测，GPT-4o原生图像生成，这下可以用嘴画图，GPT-4o实测，原生图像生成功能，用嘴画图时代已来！
OpenAI最新发布的GPT-4o模型原生支持图像生成功能，用户现在可以通过自然语言描述直接生成图片，实测表明，该功能对文字指令的理解准确，能快速生成符合要求的图像（如"戴着墨镜的柴犬程序员"等创意场...
ChatGpt资讯2025-04-0159GPT4o 图像生成
GPT-4o图像生成效果炸裂！创业请避开大厂的赛道，GPT-4o图像生成效果震撼！创业者如何避开大厂竞争赛道？
** ，GPT-4o的图像生成能力表现惊人，技术效果堪称“炸裂”，其高精度和创意输出为AI领域带来新的突破，进一步拉大了与竞品的差距，对于创业者而言，专家建议避免直接与大厂（如OpenAI、谷歌等）...
ChatGpt资讯2025-04-0159GPT4o 创业赛道