OpenAI新版GPT-4o有什么不同?

GPT-4o2024-05-15138

先做个广告:如需代注册GPT4或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

北京时间5月13日凌晨,OpenAI春季更新如期而至,推出了GPT-4o新模型。

其中的“o”代表“omni”,意为全能的。可以处理文本、音频和图像任意组合的输入,并生成对应的输出。

那具体有什么不同呢?本文是一篇学习笔记,仅供参考。

GPT-3.5/4

— 

老版本的缺陷:

GPT-3.5/4是由三个模型完成,第1步用简单模型将音频转文本,第2步GPT-3.5或GPT-4接收并输出文本,第3步简单模型将文本转换回音频。

所以带来的缺陷就是:

1. 在转换过程中丢失了大量信息:音调、音色(多个说话者的区别)、背景噪音等。所以做不到多模态处理,比如无法输出笑声、歌唱和表达情感。

2. 耗时非常高,GPT-3.5平均延迟2.8秒,GPT-4平均延迟5.4秒。


GPT-4o

— 

新版本的优势:

1. 端到端处理:GPT-4o能够跨文本、视觉和音频进行端到端的训练,处理所有输入和输出,交由同一神经网络完成,是端到端的处理。

2. 语音交互改进:因为是端到端的处理,所以可以做到更流畅地进行语音交互,支持随时开始或打断对话,并能识别说话人的语气和情绪。

3. 情感表达:可以根据场景或指令生成多种音调、带有丰富人类情绪特征的音频回复(甚至可以要求GPT-4o唱歌);

4. 图像理解:GPT-4o在图像处理方面有所提升,能识别手写体(如解答手写的方程组),精准分析数据,并读懂画面中人物的面部表情。

5. 性能优势:根据基准测试,GPT-4o在数据层面的性能对比GPT-4 Turbo基本都处于优势,且大幅领先于其他模型。GPT-4o对音频的处理,可以在短至232毫秒的时间内响应,平均320毫秒的用时已经接近人类在日常对话中的反应时间。

chatgpt plus(GPT4)代充值

本文链接:https://gpt-4o.net/chatgpt/481.html

GPT-4o人机交互取得进步GPT-40亮相后科技股不所动GPT-4o第一波反馈来了GPT-40免费GPT-40评测

相关文章

网友评论