OpenAI发布GPT-4o，硅基生命或将与碳基共存

GPT-4o2024-05-15364

大家好，最近OpenAI召开了2024年的春季发布会，其中最引人注目的莫过于GPT-4o的发布，它的发布犹如一颗核弹在AI圈炸开了锅，估计大家在各种平台都已经刷到关于GPT-4o的文章和视频。

GPT-4o的能力非常强大，下面是我对它的一些特点梳理：

1、多模态处理能力（高智能）

多模态指的是能够同时处理不同模态的数据，如文本、音频和图像。而GPT-4o不仅能够接受文本、音频和图像的任意组合作为输入，同时还能生成文本、音频和图像的任意组合输出。

GPT-4o的“o”代表“omni”，意味着全面性和多元性，象征着这款模型的全面能力和处理多种模式数据的能力。

2、同一个神经网络

在GPT-4o出现之前，OpenAI其实是用三个独立模型组成的 pipeline来实现语音的输入和输出。第一个模型负责将音频转录为文本，第二个则是由GPT-3.5 或 GPT-4 接收文本并输出文本，第三个再把文本转换为音频。但OpenAI发现这种做法会丢失大量信息，例如模型无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

而在GPT-4o中，OpenAI 跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。

3、更快的交互速度

在它的文档提到，GPT-4o最快可以在 232 毫秒的时间内响应音频输入，平均响应时长 320 毫秒，与人类相似。

像之前的GPT-3.5，音频输入的平均响应时长在2.8秒，而GPT-4则是5.4秒。

我自己也体验了国内的通义千文和质谱清言，他们的延迟也是在1-3秒之间，给人的感觉就是说一句，停顿一下，然后再回答，整体并不是很自然。所以说2-300毫秒的响应速度真的很牛逼！

4、对用户更友好

为什么说对用户更友好呢？第一点当然是它的多模态带来了更自然的人机交互。

第二点就是与 GPT-4 Turbo 相比，GPT-4o 的速度快 2 倍，但是API的价格减半，并且速率限制高出5倍，属于加量并降价！（聊天消息数的限制也多了2倍）

这是 GPT-4 Turbo 的价格，而 GPT-4o 的输入是$5/1M tokens，输出是$15/1M tokens

5、与GPT-4同等性能

目前 GPT-4o 在文本、推理和编码智能方面实现与GPT-4 Turbo同等性能，并且在非英语文本处理能力上，GPT-4o相比GPT-4 Turbo有了显著提升（使用新的分词器）。另外，在视觉能力上GPT-4o也是优于GPT-4 Turbo。

这是它们的一个详细对比：

这是它的一个基准测试对比：

总之就是性能同等，速度更快，价格更便宜，颇有一种让你快选他的感觉！

6、视觉和音频理解能力强

GPT-4o在视觉和音频理解方面表现尤为出色，超过了现有模型。在发布会上，OpenAI还演示了GPT-4o的多种应用场景，例如：

实时翻译：GPT-4o能够实时翻译多种语言。
情感识别和表达：GPT-4o能够准确理解用户的情感，并据此作出适当的回应，使聊天体验更加丰富和真实。
视频通话：支持视频通话功能，AI能够识别用户的面部表情和情绪，提供更加互动的体验。

那么该如何体验呢？直接在ChatGPT界面切换即可

地址：https://chat.openai.com/

首先需要注意的是，openai是需要魔法才能上网的，并且之前对亚洲地区还有一些限制，但是我测试的话还好，就是访问比较慢，而且有时需要登录好几次才能成功。

其次，虽然OpenAI在他的文档说明免费套餐的用户是可以免费使用GPT-4o的，并且有使用限制

文档地址在：https://help.openai.com/en/articles/7102672-how-can-i-access-gpt-4-gpt-4-turbo-and-gpt-4o

但是我自己测试的话，是没办法直接使用的，需要升级到GPT Plus套餐（也就是每月20刀）！也有可能他说的免费套餐是针对部分灰度用户，而我又不在他的灰度名单下。

另外，如果没购买过的朋友也要注意下，就算是GPT Plus套餐，使用也是有限制的，目前的话，Plus用户将能够在GPT-4o上每3小时发送多达80条消息，在GPT-4上每3小时发送多达40条消息，而且如果是高峰时段，这个限制可能还会进一步降低。

总之如果实在想体验的，并且是临时体验，不打算长久使用，建议是购买共享号，会便宜很多。

这里再讲讲它的API，因为也有点小坑，主要是GPT-4o 的API并没有提供完整的功能！

目前 GPT-4o 的API 并不支持生成图像，同时也不支持音频，比如你把这段代码中的model替换为 gpt-4o，是无法得到结果的。

最后再说说我认为的 GPT-4o 的一些用途：

1、口语练习助手

前面提到，GPT-4o 的平均响应速度在300毫秒左右，与人类相似，而GPT又具备强大的语言翻译和理解能力，这也就意味着你可以与它进行交互从而锻炼你的口语能力，这或许比单纯地背单词要有效得多！

其实之前也有类似的AI应用，但 GPT-4o 的速度无疑是更优秀的，也会让体验更加流程自然。

2、制作漫画分镜

AI文生图其实已经发展了很久，不过 GPT-4o 似乎更加优秀，从他发布的案例来看，他每张分镜的人物是尽量保持一致的，这样制作的视频会更加自然！

3、图片内容替换

有时候我们只需要对图片的某一处内容进行修改，比如把英文变成中文，但我之前尝试过用Stable diffusion 或者 DALLE3，并不能做到很好的效果，而 GPT-4o 则能够很好地完成这一点。

4、与具身机器人的结合

想象一下，如果将GPT4o和具身机器人或者机器狗等结合起来，那将会是非常有意思的场景。

当 GPT4o 没出现之前，AI机器人的表现其实是有所欠缺的，让人感觉不够“智能”，但是当 GPT4o 出现后，凭借其快速的响应，以及对视觉和音频较强的理解能力，他已经能够看，听和说了，已经逐渐向一个成熟的智能体发展了。

在这种发展下，一是后面更多的重复性工作会被替代；二是它或许会像宠物那般陪伴人类，毕竟在OpenAI发布的视频中，它已经能够准确理解用户的情感，并据此作出适当的回应。

也许在不久后，人类社会将迎来一个新局面，那就是硅基生命将与碳基共存！

本文链接：https://gpt-4o.net/chatgpt/474.html

GPT-4o GPT4o gpt-4o检测人的情绪 gpt-4o多模态大模型发布 GPT-4o免费 GPT-4o官网 GPT4o官网

相关文章

十个专属于ChatGPT 4o生图的优质提示词，10个专属ChatGPT 4o生图的优质AI绘画提示词
最近是不是被各种吉卜力风格AI图刷屏了？说实话，都快看吐了......但你知道吗,ChatGPT4o的图片生成能力可远不止这点皮毛！今天就跟大家分享10个超实用的生图玩法，手把手教学+案例展示，保...
ChatGpt资讯2025-04-0156ChatGPT 4o AI绘画提示词
地表上最强的多模态Gpt 4o ，一起实测看看他到底强在哪里？，实测最强多模态GPT-4o，地表最强AI究竟强在哪？
** ，OpenAI推出的GPT-4o被誉为目前地表最强的多模态AI模型，其核心优势在于真正融合了文本、图像、音频等多模态理解与生成能力，实现了更自然的人机交互，实测显示，GPT-4o在响应速度、跨...
ChatGpt资讯2025-04-0147多模态 GPT4o
免费开放！GPT-4o图像生成功能上线，网友实测效果炸裂！，GPT-4o图像生成功能免费开放！网友实测效果惊艳全网
OpenAI宣布免费开放GPT-4o的图像生成功能，引发用户狂欢，实测显示，新模型生成的图像细节精细、光影自然，无论是概念艺术、产品设计还是日常场景还原都展现出惊人效果，社交媒体上网友纷纷晒出“用文字...
ChatGpt资讯2025-04-0153GPT4o 图像生成
实测，GPT-4o原生图像生成，这下可以用嘴画图，GPT-4o实测，原生图像生成功能，用嘴画图时代已来！
OpenAI最新发布的GPT-4o模型原生支持图像生成功能，用户现在可以通过自然语言描述直接生成图片，实测表明，该功能对文字指令的理解准确，能快速生成符合要求的图像（如"戴着墨镜的柴犬程序员"等创意场...
ChatGpt资讯2025-04-0152GPT4o 图像生成
GPT-4o图像生成效果炸裂！创业请避开大厂的赛道，GPT-4o图像生成效果震撼！创业者如何避开大厂竞争赛道？
** ，GPT-4o的图像生成能力表现惊人，技术效果堪称“炸裂”，其高精度和创意输出为AI领域带来新的突破，进一步拉大了与竞品的差距，对于创业者而言，专家建议避免直接与大厂（如OpenAI、谷歌等）...
ChatGpt资讯2025-04-0152GPT4o 创业赛道

网友评论