OpenAI发布GPT4o：能“视频通话”、识别情绪

GPT-4o2024-05-15411

文｜胡耕硕

5月13日，OpenAI发布了GPT4o。这一发布仅提前48小时声明，发布时长也只持续26分钟，但效果拔群。

根据OpenAI官网介绍，此次发布的GPT4o，其中“o”指代“Omni”，是一个拉丁词根，意为“所有的”“全部的”或“全能”。而GPT4o也确实不负其名：在发布过程中展现了接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的能力。

根据OpenAI官网的介绍，GPT4o可以在232毫秒内响应音频输入，平均为320毫秒，与人类在对话中的响应时间相似。在此之前，如果用户使用语音模式与ChatGPT通话，有平均为2.8秒(GPT-3.5)和5.4秒(GPT-4）的延迟。这是由于GPT-3.5和GPT-4使用的是三模型组合管道——先使用简单模型将音频转录为文本，GPT-3.5或GPT-4接收后输出文本，再将其转换回音频。这意味着在过程中GPT-4会丢失大量信息——它不能直接观察音调、多个说话者或背景噪音，也不能输出笑声、歌声或表达情感。

至于GPT4o，OpenAI专门为其训练了一个跨文本、视觉和音频的端到端的新模型，这意味着所有输入和输出都由同一个神经网络处理。因为GPT4o是OpenAI第一个结合这些模式的模型，OpenAI表示，他们仍在探索模型的功能及其局限性。

然而，即便如此，GPT4o展现出的功能已经十分强大。在OpenAI的发布直播中，OpenAI总裁Brockman现场演示，GPT4o可以识别出Brockman所穿的衣服、身处的环境，甚至通过他周围的灯光布置推断出他可能正在进行视频直播。

更令人惊讶的是，GPT4o在与Brockman对话时，可以识别出Brockman的情绪和语气，而其回复相比GPT3.5和GPT4，也更加活泼和生动。

在演示中，Brockman让两个GPT互相对话，新版GPT4o向旧版GPT描述了Brockman的衣着打扮和房间环境。在谈话过程期间有一名女性加入，在Brockman身后比出搞怪的手势，这也被GPT4o发觉并表述出来。在对话最后，Brockman还指挥GPT4o和GPT根据此前聊天的内容对唱。

此外，GPT4o在英文文本和代码上的性能与此前发布的GPT-4 Turbo相当，在非英文文本上有则有显著改善。此外，GPT4o在API上也快得多，要价还比GPT-4 Turbo便宜50%。

这意味着GPT4o可以更便宜的价格，更高效地接入其他的应用中。在OpenAI的演示中，他们就邀请了可汗学院创始人和他的儿子试用了其延展的教育功能：视频中，GPT4o直接读出了孩子手中ipad上的题目，并根据家长的指示帮助辅导儿童，和双方进行语音实时互动。

除了辅导作业外，GPT4o更像一个全方面的AI助理，它还能在视频会议中帮用户录音、做会议纪要、会议总结；渲染合成3D物品；实时进行多语言翻译等等。OpenAI还释出重磅消息：除了GPT4o外，ChatGPT Plus也将免费向大众开放，包括视觉、联网、记忆、执行代码、GPT Store等多种功能。