OpenAI 发布GPT-4o模型，免费ChatGPT用户迎来全面升级

GPT-4o2024-05-14320

随着OpenAI发布会的结束，一款惊世之作：GPT-4o震撼发布

在OpenAI的直播活动中，首席技术官Mira Murati宣布，GPT-4o将免费提供给所有ChatGPT用户。这意味着即使是免费用户，也能够享受到GPT-4级别的智能服务。

而目前，免费用户只能访问ChatGPT 3.5，而订阅用户可以访问ChatGPT 4。GPT-4o的推出，将使得免费用户也能体验到更高级的AI功能。

GPT-4o不仅对ChatGPT用户免费，也将在API中可用，价格是GPT-4 Turbo的一半，速度是其两倍，速率限制提高了5倍。这为开发者提供了更高的性价比选择。

GPT-4o是何方神圣？

GPT-4o大模型（"o"代表"多模态"）是朝着更自然的人类与计算机交互迈出的一步。

它接受文本、音频和图像的任何组合作为输入，并生成文本、音频和图像输出的任何组合。

它可以在短短232毫秒内响应音频输入，平均响应时间为320毫秒，这与人类在对话中的响应时间（新窗口打开）相似。

官网中披露的演示视屏，测试者可以和机器丝滑对话，可以要求对方唱歌，开玩笑，语气自然，丝毫听不出来是机器的声音。

它在英文文本和代码上与GPT-4 Turbo的性能相当，在非英文文本上有了显著提升，同时在API中的速度更快，成本降低了50%。与现有模型相比，GPT-4o在视觉和音频理解方面尤其更加出色。

那么GPT-4o相对于上一代模型实现上有什么区别呢？

OpenAI技术官表示：

在GPT-4o之前，你可以使用语音模式与ChatGPT对话，平均延迟时间分别为2.8秒（GPT-3.5）和5.4秒（GPT-4）。

为了实现这一点，语音模式是由三个独立模型组成的流水线：一个简单的模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单的模型将文本转换回音频。

这个过程意味着主要的智能源GPT-4丢失了很多信息——它不能直接观察语调、多个说话者或背景噪音，也不能输出笑声、歌唱或表达情感。

有了GPT-4o，我们训练了一个单一的新模型，端到端地覆盖文本、视觉和音频，这意味着所有输入和输出都由同一个神经网络处理。因为GPT-4o是我们第一个结合所有这些模态的模型。

上图是GPT-4o在给学生讲题，全过程通过对话完成，就像一个老师在你身边

OpenAI打算怎么推广GPT-4o，如何保障安全呢？

OpenAI目前拥有超过1亿ChatGPT AI工具用户。GPT-4o的推出，将进一步扩大其用户基础，提高用户粘性。通过免费提供高级功能，OpenAI旨在吸引更多的用户，并促进AI技术的普及和应用。

最后一点点小的担忧，没错，就是安全问题！大模型越来越像人了，语气语速语调理解能力，像一个贴心朋友，可是如果这个朋友哪天哪刀对着你的时候，将是灾难级的。

Mira Murati提到，OpenAI将继续与政府、媒体、红色飘带和民间社会等不同的利益相关者合作，以找出如何最好地安全地将这项技术推向世界。

十个专属于ChatGPT 4o生图的优质提示词，10个专属ChatGPT 4o生图的优质AI绘画提示词