OpenAI发布GPT-4o,硅基生命或将与碳基共存

GPT-4o2024-05-15136

先做个广告:如需代注册GPT4或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

大家好,最近OpenAI召开了2024年的春季发布会,其中最引人注目的莫过于GPT-4o的发布,它的发布犹如一颗核弹在AI圈炸开了锅,估计大家在各种平台都已经刷到关于GPT-4o的文章和视频。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

GPT-4o的能力非常强大,下面是我对它的一些特点梳理:

1、多模态处理能力(高智能)

多模态指的是能够同时处理不同模态的数据,如文本、音频和图像。而GPT-4o不仅能够接受文本、音频和图像的任意组合作为输入,同时还能生成文本、音频和图像的任意组合输出。

GPT-4o的“o”代表“omni”,意味着全面性和多元性,象征着这款模型的全面能力和处理多种模式数据的能力。

2、同一个神经网络

在GPT-4o出现之前,OpenAI其实是用三个独立模型组成的 pipeline来实现语音的输入和输出。第一个模型负责将音频转录为文本,第二个则是由GPT-3.5 或 GPT-4 接收文本并输出文本,第三个再把文本转换为音频。但OpenAI发现这种做法会丢失大量信息,例如模型无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

而在GPT-4o中,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。

3、更快的交互速度

在它的文档提到,GPT-4o最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。

像之前的GPT-3.5,音频输入的平均响应时长在2.8秒,而GPT-4则是5.4秒。

我自己也体验了国内的通义千文和质谱清言,他们的延迟也是在1-3秒之间,给人的感觉就是说一句,停顿一下,然后再回答,整体并不是很自然。所以说2-300毫秒的响应速度真的很牛逼!

4、对用户更友好

为什么说对用户更友好呢?第一点当然是它的多模态带来了更自然的人机交互。

第二点就是与 GPT-4 Turbo 相比,GPT-4o 的速度快 2 倍,但是API的价格减半,并且速率限制高出5倍,属于加量并降价!(聊天消息数的限制也多了2倍)

这是 GPT-4 Turbo 的价格,而 GPT-4o 的输入是$5/1M tokens,输出是$15/1M tokens

5、与GPT-4同等性能

目前 GPT-4o 在文本、推理和编码智能方面实现与GPT-4 Turbo同等性能,并且在非英语文本处理能力上,GPT-4o相比GPT-4 Turbo有了显著提升(使用新的分词器)。另外,在视觉能力上GPT-4o也是优于GPT-4 Turbo。

这是它们的一个详细对比:

这是它的一个基准测试对比:

总之就是性能同等,速度更快,价格更便宜,颇有一种让你快选他的感觉!

6、视觉和音频理解能力强

GPT-4o在视觉和音频理解方面表现尤为出色,超过了现有模型。在发布会上,OpenAI还演示了GPT-4o的多种应用场景,例如:

  • 实时翻译:GPT-4o能够实时翻译多种语言。

  • 情感识别和表达:GPT-4o能够准确理解用户的情感,并据此作出适当的回应,使聊天体验更加丰富和真实。

  • 视频通话:支持视频通话功能,AI能够识别用户的面部表情和情绪,提供更加互动的体验。

那么该如何体验呢?直接在ChatGPT界面切换即可

地址:https://chat.openai.com/

首先需要注意的是,openai是需要魔法才能上网的,并且之前对亚洲地区还有一些限制,但是我测试的话还好,就是访问比较慢,而且有时需要登录好几次才能成功。

其次,虽然OpenAI在他的文档说明免费套餐的用户是可以免费使用GPT-4o的,并且有使用限制

文档地址在:https://help.openai.com/en/articles/7102672-how-can-i-access-gpt-4-gpt-4-turbo-and-gpt-4o

但是我自己测试的话,是没办法直接使用的,需要升级到GPT Plus套餐(也就是每月20刀)!也有可能他说的免费套餐是针对部分灰度用户,而我又不在他的灰度名单下。

另外,如果没购买过的朋友也要注意下,就算是GPT Plus套餐,使用也是有限制的,目前的话,Plus用户将能够在GPT-4o上每3小时发送多达80条消息,在GPT-4上每3小时发送多达40条消息,而且如果是高峰时段,这个限制可能还会进一步降低。

总之如果实在想体验的,并且是临时体验,不打算长久使用,建议是购买共享号,会便宜很多。

这里再讲讲它的API,因为也有点小坑,主要是GPT-4o 的API并没有提供完整的功能!

目前 GPT-4o 的API 并不支持生成图像,同时也不支持音频,比如你把这段代码中的model替换为 gpt-4o,是无法得到结果的。

最后再说说我认为的  GPT-4o 的一些用途:

1、口语练习助手

前面提到,GPT-4o 的平均响应速度在300毫秒左右,与人类相似,而GPT又具备强大的语言翻译和理解能力,这也就意味着你可以与它进行交互从而锻炼你的口语能力,这或许比单纯地背单词要有效得多!

其实之前也有类似的AI应用,但 GPT-4o 的速度无疑是更优秀的,也会让体验更加流程自然。

2、制作漫画分镜

AI文生图其实已经发展了很久,不过 GPT-4o 似乎更加优秀,从他发布的案例来看,他每张分镜的人物是尽量保持一致的,这样制作的视频会更加自然!

3、图片内容替换

有时候我们只需要对图片的某一处内容进行修改,比如把英文变成中文,但我之前尝试过用Stable diffusion 或者 DALLE3,并不能做到很好的效果,而 GPT-4o 则能够很好地完成这一点。

4、与具身机器人的结合

想象一下,如果将GPT4o和具身机器人或者机器狗等结合起来,那将会是非常有意思的场景。

当 GPT4o 没出现之前,AI机器人的表现其实是有所欠缺的,让人感觉不够“智能”,但是当 GPT4o 出现后,凭借其快速的响应,以及对视觉和音频较强的理解能力,他已经能够看,听和说了,已经逐渐向一个成熟的智能体发展了。

在这种发展下,一是后面更多的重复性工作会被替代;二是它或许会像宠物那般陪伴人类,毕竟在OpenAI发布的视频中,它已经能够准确理解用户的情感,并据此作出适当的回应。

也许在不久后,人类社会将迎来一个新局面,那就是硅基生命将与碳基共存!

chatgpt plus(GPT4)代充值

本文链接:https://gpt-4o.net/chatgpt/474.html

GPT-4oGPT4ogpt-4o检测人的情绪gpt-4o多模态大模型发布GPT-4o免费GPT-4o官网GPT4o官网

相关文章

网友评论