OpenAI发布多模态大模型GPT-4o,实时语音视频如同真人

GPT-4o2024-05-15182

先做个广告:如需代注册GPT4或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

北京时间 5 月 14 日凌晨,OpenAI 举办了线上“春季更新”活动,公司首席技术官米拉·穆拉蒂(Mira Murati)发布最新多模态大模型GPT-4o(“o”代表“omni”)

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

据介绍,GPT-4o 的速度比 GPT-4 Turbo 快 2 倍,速率限制提高 5 倍,最高可达每分钟 1000 万 token,而价格则便宜了一半。同时,OpenAI 推出有使用限额的 ChatGPT Free,新闻稿称,即使是 ChatGPT Free(免费)用户也可以有机会体验 GPT-4o,但当达到限额时,ChatGPT 将自动切换到 GPT-3.5。

一、GPT-4o 多模态大模型的发布

OpenAI 的发布会主要干了两件事情:发布最新 GPT-4o 多模态大模型,相较于 GPT-4 Trubo 速度更快、价格也更便宜。第二件事情就是宣布,ChatGPT 的免费用户也能用上最新发布的 GPT-4o 模型(更新前只能使用 GPT-3.5),来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。这也意味着 GPT 应用商店的开发者,将面对海量的新增用户。

二、GPT-4o 多模态大模型的功能和特点

GPT-4o 支持文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。文本、推理和编码智能方面性能达到了 GPT-4 Turbo 水平,同时在多语言、音频和视觉能力方面也达到新高。

在演示中,OpenAI研究主管Mark Chen掏出手机打开ChatGPT,用语音模式Voice Mode现场演示,向GPT-4o支持的ChatGPT征询建议。GPT的声音听起来像一位美国女性,当它听到Chen过度呼气时,它似乎从中察觉到了他的紧张。然后说“Mark,你不是吸尘器”,告诉Chen要放松呼吸。如果有些大变化,用户可以中断GPT,GPT-4o的延迟通常应该不会超过两三秒。

三、GPT-4o 多模态大模型的应用

  1. 实时口译:GPT-4o 的语音对话功能可以在 232 毫秒内响应音频输入,用户可以与 ChatGPT 像真人一样聊天,在聊天的过程中改变要求,而不需要等待机器人完成上一个问题的回复后,再提出新的问题。
  2. 数学辅导:GPT-4o 可以帮助学生解决数学问题,提供详细的解答和解释。
  3. 语言翻译:GPT-4o 可以进行多种语言的翻译,帮助人们跨越语言障碍。
  4. 情绪检测:GPT-4o 可以读取用户的情绪,并提供相应的反馈和建议。


四、GPT-4o 多模态大模型对相关产业的影响

  1. AI 终端有望成为年中电子板块主线:国内外大模型持续升级、百花齐放,无论是基础设施建设还是大模型升级,都需要最终落实到 AI 终端产品。从产品角度来看,AI 手机、AI PC 及各类新型 AI 产品有望百花齐放,从零组件角度来看,处理器、存储、散热、结构件等核心环节有望持续升级,板块投资机会凸显。
  2. AI 加持下声学相关公司销量和盈利能力有望迎来双重提升:GPT-4o 语音模式重大升级,AI 加持下声学相关公司销量和盈利能力有望迎来双重提升。关注歌尔股份(传感器及智能硬件)、国光电器(音响及电声元器件)、漫步者(AI 音箱)、恒玄科技(音频 SoC)等。
  3. 苹果积极布局 AI 终端,传统 3C 产品有望迎 AI 升级:苹果积极布局 AI 终端,传统 3C 产品有望迎 AI 升级,同时叠加 MR 眼镜等新兴生态加速,果链各环节代表公司有望引领技术升级,且估值性价比凸显。关注立讯精密(组装)、歌尔股份(传感器及智能硬件)、东山精密(FPC)、领益智造(功能件)、蓝思科技(防护玻璃)、统联精密(精密结构件)、中石科技(散热方案)、水晶光电(光学元件)等。
  4. AI PC 催化密集,CPU+操作系统+品牌+零组件生态有望全方位率先成熟:AI PC 催化密集,CPU+操作系统+品牌+零组件生态有望全方位率先成熟,关注存储、结构件、散热、组装等价值量显著提升的环节。关注春秋电子、中石科技、华勤技术等。
  5. 各类终端厂商大力布局 AI 产品,应用场景的拓展及新需求的创造有望带来销量和盈利能力的双重提升:各类终端厂商大力布局 AI 产品,应用场景的拓展及新需求的创造有望带来销量和盈利能力的双重提升,包括传音控股(AI 手机)、联想集团(AI PC)、海康威视(AI 安防)、萤石网络(AI 家居)、漫步者(AI 音箱)、创维数字(XR 眼镜)等。


五、总结

OpenAI 发布的 GPT-4o 多模态大模型,在价格、速度和功能上都具有优势,将为用户带来更加自然、智能的交互体验。同时,GPT-4o 的发布也将推动相关产业的发展,为 AI 终端、声学、3C 产品等领域带来新的机遇。

穆拉蒂感谢了英伟达首席执行官黄仁勋及其公司提供的必要图形处理单元(GPU),这些GPU为OpenAI的技术提供了动力。她说,“我只想感谢出色的OpenAI团队,同时也要感谢黄仁勋和英伟达团队为我们带来最先进的GPU,让今天的演示成为可能。”

不过大白也在网上看到有文章说遥遥领先的OpenAI进化的速度已经慢了下来;

总结下来就是

  1. 业内对 OpenAI 的期待过高:除非是 GPT-5 这样的颠覆式创新,否则很难满足观众的“胃口”。

  2. OpenAI 的发展方向发生了变化:OpenAI 似乎将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,让所有人都受益。


马斯克在看过发布会后表示,GPT-4o的演示让他感到“不适、尴尬”,不过这一言论遭到了GPT粉丝的不满,有用户留言回怼——“放出Grok的可用版本的类似产品再说话吧……”

Grok是马斯克的AI初创公司X.ai推出的AI模型,它是用了包括马斯克收购的社交媒体平台X上的语料训练出来的——但它在基准测试中,成绩比GPT4差很多,甚至也比不过Palm-2及Claude3,随后,马斯克将它开源,用户可以免费商用,不过至今仍没有基于Grok的知名大型应用产品出现!

chatgpt plus(GPT4)代充值

本文链接:https://gpt-4o.net/chatgpt/471.html

GPT-4oGPT4ogpt-4o检测人的情绪gpt-4o多模态大模型发布GPT-4o免费GPT-4o官网GPT4o官网

相关文章

网友评论