免费试用!OpenAI 2024年春季发布会GPT-4o大语言模型及应用场景介绍

GPT-4o2024-05-15224

在上篇文章中介绍到OpenAI公司线上举行了春季发布会迎来了新旗舰模型“GPT-4o (Omini)”,GPT-4o拥有更快的交互响应速度,它的视觉交互能力得以大大提升,同时具有情感感知能力。经过作者测试,GPT-4o的内容比GPT-4更丰富,回答更准确,在格式上更多样。这篇文章进一步介绍GPT-4o的应用场景、不同场景模型精度比较及不足之处。

刚刚提及的视觉感受能力意味着GPT4-o不仅能听、能说、能读、能写,给它一个摄像头,他还能看到你想表达的部分物理信息,提供了丰富的应用场景,这可能是GPT4-o更新最想给使用者带来的价值体验,而且相较于之前的GPT4已有的文本处理能力在GPT4-o上变得更强。

总的来说,这款GPT拥有更强的人机交互和及时反馈能力,和它交流变得和人交流一样的流畅并且能读懂你的情绪,根据情境来选择交流的内容和时机,同时它的反馈速度达到甚至超过人类的响应速度,这一点是给人机交互带来良好用户体验的关键,甚至可能通过良好的交互来提升使用者对它回答的主观准确性,从而影响使用者的决策。

目前GPT-4o模型免费开放给所有用户。

GPT-4o应用场景(二)


在上一篇文章中简单地介绍了GPT-4o的几个应用场景,包括面试、考试、教学、翻译等,这些应用依赖于其强大的语言理解能力以及大语言模型的知识库,同时最大化的发挥GPT-4o视觉感知的能力,这将更直观地把真实世界通过视觉、听觉输入到GPT来实现真实引擎传输,这些场景仅供参考,并没有严格的数据支撑,并且必须考虑到生成式AI带来的“幻觉”问题

1


工作文档、代码结对编辑

在之前的GPT-4版本中,我们首先需要来回切换窗口来辅助我们完成文本编辑任务,其次对于一个相对复杂的问题提示词需要反复修改,但是在GPT-4o中可以实时地观察文本编辑任务并给与指导,这将有可能减少提示词的设计而使GPT能明白你所做的任务。

2


“第三支眼睛”,盲人辅助探头、精密仪器辅助探头

(图来自@财经杂志)
GPT-4o完全可以充当人类的第三只眼睛,在需要的时候。结合它的语音输出功能可以很好的完成场景交互。比如说辅助盲人进行场景识别,辅助消防人员进行危险场景的情况勘察以及生物医学探头的影像识别、临床检测。

3


智能客服、陪伴、保姆机器人

GPT-4o的视觉输出和语音能力使它进行前、后台客服服务。值得注意的是,最新的GPT-4o具有情感识别能力以及快速的响应速度,使它能够胜任一项服务交流任务。同样的,陪伴和保姆机器人也具有市场应用前景。

4


美妆、妆造色彩测试

美妆和妆造色彩测试行业逐渐兴起,帮助人们打造最适合自己的妆容、发型以及穿着搭配,对于这样的视觉信息可以利用GPT-4o的实时视觉输入来实现自己想要的外观体现,这种要求可以是针对出席场景和人物模仿来提出。

(图来自抖音@@麻小姐伊琳)

5


实时量化交易

(图来自@第一财团)
GPT-4o使得量化交易具有实时性,不仅仅依赖数据抓取,而可以通过视觉输入而更具实时性,并且输出端具有一定的专业性和实际场景分析能力,我想这对于这个行业来说具有强大的竞争力,对于它的实际能力以及和从业人员的比较还有待测试。

6


其他视觉、音频输入场景

我们发现在GPT-4的基础上,GPT-4o引入了强大的视觉感受能力,结合上GPT的文本、语音多模态能力以及庞大的知识库,同样可以在视听行业有其他应用例如调音(音乐)、辨音(勘测)、图像识别(监控、考古)以及多模态转化场景,当然这是一种合理的假设而并没有进行实验证明。

GPT-4o模型精度


那么针对如此强大的视、听、说、写能力,我们从测试数据上看看GPT-4o较其他模型比如GPT-4的不同版本、Gemini Pro、Liama3等模型表现如何。

1


文本预测

我们可以看到,文本预测中总共测试包括GPT-4o, GPT-4T, GPT-4 (initial release 23-03-14), Gemini Ultra 1.0, Llama400b, Claude 3 Opus, 和 Gemini Pro 1.5 等7个文本大语言模型在6个文本任务上的测试性能。

这些文本任务包括:

MMLU - 衡量模型在多种学术和职业领域的多项选择问题解决能力。

GPOA - 测试模型在策略和操作领域的性能。

MATH - 考核模型解决数学问题的能力。

HumanEval - 评价模型解决编程挑战问题的能力。

MGSV - 测试模型在生成语义有效句子的能力。

DROP - 一个自然语言处理任务,要求模型对文本中的数据进行推理和处理。

通过结果来看,GPT-4o在6个评估任务中的4个任务上相比其他模型表现出色,在MMLU 数据集上精度达88.7%,优于GPT4达2.6%的预测精度。


2


音频ASR性能

图中展示了两种自动语音识别(ASR)系统—Whisper-v3和GPT-4o 16-shot—在不同地区的语音转写性能比较。性能指标使用词错误率(WER,Word Error Rate),较低的WER表示较好的性能。可以发现GPT-4o无论在哪个地区(从左到右依次是西欧、东欧、中北非、南非、南亚、东南亚)都优于Whisper-v3模型。Whisper-v3 同样是由 OpenAI 开发的一个先进的自动语音识别(ASR)系统,Whisper-v3在其发布时受到了广泛关注,因为它不仅在英语中表现出色,也在全球多种语言的语音识别任务中显示了出色的性能。Whisper 模型特别强调在多种语言和口音上的广泛适用性和强大的性能,目的是实现跨语言和方言的高精度语音识别。


3


音频翻译性能

这幅图展示了不同模型在音频翻译性能上的对比,使用的性能评价指标是BLEU分数(越高越好),数据集是COVO-ST 2 BLEU。图中包括了多个来自不同公司(OpenAI、Meta、Google)的模型。在这些模型中,GPT-4o显示出最高的翻译性能,在42 BLEU左右,这是图中的最高分。其中,Gemini略逊一筹,大约40 BLEU。SeamlessMV-1-V2、AudioPalm2的表现虽然优于Whisper-v3,但与领先的GPT-4o模型相比还有一定的差距。


4


M3Exam视觉零样本结果

这幅图展示了GPT-4和GPT-4o在多语言零次学习(Zero-Shot)评估中的表现,数据集被称为M3Exam。图表中列出了各种语言的准确性比较,包括但不限于南非荷兰语(Afrikaans)、中文、英语、意大利语、爪哇语、葡萄牙语、斯瓦希里语、越南语等,可以发现GPT-4o的精度较GPT-4在各种语言上都有不小的提升。


5


视觉理解评估

这幅图表展示了不同模型在多个评估数据集上的性能比较。包括的模型有 GPT-4o、GPT-4T(2024-04-09)、Gemini 1.0 Ultra、Gemini 1.5 Pro 以及 Claude Opus。可以发现GPT-4o的精度大幅领先第二名模型(6%, 5%, 4.8%, 4.4%, 1.9%, 2.4%, 8.3%),这些数据集包括:

MMMU (val):一个旨在评估模型在处理多任务和多模态输入(如文本、图像)方面的能力的数据集。

MathVista (testmini) - 专注于数学问题解决能力的数据集,可能包括从基础算术到更复杂问题的多种数学题。

AI2D (test) -  评估模型理解和推理科学图表和图解信息的能力,如生物学、地理和其他科学领域的图解。

ChartQA (test)  - 专门针对图表和数据可视化的问答数据集,测试模型在解析和回答关于图表数据的问题上的效能。

DocVQA (test) - 关注于文档图像内容的问答,如理解表格、图表和文本排布,测试模型如何从结构化和非结构化的文档中提取和利用信息。

ActivityNet (test) - 通常用于视频理解,测试模型在识别和解释视频内容中的活动和动作方面的能力。

EgoSchema (test) - 评估模型从第一人称视角(如穿戴式相机拍摄的视频)理解和预测人类行为和交互的能力。

GPT-4o的不足最后GPT-4o也并不是那么完美,经过编辑测试,有时它很聪明,有时候它在图像识别的准确性上不足,从而可能导致进一步的下游任务不准确。比如使用一个脑筋急转弯的图像数据引导他进行回答,它的回答并不正确。同时还是作者提到的“幻觉”问题,由于多模态及及时反馈的影响,可能使得生成式AI产生的幻觉更加难以发现,最终可能导致严重后果,因此需要谨慎对待。

本文链接:https://gpt-4o.net/chatgpt/476.html

gpt4o比4多了什么功能GPT-4o 在中国能不能用GPT-4o上手体验什么叫GPTgpt3.5和4.0区别

相关文章

网友评论