在上篇文章中介绍到OpenAI公司线上举行了春季发布会迎来了新旗舰模型“GPT-4o (Omini)”,GPT-4o拥有更快的交互响应速度,它的视觉交互能力得以大大提升,同时具有情感感知能力。经过作者测试,GPT-4o的内容比GPT-4更丰富,回答更准确,在格式上更多样。这篇文章进一步介绍GPT-4o的应用场景、不同场景模型精度比较及不足之处。
刚刚提及的视觉感受能力意味着GPT4-o不仅能听、能说、能读、能写,给它一个摄像头,他还能看到你想表达的部分物理信息,提供了丰富的应用场景,这可能是GPT4-o更新最想给使用者带来的价值体验,而且相较于之前的GPT4已有的文本处理能力在GPT4-o上变得更强。
目前GPT-4o模型免费开放给所有用户。
GPT-4o应用场景(二)
在上一篇文章中简单地介绍了GPT-4o的几个应用场景,包括面试、考试、教学、翻译等,这些应用依赖于其强大的语言理解能力以及大语言模型的知识库,同时最大化的发挥GPT-4o视觉感知的能力,这将更直观地把真实世界通过视觉、听觉输入到GPT来实现真实引擎传输,这些场景仅供参考,并没有严格的数据支撑,并且必须考虑到生成式AI带来的“幻觉”问题。
1
工作文档、代码结对编辑
2
“第三支眼睛”,盲人辅助探头、精密仪器辅助探头
3
智能客服、陪伴、保姆机器人
GPT-4o的视觉输出和语音能力使它进行前、后台客服服务。值得注意的是,最新的GPT-4o具有情感识别能力以及快速的响应速度,使它能够胜任一项服务交流任务。同样的,陪伴和保姆机器人也具有市场应用前景。
4
美妆、妆造色彩测试
5
实时量化交易
6
其他视觉、音频输入场景
我们发现在GPT-4的基础上,GPT-4o引入了强大的视觉感受能力,结合上GPT的文本、语音多模态能力以及庞大的知识库,同样可以在视听行业有其他应用例如调音(音乐)、辨音(勘测)、图像识别(监控、考古)以及多模态转化场景,当然这是一种合理的假设而并没有进行实验证明。
GPT-4o模型精度
那么针对如此强大的视、听、说、写能力,我们从测试数据上看看GPT-4o较其他模型比如GPT-4的不同版本、Gemini Pro、Liama3等模型表现如何。
1
文本预测
我们可以看到,文本预测中总共测试包括GPT-4o, GPT-4T, GPT-4 (initial release 23-03-14), Gemini Ultra 1.0, Llama400b, Claude 3 Opus, 和 Gemini Pro 1.5 等7个文本大语言模型在6个文本任务上的测试性能。
这些文本任务包括:
MMLU - 衡量模型在多种学术和职业领域的多项选择问题解决能力。
GPOA - 测试模型在策略和操作领域的性能。
MATH - 考核模型解决数学问题的能力。
HumanEval - 评价模型解决编程挑战问题的能力。
MGSV - 测试模型在生成语义有效句子的能力。
DROP - 一个自然语言处理任务,要求模型对文本中的数据进行推理和处理。
通过结果来看,GPT-4o在6个评估任务中的4个任务上相比其他模型表现出色,在MMLU 数据集上精度达88.7%,优于GPT4达2.6%的预测精度。
2
音频ASR性能
图中展示了两种自动语音识别(ASR)系统—Whisper-v3和GPT-4o 16-shot—在不同地区的语音转写性能比较。性能指标使用词错误率(WER,Word Error Rate),较低的WER表示较好的性能。可以发现GPT-4o无论在哪个地区(从左到右依次是西欧、东欧、中北非、南非、南亚、东南亚)都优于Whisper-v3模型。Whisper-v3 同样是由 OpenAI 开发的一个先进的自动语音识别(ASR)系统,Whisper-v3在其发布时受到了广泛关注,因为它不仅在英语中表现出色,也在全球多种语言的语音识别任务中显示了出色的性能。Whisper 模型特别强调在多种语言和口音上的广泛适用性和强大的性能,目的是实现跨语言和方言的高精度语音识别。
3
音频翻译性能
这幅图展示了不同模型在音频翻译性能上的对比,使用的性能评价指标是BLEU分数(越高越好),数据集是COVO-ST 2 BLEU。图中包括了多个来自不同公司(OpenAI、Meta、Google)的模型。在这些模型中,GPT-4o显示出最高的翻译性能,在42 BLEU左右,这是图中的最高分。其中,Gemini略逊一筹,大约40 BLEU。SeamlessMV-1-V2、AudioPalm2的表现虽然优于Whisper-v3,但与领先的GPT-4o模型相比还有一定的差距。
4
M3Exam视觉零样本结果
这幅图展示了GPT-4和GPT-4o在多语言零次学习(Zero-Shot)评估中的表现,数据集被称为M3Exam。图表中列出了各种语言的准确性比较,包括但不限于南非荷兰语(Afrikaans)、中文、英语、意大利语、爪哇语、葡萄牙语、斯瓦希里语、越南语等,可以发现GPT-4o的精度较GPT-4在各种语言上都有不小的提升。
5
视觉理解评估
这幅图表展示了不同模型在多个评估数据集上的性能比较。包括的模型有 GPT-4o、GPT-4T(2024-04-09)、Gemini 1.0 Ultra、Gemini 1.5 Pro 以及 Claude Opus。可以发现GPT-4o的精度大幅领先第二名模型(6%, 5%, 4.8%, 4.4%, 1.9%, 2.4%, 8.3%),这些数据集包括:
MMMU (val):一个旨在评估模型在处理多任务和多模态输入(如文本、图像)方面的能力的数据集。
MathVista (testmini) - 专注于数学问题解决能力的数据集,可能包括从基础算术到更复杂问题的多种数学题。
AI2D (test) - 评估模型理解和推理科学图表和图解信息的能力,如生物学、地理和其他科学领域的图解。
ChartQA (test) - 专门针对图表和数据可视化的问答数据集,测试模型在解析和回答关于图表数据的问题上的效能。
DocVQA (test) - 关注于文档图像内容的问答,如理解表格、图表和文本排布,测试模型如何从结构化和非结构化的文档中提取和利用信息。
ActivityNet (test) - 通常用于视频理解,测试模型在识别和解释视频内容中的活动和动作方面的能力。
EgoSchema (test) - 评估模型从第一人称视角(如穿戴式相机拍摄的视频)理解和预测人类行为和交互的能力。
✦GPT-4o的不足最后GPT-4o也并不是那么完美,经过编辑测试,有时它很聪明,有时候它在图像识别的准确性上不足,从而可能导致进一步的下游任务不准确。比如使用一个脑筋急转弯的图像数据引导他进行回答,它的回答并不正确。同时还是作者提到的“幻觉”问题,由于多模态及及时反馈的影响,可能使得生成式AI产生的幻觉更加难以发现,最终可能导致严重后果,因此需要谨慎对待。
网友评论