GPT-4 Turbo中文基准评测出炉！总分98.4，八项满分，领先31分｜SuperCLUE

GPT-4o2024-05-06421

本测评结果仅用于学术研究。

11月6日，OpenAI首届开发者大会上震撼发布一系列更新。其中，GPT-4 Turbo是本次大会的主打产品之一，成为OpenAI史上最强的ChatGPT。

GPT-4 Turbo具有128K上下文，相当于可一次性输入300多页文本内容10万汉字；训练数据知识截止至2023年4月；价格方面，GPT-4 Turbo与GPT-4相比，输入便宜3倍，输出便宜2倍。GPT-4 Turbo还对函数调用和指令、JSON模式进行了调优。

那么，GPT4-Turbo在中文上的表现如何？与国内外代表性大模型相比处于什么位置？在各项基础能力上如计算推理、知识百科、生成创作上会有怎样的表现？

我们基于SuperCLUE通用大模型综合性中文测评基准，对GPT-4 Turbo进行了全方位测评。

测评环境

参考标准：SuperCLUE-OPEN中文多轮开放式测评基准

评测模型：GPT-4 Turbo（API调用模型名称为gpt-4-1106-preview）

评测集：SuperCLUE-Open多轮开放式10月评测集，606道多轮简答题，包括专业技能与知识、语言理解与生成、AI智能体和安全性四大维度的十项基础任务。

模型GenerationConfig配置：

参考GPT-4 Turbo详细说明文档：
https://platform.openai.com/docs/models

测评方法：

本次测评为多轮开放式自动化评测，通过引入基准模型，在测试题库上使用一个待评估模型与一个基准模型（如gpt-3.5-turbo）进行对比，让超级模型选出哪个模型的回答更好。

候选项包括胜、平、负，最终计算待评估模型胜率方式获得总分。

先说结论

结论1：在SuperCLUE-OPEN基准上，GPT-4 Turbo综合能力有较大领先优势且未出现竞争者，其中，GPT-4 Turbo在十项基础能力中有8项满分。

结论2：相比上一代GPT4模型，GPT-4 Turbo有10.33分的巨大提升。

结论3：对国内大模型而言，差距在进一步扩大。GPT-4 Turbo总分领先国内最强模型有30分以上。

以下是我们从定量和定性两个角度对模型进行的测评分析。

测评分析

1 定量分析

在SuperCLUE-OPEN测评中，GPT-4 Turbo的表现如下：

SuperCLUE-OPEN（10月）

在SuperCLUE-OPEN多轮开放问题测评基准上，取得98.40的高分，进一步扩大领先优势，较上一代GPT4有10.33分的提升。

GPT-4 Turbo在十大基础能力上的表现

GPT-4 Turbo在十大任务上非常均衡。其中，在知识百科、代码、逻辑推理、工具使用等8个基础能力上取得满分，展现出强大的通用大模型综合能力。

将国内模型最强能力与GPT系列模型对比发现，除安全、逻辑推理、知识百科外，大部分基础能力与GPT-4 Turbo差距明显。

GPT-4 Turbo与上一代GPT4模型相比，大部分任务上有明显提升，其中，计算能力略有下降。后续SuperCLUE会对GPT-4 Turbo的数学计算能力进一步测评，分析下降原因。

小结：

从评测结果我们发现，GPT-4 Turbo在综合能力上处于绝对领先，在总分上刷新了上一代GPT4保持的88.07分。并且在知识百科、代码、逻辑推理、工具使用等8个基础能力上取得满分。

2 定性分析

通过一些典型示例，对比定性分析GPT-4 Turbo的特点。

（建议：在电脑端查看获得更好体验）

维度一：专业技能与知识

能力1：计算

能力2：代码

能力3：逻辑与推理

能力4：知识与百科

维度二：语言理解与生成

能力5：语言理解与抽取

能力6：上下文对话

能力7：生成与创作

能力8：角色扮演

维度三：AI智能体

能力9：工具使用

维度四：安全

能力10：传统安全

小结：

从定性分析的示例中我们可以发现，GPT-4 Turbo支持更长、各个任务上效果更强并且价格更低，拉高了AI竞争的上限、门槛，国内大模型厂商需要加油了。

更多模型测评信息，请加入SuperCLUE交流群。

延伸阅读：

技术报告：SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark，https://arxiv.org/abs/2307.15020

GPT-4 Turbo详细说明文档：https://platform.openai.com/docs/models

SuperCLUE排行榜：https://www.superclueai.com

CLUE官网地址：https://www.cluebenchmarks.com

GitHub地址：https://github.com/CLUEbenchmark/SuperCLUE-Agent

长按扫码入群

获取更多评测信息

SuperCLUE交流群

点击阅读原文，查看SuperCLUE排行榜

本文链接：https://gpt-4o.net/chatgpt/400.html

相关文章

十个专属于ChatGPT 4o生图的优质提示词，10个专属ChatGPT 4o生图的优质AI绘画提示词
最近是不是被各种吉卜力风格AI图刷屏了？说实话，都快看吐了......但你知道吗,ChatGPT4o的图片生成能力可远不止这点皮毛！今天就跟大家分享10个超实用的生图玩法，手把手教学+案例展示，保...
ChatGpt资讯2025-04-0152ChatGPT 4o AI绘画提示词
地表上最强的多模态Gpt 4o ，一起实测看看他到底强在哪里？，实测最强多模态GPT-4o，地表最强AI究竟强在哪？
** ，OpenAI推出的GPT-4o被誉为目前地表最强的多模态AI模型，其核心优势在于真正融合了文本、图像、音频等多模态理解与生成能力，实现了更自然的人机交互，实测显示，GPT-4o在响应速度、跨...
ChatGpt资讯2025-04-0144多模态 GPT4o
免费开放！GPT-4o图像生成功能上线，网友实测效果炸裂！，GPT-4o图像生成功能免费开放！网友实测效果惊艳全网
OpenAI宣布免费开放GPT-4o的图像生成功能，引发用户狂欢，实测显示，新模型生成的图像细节精细、光影自然，无论是概念艺术、产品设计还是日常场景还原都展现出惊人效果，社交媒体上网友纷纷晒出“用文字...
ChatGpt资讯2025-04-0148GPT4o 图像生成
实测，GPT-4o原生图像生成，这下可以用嘴画图，GPT-4o实测，原生图像生成功能，用嘴画图时代已来！
OpenAI最新发布的GPT-4o模型原生支持图像生成功能，用户现在可以通过自然语言描述直接生成图片，实测表明，该功能对文字指令的理解准确，能快速生成符合要求的图像（如"戴着墨镜的柴犬程序员"等创意场...
ChatGpt资讯2025-04-0149GPT4o 图像生成
GPT-4o图像生成效果炸裂！创业请避开大厂的赛道，GPT-4o图像生成效果震撼！创业者如何避开大厂竞争赛道？
** ，GPT-4o的图像生成能力表现惊人，技术效果堪称“炸裂”，其高精度和创意输出为AI领域带来新的突破，进一步拉大了与竞品的差距，对于创业者而言，专家建议避免直接与大厂（如OpenAI、谷歌等）...
ChatGpt资讯2025-04-0147GPT4o 创业赛道

网友评论