ChatGPT 4 Turbo：新一代智能写作助手

AI快讯 1年前 (2024) admin

4,061 0 10

随着最新一代的GPT-4 Turbo的问世，ChatGPT再次掌握了大模型排行榜的领先地位，超越了Claude 3 Opus。而且，这一新模型在处理长达64k长度的输入时，性能更胜旧版在26k时的表现。从今天起，最新版的GPT-4 Turbo正式向ChatGPT Plus用户开放！

此外，根据OpenAI的介绍，GPT-4 Turbo在回复时更加直接，减少了啰嗦内容，更加口语化。

我们一起来看看，在基准测试中，GPT-4 Turbo的表现如何呢？

数学性能提升近10%
在官方公开的GitHub上，OpenAI发布了最新的gpt-4-turbo-2024-04-09的评估结果。
主要对模型在以下七大基准上进行了评估：MMLU（多任务语言理解）、MATH（数学问题解决能力）、GPQA（谷歌防护问答基准）、DROP（段落离散推理的阅读理解基准）、MGSM（多语言小学数学基准）、HumanEval（代码训练的大型语言模型评估）、MMMU（专家通用人工智能理解和推理基准）。
在这个GitHub库中，OpenAI主要使用零样本、CoT设置，并采用简单的指令，如“解决以下多项选择题”，以更真实地反映模型在实际使用中的表现。
根据具体结果显示，最新的gpt-4-turbo在数学方面的能力实现了近10%的提升。
而在整体的比较中，新模型基本上实现了对Claude 3 Opus和Gemini Pro 1.5的全面超越。

在大海捞针测试中，最新的gpt-4-turbo也全方位地超越了此前的1106-preview。

众所周知，上下文越长，对模型的挑战就越大。

而gpt-4-turbo在处理长达64k Token的内容时，性能直接媲美预览版在26k Token时的表现。

如果回顾一下GPT-4刚发布时的情况，也就是大约一年之前，最新的gpt-4-turbo在32k的配置下，性能比初代GPT-4提高了约4.3倍。

在前段时间，Anthropic手里的最强大模型Claude 3 Opus霸榜各大榜单。

不过，就在今天，OpenAI凭借着全新的gpt-4-turbo，再次超越了Claude 3，夺得第一。

根据LLM排位赛的最新结果，GPT-4-Turbo再次超越Claude 3，夺得第一。

LMSYS Org从多个领域收集了超过8000张人类投票，发现GPT-4-Turbo在编程与推理方面的表现，超越了其他模型。

为了深入了解，研究人员在Arena引入了“类别”功能。

通过这一新功能，可以对编程、长查询处理和多语言能力等不同领域进行更详尽的比较。

研究人员还对编程领域中包含代码片段的所有对话进行了标记。在这一方面，GPT-4-Turbo展现出更强的性能。

类似的，Naman Jain也发现，新版GPT-4-Turbo在LiveCodeBench（包含编程竞赛题）上的表现，提高了惊人的4.5分。

这类问题对目前的LLM来说挑战很大，而OpenAI此次的更新，明显是大幅提升了模型推理能力。

在长查询领域（Token数量超过500），Claude-3 Opus表现最佳。

令人有些意想不到的是，Command R/R+在这一领域中也有着非常高的得分。

有趣的是，如果只涉及英语提示，排名会与整体略有不同。

在这一类别中，三种GPT-4-Turbo依然处于领先地位。

而这种变化的产生，是因为随着用户基数的扩大，语言使用从英语转向包括中文在内的多种语言。

版权声明：admin 发表于 2024-04-13 11:08:35。
转载请注明：ChatGPT 4 Turbo：新一代智能写作助手 | ai导航网

暂无评论

暂无评论...