ChatGPT Plus 用户即将引来重大升级:GPT-4.5 几天后开始推送!
Sam Altman 刚发 X 表示,未来几天内,GPT-4.5 会推到 Plus 用户。那么,GPT-4.5 到底怎么样呢?
1. GPT-4.5 的概述
GPT-4.5 堪称是史上最贵的模型,相比上一代 GPT-4o,价格暴涨了 30 倍 [1]。在 AI 领域竞争激烈、价格战四起的当下,OpenAI 仍选择推出这样昂贵的模型,显然它应该有着非凡的特点。那么 GPT-4.5 究竟为何如此昂贵?它是否是一次惊艳的升级呢?
本文将从多个维度对 GPT-4.5 进行深入解析,包括它的性能提升、应用场景以及实际使用体验。点击观看原始 YouTube 视频。
|
发布视频后,这两天我密集对比 GPT-4.5 和 o1,发现:
- 理性思考方面,o1 明显更强,尤其在理科、策略类问题上,分析得非常深入、周全,GPT-4.5 常常会与 o1 有相同的观点,但是会稍显肤浅。
- 但论沟通方式,GPT-4.5 更像个真正的朋友,有明显的共情感和人情味。相对而言,o1 更像位严肃的老师,有距离感。
两种风格差别明显,看来 AI 也开始分“理性派”和“感性派”了。
2. GPT-4.5 与其他模型的对比
首先需要了解,GPT-4.5 并不是一个推理(Chain-of-Thought)模型。根据官方说法,GPT-4.5 属于 OpenAI 新一代通用模型,不同于专注推理的 "O" 系列模型 [2]。目前 OpenAI 的模型大致可以分为两类:
- 推理模型(Inference Models):如 O 系列(o1、o3-mini 等),这类模型会生成自己的思路链条进行逐步推理,更擅长复杂逻辑和数学计算 [3]。
- 通用模型(General Models):如 GPT-4o 以及最新的 GPT-4.5。这类模型没有显式的链式推理过程,但在对话自然度和知识面上更强。
根据 OpenAI 官方博客和系统卡信息分析,GPT-4.5 具有以下核心特性 [4] [5]:
- 更自然的对话体验:与 GPT-4.5 对话感觉更像是在和一个有思想的人交流,回答更加贴近人类对话习惯 [6]。
- 更高的情感智能:GPT-4.5 对情绪和语境的理解更深入,对用户的情绪变化有更敏锐的感知和回应 [7]。
- 更少的幻觉(Hallucination):相比之前的模型,GPT-4.5 提供了更可靠的答案,胡编乱造的现象大幅减少 [8] [9]。
- 更大的知识覆盖范围:经过更大规模的无监督预训练,GPT-4.5 拥有更广博的知识储备,能够处理更广泛的话题 [10]。
上述提升使得 GPT-4.5 更像是一个"全能型选手",而非专门为某一领域优化的模型。正如 OpenAI CEO Sam Altman 所说,GPT-4.5 并不是一款为了刷新推理基准而生的模型,而是一种不同类型的智能,侧重于对话的魔力和人性化体验 [11]。
通过对 GPT-4.5 的 System Card 中的词云分析,我们可以看到对 GPT-4.5 的评价分布:
基准测试对比
OpenAI 在 GPT-4.5 系统卡中公布了一系列基准测试结果,显示 GPT-4.5 在多语言能力、科学知识、代码开发等方面相对 GPT-4o 有所提升,但在纯推理和复杂编程问题上仍略逊于专门的推理模型。例如:
测试项 | GPT-4.5 | GPT-4o | OpenAI o3-mini |
---|---|---|---|
多语言能力 | 85.1% | 81.5% | 81.1% |
科学知识 | 71.4% | 53.6% | 79.7% |
编程能力(SWE-Bench) | 38% | 30.7% | 61% |
代码开发(SWE-Lancer) | 32.6% | 23.3% | 10.8% |
幻觉率(越低越好) | 0.19 | 0.52 |
注:SWE-Bench 是 OpenAI 用于评估代码编写/调试能力的基准测试,SWE-Lancer 是OpenAI最新发布的自由软件工程任务基准,模拟真实世界的全栈开发工作 [12]。
从这些数据可以看出,GPT-4.5 在多语言、科学知识和代码开发任务上相对 GPT-4o 有明显进步,但在纯推理和复杂编程题方面仍不及经过特殊优化的推理模型(如 OpenAI o3-mini 系列)。正如官方所强调的,由于 GPT-4.5 缺乏链式推理能力,在需要逐步思考的任务上不会"一骑绝尘" [13]。Neowin 的评测指出,GPT-4.5 在 SWE-Bench 编程基准上的得分比 GPT-4o 提升了约 2–7 个百分点,但仍比 OpenAI 自家的 o3 深度推理模型低了近 30 个百分点 [14]。同场竞技的 Anthropic Claude 3.7 模型则取得了 62.3% 的高分 [15]。
[16] GPT-4.5 在多种任务上相较 GPT-4o 获得了人类测试者更高的偏好评分。例如在专业问答和创意任务上,人类更偏爱 GPT-4.5 的回答。
[18] GPT-4.5 在 SimpleQA 数据集上的幻觉率显著低于 GPT-4o 和 OpenAI 的推理模型 o1、o3-mini [19]。这表明 GPT-4.5 给出错误或不实信息的概率更小。
综合而言,GPT-4.5 更像是对 GPT-4o 的一次全面强化 —— 知识更丰富、对话更流畅、情商更高且更可靠,但在需要严谨推理的场景下,它依然无法取代那些专门为推理优化的模型 [20]。
3. 主要应用场景
从目前的评测和官方描述来看,GPT-4.5 适用于以下主要场景:
- 写作与内容创作:GPT-4.5 擅长处理需要创造力和语言技巧的任务,例如文章润色、新闻撰写、学术论文改进以及各类创意写作 [21]。它对上下文的把握和对用户意图的理解更强,可以产生更连贯、风格统一的长篇内容。
- 编程辅助:在代码解释、调试、代码改进建议等方面,GPT-4.5 表现出色 [22]。它可以更准确地理解用户的意图,提供更符合要求的代码片段或解决方案。不过,如果是复杂的数学推导或多步编程思路规划,GPT-4.5 可能不如专门的推理模型(如 o3 系列)那么严谨 [23]。
- 高情感智能的对话:GPT-4.5 被誉为 OpenAI 有史以来"情商最高"的聊天模型 [24]。这使它非常适合用于需要情感理解的对话场景,如心理咨询式对话、用户支持(能够更好地感知用户情绪)以及任何需要共情和细腻沟通的应用 [25]。实际测试表明,与它对话往往让人感觉更加"温暖"和"自然",仿佛在与一位善解人意的朋友交流 [26]。
此外,GPT-4.5 在 ChatGPT 产品中的新功能也令人瞩目:它具备联网搜索能力,并且可以自动决定何时需要搜索。也就是说,在使用 ChatGPT 对话时,GPT-4.5 遇到知识库中不存在的新知识,会自行触发网络搜索获取最新信息(无需用户手动点击搜索按钮)。这对于需要实时信息的问答来说非常方便。不过,这一自动搜索行为有时也引发了一些用户的讨论 [27],从我的使用经验来看,必要时需要明确提示“请不要上网搜索”。
4. 实际体验测试
为了更直观地了解 GPT-4.5 的能力,我们设计了两个小测试,将它的表现与 OpenAI 的推理模型 O1 进行对比。(这是不严谨对比,因为 GPT-4.5 是通用模型不该与 o1 推理模型进行比拼的,不过对比目的只是为了让大家有个感性的认识)
测试 1:诗词对对联
场景描述:我们要求模型对出《红楼梦》中的著名对联"寒塘渡鹤影",但明确规定不能用原作中的下联"冷月葬花魂"。
- O1 回答:
暖岸迎燕归
(勉强对仗但意境完全不是那么回事)。 - GPT-4.5 回答:
疏柳系云踪
(据 GPT-4.5 自己解释:上联描绘的是冬日池塘清冷寂静,有鹤影轻轻掠过水面,意境清雅幽远;下联则用疏淡的柳树牵系缥缈的云朵踪迹,呈现空旷幽远的画面,与上联的淡远意境高度契合。)。
所以我们看到,两种模型给出的下联在意境和对仗工整度上有明显差异。O1 的回答勉强押韵,但场景和意境与上联关联不大;相比之下,GPT-4.5 的回答不仅做到了词性对仗,而且描绘的景象与"寒塘渡鹤影"的意境更加统一,仿佛让人看到一个柳丝疏影、云淡风轻的幽静夜晚。GPT-4.5 在古典诗词这种需要融会贯通语境与创意的任务上展现出了更强的把握能力。这也印证了官方所谓 GPT-4.5 拥有更高"创造性智能"和对上下文的敏锐度 [28]。
测试 2:情感智能对比
场景描述:孩子考试成绩不理想,家长第一句话应该怎么说?(考察模型在情感疏导场景下的反应)
- O1 回答:“我看到你对这个成绩很难过,我理解你的失落。无论你考得怎么样,爸爸妈妈都在乎你的努力和成长,我们一起看看能怎么帮助你改进,好吗?”
- GPT-4.5 回答:
"我知道你现在一定很难过,来,我们先坐下来好好聊聊。"
二者的回答相差不大,都是 OpenAI 简单直接的风格。但是,GPT-4.5 的回应更生活化,我们可以一字不改,直接把这句话对着孩子说。正符合 OpenAI 所强调的 "温暖、直觉化且富有情感色彩" 的对话风格 [29]。相较之下,O1 的话我们很难不修改地说出口,他并不是一种口语化的风格。
测试 3:沟通语气测试
我用OpenAI官方发布会上的例子进行测试:"我朋友又放我鸽子了,写个短信告诉他我恨他":
GPT-4.5的回答:
"你可以这样幽默又带点情绪的发短信:'又放我鸽子,我恨你三分钟,三分钟后看表现再决定要不要继续恨你'。或者稍微温柔点:'你又放我鸽子,我决定恨你一下下,直到你请我吃饭为止'。"
O1的回答:
"你又放我鸽子了,真是让我彻底失望。我不想再替你找借口了,这一次我真的恨你。以后请尊重我的时间,否则咱们连朋友都没得做。"
这个对比极其明显:GPT-4.5能够理解用户只是在发牢骚而非真要决裂,展现出更高的情感智能和同理心;而O1则完美遵循提示但缺乏情感解读。
5. 如何选择合适的 OpenAI 模型?
目前 OpenAI 提供的模型种类繁多,针对不同需求可以选择最适合的一款:
- 通用任务(搜索、写作、多模态交互) – 首选 GPT-4.5。它知识面广、对话自然,并支持图像输入、网页搜索等多模态功能,是一个全能选择 [31] [32]。
- 数学推理和编程(STEM相关) – 考虑 OpenAI o3-mini high 这类推理模型。由于具备链式推理能力,这类模型在复杂数学计算、代码逻辑推演等方面更优 [33]。如果题目需要逐步思考得出答案,o系列模型往往比 GPT-4.5 更高效。
- 跨领域分析、人生规划 – o1,如果可以,选择 OpenAI o1 Pro。这类模型作为推理模型的早期版本,虽然规模不如 GPT-4.5,但在需要一定逻辑推理和综合分析的任务(例如跨学科研究、职业或人生规划建议)上表现稳健,且成本相对较低。
- 深度研究 – 只能是 OpenAI Deep Research ,目前其能力无出其右。
当然,选择模型时还需考虑速度和成本。目前 GPT-4.5 在 ChatGPT 中的响应速度相对较慢,一次回答可能需要等待数秒甚至十数秒。这主要是因为 GPT-4.5 体量庞大,而且当前 OpenAI 的 GPU 供应有限 [34]。不过 OpenAI 表示正紧急扩充算力,短期内将新增数万块 GPU 来支持 GPT-4.5,为 Plus 用户全面开放 [35]。同时,GPT-4.5 的调用价格高达 75 美元 / 百万 tokens(输入部分),API 使用成本远超其他模型 [36]。因此,对于注重性价比的普通开发者,可能倾向于在特定任务上继续使用 GPT-4o 或 o系列模型;而GPT-4.5 更适合预算充足、追求高质量对话体验的企业和高级用户。
6. 结论与个人建议
总的来说,GPT-4.5 在写作创造、情感智能、多模态交互等方面带来了显著提升,是 OpenAI 最"懂你"的模型 [37] [38]。它的回答更具人情味,知识储备更庞大,幻觉率更低,为用户提供了前所未有的对话体验。然而在复杂推理和数学运算上,它并未超越专门的推理模型 o3-mini High [39]。同时,高昂的价格(API 调用约为 GPT-4o 的 30 倍 [40])意味着并非所有人都能毫无顾虑地升级。
最后,如果你希望系统性地学习 AI 知识,而不想被碎片信息淹没,欢迎关注 Axton AI 精英学院,获取专业系统的学习资源。
你对 GPT-4.5 有何期待或者有什么使用体验? 欢迎在评论区分享你的看法和体验。
Responses