
AI 精英周刊
深度阅读、高级分享、拒绝碎片!
Tags: 模型测评
Showing 4 results:
这是一道 GPT-4.5 使用思维链都无法答对的简单的算术题
难道我发现了进阶版思维链?
在日常测试大模型过程中,我发现一个有趣的事情,一道看似简单的题: “一只小船能载 2 人,一共有 7 人要过河,问要来回几次才能把所有人都送到对岸?”,居然通用模型即便使用 CoT 提示 “Think Step by Step” 都无法答对,包括 GPT-4o, GPT-4.5, Claude 3.5 sonnet 也无法答对。Claude 3 Opus, Gemini 2.0 Flash, Gemini 2.0 全部失败。
而 DeepSeek V3 和 Grok3 (不开 Think)以及所有推理模型比如 o1 等等都能答对。
但是,如果我对通用模型修...
Mar 27, 2025
模型测评
Claude 3 vs GPT-4 世界最强模型全面对比评测 | AI 精英周刊 006
话说 GPT-4 已经被超越很多回了,这次 Claude 3 发布号称全面超越 GPT-4 的模型 Opus,口说无凭,今天我们不看别人怎么说,咱们就来亲手评测一下,最后,再来回答一个问题,Claude Pro 和 ChatGPT Plus 都是 20 美元,那么如果我只有 20 美元,该买 哪一个呢?
本期测试从以下几个方面进行:
数学推理测试:使用同一道数学题对 GPT-4、Opus 和 Gemini Advanced 分别进行测试,结果 GPT-4 出现了很蹊跷的一幕。
代码测试:编写 Python 代码处理视频字幕文本,结果还挺意外的。
大海捞针测试,在我的字幕文件中进行大海捞针...
Mar 07, 2025
模型测评
ChatGPT Plus 用户即将引来重大升级:GPT-4.5 几天后开始推送!
Sam Altman 刚发 X 表示,未来几天内,GPT-4.5 会推到 Plus 用户。那么,GPT-4.5 到底怎么样呢?
1. GPT-4.5 的概述
GPT-4.5 堪称是史上最贵的模型,相比上一代 GPT-4o,价格暴涨了 30 倍 [1]。在 AI 领域竞争激烈、价格战四起的当下,OpenAI 仍选择推出这样昂贵的模型,显然它应该有着非凡的特点。那么 GPT-4.5 究竟为何如此昂贵?它是否是一次惊艳的升级呢?
本文将从多个维度对 GPT-4.5 进行深入解析,包括它的性能提升、应用场景以及实际使用体验。点击观看原始 YouTube 视频。
...
Mar 05, 2025
模型测评
「O3 驱动」强到离谱?我花 200 美元亲测 Deep Research| AI 精英周刊 016
OpenAI 最新发布了基于最先进模型o3的 Deep Research 深度研究功能,目前开放给了月付200美元的 ChatGPT Pro 用户,刚好我上期视频为了对比 ChatGPT o1 和 DeepSeek R1 特地充值了 Pro 版,今天我就为大家演示一下 Deep Research 对比,对比的目标是另外一个具有 Deep Research 功能的模型,就是 Google 的 Gemini,当然这个对比对 Google 不够公平,因为它是基于 Gemini 1.5 Pro 模型的,模型级别差了很多,所以只是相当于一个演示。
对比视频请看:https://youtu.be...
Feb 04, 2025
模型测评
