AI精英周刊 | 前沿AI洞察和深度分析

AI智能体 AI实战派 AI自动化 AI精英圈 AI精英周刊所有课程博客咨询

Axton是谁

登录

AI 精英周刊

深度阅读、高级分享、拒绝碎片！

Tags: 模型测评

Showing 4 results:

Categories

这是一道 GPT-4.5 使用思维链都无法答对的简单的算术题

难道我发现了进阶版思维链？在日常测试大模型过程中，我发现一个有趣的事情，一道看似简单的题： “一只小船能载 2 人，一共有 7 人要过河，问要来回几次才能把所有人都送到对岸？”，居然通用模型即便使用 CoT 提示 “Think Step by Step” 都无法答对，包括 GPT-4o， GPT-4.5， Claude 3.5 sonnet 也无法答对。Claude 3 Opus， Gemini 2.0 Flash, Gemini 2.0 全部失败。而 DeepSeek V3 和 Grok3 （不开 Think）以及所有推理模型比如 o1 等等都能答对。但是，如果我对通用模型修...

Mar 27, 2025 模型测评

Claude 3 vs GPT-4 世界最强模型全面对比评测 | AI 精英周刊 006

话说 GPT-4 已经被超越很多回了，这次 Claude 3 发布号称全面超越 GPT-4 的模型 Opus，口说无凭，今天我们不看别人怎么说，咱们就来亲手评测一下，最后，再来回答一个问题，Claude Pro 和 ChatGPT Plus 都是 20 美元，那么如果我只有 20 美元，该买哪一个呢？本期测试从以下几个方面进行：数学推理测试：使用同一道数学题对 GPT-4、Opus 和 Gemini Advanced 分别进行测试，结果 GPT-4 出现了很蹊跷的一幕。代码测试：编写 Python 代码处理视频字幕文本，结果还挺意外的。大海捞针测试，在我的字幕文件中进行大海捞针...

Mar 07, 2025 模型测评

ChatGPT Plus 用户即将引来重大升级：GPT-4.5 几天后开始推送！

Sam Altman 刚发 X 表示，未来几天内，GPT-4.5 会推到 Plus 用户。那么，GPT-4.5 到底怎么样呢？ 1. GPT-4.5 的概述 GPT-4.5 堪称是史上最贵的模型，相比上一代 GPT-4o，价格暴涨了 30 倍 [1]。在 AI 领域竞争激烈、价格战四起的当下，OpenAI 仍选择推出这样昂贵的模型，显然它应该有着非凡的特点。那么 GPT-4.5 究竟为何如此昂贵？它是否是一次惊艳的升级呢？本文将从多个维度对 GPT-4.5 进行深入解析，包括它的性能提升、应用场景以及实际使用体验。点击观看原始 YouTube 视频。 ...

Mar 05, 2025 模型测评

「O3 驱动」强到离谱？我花 200 美元亲测 Deep Research｜ AI 精英周刊 016

OpenAI 最新发布了基于最先进模型o3的 Deep Research 深度研究功能，目前开放给了月付200美元的 ChatGPT Pro 用户，刚好我上期视频为了对比 ChatGPT o1 和 DeepSeek R1 特地充值了 Pro 版，今天我就为大家演示一下 Deep Research 对比，对比的目标是另外一个具有 Deep Research 功能的模型，就是 Google 的 Gemini，当然这个对比对 Google 不够公平，因为它是基于 Gemini 1.5 Pro 模型的，模型级别差了很多，所以只是相当于一个演示。对比视频请看：https://youtu.be...

Feb 04, 2025 模型测评

AI 精英周刊

深度阅读、高级分享、拒绝碎片！

Powered by Kajabi

Join Our Free Trial

Get started today before this once in a lifetime opportunity expires.