Meta 你到底行不行? Llama 4多模态模型、家用人形机器人 | AI 快讯 250407
Highlights
- Meta发布Llama 4:首个原生多模态开源权重模型的突破与创新
- Meta AI模型基准测试存疑:Maverick测试版与公开版差异引发质疑
- AI学习与人类创作借鉴的界限:重新思考原创的定义
- 微软AI生成Quake II演示:展示实时互动游戏模拟的现实局限
- 人形机器人作为家庭助手的可能性与现实挑战
Meta 发布 Llama 4:首个原生多模态开源权重模型有何突破?
「阅读原文」
Meta 发布了 Llama 4 系列模型,这是他们首个原生多模态的开源权重模型。我一直觉得 AI 发展的关键不在于封闭系统,而在于开放生态如何推动创新速度。
Llama 4 系列包括两个主力模型:Scout(17B 活跃参数,16 专家)和 Maverick(17B 活跃参数,128 专家)。它们采用了混合专家(MoE)架构,这意味着每个 token 只激活部分参数,大幅提高了计算效率。Scout 能在单个 H100 GPU 上运行,支持前所未有的 1000 万 token 上下文窗口;Maverick 则在多项基准测试中超越了 GPT-4o 和 Gemini 2.0。
这些模型由更强大的 Llama 4 Behemoth(288B 活跃参数)蒸馏而来,后者甚至超越了 GPT-4.5 和 Claude Sonnet 3.7。Meta 的开放策略让开发者可以立即在 llama.com 和 Hugging Face 上下载这些模型,为个性化 AI 体验创造了更多可能性。
Meta 的 AI 模型基准测试结果有多可信?Llama 4 Maverick 测试版与公开版存在差异
[[Kyle Wiggers]]「阅读原文」
AI 模型的基准测试分数看看就好,别太当真,尤其是看到漂亮数字的时候。
我们开发者选 AI 模型,很看重基准测试结果。但如果公司拿一个特殊优化版去跑分,再发布一个”普通版”,那这个分数还有多少参考价值?这会误导我们对模型实际能力的判断。
Meta 最近发布的 Llama 4 里的 Maverick 模型就是个例子。它在 LM Arena 上排名很高,但 Meta 自己也承认,送去测试的是一个未公开的、为对话优化的版本,这和公开发布的版本可能不一样。
研究者确实发现这两个版本行为差异挺大,跑分高的那个喜欢用表情、回答冗长。这种做法让基准测试的可信度打了折扣。
AI 学习作品与人类创作借鉴有何区别?重新思考原创的定义
[[the Guardian]]「阅读原文」
AI ‘学习’ 作者的作品,这和人类创作汲取灵感,有多大区别?
这不仅仅是技术问题,更触及了 创造力的本质。人类的学习和借鉴被视为进步,为何机器模仿就引发众怒?这让我们不得不重新审视 “原创”的定义。
《卫报》读者来信提到,Ian McEwan 受 L.P. Hartley 影响,Orwell 的《一九八四》灵感来自 Zamyatin 的《我们》。人类创作向来是站在前人肩上。出版业追随畅销书模式也是常态。
因此,作者 Andrew Vincent 质疑:AI 大规模”训练”和人类创作者从他人作品中学习,本质上是否相同? AI 引发的争议,或许放大了创作中一直存在的借鉴现象。
微软发布AI生成的Quake II演示,但它的局限性告诉我们什么?
[[Anthony Ha]]「阅读原文」
微软最近搞了个 AI 生成的 Quake II 试玩,这事儿值得看看,因为它展示了 AI 在模拟实时互动游戏世界方面的尝试和现实差距。他们想让你直接在 AI 模型里玩游戏,这想法挺有意思,但也坦诚技术还远不成熟,更像是个研究探索。
具体来说,他们用自家的 Muse AI 模型,拿 Quake II 的一个关卡数据去训练。你可以在浏览器里通过 Copilot 直接用键盘操作,和 AI 模拟的世界互动。
结果就是一个能跑起来的 Quake II 演示,但玩起来感觉很不一样。敌人模糊,计数器不准,最明显的是 AI 记不住东西,视线离开 0.9 秒物体就可能消失(缺乏物体恒存性)。微软觉得这”bug”有时还挺好玩,但也有人觉得这恰恰说明 AI 离真正理解和复现游戏机制还差得远。
人形机器人真的能成为我们的家庭助手吗?
[[By Cade Metz]]「阅读原文」
人形机器人会走进我们家吗?它们的目标是接管很多体力活,比如打扫、洗碗,尤其是在家政和护理人员短缺的背景下,这想法有一定吸引力。
1X 公司的方法是先把机器人 Neo 部署到真实家庭,初期由人远程辅助操作,关键在于收集海量真实世界数据。就像 AI 需要数据学习写文章一样,机器人也需要观察和模仿来学会做家务。他们认为这是让机器人适应复杂环境的必经之路。
现阶段,Neo 这样的机器人还远谈不上成熟。文章提到,它能走动、打招呼、拿东西,但很多操作仍依赖工程师远程控制,甚至会意外摔倒。尽管如此,1X 计划年内向超过 100 个家庭提供 Neo,算是迈出了收集数据、迭代产品的第一步。
Responses