全球 AI 行业每日简报 | AI 快讯 2025.02.07
朋友们,以下是用 ChatGPT 的 Deep Research 生成的每日简报,效果炸裂!基本上可以一文了解这一两天的主要 AI 事件,并且内容松紧适度,既不会只有一两句简讯起不到什么实际作用,也不会太啰嗦看起来太累,更不会被垃圾信息淹没,至少目前 Deep Research 的幻觉率是目前几个大模型中最低的「但是依然有幻觉,关键信息请注意核查」。你是否喜欢这样的简报呢?欢迎来信告诉我!
摘要
- OpenAI 推出多步骤研究代理:OpenAI上线了新的ChatGPT代理工具“Deep Research”,可自动执行多步骤的互联网调研任务,面向每月200美元的Pro高级用户开放 (1) (2)。该代理在最新极难基准测试中创造高分纪录,凸显AI代理在工作流程自动化领域的突破。
- Google 发布 Gemini 2.0 模型套件:谷歌面向所有用户开放了 Gemini 2.0 系列模型,包括具有100万词上下文窗口的高效Flash模型和Flash-Lite模型,以及具备200万词上下文并可调用工具的Pro实验版 (3) (4)。新模型在代码和推理等指标上表现领先,并降低使用成本。
- 中国 DeepSeek-R1 模型引发行业震动:中国初创公司DeepSeek推出的开源大模型R1据称在推理和数学能力上媲美业界顶尖模型,但使用成本仅为OpenAI同类模型的1/20至1/50 (5)。其移动端应用在美国苹果商店跃居下载榜首 (6),被风投Marc Andreessen誉为AI领域的“斯普特尼克时刻” (7)。这一事件引发关于开放 vs. 封闭AI研发策略和数据伦理的激辩。
- 法国 Mistral 推出开源 AI 助手:法国创业公司 Mistral AI 发布了名为“Le Chat”的AI聊天应用,可每秒输出高达1000词,被称为目前响应最快的AI助手 (8)。该公司获得 NVIDIA 等支持,定位为欧洲对抗美中巨头的开源选手 (9) (10)。Mistral 已与威立雅等数十家公司及法国政府机构达成合作试点 (11)。
- Meta 强化生成内容标识:Meta宣布对使用生成式AI创作或编辑的广告内容加注标识,以提高透明度 (12) (13)。此举响应了61%受访用户希望明确标明AI内容来源的呼声 (14),旨在平衡内容创作创新与用户信任。
- 市场投融资依然活跃:尽管DeepSeek引发短暂恐慌,投资者对AI领域兴趣不减。软银据报道正洽谈向OpenAI投资150~250亿美元,使其估值升至约3000亿美元 (15)。今年1月全球AI初创公司融资总额约57亿美元,较去年同期翻倍 (16)。同时,芯片企业和AI公司建立深度联盟:如Cerebras与Mistral合作将后者模型推理速度推向新极限 (8)。
- 全新AI评测基准出现:Scale AI和CAIS推出超高难度测试“人类最终考试(HLE)”,涵盖数学、人文等领域的专家级难题。当前最先进模型仅能答对不到10%试题 (17) (18)。不过在该基准发布不到两周内,OpenAI的新代理已将最高准确率提升到26.6%,相比先前纪录提升183% (19) (20)。这一动态反映出最新AI推理能力的快速进步和差距。
公司与产品动态
OpenAI 扩充 ChatGPT 代理功能
OpenAI于近日推出了新的代理工具“Deep Research”,这是ChatGPT中的一项付费功能,旨在充当用户的研究分析助手 (2)。Deep Research可在接到复杂查询后,自动在互联网上检索文本、图像、PDF等信息并汇总为深入报告,被比作“AI研究员”,号称能在“几十分钟内”完成通常需要人类数小时的调研任务 (2)。OpenAI表示该功能目前仅面向ChatGPT Pro(每月200美元)用户开放,也是继上月推出自动预订助手“Operator”后的第二款AI代理产品 (1)。由于这类代理能够自动执行多步骤任务,微软、Anthropic等公司也在开发类似技术,以期显著提高个人和专业工作的效率 (1)。值得关注的是,Deep Research在一个被称为“人类最后考试”的全新超难基准测试中取得了26.6%的得分,远超其他模型 (21) (20)。该考试汇集了全球专家提出的疑难问题,一般顶尖模型最初仅能答对约9% (20)。Deep Research借助联网检索能力“大幅领先”对手(例如DeepSeek R1最初得分9.4%) (20),凸显出OpenAI在复杂推理应用上的最新进展。不过,由于Deep Research能够访问互联网搜索,在公平性上相较纯模型测试略有争议 (22)。
谷歌全面开放 Gemini 2.0 模型家族
Google 本周宣布将其最先进的生成式AI模型套件 Gemini 2.0 向所有用户开放使用 (23)。Gemini 2.0包括多个版本:
- 2.0 Flash:谷歌的主力高效模型,具备100万token的超长上下文窗口和多模态输入能力 (24)。该模型已于上周向所有Gemini应用用户开放,并通过Google AI Studio和Vertex AI提供API,供开发者集成到应用中 (25)。
- 2.0 Pro(实验版):谷歌迄今最强大的模型,专注复杂提示的理解和代码生成能力,拥有200万token上下文窗口 (3)。它能够处理超大数据集并调用Google搜索和代码执行等工具扩展能力 (3)。目前2.0 Pro仅对付费的Gemini高级用户和开发者提供试用 (26)。
- 2.0 Flash-Lite:最新发布的轻量模型,主打成本效益。Flash-Lite在保持1.5代Flash模型相同速度和价格的同时,质量有所提升 (27)。它同样具备100万token上下文和多模态输入支持 (28)。实测显示,利用Flash-Lite为约4万张图片生成一行描述文字的总费用不足1美元 (28),体现出极低的单次生成成本。该模型已在Google AI Studio和Vertex AI上公测 (4)。
此外,谷歌还在Gemini应用中加入了“Flash Thinking”模式,通过在响应中展示AI的思考流程来提升推理透明度 (29)。Gemini 2.0系列目前输出为文本,多模态输出等功能将在未来数月内逐步开放 (30)。分析人士指出,谷歌此举是在生成式AI竞赛中加速开放步伐,以应对OpenAI等竞争对手,并吸引开发者使用其模型生态 (31) (32)。
DeepSeek-R1:高效模型引发开放与封闭之争
中国初创公司DeepSeek的旗舰模型R1在上月发布后持续成为行业焦点。DeepSeek-R1定位为“推理型”大型语言模型,据报道其推理和数学解题能力已可与OpenAI最先进模型相当 (33)。然而,与OpenAI和Anthropic等依赖庞大算力和资金训练封闭模型的做法不同,DeepSeek走了一条极致高效和开放的路线。DeepSeek团队上月在论文中披露,其上一代模型V3使用了英伟达受限出口的H800芯片训练,耗资不到600万美元 (34)。据官方公众号发布的信息,最新的R1模型运行成本比OpenAI的顶级模型降低了20~50倍(视任务类型而定) (5)。这一惊人的性价比优势使业内对中美AI实力对比的看法发生转变 (35) (36)。
R1的出现引发了投资和技术圈的强烈反响。硅谷资深投资人 Marc Andreessen 称其为“AI领域的斯普特尼克时刻”,将其开放开源的发布比作一份“深刻馈赠” (37)。他认为R1证明小团队也能靠创新撼动巨头统治,预示着AI竞赛将从“更大更强”转向“更小更巧” (38) (39)。然而,持谨慎观点者亦有之。Anthropic首席执行官 Dario Amodei 在博文中表示,DeepSeek的成果“并非独特突破,而是AI训练成本沿历史趋势下降的正常体现” (40) (41)。他指出过去一年类似模型成本本已在以每年4倍的速度下降,DeepSeek大致符合这一曲线 (42) (41)。Amodei 还强调,DeepSeek之所以引发市场震荡,某种程度上在于其中国背景敏感。他呼吁美国进一步收紧对华高端芯片出口管制,认为在AI竞赛中保持领先对国家安全“具有生存意义” (43) (44)。同时他也承认,DeepSeek展示的一些高效训练技术很快会被美中各大实验室吸收采纳,未来顶级模型仍将投入数十亿美元训练以追求更通用的智能 (45) (41)。
由于DeepSeek-R1选择了完全开源的发布方式,其模型代码和技术细节被完整公开 (46)。这与OpenAI和Anthropic等公司的封闭策略形成鲜明对比,也引发了关于数据来源伦理、模型滥用风险的新讨论。一方面,开源被支持者赞誉为加速创新、惠及全球开发者之举 (47);另一方面,也有人担忧如此强大的模型开放给所有人使用,可能带来安全隐患。迄今为止,DeepSeek应用已经在全球范围快速积累用户——其移动应用在推出48小时内登顶美国iOS免费榜,显示出惊人的需求 (6)。可以预见,围绕开放与封闭路径的争论将持续,并深刻影响AI研发的走向。
Mistral AI 发布超高速开源助手
欧洲的AI新锐Mistral AI也在近两日有所动作,旨在在内容生成和工作助手领域向美中巨头发起挑战。该法国初创公司于2月6日推出了全新的开源聊天助手应用“Le Chat” (48)。Mistral声称,借助自主研发的高效推理引擎,Le Chat的文本回复速度高达每秒1000词 (49)——这一速率经合作伙伴验证已刷新业界纪录,超越目前OpenAI和DeepSeek的响应速度 (8)。Mistral联合创始人兼CEO Arthur Mensch表示,此次发布正值全球寻找ChatGPT替代方案的热潮,也恰逢巴黎即将举办AI峰会之际 (50)。他强调,“法国乃至全世界开始意识到欧洲玩家的技术实力”,Mistral的目标是打造“更开放、更普惠”的AI,让AI不仅由中美主导 (10)。
作为坚定的开源倡导者,Mistral过去曾开放其模型供社区使用。Mensch透露,DeepSeek近期的突破“并不意外”,因为DeepSeek在2023年也受益于Mistral开源的技术成果 (51)。这种你追我赶的开源创新进一步佐证了Mistral坚持开放策略的意义。Mistral目前估值约58亿欧元(约60亿美元),已获得AI芯片巨头英伟达的投资,并得到法国政府的支持 (9)。尽管其早期产品知名度不及ChatGPT(后者每周活跃用户达2亿人 (52)),但“Mistral Le Chat”已经拥有“数百万”常规用户 (52)。Mistral还宣布已与包括法国水务巨头威立雅(Veolia)在内的数十家大型企业签约合作,近期并与法国国家就业局达成合作试点,其企业版产品也在同步推进中 (11)。
值得一提的是,美国硅谷的AI芯片公司 Cerebras Systems 宣布将为Mistral提供算力支持。这家受到阿联酋G42投资的芯片企业与Mistral建立战略合作,帮助后者实现了上述令人瞩目的速度纪录 (8)。Cerebras称通过其特殊架构的加速器为Le Chat提供推理服务,使该应用成为当前全球最快的AI聊天助手 (53)。分析人士认为,这一合作体现了AI模型公司与新兴计算硬件厂商抱团取长补短的趋势:Mistral借助Cerebras的尖端芯片提升性能,而Cerebras则通过支持热门开源模型来展示硬件实力、对抗NVIDIA在AI领域的主导地位 (54)。Mistral方面表示,公司迄今融资总额已超10亿欧元,目前资金“非常充裕”,暂无短期上市计划 (55)。随着欧洲政策和资本的扶持,Mistral等开源新秀有望在内容创作和企业应用领域继续蚕食市场份额。
Meta 为AI生成内容引入透明标签
社交媒体巨头Meta(脸书母公司)本周在内容政策方面推出新举措,聚焦生成式AI内容的透明度。Meta宣布已上线一套广告内容标记系统,当广告素材由其内部的生成式AI工具创作或经过重大修改时,将向用户显示提示标签 (12) (13)。具体而言:若AI仅做了轻微非真实感编辑,则不会标记;如果AI较大幅度改变了图像或视频,会在广告的“···”菜单或“赞助”字样旁出现“由AI生成”提示;若AI合成了逼真的虚拟人物,则会在广告旁直接标注明显的AI生成标记 (56)。这一系统实际上从2024年起开始分阶段推出,Meta计划在2025年进一步扩大范围,包括对第三方工具生成的广告素材也进行标记 (57)。
Meta此举是对公众和监管层关切的回应。根据2024年eMarketer的调查,61.3%的美国受众认为媒体内容若由AI生成应明确标明 (14)。路透新闻研究院的报告也显示近半数全球成年网民希望给AI合成的图片加上说明标签 (58)。另一方面,相当比例的用户认为AI产出内容的价值不及人工作品 (59)。在此背景下,Meta与行业专家、政策制定者展开了讨论,希望在创新广告工具与用户信任之间取得平衡 (60)。Meta表示,2025年还将推出更多措施,持续完善AI内容标识体系,与合作伙伴共同确保AI生成内容符合用户对透明度的期望 (57)。这一动作也使Meta在生成内容的负责任使用方面走在行业前列,被视为内容创作和营销领域应对AI技术普及的重要风向标。
市场动态与战略合作
投资潮流:巨额融资与估值飙升
在资本市场,过去48小时内有关AI领域的大额投融资消息引发关注。据《金融时报》报道,日本软银集团正就在新一轮融资中向OpenAI投资150亿至250亿美元进行深入谈判,交易完成后OpenAI估值可能飙升至约3000亿美元 (15)。这一金额几乎比其去年10月融资时的估值(约1570亿美元)翻番 (61)。虽然官方未予置评,但分析人士指出,DeepSeek事件并未削弱投资者对美国AI领军企业的信心,反而促使软银等资本加速押注,以巩固西方在前沿AI研发上的领先优势 (15) (62)。除软银外,黑石(Blackstone)等大型投资机构近日也表示不会因中国竞争者出现而收缩AI投入。黑石高管在财报电话会上称将“持续关注”DeepSeek动态,但暂无缩减对“这一重要领域”投资的计划 (62)。实际上,黑石去年宣布了在欧洲斥资82亿美元建设数据中心等一系列AI基础设施项目,并投资了AI算力服务商CoreWeave等企业 (63)。可见传统资本依然看好AI长期需求,愿意为算力和基础架构投入巨资。
创投领域的数据也印证了这一趋势。Crunchbase的最新统计显示,今年1月全球AI初创企业共获得约57亿美元融资 (16)。尽管这一数字低于去年11月和12月(均超过150亿美元),但仍是2024年1月的两倍多 (16)。需要注意的是,去年末的高基数部分源于OpenAI、xAI等单笔超大型融资的贡献 (64) (65)。剔除巨头因素,中小型AI公司募资热度同比大幅提升。业内人士指出,DeepSeek R1引发的市场震荡尚未反映在创业投资上。从地域看,美国依然是投资主力,但中国、欧洲的AI创业融资也在增长。总的来看,“AI泡沫”尚未破裂,风险资本对该领域的布局热情在短期内未见明显降温 (66) (67)。
合作联盟:芯片与模型公司强强联合
在战略合作方面,过去两天出现了跨国合作加速的迹象。Stellantis(全球第四大汽车制造商)宣布将扩大与法国 Mistral AI 在汽车领域人工智能项目上的合作 (68)。双方已合作一年有余,未来将深化在车辆工程、车队数据分析和智能座舱助手等方面的AI应用。这表明传统汽车产业正与AI新创携手,加速将生成式AI引入产品研发和用户体验,以提升自动化和定制化水平。
另一重要合作来自Cerebras Systems与Mistral AI的联盟。2月7日,硅谷AI芯片公司Cerebras宣布为Mistral的新聊天模型提供算力支持,并帮助其创造了全球最快推理响应速度的纪录 (8)。Cerebras由阿联酋科技集团G42注资支持,目前是英伟达在AI芯片领域的竞争者之一。此次合作中,Cerebras提供其独特的大规模硅晶圆芯片用于Mistral模型的部署推理,使“Le Chat”应用在实际服务中实现每秒1000词输出 (53)。Cerebras宣称这一性能已使Mistral的AI助手在速度上领先OpenAI和DeepSeek的同类产品 (69)。业内解读认为,这一声明既是对合作成果的宣传,也意在展示Cerebras硬件的潜力,有助于其即将推进的IPO进程 (70)。对于Mistral而言,与顶尖硬件伙伴联合有助于提升其模型的竞争力和可信度,在争取企业客户时形成差异化卖点 (71)。类似的模型-芯片联盟近期并不鲜见:如英伟达此前投资支持了OpenAI和Inflection等多个模型开发方。可以预见,随着AI算力需求飙升,不同环节的玩家将通过战略合作形成生态,共同开拓市场。
此外,在金融服务领域也有跨界合作动态。加拿大皇家银行(RBC)日前透露正与多伦多AI公司Cohere合作开发面向金融行业的生成式AI产品,计划构建一套注重风险控制和数据隐私的AI模型 (72)(该消息虽发布于1月底,但反映了近期金融机构布局AI的趋势)。这类合作表明金融业正借助AI来提升客服、投研等环节效率,同时强调合规与安全。总体而言,过去48小时的消息显示,AI赛道各参与方——从大型产业集团、芯片公司到创业公司和金融机构——正通过投资和联盟紧密结合,以巩固自身战略地位,催生新的解决方案。
新兴评估基准
“人类最后考试”揭示AI推理短板与进步
为了衡量最新AI系统的极限推理能力,一个全新的艰难评测基准“人类最后考试”(Humanity’s Last Exam)于近日发布 (17)。该基准由数据平台公司Scale AI联合AI安全中心(CAIS)组织全球专家设计,于1月下旬公布了首批测试结果 (73)。它汇集了数学、自然科学、人文社科等各领域的顶尖难题,旨在评估AI是否已具备世界级专家水平的知识推理能力 (74)。开发者表示,该考试的初衷是应对现有AI基准逐渐“饱和”的问题——许多模型在常规测试中接近满分,但在超出训练分布的新问题上可能表现不佳 (75)。因此,命题团队从各领域专家征集了超过7万道候选难题,精选出最终3000题构成公开试卷 (76)。这些题目对AI的综合理解、创新推理能力提出了前所未有的挑战。
首轮结果显示,即使是当前最先进的大模型,在“最后考试”中的表现也远未达到人类专家水准。OpenAI、Anthropic、Google DeepMind等提供的多款前沿模型参与了测试,包括OpenAI的GPT-4 (o1)与新模型GPT-o3、Anthropic的Claude 3.5 Sonnet、Google的Gemini 1.5 Pro等 (77)。据报告,它们在该3千道高难度闭卷问题上的平均正确率不到10% (17)。这一结果表明,许多人类顶尖专家轻松解答的问题,对现今AI仍然极具挑战,通用人工智能(AGI)尚未真正到来 (78) (79)。例如,2021年发布的数学竞赛难题集MATH最初模型得分低于10%,但不到三年已被模型攻克90%以上 (80);而在“最后考试”中,模型再次暴露出类似10%上下的低起点。
然而,令人瞩目的是,在基准发布后的短短两周内,AI模型的成绩提升速度超出预期。2月初,OpenAI新发布的GPT-o3-mini模型登顶排行榜,取得约13%的准确率,相比DeepSeek R1最初的9.4%有所提高 (20)。紧接着,OpenAI最新推出的联网代理Deep Research参与测试,其成绩飙升至26.6%,大幅刷新纪录 (19) (20)。相较两周前榜首模型的9.4%,提高幅度达到183% (19)。虽然Deep Research借助了网络搜索能力,在一定程度上改变了纯粹闭卷推理的比较基础 (22)(因为它可以实时查资料),但这一进步仍被视作里程碑式的:表明结合工具的AI代理在极端复杂问题上已经接近回答近三成,这逼近了一些人类领域专家的水平线。出题方Dan Hendrycks博士评论称:“现在模型还有许多专家级问题答不出——我们将观察这种情况还能持续多久。” (78) (17)他暗示,以当前AI发展速度,也许不久的将来这些难题会被逐一攻破。
除了“最后考试”外,近期还有其他新兴基准值得关注。例如Epoch团队推出的Frontier Math基准专门测试AI解决高难度新颖数学题的能力,被认为是最难的数学测试之一 (81)。OpenAI的GPT-o3模型在该测试中取得25.2%的得分,远超此前最佳的55%正确率纪录 (82) (81)(人类专业数学家约为85%)。另外,ARC基金会设计的ARC-AGI评测用于检测AI理解全新抽象问题的能力,人类平均85%的水平曾被视为门槛,而GPT-o3据报道达到了87.5% (79) (83)。这些指标显示,部分AI系统在特定领域已接近甚至短暂超越人类专家水准。但总体而言,“AGI考卷”中AI仍有大量空白不会,离全面的跨领域专家智能尚有差距。研究者强调,引入更困难、更广泛的新基准可以更精细地衡量未来模型进步,并及时发现AI潜在风险领域 (75) (78)。随着OpenAI、DeepMind等不断推出更强模型,我们可以预期这些“终极测试”的高分纪录还将被反复打破。每一次突破既意味着AI能力的飞跃,也提醒着我们审慎评估其影响,以确保朝着安全有益的方向发展。
保持健康,保持快乐!
Axton
Responses