华尔街的分析师们还是有些“功底”的。在 2025 亚马逊云科技 re:Invent 开幕前,奥本海默重申对亚马逊的“跑赢大盘”评级,并强调亚马逊云科技藏有“黄金机会”;摩根大通判断亚马逊云科技的需求趋势依然健康,并预计 2026 年将迎来加速增长。
这些判断的一个重要背景就是,一年一度的“云计算春晚”又来了。当亚马逊云科技再次拿到行业叙事的“麦克”,云计算的演进主线被定义得更加具体——这一次,亚马逊云科技 CEO Matt Garman 在 Keynote 上的所有发布,几乎都是围绕 Agentic AI 的落地展开。纵观整个 2025 所有来自云计算巨头的发布会,如此坚决的聚焦与定调十分罕见。
Matt Garman 认为要落地 Agentic AI,并“实现完整 AI 能力”,需要四大关键支柱:AI Infra、模型生态、数据基座以及开发者工具。
围绕这四个方向,亚马逊云科技带来一系列重量级新品与功能增强。包括 Amazon Trainium3 UltraServers 和最新 AI 芯片 Amazon Trainium4,第二代自研大模型 Amazon Nova 2 系列,承载“开放训练模型”(Open Training)概念的数据基座 Amazon Nova Forge,以及在开发者工具层面 Amazon Bedrock AgentCore 的系列更新,All For Agentic AI。
实际上,亚马逊云科技自身就是 Agentic AI 的头部玩家——三个 Frontier Agent 作为重头戏被陆续发布,包括能自主处理复杂编码任务、深度集成开发流程的 Kiro Autonomous Agent,主动扫描漏洞、将渗透测试转为按需服务的 Amazon Security Agent,以及能够自动诊断并预防故障、先于工程师响应的 Amazon DevOps Agent。
不过即便是 Matt Garman,在准备演讲内容时也会“纠结”:两个半小时看似很长,但对这家云计算和 AI 巨头来说,还是太短了,毕竟,它们每年有太多新产品、新发布。所以这次,在 Agentic AI 成为主基调的 2025 亚马逊云科技 re:Invent 上,Matt Garman 将传统计算、存储、数据库这些核心云服务,压缩到了最后的十分钟快闪发布中,并一口气带来了 25 个更新。算下来,每项更新的发布时间只有 24 秒。
总的来说,这场 Keynote 依旧保持了 re:Invent 重头戏应有的水准,但对行业而言,当云计算一哥在一场持续 2 个多小时、总计 20246 个词汇的演讲中,提到了 199 次 Agent 时,其对 Agentic AI 的重视已不用更多言明。而在一年前,Agent 一词仅仅出现了 45 次。这也传递出一个重要信号:时代真的变了。
1构建 Agent 必备的 AI Infra,仍在快速迭代
Agentic AI 落地首先要回答的问题就是,如何构建 AI Infra。在 2025 亚马逊云科技 re:Invent 开幕前,整个市场都在屏息以待其自研 AI 芯片Amazon Trainium 的最新进展。其中的一大重要原因就是,Amazon Trainium 不仅是一颗芯片,也是亚马逊云科技构建 AI Infra 护城河最重要的“胜负手”。
亚马逊 CEO Andy Jassy 在上个月的财报电话会议上透露,Amazon Trainium 系列芯片目前已发展成为一个价值数十亿美元的核心业务,季度环比增长 150%。Matt Garman 在本次 Keynote 中亦强调,Amazon Trainium2 是亚马逊云科技迄今部署速度最快的 AI 芯片,销售速度几乎和产能齐平。
消息面上,10 月底,亚马逊云科技建造的 Project Rainier 核心数据中心已全面投入运行,这一超级集群配备近 50 万颗 Amazon Trainium2 芯片,目前正为 Anthropic 训练 Claude 大模型。到今年年底,该集群的 Amazon Trainium2 芯片数量预计翻番至 100 万颗。
可以说,以 Amazon Trainium 系列芯片为中心的算力底座,早已成为亚马逊云科技 AI 战略的核心。而围绕着 Amazon Trainium 系列芯片的迭代更新,也被早早写到了日历本中——去年,亚马逊云科技就宣布正在开发下一代芯片 Amazon Trainium3,目标是让 AI 负载更高效、更快速且更具成本优势。
在 2025 亚马逊云科技 re:Invent 上,亚马逊云科技宣 AmazonTrainium3 UltraServers 正式全面可用。据悉,Amazon Trainium3 专为密集型和专家级并行工作负载而设计,支持高级数据类型(MXFP8 和 MXFP4),并优化了内存与计算资源的平衡,以应对实时、多模态和推理任务。每颗 AmazonTrainium3 芯片提供 2.52 千万亿次浮点运算(PFLOPs)的计算能力,内存容量比 AmazonTrainium2 提升 1.5 倍,带宽提升 1.7 倍,达到 144 GB HBM3e 内存和 4.9 TB/s 内存带宽。