
Nvidia 在 GTC 2026 上正式揭曉了 Vera Rubin 平台的完整面貌,並首度公開了收購 Groq 後的技術整合細節——Groq 3 LPX 機架。這不是單純的產品發表,而是標誌著 AI 基礎設施從「通用 GPU 為王」走向「異構專用加速器協同」的轉捩點。對於硬體工程師與 AI 基礎設施團隊而言,理解 Vera Rubin + Groq 3 LPX 的設計哲學與部署模型,將直接影響未來三到五年的硬體採購決策與推論成本結構。
Vera Rubin 平台:不只是 Blackwell 的繼任者
Vera Rubin 平台是 Nvidia 下一代 AI 基礎設施架構,以天文學家 Vera Rubin 命名並非偶然——正如 Rubin 發現了暗物質存在的證據,Nvidia 意圖讓這個平台成為 AI 產業「看不見的基礎設施層」。
平台組成核心
Vera Rubin 平台在 GTC 2026 上展示了 七款新晶片 與 五種機架配置,核心組件如下:
| 組件 | 規格摘要 | 定位 |
|---|---|---|
| Vera CPU | Nvidia 自研 ARM-based CPU,取代 Grace | 異構計算的主控處理器 |
| Rubin GPU | Blackwell Ultra 後繼,NVIDIA 新一代 GPU 架構 | 訓練與複雜推論的核心硬體 |
| Rubin NVL72 | 72-GPU 機架級系統 | 超大規模訓練與多節點推論 |
| NVLink 6 | 新世代 GPU 互連,頻寬翻倍 | 消除 GPU 間的通訊瓶頸 |
| CX10 SmartNIC | 400Gbps 網路控制器 | 資料中心級網路連接 |
Rubin NVL72 的架構優勢
Rubin NVL72 將 72 顆 Rubin GPU 透過 NVLink 6 完全互連,形成一個巨大的 GPU 池(GPU Pool)。與前代相比:
| 比較維度 | H100 NVL | B200 NVL72 | Rubin NVL72 |
|---|---|---|---|
| GPU 互連頻寬 | 900 GB/s | 1.8 TB/s | ~3.6 TB/s |
| 單機架 FP8 算力 | ~16 PFLOPS | ~72 PFLOPS | ~180+ PFLOPS |
| 記憶體容量 | 80 GB / GPU | 192 GB / GPU | 384+ GB / GPU |
| LLM 訓練效率(估計) | 1x (基線) | 3.5x | 8-10x |
對於硬體工程師而言,Rubin NVL72 最值得關注的設計是 記憶體池化(Memory Pooling):72 顆 GPU 的 HBM4 記憶體可透過 NVLink 6 形成一個超大虛擬記憶體空間,這對百萬 Token 級別的長上下文推論至關重要。
Groq 3 LPU:SRAM 為核心的推理加速器設計
Groq 3 LPU(Language Processing Unit)是 Nvidia 在 2025 年底以約 200 億美元收購 Groq 後的技術結晶。它的設計哲學與傳統 GPU 截然不同。
為什麼是 SRAM 而非 HBM?
傳統 GPU(包括 Nvidia 自家的 H100/B200)採用 HBM(高頻寬記憶體)架構,透過堆疊 DRAM 晶片來提供大容量與高頻寬。但 HBM 的瓶頸在於:
- 延遲不可預測性:HBM 需要經過 memory controller、crossbar switch 等多層,延遲波動大。
- 能耗 overhead:HBM PHY 功耗佔 GPU 總功耗的 15-25%。
- 頻寬競爭:多個計算單元同時存取 HBM 時會產生 bank conflict。
Groq 3 LPU 的解法是:用 500 MB 的 SRAM(靜態隨機存取記憶體)完全取代 HBM/DRAM。SRAM 雖然單位成本較高、容量較小,但其延遲為單一週期(sub-nanosecond),且能耗極低。
| 記憶體類型 | 延遲 | 頻寬/功耗比 | 容量密度 | 確定性 |
|---|---|---|---|---|
| HBM3 | ~100-200ns | 中等 | 高 (24-36GB) | 否 |
| HBM4 | ~80-100ns | 中等 | 高 (48-96GB) | 否 |
| GDDR7 | ~200-300ns | 低 | 高 | 否 |
| SRAM (Groq 3) | <1ns | 極高 | 低 (500MB) | 是 |
Groq 3 LPU 硬體規格
- 電晶體數:98 億
- 峰值算力:1.2 PFLOPs(FP8)
- 內建 SRAM:500 MB
- 內部頻寬:150 TB/s(on-chip SRAM 頻寬)
- 確定性延遲:<40ms 端到端的 LLM 推理
Groq 3 LPX 機架
單顆 LPU 的 500MB SRAM 對大模型而言仍不足。Nvidia 的解法是將 256 顆 Groq 3 LPU 互連成一個機架——Groq 3 LPX:
| 規格 | Groq 3 LPX 機架 |
|---|---|
| LPU 數量 | 256 |
| 總 SRAM | 128 GB |
| On-chip 頻寬 | 40 PB/s |
| Scale-up 頻寬 | 640 TB/s |
| FP8 推論算力 | 315 PFLOPs |
| 散熱方式 | 全液冷(Liquid-cooled) |
| 基礎架構 | MGX 模組化標準 |
Nvidia Dynamo:異構推論的排程核心
Vera Rubin + Groq 3 LPX 的硬體架構很漂亮,但要讓它們協同工作才是真正的工程挑戰。答案是 Nvidia Dynamo——一個專為異構 AI 推理設計的分散式排程框架。
異構推論的兩階段工作流
LLM 推理可以分為兩個階段,各自對硬體的需求截然不同:
- Prefill 階段:將輸入 Token 編碼成 Key-Value Cache。需要高並行計算能力(矩陣乘法密集),適合 GPU。
- Decode 階段:逐 Token 生成輸出。需要低延遲的序列計算,且高度依賴記憶體頻寬——這正是 Groq LPU 可以發揮優勢的地方。
Dynamo 的設計將 Prefill 導向 Rubin GPU,將 Decode 導向 Groq LPX:
分析 Prefill / Decode 比例] C[異構路由表
GPU 優先 Prefill / LPU 優先 Decode] D[負載平衡器
動態調整分發策略] end subgraph "Vera Rubin NVL72
GPU Pool" E1[Rubin GPU
Prefill 引擎] E2[Rubin GPU
長上下文處理] E3[Rubin GPU
KV Cache 管理] end subgraph "Groq 3 LPX
LPU Pool" F1[Groq 3 LPU
Fast Decode] F2[Groq 3 LPU
Token Generation] F3[Groq 3 LPU
MoE FFN 推理] end A --> B B --> C C --> D D --> E1 & E2 & E3 D --> F1 & F2 & F3 E1 & E2 & E3 --> F1 & F2 & F3 F1 & F2 & F3 --> G[最終 Token 輸出] style E1 fill:#e1f5fe style E2 fill:#e1f5fe style E3 fill:#e1f5fe style F1 fill:#ffebee style F2 fill:#ffebee style F3 fill:#ffebee style B fill:#f3e5f5 style C fill:#f3e5f5
效能聲明
Nvidia 對 Vera Rubin + Groq 3 LPX 組合提出了大膽的效能數據:
- 每兆瓦(MW)推論吞吐量:較 Blackwell 提升 35 倍
- 兆參數模型的營收機會:提升 10 倍
- 單用戶 Token 生成速率:1,000+ tokens/s——接近「思考速度」級別
- 支援百萬 Token 上下文視窗
對 AI 基礎設施採購的實質影響
Vera Rubin 與 Groq 3 LPX 的發布,將從根本上改變 AI 基礎設施的採購邏輯。
採購框架的轉變
| 採購決策維度 | GPU-only 時代(2023-2025) | 異構時代(2026+) |
|---|---|---|
| 核心問題 | 我要買多少顆 H100/B200? | 我的工作負載中 Prefill:Decode 比例為何?該怎麼組合 GPU 與 LPU? |
| 定價模型 | 每 GPU 小時計費 | 每 Token 成本(Tokenomics) |
| 軟體鎖定 | CUDA 生態系 | Dynamo 異構排程層——誰控制了排程層誰就有定價權 |
| 擴展瓶頸 | GPU 可用性 | 異構網路的頻寬與延遲 |
| 優化目標 | 最大化 FLOPs 利用率 | 最小化每 Token 的延遲與成本乘積 |
此採購架構的轉變可以透過以下流程圖清楚呈現:
GPU 為主] F[Groq 3 LPX
LPU 為主] G[Dynamo 異構排程
GPU + LPU 協同] end A --> C B --> D C -->|是| E C -->|否| G D -->|是| F D -->|否| G E & F --> G G --> H[每 Token 成本最小化] style A fill:#e1f5fe style B fill:#e1f5fe style C fill:#fff3e0 style D fill:#fff3e0 style E fill:#e8f5e8 style F fill:#fce4ec style G fill:#f3e5f5 style H fill:#d1c4e9
誰會率先採用?
- 超大規模雲端供應商:Microsoft Azure 已確認運行 Vera Rubin。預估 Azure 會先部署 Rubin NVL72 作為訓練主力,再搭配 Groq LPX 為其 Azure OpenAI Service 提供低延遲推理。
- AI 原生產品公司:如 Character.AI、Perplexity 等對推論延遲極度敏感的服務,將是 Groq LPX 的首批客戶。
- 金融服務:高頻交易與即時風險分析需要確定性低延遲,Groq 3 LPU 的 SRAM 架構天然滿足此需求。
潛在挑戰與限制
任何技術架構都有其取捨。Vera Rubin + Groq 3 LPX 的組合並非萬能:
技術挑戰
- 異構排程的調度複雜度:Dynamo 需要完美預測 Prefill/Decode 的資源需求,一旦預測失準,部分硬體可能閒置。
- 程式碼兼容性:目前的 LLM Serving 框架(vLLM、TGI、TensorRT-LLM)需要整合 Dynamo SDK 才能發揮異構優勢。
- 顯存不足問題:對於需要極長上下文(超過 200K tokens)且不適合 MoE 的模型,256 * 500MB = 128GB 的 SRAM 仍可能捉襟見肘。
商業挑戰
- Gorq 團隊整合風險:Nvidia 以 200 億美元收購 Groq,開發團隊的整合與文化衝突是長期隱憂。
- 客戶鎖定焦慮:採用 Dynamo 異構排程代表將運維控制權交給 Nvidia。大型雲端廠商是否願意接受此依賴關係?
FAQ 常見問題
Q1: Vera Rubin 平台的上市時間為何?
Nvidia 在 GTC 2026 上公布的時程為 2026 年下半年。Groq 3 LPX 機架預計於 2026 年 Q3 開始出貨樣品,Vera Rubin NVL72 則略晚,約在 2026 Q4 至 2027 Q1 進入量產。Microsoft Azure 已取得早期樣品。
Q2: Groq 3 LPU 與傳統 GPU 在 LLM 推理上有何本質差異?
Groq 3 LPU 採用 SRAM 取代 HBM 作為主要記憶體,實現了確定性低延遲(sub-40ms)。傳統 GPU 使用 HBM,延遲受制於 DRAM 存取時間與 memory controller 的競態條件。LPU 的編譯器會預先安排每條指令的執行時序,因此沒有「jitter」問題——這對即時 AI 應用至關重要。
Q3: 異構架構是否會增加營運複雜度?
短期內是的。需要維運兩種不同的硬體叢集、各自的驅動程式與監控工具。但 Nvidia 的目標是透過 Dynamo 層將異構性抽象化,讓最終用戶感覺就像在使用單一 GPU 叢集。真正的複雜度將落在雲端供應商與平台團隊身上。
Q4: 對採用非 Nvidia 硬體(如 AMD MI300、Intel Gaudi)的團隊有何影響?
這將進一步拉大 Nvidia 與競爭對手的整合優勢。如果 Dynamo 只能管理 Nvidia 硬體,那麼採用 Nvidia 全棧方案的客戶將獲得最佳的異構推論效率。AMD 與 Intel 要追趕的將不只是硬體規格,還有軟體生態系。
Q5: 中小型團隊是否該關注 Vera Rubin 與 Groq LPX?
對目前階段而言,關注的重點應是了解概念而非急於採購。Vera Rubin + Groq LPX 主要瞄準超大規模部署。中小型團隊應先確保目前的推理伺服器架構具有可拆分 Prefill/Decode 的能力,為未來採用異構推論做好架構準備。
結論:AI 基礎設施的新範式
Vera Rubin + Groq 3 LPX 組合體的真正意義,不在於硬體參數的堆疊,而在於 Nvidia 正在建立一個 晶片級別的推論專用化 生態系。未來的 AI 基礎設施將不像今天這樣全是 GPU,而是由多種專用加速器——GPU 負責訓練與 Prefill、LPU 負責 Decode、VPU 負責視覺、NPU 負責邊緣——透過統一的排程層協同工作。
對於硬體工程師與基礎設施團隊,我的建議是:
- 開始測量你的 Prefill/Decode 比例。這是決定未來硬體組合的關鍵指標。
- 關注 Nvidia Dynamo 的開源進展。理解異構排程的 API 設計,確保你的服務框架可以接入。
- 不要急著淘汰現有 B200 叢集。Rubin 的上市仍需時間,且初期價格預計會高於 Blackwell。
Nvidia 正在從「GPU 公司」轉型為「AI 基礎設施平台公司」。Vera Rubin + Groq 3 LPX 只是這個轉型故事的第一章。
參考資料
- NVIDIA Vera Rubin Opens Agentic AI Frontier - Nvidia Investor Relations
- Inside NVIDIA Groq 3 LPX: The Low-Latency Inference Accelerator - Nvidia Developer Blog
- Nvidia Groq 3 LPU and Groq LPX racks join Rubin platform - Tom’s Hardware
- NVIDIA GTC 2026: Groq, Tokenomics, CMX - Counterpoint Research
- NVIDIA Vera Rubin 开启代理式 AI 前沿 - Nvidia China Blog
- NVIDIA Unveils AI Inference Chip, New CPU for AI Agent Era - Chosun
- Tech Insight: Nvidia is now an AI infrastructure platform company - Digital Today