由雙插槽嘅 Graviton4 轉做單晶片嘅 Graviton5,直接消滅咗跨插槽通訊嘅 overhead。對於要跨大量核心執行嘅工作負載 — 例如即時推論 pipeline、記憶體內資料庫、大規模微服務叢集 — 單係延遲嘅改善,未計 IPC 提升,已經可以帶嚟明顯嘅吞吐量增長。
AWS 官方發布嘅世代改進數據、第三方分析同早期客戶 benchmark,方向都一致:
運算同吞吐量:
I/O 同頻寬:
真實世界客戶數據:
呢啲數字同架構改動係對得上嘅。L3 快取大咗 5 倍,減少咗去相對慢嘅 DRAM 攞資料嘅次數,對資料庫同需要掃大量數據嘅分析工作負載尤其有幫助。更快嘅 DDR5-8800 記憶體同 PCIe Gen 6 I/O 就拆走咗上代限制吞吐量嘅頻寬樽頸。轉做單插槽設計,就慳返以往 scale-out 應用程式喺 NUMA 架構上面要畀嘅「延遲稅」。
如果 workload 需要高速短暫儲存直接駁住部執行個體,AWS 提供 M9gd 版本。呢啲執行個體喺同一個 Graviton5 運算平台之上加咗本地 NVMe SSD 區塊級儲存,提供高達 11.4 TB 嘅本地 NVMe SSD 容量,IOPS 比上一代本地儲存高 30% 。
M9gd 嘅目標工作負載包括大型快取叢集、日誌處理 pipeline 同即時分析引擎 — 呢類場景入面,數據擺得越近 CPU,查詢延遲同吞吐量嘅影響就越直接。更快嘅核心、更低嘅核心之間延遲,再加埋更高嘅本地儲存 IOPS,令 M9gd 特別啱任何想將儲存同運算之間嘅距離縮到最短嘅工作。
今次 Graviton5 嘅定位有一個幾值得留意嘅轉變,就係 AWS 明確將佢對準 agentic AI 工作負載 — 即係用大型語言模型同其他生成式 AI 技術去做即時推理、程式碼生成同多步驟任務編排嘅系統 。
GPU 同加速器執行個體一向主導訓練同大批次推論嘅討論,但當 agentic AI 要去到規模化,就會衍生另一種運算模式:持續高吞吐量嘅 CPU 工作,喺模型推論步驟同編排邏輯之間不斷切換,仲要喺多輪互動入面符合嚴格嘅延遲預算。AWS 嘅論點係,Graviton5 嘅核心之間延遲低 33%、快取大 5 倍、單一執行個體核心數量夠多,令佢好適合呢類需要喺生產環境規模執行、但又唔想完全依靠 GPU 成本結構嘅 AI 工作 。
Nitro Isolation Engine 用 Rust 寫成,係一個極簡、專門針對隔離而設計嘅 hypervisor 組件,負責強制分隔共享同一硬件嘅虛擬機器之間嘅執行環境 。佢同其他量產 hypervisor 最唔同嘅地方,係 形式驗證:AWS 用 Isabelle 證明助手 製作咗可以被機器檢查嘅證明,用數學方式展示咗
:
用實用嘅語言講,即係 AWS 可以提供數學上嘅確定性,證明一個客戶嘅工作負載冇可能接觸到另一個客戶嘅數據,或者干擾對方執行,而 AWS 操作人員一樣受到同一道隔離邊界約束 。AWS 已經承諾會畀客戶查閱 Nitro Isolation Engine 嘅實作同相關證明
。
有名嘅早期用家同 benchmark 合作夥伴包括 Meta、Snowflake、Uber、Honeycomb、SAP、Atlassian 同 ClickHouse,仲有透過效能數據披露識別到嘅 HubSpot 等等 。
客戶報告嘅結果橫跨多種工作負載類別:
呢啲結果反映咗喺 Graviton 嘅採用曲線上見到嘅模式:大部分工作負載由 x86 轉去 Arm 嘅時候,喺冇改程式碼或者改好少嘅情況下,已經可以即時見到效能提升,而且隨住晶片一代一代咁改進,呢啲增長會累積上去 。
Graviton5 出現嘅時間點,Arm 架構伺服器晶片啱啱由「慳成本嘅替代方案」變成「主流效能選擇」。過去三年,AWS 超過一半嘅新 CPU 容量都係行 Graviton,而頭 1,000 個 EC2 客戶入面,98% 已經用緊 Graviton 系列執行個體 。
單晶片 192 核、3nm 製程、PCIe Gen 6 支援、DDR5-8800 記憶體,再加埋經形式驗證嘅工作負載隔離,Graviton5 唔單止拉高咗 AWS 自己執行個體家族嘅天花板,亦都拉高咗客戶對雲端原生運算嘅合理期望:高效能、高能源效益,同埋保安保證係靠數學證明,而唔係操作承諾。
Comments
0 comments