呢個設計理念要落地,全靠三個技術突破:
傳統路由協議喺呢種隨機圖環境會「迷路」。AWS 專為 RNG 開發咗一個全新嘅分散式路由演算法,叫 Spraypoint。
佢嘅原理係,源頭路由器好似「噴射」咁,將數據包大量擴散出去(高扇出),然後透過網絡中嘅「路徑點」精準咁「指向」目的地(高扇入)。呢個機制可以搵到 極大量(接近節點度數上限)嘅 邊不交疊路徑(Edge-disjoint Paths),即係話每對端點之間都有好多條完全唔重疊嘅路可以行,唔同端點對之間嘅路徑重疊度亦好低 。
呢樣嘢帶嚟嘅直接好處就係 超高吞吐量 同 容量 fungibility(即係網絡資源可以更靈活調配去應付唔同流量模式)。
隨機連接最大嘅痛點係「點樣接線」?如果真係亂咁飛線,數據中心會變咗盤絲洞。AWS 嘅工程師設計咗一個叫 ShuffleBox 嘅被動光學裝置,佢內部會將光纖線頭「洗牌」式打亂,咁就可以喺保持隨機連接特性嘅同時,令外部接線複雜度同傳統肥樹網絡差唔多 。
最關鍵係:ShuffleBox 完全唔使電,係一個純被動嘅光纖管理設備,唔會產生額外功耗同熱量。
AWS 嘅論文畀咗一組非常靚仔嘅數字,直接同傳統肥樹架構「埋牙」比較:
| 對比項目 | RNG 嘅改善幅度 |
|---|---|
| 網絡吞吐量 | 最高提升 33% |
| 所需路由器/交換機 | 減少約 69% (硬件大瘦身) |
| 總體網絡成本 | 平咗 9% 至 45% (視乎規模同配置) |
| 網絡設備用電量 | 減少約 40% (主要因為少咗好多層要供電嘅交換機) |
| 接線複雜度 | 同肥樹網絡差唔多,多得 ShuffleBox |
AWS 採取嘅係「蠶食」式嘅透明升級策略,唔係一次過剷晒所有舊嘢:
即係話,如果你係 AWS 用戶,你好大機會已經喺唔知唔覺間享受到 RNG 帶嚟嘅好處。
呢點係成件事最「佛系」嘅地方。RNG 係 物理層同路由層嘅改動,虛擬化層完全 Feel 唔到。你照樣開 EC2 Instance、設定 VPC、用 Load Balancer,啲 API、安全組、網絡配置、程式碼通通唔使改 。
AWS 係喺自己嘅基礎設施底層做手腳,對用戶嚟講,係一個「你唔會發覺,但所有嘢突然快咗、穩陣咗,長遠仲可能平咗」嘅升級。
呢次網絡架構嘅變革,絕對唔止係一個工程上嘅勝利,仲有更深層嘅競爭意義:
結構性成本優勢:AWS 喺網絡基建成本上做到 9-45% 嘅減幅,呢個幅度以佢嘅體量計非常驚人。佢可以選擇減價砌低對手,或者維持價格但賺取更高利潤,再將錢掟返落去 AI 運算力嘅軍備競賽 。
AI/ML 工作負載加速:無論係訓練大型語言模型、做分佈式訓練、定係大規模推理,全部都係食頻寬怪獸。RNG 提供嘅 33% 吞吐量提升同更豐富嘅路徑多樣性,可以直接縮短 AI 任務嘅完成時間,提升貴價 GPU 嘅使用率,呢樣嘢對 AI 公司嚟講極度值錢 。
能源效率達標:40% 嘅網絡設備省電幅度,對於要達到減排 ESG 目標嘅雲端巨頭嚟講,係一支強心針,特別係當 AI 集群已經扯電扯到嘭嘭聲嘅時候 。
可靠性同韌性:隨機擴展圖天生有好多唔重疊嘅路徑,容錯能力高過傳統多層架構。死一兩部交換機或者斷幾條線,對整體網絡嘅影響細好多,唔使好似以前咁成日靠「超買」冗餘設備嚟保平安 。
畀競爭對手嘅壓力:雖然 Google、微軟 Azure 等巨頭都有自己嘅網絡技術積累,但佢哋主流仍然係基於 Clos 架構嘅變種。AWS 係第一個將隨機圖網絡成功超大規模落地嘅公司,呢份「我做到咗」嘅論文,對成個行業嚟講係一個新嘅追趕目標 。
產學研合作嘅最佳示範:將一個喺理論計算機科學界討論咗幾十年嘅擴展圖概念,變成全球最大雲端平台嘅預設基建,呢個本身就係一個極具標誌性嘅里程碑 。
AWS 嘅 RNG 網絡架構,係一次典型嘅「亞馬遜式創新」——喺用戶完全冇感知嘅底層,用深厚嘅理論基礎同工程實力,搞一場大幅提升效率、降低成本嘅靜默革命。佢再次證明咗,喺雲端呢個規模化嘅生意入面,基礎設施每一層嘅微小改進,乘返天文數字嘅伺服器數量之後,都會變成無可匹敵嘅競爭護城河。
Comments
0 comments