Il passaggio da un design a doppio socket (Graviton4) a un die monolitico (Graviton5) elimina completamente il sovraccarico di comunicazione tra socket. Per i carichi di lavoro che si distribuiscono su molti core, come le pipeline di inferenza in tempo reale, i database in-memory o le flotte di microservizi su larga scala, la sola riduzione della latenza può produrre guadagni di throughput misurabili, ancor prima di considerare i miglioramenti dell'IPC.
I miglioramenti generazionali pubblicati da AWS sono coerenti tra fonti ufficiali, analisi di terze parti e benchmark dei primi clienti:
Calcolo e throughput:
I/O e larghezza di banda:
Risultati reali dei clienti:
Questi numeri sono in linea con i cambiamenti architetturali. La cache L3 5 volte più grande riduce i costosi accessi alla DRAM, in particolare per i carichi di lavoro di database e analitici che attraversano ampi set di dati. La memoria DDR5-8800 più veloce e l'I/O PCIe Gen 6 rimuovono i colli di bottiglia della larghezza di banda che limitavano il throughput nelle generazioni precedenti. E il passaggio a un design a singolo socket riduce la penalità di latenza che le applicazioni scalabili orizzontalmente pagano sulle architetture NUMA.
Per i carichi di lavoro che necessitano di storage effimero ad alta velocità direttamente collegato all'istanza, AWS offre la variante M9gd. Queste istanze aggiungono storage a blocchi SSD NVMe locale sulla stessa piattaforma di calcolo Graviton5, fornendo fino a 11,4 TB di capacità SSD NVMe locale con IOPS superiori del 30% rispetto all'offerta di storage locale della generazione precedente .
La variante M9gd è ideale per carichi di lavoro come grandi flotte di caching, pipeline di elaborazione log e motori di analisi in tempo reale, dove mantenere i dati il più vicino possibile alla CPU ha un impatto diretto sulla latenza delle query e sul throughput. La combinazione di core più veloci, minore latenza inter-core e IOPS di storage locale più elevati rende M9gd una scelta naturale per qualsiasi carico di lavoro che tragga vantaggio dal ridurre il divario tra storage e calcolo.
Uno degli spostamenti di posizionamento più notevoli con Graviton5 è l'obiettivo esplicito di AWS verso i carichi di lavoro di AI agentic, ovvero sistemi che eseguono ragionamento in tempo reale, generazione di codice e orchestrazione di task a più fasi utilizzando grandi modelli linguistici e altre tecniche di AI generativa .
Mentre le istanze GPU e con acceleratori dominano la conversazione su addestramento e inferenza su larga scala, l'AI agentic su scala crea un modello di calcolo diverso: un lavoro CPU continuo ad alta produttività che alterna fasi di inferenza del modello e logica di orchestrazione, con rigidi vincoli di latenza per le interazioni a più turni. AWS sostiene che la latenza inter-core ridotta del 33%, la cache 5 volte più grande e l'alto numero di core per istanza di Graviton5 lo rendano particolarmente adatto a questi carichi di lavoro quando devono essere eseguiti su scala di produzione senza l'economia delle GPU .
Oltre alle prestazioni pure, l'aggiunta tecnicamente più significativa alla piattaforma Graviton5 è il Nitro Isolation Engine, un nuovo componente del sistema AWS Nitro di sesta generazione .
Implementato in Rust, il Nitro Isolation Engine è un componente hypervisor minimale e dedicato, responsabile di rafforzare l'isolamento tra le macchine virtuali co-tenant . Ciò che lo distingue da ogni altro hypervisor in produzione è la verifica formale: AWS ha prodotto prove verificabili automaticamente utilizzando l'assistente di prova Isabelle, che dimostrano matematicamente
:
In termini pratici, questo significa che AWS può fornire la certezza matematica che i carichi di lavoro di un cliente non possano accedere ai dati di un altro o interferire con la loro esecuzione, e che gli operatori AWS siano soggetti agli stessi confini di isolamento . AWS si è impegnata a rendere disponibile l'implementazione e le prove corrispondenti del Nitro Isolation Engine per la revisione da parte dei clienti
.
Il motore è abilitato di default sulle istanze M9g . Ciò rappresenta un cambiamento nella garanzia di sicurezza del cloud: dai controlli operativi e dalle narrative di audit, verso garanzie verificabili meccanicamente sul livello di isolamento fondamentale.
Tra i primi utilizzatori e partner di benchmark figurano Meta, Snowflake, Uber, Honeycomb, SAP, Atlassian e ClickHouse, insieme a HubSpot e altri identificati attraverso la divulgazione dei dati sulle prestazioni .
I risultati riportati dai clienti coprono molteplici categorie di carichi di lavoro:
Questi risultati riflettono modelli visibili lungo la curva di adozione di Graviton: la maggior parte dei carichi di lavoro vede miglioramenti immediati delle prestazioni con modifiche al codice minime o nulle durante la migrazione da x86 ad Arm, e i guadagni si sommano attraverso le generazioni man mano che il silicio migliora .
Graviton5 arriva in un momento in cui il silicio server basato su Arm è passato da alternativa per l'ottimizzazione dei costi a una scelta di performance mainstream. Negli ultimi tre anni, più della metà della nuova capacità CPU di AWS ha funzionato su Graviton e il 98% dei primi 1.000 clienti EC2 utilizza già istanze basate su Graviton .
Con un die monolitico a 192 core su processo a 3nm, supporto PCIe Gen 6, memoria DDR5-8800 e l'aggiunta di un isolamento del carico di lavoro verificato formalmente, Graviton5 alza l'asticella non solo per le famiglie di istanze di AWS, ma per ciò che i clienti possono ragionevolmente aspettarsi dal calcolo cloud-native: prestazioni, efficienza energetica e garanzie di sicurezza supportate da prove matematiche piuttosto che da promesse operative.
La disponibilità generale delle istanze M9g e M9gd significa che queste capacità sono ora accessibili attraverso i percorsi di adozione standard di EC2, con l'arrivo previsto delle varianti C9g (ottimizzate per il calcolo) e R9g (ottimizzate per la memoria) .
Comments
0 comments