Graviton5 representa el mayor salto arquitectónico de Amazon desde el nacimiento de la familia Graviton. Estas son sus cifras clave:
Este cambio desde el diseño de doble zócalo de Graviton4 a un chip monolítico en Graviton5 elimina por completo la sobrecarga de comunicación entre zócalos. Para cargas de trabajo distribuidas en muchos núcleos, como pipelines de inferencia en tiempo real, bases de datos en memoria o flotas de microservicios a gran escala, la reducción de la latencia por sí sola puede traducirse en ganancias de rendimiento medibles antes de considerar cualquier mejora en las instrucciones por ciclo (IPC).
Las mejoras generacionales publicadas por AWS son consistentes en informes oficiales, análisis de terceros y pruebas de clientes pioneros:
Cómputo y rendimiento general:
E/S y ancho de banda:
Resultados reales de clientes:
Estos datos concuerdan con los cambios arquitectónicos. La caché L3, cinco veces mayor, reduce los costosos accesos a la memoria DRAM, beneficiando especialmente a las cargas de trabajo de bases de datos y analíticas que manejan grandes conjuntos de datos. La memoria DDR5-8800, más rápida, y la E/S PCIe Gen 6 eliminan los cuellos de botella de ancho de banda que limitaban el rendimiento en generaciones anteriores. Y el cambio a un diseño de un solo zócalo elimina la penalización de latencia que sufren las aplicaciones escalables en arquitecturas NUMA.
Para cargas de trabajo que requieren almacenamiento efímero de alta velocidad directamente conectado a la instancia, AWS ofrece la variante M9gd. Estas instancias añaden almacenamiento en bloque SSD NVMe local sobre la misma plataforma de cómputo Graviton5, ofreciendo hasta 11.4 TB de capacidad SSD NVMe local con un 30% más de IOPS que la oferta de almacenamiento local de la generación anterior .
La variante M9gd está dirigida a flotas de almacenamiento en caché a gran escala, pipelines de procesamiento de registros y motores de analítica en tiempo real, donde la proximidad de los datos a la CPU tiene un impacto directo en la latencia de las consultas y el rendimiento. La combinación de núcleos más rápidos, menor latencia entre núcleos y mayor IOPS de almacenamiento local convierte a la M9gd en una opción natural para cualquier carga de trabajo que se beneficie de eliminar la brecha entre almacenamiento y cómputo.
Uno de los cambios de posicionamiento más notables con Graviton5 es la apuesta explícita de AWS por las cargas de trabajo de IA agéntica. Estos son sistemas que realizan razonamiento en tiempo real, generación de código y orquestación de tareas en múltiples pasos utilizando grandes modelos de lenguaje (LLMs) y otras técnicas de IA generativa .
Aunque las instancias con GPU y aceleradores dominan el entrenamiento y la inferencia por lotes a gran escala, la IA agéntica a escala crea un patrón de cómputo diferente: trabajo continuo de CPU de alto rendimiento que alterna entre pasos de inferencia del modelo y lógica de orquestación, con presupuestos de latencia estrictos para interacciones de múltiples turnos. AWS argumenta que la latencia entre núcleos un 33% menor de Graviton5, su caché 5 veces más grande y su alto número de núcleos por instancia lo hacen especialmente adecuado para estas cargas de trabajo cuando necesitan ejecutarse a escala de producción sin la economía de costes de las GPU .
Más allá del rendimiento bruto, la adición técnicamente más significativa a la plataforma Graviton5 es el Motor de Aislamiento Nitro (Nitro Isolation Engine), un nuevo componente del sistema AWS Nitro de sexta generación .
Implementado en Rust, el Motor de Aislamiento Nitro es un componente de hipervisor mínimo y de propósito específico responsable de hacer cumplir el aislamiento entre máquinas virtuales que coexisten en el mismo hardware . Lo que lo distingue de cualquier otro hipervisor en producción es la verificación formal: AWS ha producido pruebas comprobables por máquina utilizando el asistente de pruebas Isabelle que demuestran matemáticamente
:
En términos prácticos, esto significa que AWS puede ofrecer una certeza matemática de que las cargas de trabajo de un cliente no pueden acceder a los datos de otro ni interferir en su ejecución, y que los propios operadores de AWS están sujetos a los mismos límites de aislamiento . AWS se ha comprometido a poner la implementación del Motor de Aislamiento Nitro y sus pruebas a disposición de los clientes para su revisión
.
El motor está habilitado por defecto en las instancias M9g . Esto representa un cambio en la garantía de seguridad en la nube: de los controles operativos y las narrativas de auditoría hacia las garantías comprobables por máquina sobre la capa fundamental de aislamiento.
Entre los primeros adoptantes y socios de evaluación nombrados se encuentran Meta, Snowflake, Uber, Honeycomb, SAP, Atlassian y ClickHouse, junto con HubSpot y otras empresas identificadas a través de la divulgación de datos de rendimiento .
Los resultados reportados por los clientes abarcan múltiples categorías de cargas de trabajo:
Estos resultados reflejan patrones visibles en la curva de adopción de Graviton: la mayoría de las cargas de trabajo experimentan mejoras de rendimiento inmediatas con cero o mínimos cambios de código al migrar de x86 a Arm, y las ganancias se acumulan generación tras generación a medida que el silicio mejora .
Graviton5 llega en un momento en que el silicio para servidores basado en Arm ha pasado de ser una alternativa de optimización de costes a una opción de rendimiento generalizado. Más de la mitad de la nueva capacidad de CPU de AWS ha funcionado con Graviton durante los últimos tres años, y el 98% de los 1,000 principales clientes de EC2 ya utilizan instancias basadas en Graviton .
Con un chip monolítico de 192 núcleos en un proceso de 3nm, soporte para PCIe Gen 6, memoria DDR5-8800 y la adición de un aislamiento de cargas de trabajo verificado formalmente, Graviton5 eleva el techo no solo para las familias de instancias propias de AWS, sino para lo que los clientes pueden esperar razonablemente del cómputo nativo en la nube: rendimiento, eficiencia energética y garantías de seguridad respaldadas por pruebas matemáticas en lugar de promesas operativas.
La disponibilidad general de las instancias M9g y M9gd significa que estas capacidades ahora son accesibles a través de las rutas de adopción estándar de EC2, con las variantes C9g (optimizadas para cómputo) y R9g (optimizadas para memoria) programadas para seguirles .
Comments
0 comments