Việc chuyển từ thiết kế hai socket của Graviton4 sang một đế chip nguyên khối trên Graviton5 giúp loại bỏ hoàn toàn chi phí giao tiếp chéo giữa các socket. Đối với những khối lượng công việc trải rộng trên nhiều nhân – chẳng hạn như các pipeline suy luận thời gian thực, cơ sở dữ liệu trong bộ nhớ, hay các cụm microservice quy mô lớn – chỉ riêng việc giảm độ trễ này đã có thể mang lại mức tăng thông lượng đáng kể, chưa kể đến các cải tiến về IPC (số lệnh thực thi trên mỗi chu kỳ).
Các cải thiện thế hệ được AWS công bố là nhất quán trên các nguồn chính thức, phân tích của bên thứ ba và các bài kiểm tra ban đầu từ khách hàng:
Hiệu năng tính toán và thông lượng:
Băng thông I/O và mạng:
Kết quả thực tế từ khách hàng:
Những con số này phù hợp với các thay đổi về kiến trúc. Bộ nhớ đệm L3 lớn gấp 5 lần giúp giảm đáng kể các lần truy cập DRAM tốn kém, đặc biệt có lợi cho các khối lượng công việc cơ sở dữ liệu và phân tích phải duyệt qua các tập dữ liệu làm việc lớn. Bộ nhớ DDR5-8800 nhanh hơn và I/O PCIe Gen 6 giúp loại bỏ các nút thắt băng thông vốn đã kìm hãm thông lượng ở các thế hệ trước. Và việc chuyển sang thiết kế đơn socket giúp giảm 'thuế' độ trễ mà các ứng dụng mở rộng quy mô phải trả trên kiến trúc NUMA.
Đối với các khối lượng công việc cần lưu trữ tạm thời tốc độ cao gắn trực tiếp vào máy ảo, AWS cung cấp biến thể M9gd. Các máy ảo này bổ sung thêm bộ lưu trữ khối SSD NVMe nội bộ trên cùng nền tảng điện toán Graviton5, cung cấp dung lượng lưu trữ NVMe SSD nội bộ lên đến 11.4 TB cùng hiệu suất IOPS (số thao tác vào/ra mỗi giây) cao hơn 30% so với thế hệ trước .
Biến thể M9gd nhắm đến các tác vụ như cụm bộ nhớ đệm quy mô lớn, pipeline xử lý nhật ký và các hệ thống phân tích thời gian thực, nơi mà việc giữ dữ liệu càng gần CPU càng tốt sẽ ảnh hưởng trực tiếp đến độ trễ truy vấn và thông lượng. Sự kết hợp của các nhân nhanh hơn, độ trễ liên nhân thấp hơn và IOPS lưu trữ nội bộ cao hơn khiến M9gd trở thành lựa chọn tự nhiên cho bất kỳ khối lượng công việc nào được hưởng lợi từ việc thu hẹp khoảng cách giữa lưu trữ và điện toán.
Một trong những thay đổi đáng chú ý hơn trong cách định vị của Graviton5 là việc AWS nhắm mục tiêu rõ ràng vào các tác vụ AI tự hành – những hệ thống thực hiện suy luận thời gian thực, tạo mã và điều phối tác vụ nhiều bước sử dụng các mô hình ngôn ngữ lớn và các kỹ thuật AI tạo sinh khác .
Trong khi các máy chủ GPU và máy gia tốc thống trị cuộc trò chuyện về huấn luyện và suy luận theo lô lớn, thì AI tự hành ở quy mô lớn lại tạo ra một mẫu hình điện toán khác: công việc CPU thông lượng cao liên tục, xen kẽ giữa các bước suy luận mô hình và logic điều phối, với ngân sách độ trễ nghiêm ngặt cho các tương tác nhiều lượt. AWS lập luận rằng độ trễ liên nhân thấp hơn 33% của Graviton5, bộ nhớ đệm lớn gấp 5 lần và số lượng nhân cao trên mỗi máy ảo khiến nó rất phù hợp cho các tác vụ này khi cần chạy ở quy mô sản xuất (production) mà không phải chịu chi phí kinh tế của GPU .
Vượt xa hiệu suất thô, bổ sung có ý nghĩa kỹ thuật nhất cho nền tảng Graviton5 là Nitro Isolation Engine, một thành phần mới của Hệ thống AWS Nitro thế hệ thứ sáu .
Được triển khai bằng ngôn ngữ lập trình Rust, Nitro Isolation Engine là một thành phần siêu giám sát tối thiểu, được xây dựng cho mục đích chuyên biệt, chịu trách nhiệm thực thi sự cách ly giữa các máy ảo cùng thuê chung một máy chủ vật lý . Điều làm nó khác biệt với mọi siêu giám sát thương mại khác là xác minh hình thức: AWS đã tạo ra các bằng chứng mà máy có thể kiểm tra bằng cách sử dụng trợ lý chứng minh Isabelle, chứng minh một cách toán học rằng
:
Về mặt thực tế, điều này có nghĩa là AWS có thể cung cấp sự chắc chắn toán học rằng khối lượng công việc của một khách hàng không thể truy cập dữ liệu của khách hàng khác hoặc can thiệp vào quá trình thực thi của họ, và các nhân viên vận hành của AWS cũng phải tuân theo các ranh giới cách ly tương tự . AWS đã cam kết cung cấp mã triển khai của Nitro Isolation Engine và các bằng chứng tương ứng để khách hàng có thể xem xét
.
Tính năng này được bật theo mặc định trên các máy ảo M9g . Điều này thể hiện một sự thay đổi trong đảm bảo an ninh đám mây: từ các biện pháp kiểm soát vận hành và báo cáo kiểm toán, tiến tới các đảm bảo mà máy có thể kiểm chứng được về lớp cách ly nền tảng.
Các đối tác dùng thử và đo điểm chuẩn được nêu tên bao gồm Meta, Snowflake, Uber, Honeycomb, SAP, Atlassian, và ClickHouse, cùng với HubSpot và các công ty khác được xác định thông qua việc công bố dữ liệu hiệu suất .
Kết quả do khách hàng báo cáo trải dài trên nhiều loại hình công việc:
Những kết quả này phản ánh các mô hình có thể thấy rõ trên đường cong chấp nhận Graviton: hầu hết các khối lượng công việc đều cho thấy sự cải thiện hiệu suất ngay lập tức với ít hoặc không cần thay đổi mã nguồn khi di chuyển từ kiến trúc x86 sang Arm, và các lợi ích này được nhân lên qua các thế hệ khi silicon được cải tiến .
Graviton5 xuất hiện vào thời điểm chip máy chủ dựa trên Arm đã chuyển mình từ một giải pháp thay thế để tối ưu chi phí thành một lựa chọn hiệu suất chính thống. Hơn một nửa công suất CPU mới của AWS đã chạy trên Graviton trong ba năm qua và 98% trong số 1.000 khách hàng EC2 hàng đầu hiện đang sử dụng các máy ảo dựa trên Graviton .
Với một đế chip 192 nhân nguyên khối trên tiến trình 3nm, hỗ trợ PCIe Gen 6, bộ nhớ DDR5-8800, và việc bổ sung tính năng cách ly khối lượng công việc được xác minh hình thức, Graviton5 đã nâng tầm tiêu chuẩn không chỉ cho các dòng máy ảo của AWS mà còn cho những gì khách hàng có thể kỳ vọng một cách hợp lý từ điện toán đám mây gốc: hiệu suất, hiệu quả năng lượng và các đảm bảo an ninh được sao lưu bởi bằng chứng toán học thay vì những lời hứa vận hành.
Việc phát hành chính thức các máy ảo M9g và M9gd có nghĩa là những khả năng này hiện có thể được tiếp cận thông qua các lộ trình sử dụng EC2 tiêu chuẩn, với các biến thể tối ưu cho điện toán (C9g) và tối ưu cho bộ nhớ (R9g) dự kiến sẽ nối gót ra mắt sau .
Comments
0 comments