Việc mất điện không chỉ ảnh hưởng đến một hoặc hai dịch vụ. Microsoft đã báo cáo về một sự suy giảm chất lượng trên diện rộng, ảnh hưởng đến một phần đáng kể trong danh mục dịch vụ của họ. Lịch sử trạng thái chính thức đã liệt kê các dịch vụ bị ảnh hưởng như sau :
Một điểm quan trọng cần làm rõ là, không giống như một số sự cố trung tâm dữ liệu tai tiếng khác, không có bằng chứng nào từ các nguồn tin hiện có cho thấy hệ thống điện dự phòng đã gặp sự cố trong lần này. Các bản cập nhật trạng thái của Microsoft đã tuyên bố rõ rằng "nguồn điện của trung tâm dữ liệu đã được khôi phục hoàn toàn," cho thấy sự cố mất điện lưới ban đầu mới là vấn đề, chứ không phải là lỗi tiếp theo của máy phát điện tại chỗ hay bộ lưu điện (UPS). Tình trạng suy giảm dịch vụ là hậu quả của cú cắt điện ban đầu và khoảng thời gian cần thiết sau đó để đưa cơ sở hạ tầng lưu trữ và mạng phức tạp trở lại hoạt động một cách an toàn và đáng tin cậy.
Điều này trái ngược với các sự cố Azure khác đã được ghi nhận. Ví dụ, trong một sự cố mất điện ở khu vực Tây Hoa Kỳ (West US) vào tháng 2 năm 2026, một sự cố của máy biến áp đã gây ra hiện tượng tăng điện áp nhanh chóng, lan truyền xuống hạ nguồn và làm hỏng các bộ lưu điện (UPS), dẫn đến mất điện hoàn toàn. Chưa có báo cáo nào về lỗi phần cứng nội bộ tương tự cho sự kiện ngày 29 tháng 5.
Quá trình khôi phục sau sự cố mất điện toàn vùng là một cuộc chạy marathon, không phải chạy nước rút. Dựa trên các cập nhật trạng thái chính thức của Azure, dưới đây là dòng thời gian của các sự kiện chính:
Sự cố mới nhất này không phải là một trường hợp cá biệt. Nó là một phần của mô hình đáng lo ngại về các lỗ hổng liên quan đến thời tiết đã gây khó khăn cho nền tảng Azure của Microsoft trong nhiều năm. Những sự cố này cho thấy ngay cả hạ tầng đám mây tinh vi nhất cuối cùng cũng phải chịu sự chi phối của thực tế vật lý.
Các tiền lệ này có một điểm chung với sự kiện ngày 29 tháng 5: một sự kiện vật lý bên ngoài tác động trực tiếp đến chuỗi cung cấp điện của trung tâm dữ liệu, dẫn đến sự cố lan truyền của các dịch vụ kỹ thuật số phụ thuộc vào nó.
Việc Dịch vụ Azure OpenAI nằm trong danh sách các dịch vụ bị suy giảm đánh dấu một sự leo thang đáng chú ý về mức độ ảnh hưởng của những sự cố này. Khi các doanh nghiệp ngày càng nhúng các mô hình AI vào các quy trình quan trọng và sản phẩm hướng tới khách hàng, thời gian ngừng hoạt động của đám mây khu vực không còn chỉ là một sự bất tiện về hạ tầng. Nó trực tiếp làm gián đoạn các ứng dụng, tìm kiếm và tự động hóa được hỗ trợ bởi AI. Mặc dù giông bão nghiêm trọng là một hành động của tự nhiên, sự cố ngừng hoạt động sau đó đã làm nổi bật nguy cơ tập trung ngày càng tăng đối với các khối lượng công việc AI vốn phụ thuộc vào các khu vực đám mây cụ thể.
Microsoft vẫn chưa công bố bản Phân Tích Nguyên Nhân Gốc Rễ (RCA) chi tiết cho sự cố cụ thể này trong phạm vi nguồn tin được cung cấp. Do đó, các kết luận cuối cùng về trình tự chính xác của việc khôi phục điện và lý do tại sao một số khối lưu trữ nhất định cần thời gian khôi phục kéo dài sẽ chỉ được xác nhận khi có đánh giá chính thức sau sự cố.
Comments
0 comments