Người phát ngôn của Anthropic cho biết nguyên nhân là do "một sự cố hạ tầng ngắn" gây ra lỗi gia tăng trên nhiều mô hình Claude trong một khoảng thời gian ngắn, và xác nhận sự cố đã được giải quyết .
Notion không tiết lộ chi tiết những nhà cung cấp AI thay thế nào đã tiếp nhận lưu lượng được chuyển hướng, nhưng hành động của họ rất rõ ràng: ngay khi các mô hình Opus của Anthropic bắt đầu trả về kết quả kém chất lượng, hệ thống của Notion đã tự động loại bỏ tất cả các mô hình Anthropic và chuyển hướng yêu cầu đi nơi khác .
Đây là một ví dụ cụ thể về kiến trúc chuyển đổi dự phòng đa mô hình (multi-model failover) trong thực tế. Thay vì để lỗi tràn ra và ảnh hưởng đến người dùng cuối trong lúc chờ Anthropic khắc phục, Notion coi lớp mô hình AI như một thành phần có thể hoán đổi — giống như cách một kiến trúc sư đám mây sẽ xử lý một cơ sở dữ liệu bị lỗi hoặc một CDN không phản hồi.
Sự cố ngày 7 tháng 6 nếu đứng riêng lẻ thì không đáng kể, nhưng nó xảy ra ngay giữa một loạt sự cố của Claude đã làm lung lay niềm tin vào độ tin cậy của nền tảng này.
Vụ gián đoạn nghiêm trọng nhất xảy ra vào ngày 2 tháng 6, khi một sự cố lớn ảnh hưởng đến Claude.ai, API, Claude Console và Claude Code. Tỉ lệ lỗi tăng cao được báo cáo trên Opus 4.6 và các mô hình khác, với số lượng báo cáo từ người dùng trên Downdetector tăng vọt vào khoảng 02:10 ET / 07:10 GMT. Tổng thời gian gián đoạn kéo dài gần sáu giờ trước khi các dịch vụ được khôi phục hoàn toàn .
Chỉ ba ngày sau, vào ngày 5 tháng 6, nền tảng Claude của Anthropic lại ngoại tuyến một lần nữa. Trang trạng thái ghi nhận "lỗi gia tăng trên nhiều mô hình Claude" từ 15:08 UTC đến 18:28 UTC, với Opus 4.7 và 4.8 là những mô hình phục hồi cuối cùng. Sự cố trở nên nghiêm trọng hơn khi người dùng báo cáo nhận được các phản hồi dường như thuộc về phiên làm việc của người khác sau khi hết gián đoạn, khiến Anthropic phải mở một cuộc điều tra chính thức về khả năng rò rỉ dữ liệu .
Một sự cố ngắn hơn vào ngày 6 tháng 6 đã ảnh hưởng đến claude.ai, console và API. Opus 4.8 gặp tình trạng suy giảm dịch vụ trong khoảng 50 phút trước khi bản sửa lỗi được triển khai và giám sát .
Chuỗi sự cố mới nhất này không phải tự nhiên mà có. Opus 4.7 đã từng ghi nhận các khoảng thời gian lỗi tăng cao vào ngày 22 và 25 tháng 5, và một sự suy giảm chất lượng đã được các nhà phát triển ghi nhận khoảng một tuần sau khi mô hình này ra mắt vào ngày 16 tháng 4 — một kịch bản tương tự như những vấn đề mà Opus 4.6 đã gặp phải vào tháng 3 .
Vào tháng 4 năm 2026, Anthropic đã công khai thừa nhận sự suy giảm chất lượng trong Claude Code, Claude Agent SDK và Claude Cowork từ ngày 4 tháng 3 đến ngày 20 tháng 4, quy cho ba nguyên nhân riêng biệt và sau đó đặt lại các hạn chế người dùng sau khi có báo cáo phân tích (postmortem) .
Với các doanh nghiệp đang dựa vào Claude như một phần cốt lõi trong sản phẩm của họ, sự cố của Notion ngày 7 tháng 6 mang đến một bài học rất rõ ràng: sự phụ thuộc vào mô hình AI của bên thứ ba giờ đây là rủi ro hạ tầng, và cần phải được thiết kế để đối phó.
Một hệ thống sản phẩm gọi đến một mô hình Anthropic duy nhất cần ba khả năng riêng biệt: chiến lược thử lại cho các lỗi 5xx hoặc 529 tạm thời, một mô hình dự phòng để hấp thụ sự gián đoạn dịch vụ, và một kế hoạch di chuyển cho các suy thoái chất lượng dài hạn hoặc việc ngừng hỗ trợ mô hình. Chỉ dựa vào bất kỳ chiến lược đơn lẻ nào trong số đó là không đủ .
Việc Notion tự động vô hiệu hóa tất cả các mô hình Anthropic và chuyển hướng liền mạch sang các nhà cung cấp thay thế chính xác là hình mẫu mà ngày càng nhiều bên tích hợp cần áp dụng. Nếu không có cơ chế dự phòng đa mô hình, ngay cả một khoảng thời gian suy giảm hiệu suất 50 phút cũng có thể gây ra lỗi dây chuyền cho người dùng cuối trên các chatbot hỗ trợ, đường ống dữ liệu và công cụ dành cho nhà phát triển .
Số liệu uptime trong 90 ngày của chính Anthropic cho thấy 98,8% cho claude.ai và 99,15% cho Claude API . Mặc dù những con số này có vẻ hợp lý về mặt tuyệt đối, chúng phản ánh một nền tảng mà nhiều doanh nghiệp hiện coi là hạ tầng cấp 1 (tier-1). Sự tập trung dày đặc các sự cố vào đầu tháng 6 năm 2026 — một vụ gián đoạn toàn cầu sáu giờ, một vụ gián đoạn ba giờ kèm điều tra rò rỉ dữ liệu, và nhiều gián đoạn nhỏ hơn — cho thấy tiêu chuẩn về khả năng phục hồi cho các phụ thuộc AI cần được đặt cao hơn so với các dịch vụ SaaS truyền thống.
Quyết định gỡ bỏ tất cả các mô hình Anthropic của Notion vào ngày 7 tháng 6 là một phản ứng vận hành thông thường trước một sự cố hạ tầng tạm thời. Nhưng trong bối cảnh sáu sự cố đáng chú ý của Claude trong vòng khoảng sáu tuần, đó còn là một tín hiệu rõ ràng: thời kỳ "trăng mật" coi AI tạo sinh như một thử nghiệm thú vị đã kết thúc.
Đối với bất kỳ đội ngũ nào đang xây dựng trên nền tảng Claude — hay bất kỳ mô hình AI bên thứ ba nào — kỹ thuật đảm bảo độ tin cậy không còn là tùy chọn. Logic thử lại, nhà cung cấp dự phòng và lộ trình di chuyển mô hình đã được kiểm thử giờ là điều kiện tiên quyết để giữ cho sản phẩm của bạn tồn tại khi nền tảng bên dưới bắt đầu rung chuyển.
Comments
0 comments