Notion의 제품 총괄인 Max Schoening은 장애 시작 약 12시간 후 Anthropic 모델에 대한 접근이 복구되었다고 확인했습니다. 그는 이번 사건을 일시적인 서비스 중단이라는 일반적인 수준으로 묘사하며, Notion 자체는 물론 GitHub, AWS 등 모든 주요 플랫폼에서 일어날 수 있는 일이라고 언급했습니다.
Notion은 재라우팅된 트래픽을 어떤 대체 AI 제공업체가 처리했는지 공개적으로 자세히 밝히지 않았지만, 회사의 행동은 분명했습니다. Anthropic의 Opus 모델이 성능 저하된 결과를 반환하기 시작하는 순간, Notion의 시스템은 사용자 대상 모델 선택기에서 모든 Anthropic 모델을 자동으로 제거하고 요청을 다른 곳으로 우회시킨 것입니다.
이는 멀티 모델 장애 극복 아키텍처가 실제로 작동하는 구체적인 예입니다. Notion은 Anthropic이 복구될 때까지 사용자 대상 장애가 연쇄적으로 발생하도록 내버려두지 않고, AI 모델 계층을 마치 장애가 발생한 데이터베이스나 응답하지 않는 CDN처럼 교체 가능한 구성 요소로 취급했습니다.
6월 7일 장애는 단독으로 보면 사소했지만, Claude 플랫폼의 신뢰성에 대한 신뢰를 흔들어 놓은 장애 집중 시기 한가운데 발생했습니다.
가장 큰 장애는 6월 2일에 발생했습니다. Claude.ai, API, Claude Console, Claude Code에 영향을 미친 대규모 중단이었습니다. Opus 4.6 및 기타 모델에서 높은 오류율이 보고되었고, Downdetector 사용자 보고는 동부 표준시 02:10 / GMT 07:10 경 급증했습니다. 서비스가 완전히 복구되기까지 총 중단 시간은 거의 6시간에 달했습니다.
불과 3일 후인 6월 5일, Anthropic의 Claude 플랫폼이 다시 오프라인 상태가 되었습니다. 상태 페이지에는 UTC 15:08부터 UTC 18:28까지 "여러 Claude 모델에서 높은 오류 발생"으로 기록되었으며, Opus 4.7과 4.8이 가장 늦게 복구되었습니다. 이 사건은 사용자들이 중단 이후 다른 세션의 것으로 보이는 응답을 받았다고 보고하면서 더 심각한 국면으로 접어들었고, Anthropic은 잠재적 데이터 유출에 대한 공식 조사에 착수했습니다.
6월 6일에는 claude.ai, 콘솔, API에 영향을 미친 짧은 장애가 발생했습니다. Opus 4.8이 약 50분간 성능 저하를 겪었고, 수정 사항이 구현되어 모니터링되었습니다.
이 최근 집중 장애는 갑자기 나타난 것이 아닙니다. Opus 4.7은 5월 22일과 5월 25일에 이미 높은 오류 발생 기간을 기록했으며, 4월 16일 출시 일주일 후부터 개발자들에 의해 품질 저하가 기록되었습니다. 이는 3월에 Opus 4.6이 겪었던 문제와 동일한 패턴이었습니다.
2026년 4월, Anthropic은 Claude Code, Claude Agent SDK, Claude Cowork에서 2026년 3월 4일부터 4월 20일 사이에 발생한 품질 저하를 공개적으로 인정했습니다. 이는 세 가지 원인에 기인한 것으로, 사후 분석 이후 사용자 제한을 재설정했습니다.
제품의 핵심으로 Claude에 의존하는 비즈니스들에게 6월 7일 Notion 사건은 간단한 교훈을 줍니다: 타사 AI 모델 의존성은 이제 인프라 위험 요소이며, 이에 대비한 엔지니어링이 필요하다는 것입니다.
단일 Anthropic 모델을 호출하는 프로덕션 시스템에는 세 가지 기능이 필요합니다. 일시적인 5xx 또는 529 오류를 위한 재시도 전략, 서비스 중단을 흡수할 대체 모델, 그리고 장기적인 품질 저하나 모델 지원 중단을 위한 마이그레이션 계획입니다. 이 전략들 중 하나에만 의존하는 것은 불충분합니다.
Notion이 모든 Anthropic 모델을 자동으로 비활성화하고 대체 제공업체로 서비스 전환을 매끄럽게 한 것은 더 많은 다운스트림 통합업체가 채택해야 할 패턴입니다. 멀티 모델 장애 극복이 없다면, 50분짜리 성능 저하 기간조차 지원 봇, 데이터 파이프라인, 개발자 생산성 도구 전체에 걸쳐 고객 대상 장애로 확대될 수 있습니다.
Anthropic의 자체 90일 가동 시간 수치는 claude.ai 98.8%, Claude API 99.15%를 보여줍니다. 이 수치 자체는 합리적으로 보이지만, 이는 많은 비즈니스가 이제 Tier-1 인프라로 취급하는 플랫폼을 반영합니다. 2026년 6월 초에 장애가 집중된 것은(6시간 글로벌 중단, 데이터 유출 조사를 촉발한 3시간 중단, 여러 소규모 중단) AI 의존성의 복원력 기준을 전통적인 SaaS 서비스보다 더 높게 설정해야 함을 시사합니다.
Notion이 6월 7일 모든 Anthropic 모델을 제거하기로 한 결정은 일시적인 인프라 문제에 대한 일상적인 운영 대응이었습니다. 하지만 약 6주 동안 6차례의 주목할 만한 Claude 장애가 발생한 맥락에서, 이 결정은 생성형 AI를 신나는 실험으로 취급하는 유예 기간이 끝났다는 분명한 신호이기도 합니다.
Claude 또는 모든 타사 AI 모델 위에 구축하는 팀에게 신뢰성 엔지니어링은 더 이상 선택 사항이 아닙니다. 재시도 로직, 대체 제공업체, 그리고 검증된 모델 마이그레이션 경로는 기반이 흔들리기 시작할 때 제품을 살려둘 수 있는 새로운 기본 조건이 되었습니다.
Comments
0 comments