최근 보도 시점까지 오픈AI는 이번 장애에 대한 사후 분석 보고서나 상세한 근본 원인 분석을 전혀 공개하지 않았다 . 회사는 자체 상태 페이지를 통해 장애 사실만 인지했을 뿐, 복구 일정이나 기술적 설명은 제공하지 않았다
.
장애 규모가 가장 큰 단서다. 텍스트 추론, 이미지·비디오 생성, 코드 실행, 인증 관리 등 구조적으로 완전히 다른 6개의 서비스가 동시에 먹통이 됐다는 것은, 고립된 모델 문제가 아니라 핵심 API 게이트웨이, 오케스트레이션 백본, 또는 중앙 인증 시스템 같은 근본적인 공유 계층에서 문제가 발생했을 가능성을 강하게 시사한다 . 그러나 공식 확인이 없기에 이는 추측에 불과하다.
장애 보고가 쇄도했다. 전 세계적으로 장애 감지 플랫폼 '다운디텍터(Downdetector)'에 5,000건 이상의 신고가 접수되었으며, 이 중 4,300건 이상이 미국에서 발생했다 . 웹 브라우저, 모바일 앱, 데스크톱 등 모든 플랫폼의 사용자들이 완전히 접근이 차단되었다고 보고했다
.
인도 역시 가장 큰 피해를 본 지역 중 하나다. 세계 최대 규모의 챗GPT 사용자 기반을 보유한 인도에서도 상당한 장애 신고가 접수되었다 . 이 특정 날짜에 대한 독립적인 인도 다운디텍터 수치는 보도 시점에 공개되지 않았으나, 과거 사례를 보면 주요 장애 시 인도에서만 500~900건 이상의 신고가 일상적으로 발생하며, 이번 사건 역시 "인도를 포함한 전 세계적인 대규모 장애"로 특징지어졌다
.
소비자 impact를 넘어, 이번 장애는 API를 사용하는 기업 고객들을 깜깜이 속에 방치했다. 오픈AI 인프라 위에서 프로덕션 워크로드를 가동하던 개발자들은 회사로부터 공식적인 원인, 영향 평가, 복구 예상 시간을 전혀 받지 못했다 . 오픈AI는 공식 서비스 수준 협약(SLA)을 제공하지 않고 있기에, 기업 리스크 관리 담당자는 재발 가능성을 평가하는 데 필요한 핵심 분석 없이 인프라 결정을 내려야 하는 상황에 놓였다
.
5월 29일 사고는 고립된 사건이 아니다. 이는 2026년 들어 사용자와 기업의 신뢰를 시험한 일련의 장애 중 가장 최근 사례다.
이러한 패턴은 측정 가능한 수준의 신뢰성 격차로 이어졌다. 2025년 말부터 2026년 초까지를 다룬 노르딕 API 신뢰성 보고서는 AI 및 ML API를 모든 카테고리 중 최하위로 평가했으며, 오픈AI는 2026년 1월 한 달 동안 11건의 장애를 기록했다—이는 약 2.5일에 한 번꼴이다 . 지난 12개월 동안 오픈AI와 앤트로픽 모두 99%의 가용성을 유지하는 데 어려움을 겪었다. 이는 연간 3일 반 이상의 다운타임을 의미하며, 주요 클라우드 공급자의 평균 99.97% 가동 시간과 대조된다
.
오픈AI에게 신뢰성 문제는 가장 좋지 않은 시점에 불거지고 있다. 회사는 최근 신규 사용자 및 매출 목표를 스스로 밑돌았으며, 손실은 연말까지 170억 달러에 이를 것으로 예상된다 . 2026년 4월 기준 앤트로픽의 연매출은 약 300억 달러로, 2026년 2월 기준 약 250억 달러인 오픈AI를 넘어섰다(오픈AI의 소비자 사용자 기반은 약 20배 크다)
. 구글의 제미나이 또한 기업 시장에서 영향력을 확대하며 오픈AI를 압박하고 있다
.
앤트로픽 또한 2026년 4월 10시간짜리 클로드 장애를 포함해 심각한 신뢰성 문제를 겪었다 . 그러나 5월 29일 오픈AI의 장애는 모든 서비스가 동시에 멈춘, 보다 전면적인 붕괴였으며, 여전히 공식 SLA가 부재하다는 점은 리스크 회피 성향의 기업 구매자들에게 결정적인 차별점으로 점점 더 지적되고 있다
. 업계 분석은 이제 2026년의 조달 방어 태세로 단일 AI API 공급자에 의존하기보다, 문서화된 장애 극복 체계를 갖춘 다중 공급자 라우팅을 적극 권장하고 있다
.
5월 29일 장애 이후 다음과 같은 주요 질문들이 해결되지 않은 채 남아 있다.
오픈AI가 상세 분석을 공개할 때까지, 5월 29일의 장애는 회사 인프라에 중요한 워크플로를 구축하는 모든 조직에게 하나의 경고로 남을 것이다.
Comments
0 comments