故障的规模提供了最有力的线索。六个架构上相互独立的服务——涵盖推理、图像和视频生成、代码执行及身份管理——在同一时刻全部瘫痪,这强烈暗示着某个基础的共享层出现了故障。分析人士指出,潜在问题可能出在核心API网关、编排主干或中央身份验证提供商,而非单一的模型问题 。然而,在官方确认之前,这仅仅是基于事实的合理推测。
此次宕机引发了大量的用户报告。在全球范围内,Downdetector收到了超过5,000份故障投诉,其中超过4,300份来自美国 。所有平台(网页浏览器、移动应用和桌面端)的用户都报告称被完全锁死在服务之外
。
印度是受影响最严重的地区之一。该国拥有全球最大的ChatGPT用户群之一,来自该国的故障报告量相当大 。虽然截至发稿时,没有本次事件中印度地区的精确独立数据,但历史模式表明,OpenAI的重大中断通常会在印度产生500到超过900份的用户投诉,而本次事件被描述为“一次波及全球,包括印度在内的大规模中断”
。
除了消费者层面的影响,宕机也让企业API客户陷入了无助的境地。那些在OpenAI基础设施上运行生产工作负载的开发者,没有从公司获得任何官方的根本原因、影响评估或预计恢复时间 。由于OpenAI至今仍未提供公开的SLA(服务等级协议,一种正式的正常运行时间保证),企业风险管理人员不得不在缺乏故障分析的情况下,做出基础设施决策,而他们本需要这些分析来评估问题再次发生的概率
。
5月29日的事件并非孤立发生。它是2026年以来一系列考验用户和企业信心的宕机事件中的最新一起:
这种反复出现的问题,已经形成了可量化的可靠性差距。一份涵盖2025年底至2026年初的北欧API可靠性报告将AI和机器学习API列为所有类别中正常运行时间最差的。OpenAI仅在2026年1月(28天)内就记录了11次独立事故——大约每2.5天发生一次 。在过去12个月中,OpenAI和Anthropic都难以维持99%的可用性,这一标准仍意味着每年有超过三天半的宕机时间,相比之下,主流云服务商的平均正常运行时间约为99.97%
。
对于OpenAI而言,可靠性问题在最不该激化的时候变得严峻起来。公司近期未能达到新增用户和营收的内部目标,预计到今年年底亏损将高达170亿美元 。尽管其消费者用户群远超竞争对手Anthropic,但截至2026年4月,Anthropic约300亿美元的年化收入已经超过了OpenAI截至2026年2月的约250亿美元
。谷歌的Gemini也在企业级市场攻城略地,进一步收紧了竞争包围圈
。
Anthropic自身也面临着严重的可靠性问题,包括2026年4月Claude长达十小时的宕机以及几天后再次发生的事故 。但OpenAI在5月29日的故障更为全面——是所有服务的同时崩溃——而且,该公司长期缺乏公开SLA的状态,越来越被规避风险的企业买家视为一个关键的区别因素,但这并非什么好事
。行业分析报告如今积极建议,2026年在采购上应采取防御姿态,即使用多有供应商路由并配备记录在案的故障转移方案,而不是依赖任何单一的AI API提供商
。
继5月29日宕机事件后,几个重大问题仍然悬而未决:
在OpenAI发布详细分析之前,5月29日的宕机事件将始终是一个警示信号,提醒着所有将关键工作流构建在该公司基础设施上的组织。
Comments
0 comments