近日,互联网行业遭遇重大挑战,谷歌云、AWS 和 Cloudflare 这三家管理着近 90% 互联网活动和应用程序的公司,几乎同时出现服务中断问题,引发了广泛关注。
此次故障并非局限于美国本土,谷歌云明确表示这是一个全球性问题。谷歌方面指出,由于身份和访问管理服务(IAM)出现问题,导致 GCP(谷歌云平台)的多个产品受到影响,其中包括 Gmail、Google Calendar、Google Chat、Google Cloud Search、Google Docs、Google Drive、Google Meet、Google Tasks 以及 Google Voice 等常用服务。此外,多个 Workspace 产品也未能幸免。
值得注意的是,这似乎并非互联网本身的故障。目前尚未有关于域名系统(DNS)或边界网关协议(BGP)故障的报告,互联网流量通行基本正常。
美国东部时间下午 3 点 41 分,谷歌在谷歌云状态页面发布消息称,其工程师已确定了问题的根本原因,但问题尚未得到完全解决。谷歌表示:“虽然我们的工程师已确认,除 us – central1 之外的所有地方的底层依赖关系均已恢复,但我们注意到,由于个别谷歌云产品,客户仍在受到不同程度的影响。所有相关工程团队都积极投入其中,竭力恢复服务。我们目前尚无法确定预计何时会全面恢复服务。”
与此同时,AWS 健康状况仪表板并未显示任何异常,然而大量用户却报告 AWS 存在问题,且这些故障大多集中在美国东部地区。不过,AWS 回应称:“目前,AWS 没有出现广泛的服务问题。我们的服务运行正常。互联网上唯一能够提供有关我们服务可用性的准确数据的资源是 AWS 健康状况仪表板。”
Cloudflare 在一份声明中表示,其许多服务遭遇了间歇性故障,但目前正在逐步恢复。受影响的 Cloudflare 服务包括 Access、WARP、Durable Objects(仅限 SQLite – backed Durable Objects)、Workers KV、Realtime、Workers AI、Stream、Waiting Room、Cloudflare 仪表板的部分、AI Gateway 以及 AutoRAG。Cloudflare 还提到:“由于重试系统处理和填满缓存,我们预计受影响的服务仍会出现间歇性错误。我们在继续调查此事,并在评估每个服务受到的影响,届时会发布最新消息。”
到了美国东部时间下午 5 点,谷歌方面传来积极进展。谷歌云表示:“我们已在 us – central1 和美国多个地区针对该问题实施了缓解措施,并看到了恢复的迹象。我们已收到来自内部监控和客户的确认,表明谷歌云产品在多个地区也正在恢复,在 us – central1 和美国多个地区也出现了一些恢复的迹象。” 此外,谷歌云预计恢复将在一小时内完成。
此次三大互联网巨头同时出现服务问题,给众多依赖其服务的企业和用户带来了极大不便,后续的恢复进展以及对互联网行业的潜在影响,仍有待进一步观察。