雲端服務AWS斷線15時衝擊全球企業 亞馬遜:已全面恢復

全球雲端龍頭AWS發生大規模服務中斷,導致數千個網站與應用程式癱瘓。圖/翻攝自CBC News: The National YouTube頻道
全球雲端龍頭AWS發生大規模服務中斷,導致數千個網站與應用程式癱瘓。圖/翻攝自CBC News: The National YouTube頻道

全球雲端龍頭「亞馬遜雲端運算服務平台」(Amazon Web Services,AWS)20日發生大規模服務中斷,導致數千個網站與應用程式癱瘓,全球數以萬計用戶受影響。事故歷時約15小時後,亞馬遜公司(Amazon.com)表示,服務已全面恢復。這起事故凸顯全球數位基礎設施的高度依賴與脆弱性。

路透報導,亞馬遜指出,部分AWS服務仍有「訊息積壓」(message backlog),需數小時處理完畢。AWS為全球企業提供應用託管與運算服務,此次中斷讓從倫敦到東京的工作人員被迫離線,無法進行支付、預訂航班等日常作業。當天下午,部分使用者仍回報,使用行動支付服務Venmo與視訊平台Zoom時持續出現問題。

這是自去年資安公司CrowdStrike系統故障導致醫院、銀行與機場科技系統癱瘓以來,規模最大的全球網路中斷事件,凸顯全球科技基礎設施的相互依存與脆弱性。這也是AWS位於美國北維吉尼亞州的美東雲端區域(us-east-1)5年內第三度引發大規模網路癱瘓。

亞馬遜未回應該資料中心為何屢次出包。此次事故主因是「網域名稱系統」(Domain Name System,DNS)異常,導致應用程式無法正確連接至AWS的DynamoDB資料庫介面,該資料庫負責儲存使用者資料及其他關鍵資訊。

AWS稍早表示,當機的主因是「負載平衡器」(load balancer)的網路監控系統出問題。這套系統原本負責偵測伺服器狀況,並在多台伺服器之間自動分配流量,確保整體運作穩定。此次異常發生在AWS內部的「EC2」網路(Elastic Compute Cloud)中,這是AWS用來提供客戶隨需運算能力的主要雲端平台。

亞馬遜於太平洋時間下午3時(格林威治時間22時)宣布:「所有AWS服務已恢復正常,不過旗下部分服務,如雲端設定管理系統Config、資料倉儲Redshift與客服平台Connect,仍有待處理的訊息,預計需數小時才能完全恢復。」

專家:大型企業過度依賴單一雲端供應商

康乃爾大學電腦科學教授伯曼(Ken Birman)指出,開發者應加強系統的容錯設計。他說,AWS已提供防範單一資料中心故障的工具,企業若為省成本而忽略備援,出現問題時應檢討自身設計,而非只責怪雲端供應商。

AWS是全球最大雲端供應商,提供運算能力、資料儲存與數位服務,客戶涵蓋企業、政府與個人。其主要競爭對手包括微軟的Azure與Alphabet旗下的Google Cloud。伺服器一旦故障,便會波及從外送平台、遊戲伺服器到航空訂位系統等大量依賴雲端的應用。

AWS在狀態頁面上表示,20日的當機確實源自其位於維吉尼亞州阿什本的美東雲端區域資料中心,該地為AWS最早、規模最大的節點,過去於2020年與2021年也曾發生類似事故。根據AWS官網文件,美東雲端區域亦是許多AWS服務的預設地區。

歐洲資安公司ESET顧問摩爾(Jake Moore)表示,這起事件再次凸顯全球對脆弱基礎設施的依賴。英國多家銀行、電信業者及政府網站均受影響。薩里大學(University of Surrey)學者薩斯特里(Nishanth Sastry)指出,大型企業過度依賴單一雲端供應商,是問題根源。

監測網站Downdetector母公司Ookla指出,超過400萬名用戶回報受影響。資安保險顧問公司McGill and Partners的美國資安業務主管葛里芬(Ryan Griffin)說:「對大型企業而言,雲端停擺數小時就等同於數百萬美元的生產力與營收損失。」

Ookla統計顯示,至少上千家公司受波及,包括知名線上設計平台Canva、社群平台Reddit、通訊App Snapchat、線上遊戲Roblox與語言學習程式Duolingo。人工智慧(AI)新創公司Perplexity、加密貨幣交易所Coinbase與線上經紀商Robinhood也發生中斷,均歸因於AWS。亞馬遜旗下的購物網站、Prime Video與語音助理Alexa同樣受影響,線上遊戲《要塞英雄》(Fortnite)及共乘平台Lyft等服務也一度停擺。

通訊軟體Signal總裁惠特克(Meredith Whittaker)在社群平台X上證實應用受影響,但平台擁有者馬斯克(Elon Musk)表示X運作正常。

延伸閱讀

熱門文章

分享