ข้อมูลด้านเทคนิค (Telemetry) ของไมโครซอฟท์ตรวจพบอัตราความผิดพลาดที่พุ่งสูงขึ้นอย่างรวดเร็วในกลุ่มแอป Office บนเว็บ และวิศวกรก็เริ่มทำงานเพื่อหาความเชื่อมโยงของรูปแบบความผิดพลาดที่เกิดขึ้นกับการพึ่งพาระบบต่างๆ (service dependencies) เพื่อระบุจุดที่ต้องแก้ไข เหตุการณ์นี้ได้รับการแก้ไขในเวลาประมาณ 12:48 UTC ของวันที่ 2 มิถุนายน
แม้เราจะยังไม่ทราบสาเหตุทางวิศวกรรมที่แน่ชัด เพราะไมโครซอฟท์ยังไม่ออกรายงาน RCA แต่การระบุว่าเป็น "ปัญหาข้ามบริการ" นั้น ชี้ให้เห็นความเป็นไปได้สูงว่าระบบหลังบ้านที่หลายบริการใช้ร่วมกัน เช่น ระบบจัดเก็บข้อมูล, ระบบยืนยันตัวตน หรือระบบจัดการเซสชัน ที่ทั้ง Teams และ Office Web Apps ต้องพึ่งพา เกิดล้มเหลว และส่งผลกระทบเป็นลูกโซ่มาจนถึงผู้ใช้
ในห้วงเวลาใกล้เคียงกัน อีกหนึ่งเหตุการณ์สำคัญก็กำลังดำเนินไป ผู้ใช้ที่ต้องการตั้งค่าการยืนยันตัวตนแบบหลายปัจจัย (MFA) สำหรับบัญชีใหม่ หรือจัดการวิธีการที่มีอยู่ เมื่อเข้าเว็บไซต์ My Sign-Ins (mysignins.microsoft.com) กลับพบข้อผิดพลาด 504 Gateway Timeout ซึ่งทำให้ขั้นตอนการตั้งค่าถูกบล็อกโดยสมบูรณ์ เหตุการณ์นี้กินเวลาประมาณ 3 ชั่วโมงในวันที่ 1 มิถุนายน
วิธีการแก้ไขของไมโครซอฟท์ในครั้งนี้คือการเปลี่ยนเส้นทางการทำงานไปยังโครงสร้างพื้นฐานสำรองที่ยังมีสถานะปกติ (failover) เพื่อกู้คืนบริการ การเกิด Error 504 และความจำเป็นที่ต้องใช้วิธี Failover นี้ บ่งชี้ว่าต้นเหตุมาจากความล้มเหลวของบริการหลังบ้านหรือระบบจัดการโหลด (Load Balancer) ที่ทำหน้าที่อยู่หน้าพอร์ทัลการยืนยันตัวตน
น่าสนใจว่านี่ไม่ใช่ครั้งแรกที่ MFA มีปัญหาในปี 2026 เพราะเมื่อเดือนกุมภาพันธ์ที่ผ่านมา ก็มีเหตุการณ์ MO1237461 ซึ่งทำให้เกิด Error 504 ในลักษณะคล้ายกันสำหรับการลงชื่อเข้าใช้ที่ต้องใช้ MFA และภายหลังพบว่ามีสาเหตุมาจาก Duo ผู้ให้บริการ MFA ที่เป็นบุคคลที่สาม ซึ่งเป็นฝ่ายแก้ไขข้อบกพร่องในระบบของตน อย่างไรก็ตาม สำหรับเหตุการณ์ MO1329260 นี้ ไมโครซอฟท์ยังไม่ได้เปิดเผยว่าเกี่ยวข้องกับระบบของบุคคลที่สามในลักษณะเดียวกัน หรือเป็นความบกพร่องของบริการ Entra ID ของไมโครซอฟท์เอง
สองเหตุการณ์ในเดือนมิถุนายนไม่ใช่เรื่องบังเอิญ แต่คือข้อมูลจุดล่าสุดที่ตอกย้ำแนวโน้มการเกิดเหตุขัดข้องครั้งใหญ่ที่มีความถี่สูงผิดปกติบนคลาวด์ของไมโครซอฟท์ โดยในครึ่งแรกของปี 2026 เพียงปีเดียว มีการบันทึกเหตุการณ์สำคัญรวมแล้วถึง 5 ครั้ง
จากเหตุการณ์ที่เกิดขึ้นซ้ำแล้วซ้ำเล่า เรามองเห็นประเด็นปัญหาที่ไม่สบายใจนัก:
ข้อควรระวังที่สำคัญที่สุดสำหรับเหตุการณ์ในเดือนมิถุนายนทั้งสองคือ การขาดรายงานวิเคราะห์สาเหตุเชิงลึก (RCA) อย่างเป็นทางการ การวิเคราะห์ทั้งหมดข้างต้นจึงตั้งอยู่บนพื้นฐานของข้อความอัปเดตสถานะแบบเรียลไทม์, การอัปเดตในศูนย์จัดการระบบ (Admin Center) และการติดตามเหตุการณ์ของบุคคลภายนอก จนกว่าไมโครซอฟท์จะเผยแพร่รายงานทางวิศวกรรมโดยละเอียด เราก็ยังไม่สามารถระบุได้ว่าทั้งสองเหตุการณ์นี้มีปัจจัยกระตุ้นพื้นฐานร่วมกันหรือไม่ เช่น การเปลี่ยนแปลงบางอย่างในโครงสร้างพื้นฐานที่ทำให้สองบริการแยกจากกันมีปัญหาในเวลาเดียวกัน หรือเป็นเพียงเรื่องบังเอิญที่โชคร้าย แต่สิ่งที่ชัดเจนแล้วในตอนนี้คือ ทั้งสองเหตุการณ์คือส่วนหนึ่งของแนวโน้มในปี 2026 ที่กว้างกว่าและชวนกังวลอย่างยิ่ง ซึ่งทำให้วงการไอทีระดับองค์กรต้องจับตาอย่างไม่วางตา
Comments
0 comments