การตัดสินใจที่บั่นทอนความน่าเชื่อถือของ Azure – บันทึกจากอดีตวิศวกร Azure Core
(isolveproblems.substack.com)- อดีตวิศวกรอธิบายอย่างละเอียดถึงกระบวนการที่ การตัดสินใจภายใน Microsoft Azure Core ที่ไม่สอดคล้องกับความเป็นจริง สะสมจนกลายเป็นความสับสนทางเทคนิคและการพังทลายของความเชื่อมั่น
- ปัญหาตัวอย่างที่ถูกชี้ชัดคือ แผนพอร์ตฟีเจอร์ของ Windows ที่มองข้ามข้อจำกัดของฮาร์ดแวร์ และการมีอยู่ของ เอเจนต์จัดการ 173 ตัวอย่างไร้ระเบียบ
- โครงสร้างที่ซับซ้อนเช่นนี้กำลังรองรับ เวิร์กโหลดสำคัญอย่าง OpenAI, Anthropic และคลาวด์ภาครัฐ ทำให้ความผิดพลาดเพียงจุดเดียวมีความเสี่ยงลุกลามเป็นเหตุขัดข้องระดับโลก
- ท่ามกลางการไม่ตอบสนองจากผู้บริหาร ยังเกิดเหตุสืบเนื่อง เช่น ความสัมพันธ์กับ OpenAI ที่แย่ลง, การสูญเสียความเชื่อมั่นจากรัฐบาลสหรัฐฯ และ ความล่าช้าในการเปิดตัวฟีเจอร์
- ท้ายที่สุด เรื่องนี้ถูกมองว่านำไปสู่ การหายไปของมูลค่าตลาดระดับ 1 ล้านล้านดอลลาร์ พร้อมตอกย้ำ ความสำคัญของการรับรู้ข้อเท็จจริงทางเทคนิคและการรักษาความเรียบง่าย ในการดำเนินงานโครงสร้างพื้นฐานคลาวด์
บันทึกภายในของการพังทลายแห่งความเชื่อมั่นของ Azure
- บันทึกความทรงจำจากอดีตวิศวกรว่าด้วย กระบวนการตัดสินใจภายในทีม Microsoft Azure Core ที่ไม่สอดคล้องกับความเป็นจริง และความสับสนทั้งด้านเทคนิคและองค์กรที่ตามมา
- ตั้งแต่วันแรกที่เข้าร่วม ทีม Overlake R&D ก็ได้เห็นการหารือเรื่อง แผนพอร์ตฟีเจอร์ของ Windows ไปยังการ์ด Overlake โดยไม่สนข้อจำกัดของฮาร์ดแวร์
- มี เอเจนต์จัดการ 173 ตัว แต่ความซับซ้อนและความไม่โปร่งใสรุนแรงถึงขั้นแทบไม่มีใครรู้ว่ามันทำอะไรและจำเป็นเพราะเหตุใด
- โครงสร้างลักษณะนี้กำลังรองรับ เวิร์กโหลดหลักอย่าง OpenAI, Anthropic และคลาวด์ภาครัฐ จึงมีความเสี่ยงที่ความผิดพลาดเพียงจุดเดียวจะลามเป็นเหตุขัดข้องระดับโลก
- ผู้เขียนระบุว่าเรื่องทั้งหมดนำไปสู่ การสูญเสียความเชื่อมั่นจาก OpenAI, ความไม่ไว้วางใจจากกระทรวงกลาโหมสหรัฐฯ แบบเปิดเผย และการหายไปของมูลค่าตลาด 1 ล้านล้านดอลลาร์
การเข้าร่วม Azure Core และสถานการณ์ช่วงต้น
- วันที่ 1 พฤษภาคม 2023 เข้าร่วมเป็นวิศวกรอาวุโสใน ทีม Overlake R&D ซึ่งรับผิดชอบการ์ด offloading ของ Azure Boost และตัวเร่งความเร็วเครือข่าย
- ก่อนหน้านี้เคยทำงานในทีม Windows และ Core OS โดยมีส่วนร่วมใน การปรับปรุงเคอร์เนลและการพัฒนาแพลตฟอร์มคอนเทนเนอร์ พร้อมมีส่วนสำคัญกับ Docker, AKS, App Services, Windows Sandbox และเทคโนโลยีหลักอื่น ๆ
- เคยมีส่วนร่วมกับการออกแบบการ์ด Overlake ระยะแรก (2020~2021) และมีประสบการณ์เสนอ โปรโตคอลการสื่อสารระหว่าง host OS กับการ์ดตัวเร่งความเร็ว
- กลับมาร่วมงานในฐานะผู้เชี่ยวชาญที่ดูแลและพัฒนาแพลตฟอร์ม Azure โดยตรงมานานกว่า 10 ปี
แผนที่ไม่สอดคล้องกับความเป็นจริงซึ่งพบเห็นตั้งแต่การประชุมครั้งแรก
- ในวันแรกของการเข้าทำงาน ระหว่างการประชุมวางแผนรายเดือนของทีม ได้เห็นแผนที่จะ พอร์ตองค์ประกอบของ Windows ไปยังการ์ด Overlake
- แม้ว่า ความจุ RAM และงบพลังงาน ของการ์ด Overlake จะจำกัดอย่างมาก แต่ทีมก็ยังหารือถึงความพยายามในการย้ายฟังก์ชันของ Windows ลงไป
- นี่เป็นแผนที่เป็นไปไม่ได้ตามสเปกฮาร์ดแวร์ และถึงขั้นมีคำพูดว่า “ลองให้ junior developer ไม่กี่คนทำดู”
- องค์กรกำลังพิจารณาอย่างจริงจังถึงแนวทาง พอร์ต Windows ไปยัง Linux เพื่อคงเอเจนต์จัดการ VM เอาไว้
- ผู้เขียนมองว่านี่คือ “แผนที่ห่างไกลจากความเป็นจริง” และตัดสินว่าองค์กรทั้งองค์กรกำลัง เดินขบวนไปสู่เป้าหมายที่เป็นไปไม่ได้
ข้อจำกัดทางเทคนิคและปัญหาเชิงโครงสร้าง
- ในเวลานั้น สแตกดังกล่าว รองรับได้เพียง VM หลักสิบตัวบน Xeon CPU 400W ซึ่งห่างไกลจากข้อจำกัด 1,024 VM ของไฮเปอร์ไวเซอร์มาก
- มีปัญหาด้านประสิทธิภาพ เช่น การใช้ทรัพยากรมากเกินไปจนเกิด jitter ใน VM ของลูกค้า
- แผนที่จะย้ายสแตกที่ไม่มีประสิทธิภาพนี้ไปยัง ARM SoC ขนาดเล็ก เพื่อขยายระบบนั้นเป็นไปไม่ได้ทางเทคนิค
- ผู้เขียนบอกว่า “แทนที่จะต้องเรียนรู้เทคโนโลยีใหม่ งานที่เร่งด่วนกว่าคือการพาทั้งองค์กรกลับสู่ความจริง”
บทสนทนาภายในเกี่ยวกับ Azure Linux และ Overlake
- จากการสนทนา 90 นาทีกับหัวหน้ากลุ่ม Linux System Group พบว่ามีการระบุ เอเจนต์ 173 ตัวเป็นผู้สมัครสำหรับการพอร์ตไปยังการ์ด Overlake
- เมื่อตรวจสอบแล้ว กลับพบว่าไม่มีใครภายใน Microsoft ที่สามารถอธิบาย บทบาท ปฏิสัมพันธ์ และเหตุผลของการมีอยู่ของเอเจนต์ทั้ง 173 ตัว ได้อย่างชัดเจน
- แกนหลักของ Azure คือ VM, เครือข่าย และสตอเรจ ขณะที่บริการอื่น ๆ ถูกสร้างอยู่บนสิ่งเหล่านี้ แต่ความซับซ้อนที่ไม่จำเป็นกลับสะสมเพิ่มขึ้นเรื่อย ๆ
- ชุดองค์ประกอบที่ควบคุมไม่ได้ นี้กำลังบริหารเวิร์กโหลดสำคัญอย่าง OpenAI, Anthropic และคลาวด์ภาครัฐ
การสูญเสียความเชื่อมั่นและเหตุการณ์ที่ตามมา
- โครงสร้างที่ซับซ้อนนี้อยู่ในสภาพที่อาจก่อให้เกิดความเสี่ยงร้ายแรงต่อ ความมั่นคงของชาติและความต่อเนื่องทางธุรกิจ
- หลังจากนั้น จดหมายที่ส่งถึง CEO, คณะกรรมการบริษัท และ EVP ฝ่าย Cloud+AI ก็ล้วนจบลงโดยไม่ได้รับการตอบกลับ
- ผลที่ตามมาคือ ความสัมพันธ์กับ OpenAI ที่แย่ลง, การพังทลายของความเชื่อมั่นจากรัฐบาลสหรัฐฯ (รวมถึงคำกล่าวต่อสาธารณะของรัฐมนตรีกลาโหม), การสูญเปล่าทางวิศวกรรมและคำสั่งให้เปลี่ยนไปใช้ Rust, รวมถึง ความล่าช้าในการเปิดตัวฟีเจอร์
- ผู้เขียนเรียกสิ่งนี้ว่า “เหตุการณ์ที่ทำให้มูลค่าตลาดหายไป 1 ล้านล้านดอลลาร์” และเตือนบริษัทที่ใช้งาน Azure ถึง ความเสี่ยงของการพึ่งพาใช้งานใน production environment
บทสรุป
- เรื่องราวนี้เผยให้เห็นกระบวนการที่ ความซับซ้อนทางเทคนิค การบริหารจัดการที่ล้มเหลว และการตัดสินใจที่ไม่สอดคล้องกับความเป็นจริง ภายใน Azure สะสมจนสูญเสียความเชื่อมั่น
- เป็นกรณีตัวอย่างขององค์กรที่รับผิดชอบโครงสร้างพื้นฐานหลัก แต่ สูญเสียสัมผัสต่อความเป็นจริงและเดินหน้าต่อไปสู่ความล้มเหลวเชิงโครงสร้าง
- เน้นย้ำถึงความสำคัญของเสถียรภาพและความเรียบง่ายของโครงสร้างพื้นฐานคลาวด์ รวมถึง การคงไว้ซึ่งวิจารณญาณทางเทคนิคภายในองค์กร
1 ความคิดเห็น
ความเห็นจาก Hacker News
ในฐานะคนที่ใช้ Azure ทุกวัน ถ้าการเปิดโปงครั้งนี้เป็นเรื่องจริง ก็รู้สึกว่าหลายอย่างมันอธิบายได้จริงๆ
UI ดูลวกๆ เอกสารก็ไม่แม่นเหมือน AI เขียน และบริการก็มีเยอะเกินไปจนไม่รู้ด้วยซ้ำว่าควรใช้อันไหน
ตั้งค่าเองได้ยากถ้าไม่มีคอนซัลแทนต์ช่วย และต่อให้ตั้งค่าเสร็จก็ยังไม่มั่นใจว่ามันทำงานถูกต้องหรือเปล่า
พูดตรงๆ แปลกใจที่ของแบบนี้ยังรันอยู่ได้
หลังจากนั้นก็ไม่เชื่อเอกสารอีกเลย
บริการที่เคยรันนิ่งบน GCP ได้เสถียร กลายเป็นระบบที่คาดเดาไม่ได้
เคยเห็น Azure OpenAI รั่วคำตอบจากพรอมป์ต์ของลูกค้ารายอื่น ตอนที่มีโหลดสูง
มีทวีตที่เกี่ยวข้องด้วย
แต่ดูเหมือนไม่มีใครสนใจเท่าไร
สถานการณ์มันเหมือน แดนเถื่อน มาก
ประหลาดใจที่ข้อกล่าวหาในบทความนี้เฉพาะเจาะจงมาก
เลยสงสัยว่าเป็นผู้เปิดโปงภายในจริงๆ หรือแค่อดีตพนักงานที่ไม่พอใจ
ส่วนที่บอกว่ารายงานตรงถึง CEO และบอร์ดนั้นสะดุดตามากเป็นพิเศษ
ในวัฒนธรรมองค์กรอเมริกัน การทำตามขั้นตอนแบบนี้เป็นเรื่อง**“ตามธรรมเนียม”** ก็ดูแปลกดี
อยากรู้ว่าจริงๆ แล้ว Azure ไม่เสถียรขนาดนั้นไหม จากประสบการณ์ของผู้ใช้จริง
Azure ไม่รู้ด้วยซ้ำว่ามีปัญหา ไม่รู้สาเหตุ และดูเหมือนจะไม่สนใจด้วยซ้ำ
ทั้งทีมเกลียด Azure
เลยดีใจที่ตอนนี้ใช้โมเดล OpenAI ผ่าน AWS Bedrock ได้ จะได้เลี่ยง Azure
ความน่าเชื่อถือยังเป็นปัญหาร้ายแรงอยู่เหมือนเดิม
กลยุทธ์แบบ “ปล่อยให้เร็วแล้วค่อยกลับมาแก้” สุดท้ายก็นำไปสู่ผลลัพธ์แบบนี้
ตั้งแต่นั้นมาก็ไม่ไว้ใจอีกเลย
ตัวบทความดู ใช้อารมณ์เกินจริง ไปหน่อย เลยทำให้เจตนาเดิมพร่ามัว
ระบบระดับตำแหน่งภายในของ Azure หรือปัญหาระดับ Sev2 ก็ไม่ได้พิเศษอะไรนัก
Azure มีปัญหาจริง แต่ด้วยขนาดของมัน การมีจุดหยาบๆ ก็เป็นเรื่องธรรมดา
ความเป็นผู้ใหญ่ที่แท้จริงน่าจะอยู่ที่ท่าทีในการพยายามปรับปรุงจากภายในระบบ
Azure อาจเละจริง แต่แนวทางของผู้เขียนก็อาจมีปัญหาเหมือนกัน
ภาพจำที่มีต่อ Azure จึงเป็นลบทั้งหมด
วิธีเข้าหาของผู้เขียนกลับยิ่งทำให้ความน่าเชื่อถือลดลง
ความถี่ที่พนักงานใหม่พูดว่า “wtf/day” ดูเหมือนจะเป็นตัวชี้วัดสุขภาพองค์กรอย่างหนึ่ง
ต่อให้มองจากข้างนอก Azure ก็เห็นชัดว่า คุณภาพต่ำมาก
เพราะรีบยัดฟีเจอร์เพื่อไล่ตาม AWS เลยจมอยู่ใน บึงหนี้ทางเทคนิค ขนาดใหญ่
แม้แต่ฟังก์ชันพื้นฐานอย่าง IPv6, azcopy, การอัปเกรด VM ก็ยังไม่เสถียรอยู่ดี
อดีตเพื่อนร่วมงานคนหนึ่งใช้ Azure ทุกวัน และทุกครั้งที่ได้ยินพวกเขา ระเบิดความไม่พอใจ ก็ยิ่งเข้าใจบทความนี้มากขึ้น
เมื่อ 12 ปีก่อนตอนเลือกจะเชี่ยวชาญด้านคลาวด์ เคยลอง Azure อยู่พักหนึ่งแล้วรู้สึกว่าเป็นแพลตฟอร์มที่ ช้าและพัง และบทความนี้ก็เหมือนมายืนยันการตัดสินใจนั้น
ช่วงท้ายบทความที่บอกว่า Microsoft ปลดพนักงาน 15,000 คน ในปี 2025 นั้นน่าสนใจมาก
ดูเหมือนเป็นตัวอย่างของความจริงหลังยุคบูม AI
สัญญากับ OpenAI เป็นเรื่องข้อจำกัดของ GPU capacity ส่วนการปลดคนเป็นอีกเรื่อง
ปัญหาจริงคือ การหมุนเวียนวิศวกรและการไร้ความรับผิดชอบที่ชัดเจน
ทุกโปรเจกต์มีแต่คนใหม่เข้ามา แล้วความรู้สึกเป็นเจ้าของก็หายไป
ส่วนที่บอกว่าถ้าโฮสต์ถูกเจาะก็เข้าถึงหน่วยความจำของ VM ทั้งหมดได้ ฟังดู อันตรายมาก
การได้เห็นคำอ้างอิงจาก CNBC ว่าเงินเดือนของ Satya Nadella ขึ้น 22% เป็น 96.5 ล้านดอลลาร์
วางคู่กับคำพูดของนักบินอวกาศ Artemis II ที่บอกว่า “Outlook สองตัวใช้ไม่ได้ทั้งคู่” มันช่างประชดประชันดี
เนื้อหาในบทความอาจดูเกินจริง แต่ในฐานะคนที่เคยดูแลระบบคล้ายๆ กัน ก็จำได้ดีว่าต้องสู้ตลอดเวลาเพื่อรักษาเสถียรภาพ
เคยเห็นปัญหาคล้ายกันในบริษัทอื่น แต่ไม่ถึงขั้นรุนแรงในระดับ Azure
โครงสร้างแบบนี้สุดท้ายแล้วน่าจะนำไปสู่ วงจรทำลายตัวเอง
เคยใช้ Azure ในปี 2018 แล้วพบว่ามัน ช้า แพง และคุณภาพแย่
ตอนนั้นต้องไปพยายามแก้ปัญหาที่แม้แต่ฟังก์ชันพื้นฐานยังใช้ไม่ได้ ร่วมกับผู้ใช้คนอื่นในฟอรัม GitHub
บทความนี้ช่วยคลายข้อสงสัยที่มีในตอนนั้น
สำหรับผม Google Cloud คือแพลตฟอร์มที่ออกแบบมาดีที่สุด แต่ก็น่าเสียดายที่มี การซัพพอร์ตโดยมนุษย์น้อยกว่า AWS
ผู้ดูแลบัญชีเปลี่ยนไปสามครั้งในสามเดือน และบางครั้งคำขอเพิ่ม quota หรือคำถามเรื่องข้อจำกัดของระบบก็ถูกเมินไปเลย