83 คะแนน โดย GN⁺ 2025-12-17 | 10 ความคิดเห็น | แชร์ทาง WhatsApp
  • ปัญหาการสูญเสียวิศวกรอาวุโสไม่ใช่ปัญหาเรื่องการไหลของข้อมูล แต่เป็นปัญหาเรื่อง โครงสร้างแรงจูงใจของผู้บริหาร และ ระบบค่าตอบแทนที่ปรับให้เหมาะกับผลงานรายไตรมาส ซึ่งขัดแย้งโดยพื้นฐานกับการรักษาคนเก่งที่ต้องอาศัยการลงทุนระยะยาว
  • เมื่อวิศวกรอาวุโสลาออก 1 คน ต้นทุนรวมอาจสูงถึง 500,000~1,000,000 ดอลลาร์ แต่ค่าใช้จ่ายด้านการจ้างงาน ต้นทุนจากตำแหน่งว่าง การออนบอร์ด และการสูญเสียความรู้เฉพาะองค์กร (tribal knowledge) มักกระจายอยู่ในหลายงบประมาณจนมองไม่เห็น
  • มีกรณีที่บริษัทประมวลผลการชำระเงินเพิกเฉยต่อคำเตือนล่วงหน้า 14 เดือน และต้องสูญเสีย 3.47 ล้านดอลลาร์ ในวัน Black Friday ทั้งที่ค่าใช้จ่ายในการแก้ไขแต่เดิมมีเพียง 80,000 ดอลลาร์
  • มีการเสนอ การแทรกแซงเชิงโครงสร้าง 6 แบบ (การทำบัญชีต้นทุนการลาออก, การติดตามอุบัติการณ์, ให้ผู้บริหารเข้าเวร on-call, ผูกอัตราการรักษาพนักงานเข้ากับค่าตอบแทน, คณะกรรมการที่ปรึกษาด้านเทคนิค, และค่าตอบแทนที่เท่าเทียมสำหรับสาย IC) ในฐานะวิธีแก้ที่ช่วยจัดแนวแรงจูงใจใหม่
  • การแทรกแซงเหล่านี้จะได้ผลก็ต่อเมื่อผู้บริหาร มองการรักษาพนักงานเป็นปัญหาทางเศรษฐศาสตร์ และมีความตั้งใจจะยอมรับการเปลี่ยนแปลงเชิงโครงสร้างเท่านั้น เพราะหากทำแบบเป็นพิธีการอาจยิ่งให้ผลย้อนกลับ

ทำไมข้อมูลไหลเวียนแล้วการกระทำถึงไม่เปลี่ยน

"The constraint is not information flow. It is economics."

  • บทความนี้เป็นตอนที่ 2 ของซีรีส์ว่าด้วยการลาออกของวิศวกร โดยต่อเนื่องจากตอนแรก ทำไมวิศวกรที่เก่งที่สุดของคุณถึงกำลังไปสัมภาษณ์งานที่อื่น ซึ่งพูดถึงปัญหา ความไม่สมมาตรของข้อมูล
  • ในตอนแรกอธิบายว่าวิศวกรอาวุโสจากไปเพราะอะไร โดยสาเหตุหลักคือแม้ปัญหาจะมีอยู่ แต่ก็เป็น โครงสร้างที่ทำให้ข้อมูลไปไม่ถึงผู้บริหาร
  • แต่บทความนี้ผลักสมมติฐานนั้นไปอีกขั้น
    • กล่าวถึงสิ่งที่เกิดขึ้นเมื่อ ปรับปรุงการไหลของข้อมูลได้จริง
    • ข้อสรุปคือ ต่างจากที่คาดไว้ ส่วนใหญ่แล้วจะไม่มีอะไรเปลี่ยน
  • องค์กรนำเครื่องมือต่าง ๆ มาใช้เพื่อให้รับรู้ปัญหา
    • เริ่มทำสกิปเลเวล 1:1
    • เปิดช่องทางฟีดแบ็กแบบไม่เปิดเผยตัวตน
    • ทำแบบสำรวจการรักษาพนักงานผ่านที่ปรึกษาภายนอก
  • ผลคือวิศวกรสามารถ สื่อสารปัญหาได้อย่างชัดเจนมาก
    • หนี้ทางเทคนิคกำลังกัดกร่อนขวัญกำลังใจ
    • ความเชี่ยวชาญถูกมองข้ามในการตัดสินใจด้านสถาปัตยกรรม
    • ภาระ on-call อยู่ในระดับที่ไม่ยั่งยืน
  • ผู้บริหารได้ยินแล้วก็พยักหน้า
    • ยอมรับว่ามีปัญหา
    • บอกว่าจะปรับลำดับความสำคัญ
  • แต่เมื่อไตรมาสเปลี่ยน การตัดสินใจก็ วนกลับไปเหมือนเดิม
    • ยังทำตามเป้าหมายรายไตรมาสด้วยวิธีเดิม
    • และวิธีนั้นก็คือ การเพิกเฉยต่อปัญหาที่เพิ่งได้รับฟังไปอีกครั้ง
  • ตรงนี้บทความชี้ประเด็นสำคัญอย่างชัดเจน
    • ปัญหาไม่ใช่การขาดข้อมูล
    • ปัญหาคือ โครงสร้างทางเศรษฐศาสตร์ หรือก็คือการออกแบบแรงจูงใจ

ปัญหาหลัก: โครงสร้างแรงจูงใจของผู้บริหาร

  • ตัวอย่าง การคำนวณเพื่อตัดสินใจ ที่ VP of Engineering ต้องเผชิญในเดือนตุลาคม
    • เหลืออีก 3 เดือนก่อนการทบทวนผลงานรายไตรมาส และอีก 6 เดือนกว่าหุ้นของวิศวกรจะ vest
  • วิศวกรแพลตฟอร์มอาวุโสคนหนึ่งขอว่า
    • อยาก รีแฟกเตอร์ ระบบยืนยันตัวตนเป็นเวลา 6 สัปดาห์
    • หนี้ทางเทคนิคสะสมมามากและโครงสร้างเริ่มเปราะบาง
    • นักวิจัยด้านความปลอดภัย 2 คนได้ส่งสัญญาณเตือนความเสี่ยงมาแล้ว
  • แต่สถานการณ์ปัจจุบันยังคลุมเครือ
    • ยังไม่มี outage จริง ไม่มีลูกค้าร้องเรียน และไม่มีผลกระทบต่อรายได้
    • สิ่งที่มีอยู่มีเพียง คำเตือนจากวิศวกร ว่า “ถ้าไม่แก้ตอนนี้จะกลายเป็นวิกฤต”
  • สำหรับ VP มีทางเลือกอยู่ 2 แบบ
    • ทางเลือก A: อนุมัติการรีแฟกเตอร์
      • ยอมรับว่าความเร็วในการพัฒนาฟีเจอร์จะลดลง 6 สัปดาห์
      • มีความเสี่ยงที่จะพลาด OKR รายไตรมาส
      • ต้องอธิบายกับ CEO ว่าทำไมโรดแมปจึงล่าช้าเพราะ “งานเทคนิคที่ลูกค้ามองไม่เห็น”
      • มีความเสี่ยงที่ กำหนดการเปิดตัวฟีเจอร์ ที่ทีมขายเคยรับปากไว้จะสั่นคลอน
      • สุดท้ายอาจส่งผลเสียโดยตรงต่อ โบนัสสิ้นปี
      • ผลตอบแทนของทางเลือกนี้จะได้รับในอีก 12~18 เดือนข้างหน้า: วิศวกรอาวุโสคนนั้นอยู่กับองค์กรต่อ เพราะรู้สึกว่า “การตัดสินทางเทคนิคของตนได้รับความเคารพ
    • ทางเลือก B: ตัดสินใจให้ฟีเจอร์มาก่อน
      • ยอมรับว่าหนี้ทางเทคนิค “สำคัญ” แต่เลื่อนไปเป็น “ไตรมาสหน้า”
      • เปิดตัวตามโรดแมปเดิมให้สำเร็จ บรรลุ OKR และรับโบนัส
      • วิศวกรอาวุโสยังอยู่ต่อในตอนนี้ เพราะ stock option ยังไม่ vest
      • ถ้าระบบยืนยันตัวตนพังในภายหลัง นั่นก็เป็นปัญหาของไตรมาสในอนาคต
      • ถ้าวิศวกรลาออกในอีก 6 เดือน ก็มองว่าน่าจะจ้างคนใหม่มาแทนได้
  • ในโครงสร้างแบบนี้ ทางเลือก B ชนะเสมอ — จนกว่าจะล้มเหลวจริง ๆ
    • B จะชนะไปเรื่อย ๆ จนกระทั่งเกิด ระบบหลักล่ม ระหว่างการเปิดตัวสินค้า วิศวกรอาวุโสลาออก 5 คนภายใน 18 เดือน และ CFO เริ่มถามว่า “ทำไมเราถึงจ่ายค่ารีไฮร์ปีละ 1.4 ล้านดอลลาร์
  • เพราะนี่คือ ความไม่สอดคล้องกันโดยพื้นฐาน
    • โครงสร้างค่าตอบแทนของผู้บริหารถูกปรับให้เหมาะกับ ผลงานรายไตรมาส
    • แต่การรักษาวิศวกรและการจัดการหนี้ทางเทคนิคต้องการ การลงทุนระยะยาว
    • การปรับปรุงการไหลของข้อมูลเพียงอย่างเดียวไม่สามารถอุดช่องว่างนี้ได้
    • ทางออกคือ การออกแบบโครงสร้างทางเศรษฐศาสตร์ใหม่ทั้งระบบ

Why the Math Favors Dysfunction - พอคำนวณดูแล้ว ระบบพังจึงแทบเป็นเรื่องเลี่ยงไม่ได้

  • ต้นทุนแฝง ทำงานในลักษณะที่มองไม่เห็น จนทำให้ ผู้กระทำการที่มีเหตุผลตัดสินใจอย่างไร้เหตุผล

  • หากวิศวกรอาวุโส 1 คนที่มีเงินเดือนระดับ $200,000 ลาออก ต้นทุนรวมที่แท้จริงจะคำนวณได้ที่ $500,000 ~ $1,000,000 ขึ้นไป

    • ผู้บริหารส่วนใหญ่มักคิดว่าตัวเลขนี้เกินจริงเมื่อได้ยินครั้งแรก แต่จริง ๆ แล้วไม่ใช่ วิธีคำนวณมีดังนี้
  • ต้นทุนการทดแทนโดยตรง: $85,000-$100,000

    • ค่าธรรมเนียมการจ้างงาน: ค่าธรรมเนียมของรีครูตเตอร์ภายนอก 20-25% ซึ่งสำหรับวิศวกรเงินเดือน 200,000 ดอลลาร์จะอยู่ที่ $40,000-$50,000
      • หากดำเนินการสรรหาภายในเอง (เว็บประกาศงาน, เครื่องมือ sourcing, เงินเดือนรีครูตเตอร์) จะอยู่ที่ $15,000-$20,000
    • โบนัสเซ็นสัญญา: ในตลาดที่มีการแข่งขันสูง ต้องใช้ $20,000-$40,000 เพื่อให้ได้ผู้สมัครระดับซีเนียร์
      • โดยเฉพาะเมื่อพวกเขาย้ายงานทั้งที่ยังมีหุ้นค้างอยู่กับบริษัทปัจจุบัน ถือว่าแทบจำเป็น
    • ค่าใช้จ่ายในการย้าย: หากเป็นการย้ายภายในประเทศจะอยู่ที่ $10,000-$30,000 และหากย้ายข้ามประเทศจะสูงกว่านี้
  • ต้นทุนจากตำแหน่งว่าง (Vacancy): $50,000-$100,000

    • โดยเฉลี่ยใช้เวลา 3-6 เดือน ในการจ้างวิศวกรอาวุโส
    • ในช่วงที่ตำแหน่งว่าง งานของวิศวกรคนนั้นไม่ได้หยุดไป และมีต้นทุน 2 แบบเกิดขึ้นพร้อมกัน
      • อย่างหนึ่งคือ ประสิทธิภาพของทีมลดลงเพราะต้องกระจายงานใหม่ และอีกอย่างคือ เกิดต้นทุนค่าเสียโอกาสจากการละทิ้งงาน
    • ต้นทุนจากการกระจายงานใหม่ $25,000-$40,000:
      • ประมาณ 60% ของงานที่วิศวกรที่ลาออกเคยทำจะถูกกระจายไปยังสมาชิกทีมที่เหลือ
      • นี่ไม่ใช่การย้ายทรัพยากรงานอย่างอิสระ แต่ทำให้ประสิทธิภาพลดลง
      • วิศวกรที่มีภาระงานล้นอยู่แล้วต้องมาจัดการ code review ในส่วนที่ไม่คุ้นเคย ตอบคำถามเกี่ยวกับระบบที่ตนไม่ได้พัฒนา และดูแลบริการที่ยังไม่เข้าใจทั้งหมด
      • หากวิศวกร 3 คนรับภาระเพิ่มคนละ 20% ก็ไม่ได้แปลว่าแค่ทำงานเพิ่ม 20% แต่ประสิทธิภาพโดยรวมลดลงเพราะต้องสลับบริบท
      • ทำให้เกิดการสูญเสียผลิตภาพ 10-15% ต่อวิศวกรในช่วงที่ตำแหน่งว่าง
      • การคำนวณต้นทุนจากการกระจายงานใหม่
        • จำนวนวิศวกรที่รับงานแทน × อัตราการลดลงของผลิตภาพ × ระยะเวลาตำแหน่งว่าง (เดือน) × (เงินเดือนเฉลี่ย / 12)
        • ในสถานการณ์ทั่วไปคือ วิศวกร 3 คน × ผลิตภาพลดลง 12% × 4 เดือน × ($180,000 / 12) = $21,600
        • หากวิศวกรที่ลาออกดูแลงานในด้านที่ ต้องใช้ความเชี่ยวชาญสูง เช่น infrastructure, security, platform ตัวเลขนี้อาจเพิ่มเป็น $30,000–$40,000
    • ต้นทุนจากการละทิ้งงาน $25,000-$60,000:
      • อีก 40% ที่เหลือจะไม่ถูกกระจายต่อ แต่ถูกเลื่อนออกไปหรือยกเลิกไปเลย
      • งานอย่างการปรับปรุงแพลตฟอร์ม การลดหนี้เทคนิค การพัฒนาสถาปัตยกรรม เอกสาร และการเมนเทอร์ ไม่ได้เกี่ยวกับการปล่อยฟีเจอร์โดยตรงแต่เป็นงานป้องกันวิกฤตในอนาคต ซึ่งจะถูก ตัดออกจากโรดแมปอย่างเงียบ ๆ
      • ต้นทุนในทันที ของการละทิ้งงาน (Work Abandonment) คำนวณจากมูลค่าเงินเดือนเทียบเท่าของงานที่ไม่ได้ทำ
        • 40% ของงานที่วิศวกรที่ลาออกเคยรับผิดชอบจะไม่ได้ถูกทำในช่วงที่ตำแหน่งว่าง
        • สูตรคำนวณคือ 40% × 4 เดือน × ($200,000 / 12) = $26,667
      • แต่ต้นทุนที่แท้จริงไม่ได้จบลงทันที
        • งานที่ถูกเลื่อนจะสร้าง ต้นทุนสะสม ต่อเนื่องไปในไตรมาสถัด ๆ ไป
        • ตัวอย่างเช่น
          • หากการปรับแต่งฐานข้อมูลที่วิศวกรโครงสร้างพื้นฐานอาวุโสวางแผนไว้ถูกเลื่อนออกไป
            • ประสิทธิภาพของ query จะค่อย ๆ แย่ลง
            • และสุดท้ายจะต้องมี การรับมือฉุกเฉิน ที่ใหญ่กว่าขอบเขตงานเดิมมาก
          • หากการรีวิวสถาปัตยกรรมที่วิศวกรคนนั้นดูแลอยู่หยุดชะงัก
            • การตัดสินใจทางเทคนิคก็จะดำเนินต่อไป
            • ทั้งที่ไม่มีความเชี่ยวชาญที่จะช่วยกรองความผิดพลาดที่มีต้นทุนสูงล่วงหน้าได้
      • ต้นทุนจากการละทิ้งงานที่วัดได้คือ
        • มูลค่าของ “งานที่เดิมควรทำแต่ไม่ได้ทำ”
        • สูตรคำนวณแบบอนุรักษ์นิยมมีดังนี้
          • (สัดส่วนงานที่ถูกละทิ้ง × เงินเดือน / 12) × จำนวนเดือนที่ตำแหน่งว่าง
          • (40% × $200,000 / 12) × 4 เดือน = $26,667
      • ช่วงต้นทุนจากการละทิ้งงานที่สมจริงคือ $25,000–$60,000
        • ขึ้นอยู่กับสัดส่วนว่างานที่ถูกทิ้งเป็นงานเชิงป้องกันหรือเป็นงานที่เน้นฟีเจอร์
    • ต้นทุนรวมจากตำแหน่งว่าง (Combined Vacancy Cost): $50,000–$100,000
      • เป็นผลรวมของต้นทุนจากการกระจายงานใหม่ $25,000–$40,000 + ต้นทุนจากการละทิ้งงาน $25,000–$60,000
      • ตัวเลขนี้สะท้อนเฉพาะ ผลกระทบโดยตรงและวัดได้ ที่เกิดขึ้นในช่วง ตำแหน่งว่าง 4 เดือน เท่านั้น
    • การคำนวณนี้จัดทำอย่างอนุรักษ์นิยม
  • ต้นทุนการ onboard และการปรับตัว: $100,000-$125,000

    • ผลิตภาพของวิศวกรอาวุโสคนใหม่: เดือนที่ 1 ประมาณ 25%, เดือนที่ 2-3 50%, เดือนที่ 4-5 75%, และเข้าสู่ผลิตภาพเต็มที่ในเดือนที่ 6
      • เดือนที่ 1: สูญเสียผลิตภาพ 75% = (200,000 ดอลลาร์ / 12 เดือน) × 0.75 = 12,500 ดอลลาร์
      • เดือนที่ 2~3: สูญเสียผลิตภาพ 50% = (200,000 ดอลลาร์ / 12 เดือน) × 0.50 × 2 = 16,667 ดอลลาร์
      • เดือนที่ 4~5: สูญเสียผลิตภาพ 25% = (200,000 ดอลลาร์ / 12 เดือน) × 0.25 × 2 = 8,333 ดอลลาร์
      • ผลต่างด้านผลิตภาพรวมใน 6 เดือนแรก: $37,500
    • ต้นทุนกำลังคนสำหรับ onboarding: วิศวกรอาวุโสคนใหม่ใช้เวลาของวิศวกรคนอื่น 10-15 ชั่วโมงต่อสัปดาห์ในเดือนแรก และ 5-8 ชั่วโมงต่อสัปดาห์ในเดือนที่ 2-3
      • เดือนที่ 1: 12 ชั่วโมงต่อสัปดาห์ × 4 สัปดาห์ × 90 ดอลลาร์ต่อชั่วโมง = 4,320 ดอลลาร์
      • เดือนที่ 2~3: 6 ชั่วโมงต่อสัปดาห์ × 8 สัปดาห์ × 90 ดอลลาร์ต่อชั่วโมง = 4,320 ดอลลาร์
      • ต้นทุนกำลังคนสำหรับ onboarding ที่คิดจากอัตรา $90 ต่อชั่วโมง: $8,640
    • ดังนั้นใน 6 เดือนแรกจึงเกิด ความสูญเสีย $46,140
    • แต่เนื่องจากวิศวกรอาวุโสส่วนใหญ่ต้องใช้เวลาประมาณ 1 ปี จึงจะมีความเชี่ยวชาญในโดเมนได้ถึงระดับเดียวกับวิศวกรคนก่อน จึงประเมินไว้ที่ $92,000-$125,000
  • การสูญเสียความรู้เฉพาะในองค์กร (Tribal Knowledge): $100,000-$300,000

    • เป็นสิ่งที่วัดเชิงปริมาณได้ยากที่สุด แต่จะ ปรากฏออกมาเป็นความผิดพลาด ในไตรมาสถัด ๆ ไป
    • สิ่งที่วิศวกรที่ลาออกรู้มีเช่น:
      • ส่วนไหนของ codebase เปราะบางและต้องเปลี่ยนอย่างระมัดระวัง
      • ลูกค้ารายใดมีข้อกำหนดพิเศษ และเพราะเหตุใด
      • การตัดสินใจด้านสถาปัตยกรรมใดเป็น trade-off ที่ตั้งใจไว้ เทียบกับอะไรคือหนี้เทคนิค
      • โค้ด 3 บรรทัดที่สำคัญจริง ๆ ในบริการที่มี 10,000 บรรทัด
      • เหตุผลที่ database query บางตัวดูไม่มีประสิทธิภาพแต่ต้องเขียนแบบนั้น (เพราะ “การปรับให้เหมาะสม” ที่ดูชัดเจนเคยทำให้ข้อมูลเสียหายในเงื่อนไขเฉพาะที่พบเมื่อ 3 ปีก่อน)
    • ความผิดพลาดจากการขาดบริบท: วิศวกรใหม่ไป optimize query ที่ “ช้า” แล้วทำให้ workflow หลักของลูกค้ารายใหญ่ 2 รายของบริษัทหยุดทำงาน
      • ใช้เวลา 2 วันในการหาสาเหตุ ($4,615), 1 สัปดาห์ในการทำ fix ที่เหมาะสม ($7,692), และการกู้คืนความสัมพันธ์กับลูกค้า
      • ต้นทุนของเหตุการณ์เดียวประมาณ $12,000-$15,000 และเกิด 3-5 ครั้งในปีแรกต่อวิศวกรอาวุโสที่ลาออก 1 คน
    • ความล่าช้าในการตัดสินใจ: คำถามที่วิศวกรที่ลาออกเคยตอบได้ใน 30 วินาที ตอนนี้ต้องใช้เวลา 3 ชั่วโมงไปกับการทำ code archaeology, ค้นประวัติ Slack, และคุยกันว่า “มีใครรู้ไหมว่าทำไมถึงทำแบบนี้?”
      • หากเกิดสัปดาห์ละ 2 ครั้ง เป็นเวลา 6 เดือน: $14,040
    • โครงการที่ถูกเลื่อนหรือยกเลิก: มีเพียงวิศวกรที่ลาออกเท่านั้นที่เข้าใจระบบยืนยันตัวตนดีพอจะทำ SSO integration ได้อย่างปลอดภัย
      • โครงการนั้นจึงล่าช้า 6-9 เดือน และหาก SSO เป็นข้อจำเป็นสำหรับสัญญาระดับองค์กรมูลค่า 500,000 ดอลลาร์ ต้นทุนจากความล่าช้าก็วัดได้
    • ค่าประเมินแบบอนุรักษ์นิยมสำหรับการสูญเสียความรู้ภายในนี้คือ 100,000 ถึง 300,000 ดอลลาร์ ในช่วง 12 เดือนหลังการลาออก
  • ต้นทุนรวมต่อการลาออกของวิศวกร

    • การทดแทนโดยตรง: $85,000-$100,000
    • ต้นทุนจากตำแหน่งว่าง: $50,000-$100,000
    • การปรับตัวและ onboarding: $92,000-$125,000
    • การสูญเสียความรู้ภายใน: $100,000-$300,000
    • ยอดรวมแบบอนุรักษ์นิยม: $327,000-$625,000
    • ยอดรวมที่สมจริงเมื่อรวมความล่าช้าของโครงการและต้นทุนค่าเสียโอกาส: $500,000-$1,000,000
  • ต้นทุนเหล่านี้ กระจายไปทั่วทั้งงบประมาณและถูกกลบด้วยสัญญาณรบกวน: ค่าใช้จ่ายในการจ้างงานอยู่ในงบของ HR, การสูญเสียผลิตภาพไม่ได้ถูกติดตาม, การสูญหายของความรู้ภายในไม่ปรากฏในรายงานรายไตรมาส

    • การผ่อนผันหนี้ทางเทคนิคและการตัดสินใจให้ความสำคัญกับฟีเจอร์ก่อน สร้าง ผลงานที่เกิดขึ้นทันทีและมองเห็นได้ชัด: เดโมของทีมขาย, การประกาศเปิดตัวของฝ่ายการตลาด, รายงานต่อบอร์ดบริหารของ CEO เป็นต้น
    • นี่คือปรากฏการณ์ที่นักเศรษฐศาสตร์เรียกว่า ปัญหา "กบต้ม":
      • การลาออกของพนักงานแต่ละคนดูเหมือนยังพอรับมือได้, การเลื่อนงานด้านเทคนิคก็ดูสมเหตุสมผล, และการประนีประนอมรายไตรมาสก็ล้วนดูมีเหตุผลเมื่อพิจารณาแยกกัน
      • แต่เมื่อรูปแบบเริ่มชัดเจนขึ้น (อัตราการลาออกของวิศวกรอาวุโสต่อปี 18%, หนี้ทางเทคนิคสะสม, ระบบล่มต่อเนื่องเป็นลูกโซ่) องค์กรก็ ยอมรับไปแล้วว่าความบกพร่องในการทำงานเป็นเรื่องปกติ

การฟื้นตัว (Recovery) มีหน้าตาเป็นอย่างไร

  • ก่อนหายนะ Black Friday 14 เดือน วิศวกรแพลตฟอร์มอาวุโสของบริษัทประมวลผลการชำระเงินขนาดกลางได้ แสดงความกังวลอย่างเป็นรูปธรรม
    • "ระบบประมวลผลธุรกรรมจะ รองรับทราฟฟิกช่วงวันหยุดตามคาดการณ์ไม่ไหว"
    • เสนอรายละเอียดว่าจำเป็นต้องทำ database sharding และ queue optimization: ประเมินว่าใช้ เวลาวิศวกรรม 6 สัปดาห์ และค่าโครงสร้างพื้นฐาน $80,000
  • ถูก VP of Product ลดลำดับความสำคัญ:
    • เห็นว่าการปล่อยฟีเจอร์อีกสองอย่างสำคัญกว่า
    • ในการรีวิวรายไตรมาสมีการชื่นชมว่า "มีความสามารถในการมองเห็นปัญหาที่อาจเกิดขึ้นล่วงหน้า" แต่ ข้อเสนอด้านสถาปัตยกรรมถูกปล่อยทิ้งไว้ใน Jira
  • วิศวกรคนนั้นย้ายไปคู่แข่งในอีก 4 เดือนต่อมาโดยได้ ขึ้นเงินเดือน 15% ต้องใช้เวลาค้นหาผู้แทน 3 เดือนและค่าใช้จ่ายในการจ้าง $47,000 จากนั้นยังต้องใช้เวลาอีก 5 เดือนกว่าจะทำงานได้เต็มประสิทธิภาพ
  • ระหว่างนั้น วิศวกรอาวุโส ลาออกเพิ่มอีก 2 คน: 1 คนเพราะความหงุดหงิดกับหนี้ทางเทคนิค และอีก 1 คนรับตำแหน่ง Principal Engineer จากภายนอกซึ่งบริษัทนี้ไม่มี
  • กว่าจะมีการพูดถึง คำเตือนแรกนั้น อีกครั้งก็คือ 9 เดือนต่อมาในการรีวิวสถาปัตยกรรม
    • ตอนนั้น ความทรงจำระดับองค์กร เกี่ยวกับบริบทของข้อเสนอและวิธีแก้ได้หายไปแล้ว
    • จึงมอบหมายให้วิศวกรจูเนียร์ "ไปสำรวจทางเลือก"
  • ในวัน Black Friday หายนะเริ่มต้นขึ้นเมื่อธุรกรรมพุ่งสูงเวลา 9:47 น.
    • ตั้งแต่ 10:23 น. ฐานข้อมูลเริ่มปฏิเสธคำขอเขียน
    • คอขวดคือ จุดเดียวกับที่ถูกชี้ไว้เมื่อ 14 เดือนก่อน และความขัดข้องครั้งนี้ทำให้ ธุรกรรมมูลค่า $2.5M ประมวลผลไม่สำเร็จ
    • การกู้คืนใช้เวลา 5 ชั่วโมง
      • ต้องจ่าย $180,000 เพื่อขยายโครงสร้างพื้นฐานฉุกเฉิน และให้วิศวกร 3 คนทำงานล่วงเวลาตลอดวันหยุดเพื่อทำการเปลี่ยนแปลงสถาปัตยกรรมแบบถาวร
    • 3 ธันวาคม มีการส่ง postmortem ที่ CTO เป็นผู้ผลักดันให้ผู้บริหารพิจารณา โดยมีรายการใหม่เพิ่มเข้ามา
      • เพิ่มส่วน "Previously Raised Concerns" เพื่อบันทึกทั้งคำเตือนแรกของวิศวกรคนนั้น การตัดสินใจลดลำดับความสำคัญ และการสูญเสียบุคลากรที่ตามมา
      • CFO ลองคำนวณต้นทุนรวม
    • ต้นทุนจากการสูญเสียวิศวกร (อาวุโส 3 คน) : มีต้นทุนที่วัดได้ $235,000 ต่อคน
      • การสรรหา $47,000 + signing bonus $30,000 + ต้นทุนจากตำแหน่งว่าง $83,000 (เฉลี่ย 4 เดือน) + onboarding·ramp-up $75,000
      • รวม $705,000
    • ต้นทุนจากการสูญเสียความรู้แบบชนเผ่า (tribal knowledge): $2.2M
      • ความเข้าใจเกี่ยวกับโครงสร้างฐานข้อมูล รูปแบบความล้มเหลว และวิธีแก้เดิมได้หายไปจากองค์กร
      • ทีมต้องค้นพบปัญหาใหม่อีกครั้ง ศึกษาวิธีแก้ใหม่อีกครั้ง และนำไปใช้ในภาวะฉุกเฉิน
      • ช่องว่างของความรู้นี้ทำให้ การย้ายระบบที่ควรวางแผนได้ กลายเป็น การตอบสนองต่อวิกฤต
      • ต้นทุนการสืบสวน ความพยายามที่ผิดพลาด การดึง vendor เข้ามาแบบเร่งด่วน และค่าใช้จ่ายในการรับมือกับร้านค้าสะสมเพิ่มขึ้น
    • ต้นทุนจากธุรกรรมที่ล้มเหลว:
      • มูลค่าการประมวลผลการชำระเงินที่ล้มเหลว $2.5M
      • แม้อัตราค่าธรรมเนียมจะอยู่ที่ 2.9% ทำให้รายได้ที่สูญเสียโดยตรงเป็น $72,500 แต่มีข้อผูกพันตามสัญญาที่ต้องประมวลผลทุกธุรกรรม
      • ดังนั้นจึงเกิดค่าปรับจากการละเมิด SLA เพราะประมวลผลไม่สำเร็จ $180,000 และค่าใช้จ่ายด้าน merchant support กับการป้องกันการย้ายออก $45,000
    • ต้นทุนโครงสร้างพื้นฐานฉุกเฉิน: $180,000
      • การขยายฐานข้อมูลแบบฉุกเฉิน (read replica เพิ่มเติม, instance ที่อัปเกรดแล้ว, ค่า vendor support แบบเร่งด่วน)
      • การตั้งค่า load balancer ใหม่และการปรับ CDN optimization เพื่อให้รองรับทราฟฟิกที่คาดไว้เมื่อ 14 เดือนก่อนได้
    • ต้นทุนการกู้คืนและการดำเนินการหลังเหตุการณ์: $87,000
      • วิศวกรอาวุโส 3 คนทำงาน 72 ชั่วโมงในช่วงสุดสัปดาห์วันหยุด ที่อัตราค่าล่วงเวลา 2.5 เท่า: $51,923
      • งานติดตามผล 2 สัปดาห์ของทีมวิศวกรรมวงกว้าง: $38,462
    • ต้นทุนรวมของอุบัติการณ์: $3.47M
    • ต้นทุนการป้องกันที่เคยเสนอไว้เดิม: $80,000 (รวมเวลางานวิศวกรรม 6 สัปดาห์ของวิศวกรอาวุโส 1 คนและค่าโครงสร้างพื้นฐาน)
    • หน้าแรกของ postmortem เขียนว่า $3.47M vs $80,000 และ ตัวเลขนี้เปลี่ยนทิศทางของบทสนทนา
  • เพื่อตอบคำถามจากบอร์ด CEO จึงสั่งให้ทำ การวิเคราะห์การรักษาพนักงาน
    • อัตราการลาออกของวิศวกรอาวุโสอยู่ที่ 34% ต่อปี (มากกว่าค่าเฉลี่ยอุตสาหกรรมของบริษัทที่ทำกำไรได้มากกว่าสองเท่า)
    • จากการสัมภาษณ์พนักงานขาออกที่ก่อนหน้านี้ถูกเก็บไว้โดยไม่มีการทบทวนจากผู้บริหาร พบ รูปแบบที่สอดคล้องกัน
      • วิศวกรที่มีความสามารถจะลาออกเมื่อข้อกังวลทางเทคนิคของตนได้รับการรับรู้ แต่ไม่ถูกนำไปปฏิบัติ
    • ดำเนินมาตรการปรับปรุง 4 ข้อเป็นเวลา 18 เดือน:
      • CFO เริ่มติดตาม ต้นทุนการลาออก ในรายงานรายไตรมาสควบคู่กับต้นทุนการได้มาซึ่งลูกค้า — จู่ ๆ ต้นทุนการลาออกเฉลี่ย $235,000 ก็ไปปรากฏในเอกสารชุดเดียวกับการตัดสินใจใช้งบการตลาด
      • ผู้บริหารทุกคนเข้าร่วม on-call rotation รายไตรมาส — VP of Product ที่เคยลดลำดับความสำคัญของงานฐานข้อมูลได้รับรายงานยาว 23 หน้า ในสัปดาห์แรก โดย 19 เคสเกี่ยวข้องกับหนี้ทางเทคนิคที่ถูกชี้ไว้ในช่วง 6 เดือนก่อนหน้า
      • คณะกรรมการค่าตอบแทน เพิ่มปัจจัยด้านการรักษาบุคลากรในค่าตอบแทนผันแปรของผู้บริหาร: การรักษาวิศวกรอาวุโสไว้ได้ 90% ต่อปี มีน้ำหนัก 25% ในการคำนวณโบนัส
      • เปิดเส้นทาง Staff และ Principal IC ใหม่ให้สอดคล้องทั้งในระดับและค่าตอบแทนกับตำแหน่ง Director และ VP
  • หลังผ่านไป 18 เดือน บริษัทชำระเงินแห่งนี้ลดอัตราการลาออกของวิศวกรอาวุโสลงเหลือ 9% ต่อปี
  • ที่สำคัญยิ่งกว่านั้นคือกระบวนการรีวิวสถาปัตยกรรมที่เปลี่ยนไป:
    • ข้อเสนอเกี่ยวกับหนี้ทางเทคนิคตอนนี้จะมี ต้นทุนของความขัดข้องที่คำนวณไว้ รวมอยู่ด้วย
    • ผู้บริหารถามกันเป็นปกติว่า "ถ้าเลื่อนเรื่องนี้ออกไป ความเสี่ยงที่วิศวกรจะลาออกคือเท่าไร?"
  • วิศวกรแพลตฟอร์มที่เคยยกข้อกังวลเรื่องฐานข้อมูลในตอนแรก กลับมาในตำแหน่ง Principal Engineer
    • ได้ ขึ้นเงินเดือน 40% จากตอนที่ลาออก — ถูกจ้างกลับมาโดยเฉพาะเพื่อเป็นผู้นำด้าน infrastructure scaling
  • การกลับมาของวิศวกรคนนี้ พร้อมกับความเปลี่ยนแปลงที่ตัวเลขแสดงให้เห็น เป็นสัญลักษณ์ว่าการคำนวณเชิงเศรษฐศาสตร์ขององค์กรได้เปลี่ยนไปจริง ๆ

มาตรการแทรกแซง (Intervention) 6 ข้อที่ได้ผลจริง

  • การแทรกแซงเชิงโครงสร้าง ที่จัดเรียงแรงจูงใจใหม่ ไม่ใช่การเก็บข้อมูลหรือกิจกรรมสร้างความเข้าอกเข้าใจ แต่เป็น การออกแบบเชิงเศรษฐศาสตร์ใหม่

  • ลำดับชั้นของอิทธิพล

    • มาตรการแทรกแซงทั้ง 6 อย่างอาจดูเป็นภาระ แต่ ระดับความยากในการนำไปใช้และเวลาที่ใช้สร้างมูลค่าไม่เท่ากัน ลำดับจึงสำคัญ
    • วิธีที่ให้ผลเร็วที่สุด: มาตรการที่ต้องการเพียงความเห็นชอบขั้นต่ำจากองค์กร
      • การบัญชีต้นทุนการลาออก (#1): ต้องการเพียงการอนุมัติจาก CFO และเวลาของนักวิเคราะห์การเงิน
      • การติดตามเหตุการณ์ที่เกิดจากคำเตือนที่ถูกเพิกเฉย (#2): ต้องการเพียงการเปลี่ยนแปลงกระบวนการ SRE ไม่ต้องใช้งบประมาณหรือการปรับโครงสร้าง ขอแค่มีการจัดทำเอกสาร postmortem อย่างเป็นระบบ
      • ทั้งสองอย่าง เริ่มได้ภายใน 30 วัน และให้หลักฐานเชิงปริมาณสำหรับการต่อสู้ที่ยากกว่า
    • การแทรกแซงระยะกลาง: ต้องการการเปลี่ยนแปลงวัฒนธรรม แต่ไม่จำเป็นต้องปรับโครงสร้างค่าตอบแทน
      • การหมุนเวียน on-call ของผู้บริหาร (#3): จะสำเร็จเมื่อผู้บริหารคนหนึ่งได้สัมผัสผลของการเลื่อนงานปรับปรุงโครงสร้างพื้นฐานด้วยตัวเอง แล้วนโยบายนั้นจะหยั่งรากเองตามธรรมชาติ
      • คณะกรรมการที่ปรึกษาด้านเทคนิคที่มีอำนาจจริง (#5): ได้ผลเมื่อผู้บริหารยอมรับอย่างแท้จริงว่าการตัดสินใจของตนอาจถูกคว่ำได้ และแนวทางทดลองใช้แบบเล็ก ๆ มักล้มเหลวภายในไม่กี่ไตรมาส
      • ระยะเวลาดำเนินการ 3-6 เดือน: เพราะไม่ได้ต้องการแค่การเปลี่ยนนโยบาย แต่ต้องสร้างความไว้วางใจด้วย
    • การแทรกแซงเชิงโครงสร้าง: ต้องได้รับอนุมัติจากบอร์ดหรือคณะกรรมการค่าตอบแทน ใช้เวลา 6-12 เดือน แต่ให้การเปลี่ยนแปลงที่ลึกที่สุด
      • ใส่ตัวชี้วัดการรักษาคนเก่งไว้ในระบบค่าตอบแทน (#4): เมื่อโบนัสผู้บริหารผูกกับการรักษาวิศวกรอาวุโสไว้ได้ หนี้ทางเทคนิคก็กลายเป็นเรื่องสำคัญเชิงกลยุทธ์ในชั่วข้ามคืน
      • ทำให้เส้นทาง IC มีความเท่าเทียมกัน (#6): เมื่อ Staff Engineer ได้ค่าตอบแทนระดับผู้บริหารอาวุโสโดยไม่ต้องบริหารทีม การรักษาความเชี่ยวชาญทางเทคนิคไว้ก็เป็นไปได้ในเชิงโครงสร้าง
    • มาตรการขั้นต่ำที่ใช้งานได้จริง: รวมสององค์ประกอบจากคนละชั้น
      • การบัญชีต้นทุนการลาออก (ผลเร็ว) + ตัวชี้วัดการรักษาคนไว้ในค่าตอบแทน (การเปลี่ยนแปลงเชิงโครงสร้าง)
      • อย่างแรกใช้สร้าง business case อย่างหลังทำให้การลงมือทำของผู้บริหารเป็นสิ่งสมเหตุสมผล
    • บริษัทที่อยู่ในภาวะวิกฤต: ใช้มาตรการผลเร็วทันที + ออกแบบการเปลี่ยนแปลงเชิงโครงสร้างควบคู่กัน
    • บริษัทที่มีสัญญาณเตือนล่วงหน้า: เริ่มจากการวัดผล (การบัญชีต้นทุน, การติดตามเหตุการณ์) + ใช้ข้อมูลผลลัพธ์มาสนับสนุนการแทรกแซงที่ลึกกว่า
  • 1. การบัญชีต้นทุนการลาออก (Cost-of-Attrition Accounting)

    • ทำให้ สิ่งที่มองไม่เห็นมองเห็นได้: คำนวณต้นทุนทั้งหมดของการสูญเสียวิศวกรอาวุโสแต่ละคน
      • ค่าใช้จ่ายในการสรรหาเฉลี่ย $35,000
      • ใช้เวลาประมาณ 6 เดือนกว่าจะถึงระดับผลิตภาพเต็มที่ (50% ของเงินเดือนวิศวกรอาวุโส)
      • ความล่าช้าของโปรเจกต์จากการสูญเสียองค์ความรู้
      • ต้นทุนค่าเสียโอกาสของการตัดสินใจด้านสถาปัตยกรรมที่มีเพียงวิศวกรคนนั้นเท่านั้นที่เข้าใจ
    • ติดตามตัวเลขนี้รายเดือน และใส่ไว้ใน แดชบอร์ดผู้บริหารชุดเดียวกัน กับ CAC และตัวชี้วัดรายได้
    • บริษัทบริการทางการเงินแห่งหนึ่งติดตามต้นทุนการลาออกรายไตรมาสแล้วพบว่า
      • Q1: วิศวกรอาวุโสลาออก 2 คน, $400,000
      • Q3: คาดการณ์ต้นทุนรายปี $900,000
      • เมื่อ CFO นำเสนอตัวเลขนี้ควบคู่กับ งบประมาณวิศวกรรมรายปี $3M
      • คำถามของ CEO เปลี่ยนจาก “ทำไมถึงลาออก” เป็น “ต้องใช้เงินเท่าไรถึงจะหยุดได้”
      • ผลคือเมื่อลงทุน $400,000 ในการจัดการหนี้ทางเทคนิคและปรับค่าตอบแทน
        อัตราการลาออกของวิศวกรอาวุโส ลดลง 43% และคืนทุนทั้งหมด ภายในสองไตรมาส
  • 2. ติดตามเหตุการณ์ที่เกิดจากคำเตือนที่ถูกเพิกเฉย

    • ปรับเทมเพลต postmortem โดยเพิ่ม ส่วนบังคับชื่อ "คำเตือนล่วงหน้า (Prior Warnings)"
    • กำหนดให้ผู้รับผิดชอบตรวจสอบ คำเตือนในอดีต เกี่ยวกับ failure mode นี้จาก Jira, Slack, บันทึกการทบทวนสถาปัตยกรรม และอีเมล
    • รายการที่ต้องบันทึก: เวลาที่มีการเตือน, ผู้ที่เตือน, มาตรการที่เสนอ, เหตุผลที่ถูกลดลำดับความสำคัญ
    • คำนวณต้นทุนของเหตุการณ์: ผลกระทบต่อรายได้จาก downtime, ภาระของฝ่ายสนับสนุนลูกค้า, เวลาเชิงวิศวกรรมที่ใช้ในการกู้คืน
    • บริษัทเทคโนโลยีด้านสุขภาพแห่งหนึ่งนำวิธีนี้ไปใช้แล้ว
      • ภายใน 6 เดือนพบว่า 70% ของเหตุการณ์ในโปรดักชันถูกคาดการณ์ไว้ล่วงหน้า
      • วิศวกรเคยยกข้อกังวลขึ้นมาแล้ว แต่ผู้บริหารลดความสำคัญของการแก้ปัญหาเพราะมุ่งไปที่การพัฒนาฟีเจอร์
      • ต้นทุนรวมตลอด 1 ปี: เหตุการณ์ที่ป้องกันได้สร้างความเสียหาย 1.8 ล้านดอลลาร์
      • เมื่อผู้บริหารยืนยันได้ว่าในเหตุขัดข้องร้ายแรง 14 จาก 16 ครั้ง คำเตือนทางเทคนิคนั้นถูกต้อง ก็ ตระหนักถึงความร้ายแรงของรูปแบบนี้
      • เมื่อพิสูจน์ได้ว่าการคาดการณ์แม่นยำอย่างสม่ำเสมอ ก็เกิด การเปลี่ยนพฤติกรรม
  • 3. การหมุนเวียน on-call ของผู้บริหาร

    • ผู้บริหารทุกคน (รวมถึงฝ่ายผลิตภัณฑ์, VP, ผู้อำนวยการ) ต้อง ทำ on-call ไตรมาสละ 1 สัปดาห์
    • นโยบายการ escalate:
      • หากวิศวกร on-call เห็นว่าการแจ้งเตือนเกี่ยวข้องกับงานแก้ไขที่เคยถูกลดความสำคัญ หรือกับงานเทคนิคที่ถูกเลื่อนออกไป
      • ให้ รายงานตรงถึงผู้รับผิดชอบที่ตัดสินใจนั้นทันที โดยไม่คำนึงถึงเวลาและวัน
    • สิ่งนี้ให้ การเรียนรู้จากประสบการณ์ตรง ที่ทรงพลังกว่าแดชบอร์ดใด ๆ
    • กรณีตัวอย่าง: VP of Product คนหนึ่งเจอ การเรียก 17 ครั้งใน 5 วัน จากปัญหา database connection pool เดิมที่วิศวกรเคยติดธงไว้ว่าเป็นการแก้ไขแบบ “มีก็ดี” เมื่อ 7 เดือนก่อน
      • ประเด็นนี้ถูกจัดเป็น P3 และ VP เลือกให้ความสำคัญกับการปล่อยฟีเจอร์ 3 อย่างแทน
      • หลังถูกเรียกตอนตี 3 ติดต่อกัน 5 ครั้ง ก็ เปลี่ยนเป็น P0 และแก้เสร็จภายใน 8 วัน
      • ต่อมา VP คนนั้นยอมรับว่า “ฉันเคยคิดว่าวิศวกรพูดเกินจริงเรื่อง alert fatigue แต่ไม่ใช่เลย”
  • 4. ผูกตัวชี้วัดการรักษาคนไว้กับค่าตอบแทนผู้บริหาร

    • ปรับโครงสร้างให้ 25% ของค่าตอบแทนผันแปรของผู้บริหารขึ้นอยู่กับอัตราการรักษาวิศวกรอาวุโสไว้ได้
    • นิยามของ "อาวุโส": อยู่กับบริษัทเกิน 2 ปี, ได้คะแนนประเมินผลงานเกินความคาดหวัง, หรือรับผิดชอบระบบสำคัญ
    • การตั้งเป้าหมาย: รักษาวิศวกรอาวุโสไว้ได้ 90% ต่อปี
      • หากต่ำกว่าเป้า โบนัสจะถูกหักลดตามสัดส่วน
      • หากเกินเป้า โบนัสจะจ่ายแบบมีตัวคูณ
    • กรณีตัวอย่าง: บริษัท SaaS ระดับ Series B ใช้โครงสร้างนี้ในปี 2021
      • วิศวกรอาวุโสลาออกต่อปี 28%
      • ผู้บริหารต่อต้านในช่วงแรก: คัดค้านว่า “เราไม่สามารถควบคุมได้หรอกถ้าใครสักคนได้รับข้อเสนอที่ดีกว่า”
      • CEO ตอบว่า: “ถ้าอย่างนั้นก็เท่ากับเรายอมรับว่าเราแข่งขันได้แค่เรื่องเงินเดือน ปรับปรุงมันหรือยอมรับผลกระทบต่อค่าตอบแทน”
      • ภายใน 1 ปี อัตราการลาออก ลดลงเหลือ 11%
      • รูปแบบของ exit interview เปลี่ยนไป: วิศวกรที่ลาออกพูดถึง การลาออกเพราะโอกาส (ได้เลื่อนเป็นหัวหน้าในบริษัทที่ใหญ่กว่า, ไปก่อตั้งสตาร์ทอัพ, ย้ายถิ่นฐาน) แทน การลาออกเพราะความผิดปกติขององค์กร (ข้อกังวลทางเทคนิคถูกเพิกเฉย, ไม่มีการเติบโต, วัฒนธรรมเป็นพิษ)
      • เมื่อผู้บริหารเริ่ม รู้สึกรับผิดชอบต่อการรักษาคนเก่งไว้ การทำเป้าโบนัสให้สำเร็จก็กลายเป็นส่วนที่ง่ายที่สุด
  • 5. คณะกรรมการที่ปรึกษาด้านเทคนิค (TAB) ที่มีอำนาจจริง

    • ตั้งคณะกรรมการจาก วิศวกรอาวุโส 5 คน ที่เลือกโดยองค์กรวิศวกรรมเอง (ไม่ใช่แต่งตั้งโดยผู้บริหาร)
    • ประชุมรายไตรมาสกับผู้บริหารระดับ C
    • มีอำนาจหนึ่งอย่างคือ: คัดค้านการตัดสินใจของผู้บริหารได้ 1 เรื่องต่อไตรมาส
    • ข้อกำหนด: เมื่อคัดค้านต้องมี ข้อเสนอทางเลือกเป็นลายลักษณ์อักษร ที่รวมเหตุผลทางเทคนิค ต้นทุนที่คาดการณ์ และการวิเคราะห์ความเสี่ยง
      • ผู้บริหารจะลบล้างสิทธิคัดค้านได้เฉพาะเมื่อ CEO อนุมัติและมีการบันทึกเหตุผลไว้
    • กรณีตัวอย่าง: บริษัทโครงสร้างพื้นฐานบล็อกเชนแห่งหนึ่งตั้ง TAB ในต้นปี 2020
      • ใน 2 ปี ใช้สิทธิคัดค้าน 2 ครั้ง
      • การคัดค้านครั้งแรก: ขัดขวางการตัดสินใจสร้างเฟรมเวิร์กสำหรับข้อตกลงแบบปิด proprietary และเสนอให้ขยายโปรโตคอลโอเพนซอร์สที่มีอยู่แทน ประเมินว่าช่วย ประหยัดเวลาในการพัฒนา 18 เดือน
      • การคัดค้านครั้งที่สอง: ป้องกันการปล่อย database migration โดยไม่มีการทดสอบ rollback แบบครอบคลุม การวิเคราะห์หลังนำไปใช้ประเมินว่า TAB ป้องกันเหตุข้อมูลเสียหายมูลค่า 2 ล้านดอลลาร์
      • ผลกระทบที่แท้จริงละเอียดอ่อนกว่านั้น: ผู้บริหารเริ่มถามว่า "TAB จะอนุมัติเรื่องนี้ไหม?" ก่อนสรุปการตัดสินใจทางเทคนิค
      • ภัยคุกคามจากการคัดค้านทำให้ คุณภาพของข้อเสนอเปลี่ยนไป ก่อนจะถึงมือ TAB
      • วิศวกรรายงานว่าการตัดสินเชิงเทคนิคของพวกเขาในที่สุดก็มีความสำคัญต่อการตัดสินใจของผู้บริหาร
  • 6. เส้นทาง IC (ผู้มีส่วนร่วมรายบุคคล) ที่มีความเท่าเทียมด้านค่าตอบแทน

  • กำหนดเส้นทางความก้าวหน้าในสายอาชีพ IC ให้ชัดเจน: Staff Engineer, Principal Engineer, Distinguished Engineer

    • ช่วงค่าตอบแทนควร สอดคล้องกับระดับ Director, VP, SVP ตามลำดับ
  • เกณฑ์การเลื่อนตำแหน่ง: พิจารณาจาก อิทธิพลทางเทคนิค ความเป็นผู้นำด้านสถาปัตยกรรม และผลกระทบเป็นลูกโซ่ที่ทำให้วิศวกรคนอื่นทำงานได้มีประสิทธิภาพขึ้น มากกว่าขนาดทีมหรือสายการบังคับบัญชา

  • กรณีตัวอย่าง: บริษัทฟินเทคแห่งหนึ่งสูญเสียวิศวกรระดับ Staff ไป 3 คนภายใน 6 เดือน

  • ในการสัมภาษณ์ก่อนลาออกพบรูปแบบเดิมซ้ำ ๆ: "หากไม่เป็นผู้จัดการ ก็ไปไม่ถึงค่าตอบแทนระดับ L7 ไม่อยากบริหาร แต่อยากเป็นนักพัฒนา"

    • บริษัทเริ่มใช้ สายอาชีพ IC ที่มีความเท่าเทียมด้านค่าตอบแทน
    • ภายใน 1 ปี: วิศวกร 2 คนที่ก่อนหน้านี้กำลังไปสัมภาษณ์งานที่อื่นได้รับการเลื่อนตำแหน่งเป็น Principal, รับ Senior IC 3 คนจากคู่แข่งที่ไม่มีเส้นทางอาชีพลักษณะใกล้เคียง, การสูญเสียบุคลากรสายเทคนิคอาวุโสลดลง 62%
    • ที่สำคัญยิ่งกว่านั้น วิศวกรที่ยังอยู่กับบริษัทช่วยป้องกันความผิดพลาดด้านสถาปัตยกรรมที่ประเมินมูลค่าได้ราว 3 ล้านดอลลาร์
      • ซึ่งเป็นการตัดสินใจที่วิศวกรระดับจูเนียร์หรือมิดเลเวลไม่สามารถคัดค้านได้ เพราะขาดทั้งความเชี่ยวชาญหรืออำนาจ

แนวทางการนำไปใช้ (Implementation Paths)

  • กำหนดการนำไปใช้จะแตกต่างกันไปตาม ระดับความรุนแรงที่องค์กรกำลังเผชิญอยู่
  • บริษัทที่อยู่ในภาวะวิกฤต (อัตราการลาออกของซีเนียร์ >20%, เพิ่งเกิดเหตุขัดข้องร้ายแรงล่าสุด)

    • สัปดาห์ที่ 1-2: คำนวณต้นทุนการลาออกจริงตลอด 12 เดือน (รวมต้นทุนการจ้าง, เวลาปรับตัวด้านผลิตภาพ, ความล่าช้าของโครงการ, การสูญเสียองค์ความรู้ที่ขาดหาย), วิเคราะห์รูปแบบจากการสัมภาษณ์ตอนลาออก, จับคู่ incident ใน production กับสัญญาณเตือนที่เคยถูกเพิกเฉยก่อนหน้า
    • สัปดาห์ที่ 3-4: นำเสนอสิ่งที่ค้นพบต่อ CFO และ CEO, แสดงรูปแบบ (ยกประเด็นความกังวลทางเทคนิค → ถูกลดลำดับความสำคัญ → วิศวกรลาออก → เกิด incident หรือค่าใช้จ่าย), ประเมินมูลค่าความเสียหายรวมเชิงปริมาณ, เสนอการแทรกแซงทันที
    • สัปดาห์ที่ 5-8: เริ่ม executive on-call rotation (เปลี่ยนวัฒนธรรมได้เร็วที่สุด), เริ่มติดตามต้นทุนการลาออก (สร้างกรณีสำหรับการเปลี่ยนแปลงอย่างต่อเนื่อง), สร้าง TAB pilot ด้วยวิศวกร 3 คน, เริ่มติดตามต้นทุนการลาออกรายเดือนในแดชบอร์ดผู้บริหาร
    • สัปดาห์ที่ 9-12: เสนอการเปลี่ยนโครงสร้างค่าตอบแทนต่อบอร์ด, ผูกโบนัสผู้บริหารกับอัตราการรักษาพนักงาน, ประกาศเส้นทางอาชีพ IC อย่างเป็นทางการ, สื่อสารอย่างโปร่งใสว่าอะไรเปลี่ยนไปและเพราะเหตุใด
  • บริษัทที่มีสัญญาณเตือนล่วงหน้า (อัตราการลาออก 12-18%, วิศวกรพูดถึงความกังวลใน 1:1)

    • เดือนที่ 1-2: เริ่มติดตามต้นทุนการลาออกและสร้างกรณีเชิงเศรษฐศาสตร์, สำรวจวิศวกรเรื่องความเสี่ยงในการรักษาพนักงานและอะไรที่จะทำให้อยู่ต่อ, ระบุ 3 ความกังวลที่ถูกพูดถึงบ่อยที่สุด
    • เดือนที่ 3-4: ทดลองให้ผู้บริหารเป็นผู้สนับสนุนทรัพยากรและทำ executive on-call rotation, เริ่ม TAB pilot, ใช้ทั้งสองอย่างเพื่อทำให้ technical debt และแรงเสียดทานในองค์กรปรากฏชัด, จัดทำเอกสารต้นทุนของงานที่ถูกเลื่อนออกไป
    • เดือนที่ 5-6: ใช้การเปลี่ยนโครงสร้างค่าตอบแทนแบบถาวร, ทำให้อำนาจของ TAB เป็นทางการ, เปิดเผยเกณฑ์และช่วงค่าตอบแทนของเส้นทางอาชีพ IC, ตั้งการรักษาวิศวกรระดับซีเนียร์เป็นเป้าหมายผู้บริหารอย่างชัดเจน

กรณีที่สิ่งนี้ใช้ไม่ได้ผล

  • การแทรกแซงเหล่านี้ ล้มเหลวอย่างคาดการณ์ได้ใน 3 สถานการณ์ และหากไม่ยอมรับข้อนี้ก็จะเสียเวลาเปล่า
  • 1. โมเดลธุรกิจที่ถูกออกแบบมาโดยมีการลาออกเป็นสมมติฐานตั้งแต่แรก

    • บริษัทที่ปรึกษาและผู้รับจ้างตามสัญญาคาดว่า อัตราการลาออกต่อปีอยู่ที่ 20-40%
    • โมเดลธุรกิจสะท้อนต้นทุนการเปลี่ยนคนไว้ในราคาแล้ว และอัตราค่าบริการก็ตั้งอยู่บนสมมติฐานว่าความเชี่ยวชาญเฉพาะภายในองค์กรมีจำกัด
    • กลยุทธ์การรักษาคนที่ออกแบบมาสำหรับบริษัทผลิตภัณฑ์ ไม่มีความหมาย ในที่ซึ่งการหมุนเวียนลูกค้าผลักดันให้เกิดการลาออกตามธรรมชาติ และ partner track สร้างแรงกดดันแบบ up-and-out โดยเจตนา
    • ในทำนองเดียวกัน สตาร์ทอัพระยะเริ่มต้นก่อน product-market fit อาจเผชิญการลาออกของวิศวกรซึ่งไม่ได้สะท้อนความล้มเหลวในการรักษาคน แต่เป็นสัญญาณของการ pivot ที่จำเป็น
      • หากบริษัทกำลังเปลี่ยนทิศทางครั้งใหญ่ทุก 6 เดือน อัตราการรักษาที่ต่ำอาจหมายถึง การจัดสรรบุคลากรใหม่อย่างเหมาะสม ไม่ใช่ความผิดปกติเชิงระบบ
  • 2. ทำแค่ให้เหมือนว่ากำลังทำ (Implementation Theater)

    • การแทรกแซงที่มีแต่รูปแบบภายนอกให้ผลแย่กว่าการไม่ทำอะไรเลย
    • TAB ที่ไม่มีอำนาจคัดค้านจริงจะกลายเป็น ช่องระบาย ให้ความกังวลของวิศวกร
      • เมื่อพวกเขาต้องลงทุนเวลาให้ข้อเสนอที่ถูกมองข้ามอย่างเป็นระบบ จะยิ่ง เพิ่มความโกรธเท่านั้น
    • การทำ executive on-call rotation ที่ไม่เชื่อมโยงกับการแก้ที่ต้นตอ จะสร้าง ความเห็นอกเห็นใจแบบแสดงให้ดูแต่ไร้ความรับผิดชอบ
      • VP ที่ถูกเรียกเพราะปัญหาที่ตนไม่สามารถจัดลำดับความสำคัญเพื่อแก้ได้ จะได้เรียนรู้เพียงว่าวิศวกรมักบ่นเรื่องอะไร
    • การทำบัญชีต้นทุนการลาออกที่คำนวณแล้ว แต่ไม่เคยปรากฏในแดชบอร์ดผู้บริหารหรือการคุยเรื่องค่าตอบแทน จะยังคงเป็นเพียง การถกเถียงในเชิงทฤษฎี
    • การแทรกแซงที่ทำแบบครึ่งๆ กลางๆ แสดงให้เห็นว่าองค์กรแค่ ทำเป็นสนใจโดยไม่มีเจตนาจริงต่อการเปลี่ยนแปลงเชิงโครงสร้าง
  • 3. ไม่มีเงื่อนไขเบื้องต้นด้านวัฒนธรรม

    • การแทรกแซงเหล่านี้ต้องการ เงื่อนไขเบื้องต้นด้านวัฒนธรรม ที่หลายองค์กรไม่มี: ผู้นำต้องต้องการ การเปลี่ยนแปลงพฤติกรรมจริง ไม่ใช่การจัดการภาพลักษณ์
    • หากผู้บริหารมองการรักษาวิศวกรเป็นปัญหา PR ไม่ใช่ปัญหาเชิงเศรษฐศาสตร์ พวกเขาจะทำเฉพาะสิ่งที่มองเห็นได้มากที่สุด (คณะกรรมการที่ปรึกษา, listening tour) และหลีกเลี่ยงสิ่งที่มีต้นทุนสูงกว่า (การปรับโครงสร้างค่าตอบแทน, อำนาจคัดค้านจริง)
    • แบบทดสอบวินิจฉัย: ลองเสนอให้ผูก 25% ของค่าตอบแทนผันแปรของผู้บริหารเข้ากับการรักษาวิศวกรระดับซีเนียร์
      • หากผู้นำรีบอธิบายทันทีว่า “ทำไมสิ่งนี้ถึงทำไม่ได้ในบริษัทเรา” ก็แปลว่า คุณได้คำตอบแล้ว
        • พวกเขาต้องการทางออกที่ไม่มีต้นทุนส่วนตัว
    • บริษัทที่ยังไม่พร้อมมอบอำนาจคัดค้านให้วิศวกร, ผูกเงินเดือนผู้บริหารกับการรักษาพนักงาน, และสะท้อนต้นทุนการลาออกในรีวิวการเงินรายไตรมาส ก็ ยังไม่พร้อมสำหรับการเปลี่ยนแปลงเชิงโครงสร้าง
    • พวกเขาเพียงยอมรับว่ามีความกังวล แนะนำให้ “ศึกษาเพิ่มเติม” และพอใจกับ รายงานที่ปรึกษา ที่ปล่อยให้มีฝุ่นเกาะ ในขณะที่วิศวกรซีเนียร์ยังคงลาออกต่อไป
    • การแทรกแซงจะได้ผลเมื่อผู้นำตระหนักว่า ต้นทุนการลาออกปีละ 1.4 ล้านดอลลาร์ สูงกว่ามาตรการที่จำเป็นเพื่อหยุดมัน
      • หากไม่มีการตระหนักเช่นนั้น ไม่ว่าคณะกรรมการที่ปรึกษาจะมากแค่ไหนก็ไม่สามารถทดแทนการจัดแนวทางเศรษฐศาสตร์ได้

การคำนวณเชิงเศรษฐศาสตร์แบบใหม่

  • ขณะที่บริษัทโครงสร้างพื้นฐานบล็อกเชนที่ผู้เขียนเป็นผู้นำ ขยายจากวิศวกร 10 คนเป็น 187 คนในเวลา 3 ปี
    • บริษัทสามารถรักษาอัตราการลาออกของวิศวกรซีเนียร์ต่อปีไว้ที่ เฉลี่ย 6% ซึ่งต่ำกว่าอัตราการลาออกทั่วไปของบริษัทที่เติบโตเร็วมากซึ่งอยู่ที่ 35~40% อย่างมาก
  • สาเหตุของผลลัพธ์นี้ไม่ได้มาจากสวัสดิการหรือกลไกทางวัฒนธรรม แต่เป็น การออกแบบโครงสร้างแรงจูงใจใหม่
    • ผู้จัดการระดับกลางได้รับรางวัลจากการ ทำให้ความเสี่ยงทางเทคนิคปรากฏตั้งแต่เนิ่นๆ ไม่ใช่จากการทำให้ทุกอย่างดูเหมือนอยู่ภายใต้การควบคุม
    • การทำ postmortem ต้องมี เอกสารเตือนก่อนหน้า; คำเตือนที่ถูกเพิกเฉยจะกลายเป็น หัวข้อประเมินผลงาน ของผู้ที่ลดลำดับความสำคัญมัน
    • ฝ่ายผู้นำทางเทคนิคมีอำนาจคัดค้านในการตัดสินใจด้านสถาปัตยกรรม เรา ใช้มัน 2 ครั้ง แต่เพียงความเป็นไปได้ที่จะใช้สิทธิ์คัดค้านก็ช่วยยกระดับคุณภาพของข้อเสนอโดยรวม
    • มีเส้นทางอาชีพ IC ตั้งแต่ก่อตั้งบริษัท; พนักงานอาวุโสที่สุดที่ไม่ใช่ผู้จัดการ ได้รับค่าตอบแทนมากกว่าผู้อำนวยการส่วนใหญ่
  • ต้นทุนของระบบ: ประมาณ $400,000 ต่อปี สำหรับการปรับค่าตอบแทน, ภาระงานด้าน governance, และการจัดลำดับความสำคัญของ technical debt ที่ทำให้บางฟีเจอร์ล่าช้า
  • จำนวนที่ประหยัดได้:
    • ต้นทุนการลาออกที่ป้องกันได้ 2.1 ล้านดอลลาร์ (ใช้มาตรฐานอุตสาหกรรมที่ลาออก 35% กับจำนวนวิศวกรซีเนียร์)
    • นอกจากนี้ยังมีการประหยัดที่วัดไม่ได้แต่มีนัยสำคัญ จากการตัดสินใจด้านสถาปัตยกรรมที่ไม่ก่อ incident ระดับหลายล้านดอลลาร์ เพราะวิศวกรซีเนียร์มีอำนาจสั่งหยุดได้

ความจริงที่ชวนอึดอัด

  • บริษัทส่วนใหญ่จะไม่ทำการแทรกแซงเหล่านี้ จนกว่าจะถูกบีบให้ทำอย่างหลีกเลี่ยงไม่ได้
  • ตัวเร่งให้ต้องทำมักเป็นสถานการณ์ หายนะ: incident ใน production ที่สร้างต้นทุนหลายล้านดอลลาร์, การสูญเสียพนักงานครั้งใหญ่ที่ทำให้ทีมหลักเป็นอัมพาต, หรือคู่แข่งเข้ามาดึงวิศวกรหลักของคุณไปครึ่งทีมด้วยการเสนอสิ่งที่คุณปฏิเสธ นั่นคือการให้ความเคารพต่อวิจารณญาณทางเทคนิค
  • เมื่อถึงตอนนั้น คุณจะไม่ได้ทำเพื่อป้องกันอีกต่อไป แต่กำลัง ไล่ตามการฟื้นฟูความเสียหาย
    • การฟื้นฟูมีราคาแพง เพราะวิศวกรที่ดีที่สุดซึ่งสามารถป้องกันวิกฤตครั้งถัดไปได้ ลาออกไปแล้ว
    • ผู้สืบทอดของพวกเขาอาจมีความสามารถ แต่ขาดความรู้เกี่ยวกับองค์กร จึงไม่รู้ว่าควรเตือนเรื่องใด และยิ่ง เร่งวงจรล่มสลาย
  • คำถามไม่ใช่ว่าการแทรกแซงเหล่านี้ได้ผลหรือไม่ เพราะ หลักฐานชัดเจน
    • บริษัทที่ปรับแรงจูงใจของผู้บริหารให้สอดคล้องกับการรักษาพนักงาน, มอบอำนาจที่มีความหมายให้วิศวกร, และมองการลาออกเป็นปัญหาเชิงเศรษฐศาสตร์ ทำผลงานได้ดีกว่าอย่างสม่ำเสมอ ทั้งด้านการรักษาพนักงาน, อัตราการเกิด incident, และสุขภาพทางเทคนิคระยะยาว
  • หากวิศวกรที่มีทักษะกำลังลาออก และวิธีแก้แบบทั่วไปไม่ได้ผล ปัญหาอาจไม่ใช่ การสื่อสาร แต่เป็นเรื่องเศรษฐศาสตร์

10 ความคิดเห็น

 
duddnd649 2026-03-10

ผู้บริหารได้ยินแล้วก็พยักหน้า
ยอมรับว่ามีปัญหา
บอกว่าจะปรับลำดับความสำคัญ
> ติดอยู่ตรงนี้แหละ

 
bichi 2025-12-19

ความจริงที่น่าอึดอัด +

แม้อ่านบทความนี้ ผู้บริหารที่ต้องเป็นคนตัดสินใจจริงก็จะยังไม่เข้าใจอยู่ดี

 
mstorm 2025-12-23

เห็นด้วยครับ

 
rrr6ttt 2025-12-18

จริงมาก

 
jjw9512151 2025-12-18

เป็นบทความที่มีแนวทางแก้ปัญหาอยู่ด้วยจริง ๆ หายากมาก ขอบคุณครับ

 
ds2ilz 2025-12-17

กำลังดูบนมือถืออยู่ แต่เหมือนมีรายการบางอันในเนื้อหาหลักที่น่าจะมีปัญหาเรื่องการจัดวาง เลยกลายเป็นหนึ่งบรรทัดมีแค่หนึ่งตัวอักษร นอกจากนั้นพอมีการย่อหน้าเข้าไปลึกขึ้นอีกนิด ความยาวของบรรทัดก็สั้นลงอย่างมากเลยครับ

 
curioe 2025-12-18

แก้ไขแล้ว ขอบคุณที่แจ้งมาครับ

 
cysl0 2025-12-17

ใช่ครับ บน iOS 26.1 x safari ก็มีอาการเดียวกัน

 
bini59 2025-12-17

ฉันก็อยากรีแฟกเตอร์เหมือนกัน

 
ethanhur 2025-12-17

ถ้าคุณแสดงแรงจูงใจให้ผมดู ผมก็จะแสดงผลลัพธ์ให้คุณเห็น - ชาร์ลี มังเกอร์