วิธีแทรกแซงทางเศรษฐศาสตร์เพื่อหยุดการย้ายงานของวิศวกร
(codegood.co)- ปัญหาการสูญเสียวิศวกรอาวุโสไม่ใช่ปัญหาเรื่องการไหลของข้อมูล แต่เป็นปัญหาเรื่อง โครงสร้างแรงจูงใจของผู้บริหาร และ ระบบค่าตอบแทนที่ปรับให้เหมาะกับผลงานรายไตรมาส ซึ่งขัดแย้งโดยพื้นฐานกับการรักษาคนเก่งที่ต้องอาศัยการลงทุนระยะยาว
- เมื่อวิศวกรอาวุโสลาออก 1 คน ต้นทุนรวมอาจสูงถึง 500,000~1,000,000 ดอลลาร์ แต่ค่าใช้จ่ายด้านการจ้างงาน ต้นทุนจากตำแหน่งว่าง การออนบอร์ด และการสูญเสียความรู้เฉพาะองค์กร (tribal knowledge) มักกระจายอยู่ในหลายงบประมาณจนมองไม่เห็น
- มีกรณีที่บริษัทประมวลผลการชำระเงินเพิกเฉยต่อคำเตือนล่วงหน้า 14 เดือน และต้องสูญเสีย 3.47 ล้านดอลลาร์ ในวัน Black Friday ทั้งที่ค่าใช้จ่ายในการแก้ไขแต่เดิมมีเพียง 80,000 ดอลลาร์
- มีการเสนอ การแทรกแซงเชิงโครงสร้าง 6 แบบ (การทำบัญชีต้นทุนการลาออก, การติดตามอุบัติการณ์, ให้ผู้บริหารเข้าเวร on-call, ผูกอัตราการรักษาพนักงานเข้ากับค่าตอบแทน, คณะกรรมการที่ปรึกษาด้านเทคนิค, และค่าตอบแทนที่เท่าเทียมสำหรับสาย IC) ในฐานะวิธีแก้ที่ช่วยจัดแนวแรงจูงใจใหม่
- การแทรกแซงเหล่านี้จะได้ผลก็ต่อเมื่อผู้บริหาร มองการรักษาพนักงานเป็นปัญหาทางเศรษฐศาสตร์ และมีความตั้งใจจะยอมรับการเปลี่ยนแปลงเชิงโครงสร้างเท่านั้น เพราะหากทำแบบเป็นพิธีการอาจยิ่งให้ผลย้อนกลับ
ทำไมข้อมูลไหลเวียนแล้วการกระทำถึงไม่เปลี่ยน
"The constraint is not information flow. It is economics."
- บทความนี้เป็นตอนที่ 2 ของซีรีส์ว่าด้วยการลาออกของวิศวกร โดยต่อเนื่องจากตอนแรก ทำไมวิศวกรที่เก่งที่สุดของคุณถึงกำลังไปสัมภาษณ์งานที่อื่น ซึ่งพูดถึงปัญหา ความไม่สมมาตรของข้อมูล
- ในตอนแรกอธิบายว่าวิศวกรอาวุโสจากไปเพราะอะไร โดยสาเหตุหลักคือแม้ปัญหาจะมีอยู่ แต่ก็เป็น โครงสร้างที่ทำให้ข้อมูลไปไม่ถึงผู้บริหาร
- แต่บทความนี้ผลักสมมติฐานนั้นไปอีกขั้น
- กล่าวถึงสิ่งที่เกิดขึ้นเมื่อ ปรับปรุงการไหลของข้อมูลได้จริง
- ข้อสรุปคือ ต่างจากที่คาดไว้ ส่วนใหญ่แล้วจะไม่มีอะไรเปลี่ยน
- องค์กรนำเครื่องมือต่าง ๆ มาใช้เพื่อให้รับรู้ปัญหา
- เริ่มทำสกิปเลเวล 1:1
- เปิดช่องทางฟีดแบ็กแบบไม่เปิดเผยตัวตน
- ทำแบบสำรวจการรักษาพนักงานผ่านที่ปรึกษาภายนอก
- ผลคือวิศวกรสามารถ สื่อสารปัญหาได้อย่างชัดเจนมาก
- หนี้ทางเทคนิคกำลังกัดกร่อนขวัญกำลังใจ
- ความเชี่ยวชาญถูกมองข้ามในการตัดสินใจด้านสถาปัตยกรรม
- ภาระ on-call อยู่ในระดับที่ไม่ยั่งยืน
- ผู้บริหารได้ยินแล้วก็พยักหน้า
- ยอมรับว่ามีปัญหา
- บอกว่าจะปรับลำดับความสำคัญ
- แต่เมื่อไตรมาสเปลี่ยน การตัดสินใจก็ วนกลับไปเหมือนเดิม
- ยังทำตามเป้าหมายรายไตรมาสด้วยวิธีเดิม
- และวิธีนั้นก็คือ การเพิกเฉยต่อปัญหาที่เพิ่งได้รับฟังไปอีกครั้ง
- ตรงนี้บทความชี้ประเด็นสำคัญอย่างชัดเจน
- ปัญหาไม่ใช่การขาดข้อมูล
- ปัญหาคือ โครงสร้างทางเศรษฐศาสตร์ หรือก็คือการออกแบบแรงจูงใจ
ปัญหาหลัก: โครงสร้างแรงจูงใจของผู้บริหาร
- ตัวอย่าง การคำนวณเพื่อตัดสินใจ ที่ VP of Engineering ต้องเผชิญในเดือนตุลาคม
- เหลืออีก 3 เดือนก่อนการทบทวนผลงานรายไตรมาส และอีก 6 เดือนกว่าหุ้นของวิศวกรจะ vest
- วิศวกรแพลตฟอร์มอาวุโสคนหนึ่งขอว่า
- อยาก รีแฟกเตอร์ ระบบยืนยันตัวตนเป็นเวลา 6 สัปดาห์
- หนี้ทางเทคนิคสะสมมามากและโครงสร้างเริ่มเปราะบาง
- นักวิจัยด้านความปลอดภัย 2 คนได้ส่งสัญญาณเตือนความเสี่ยงมาแล้ว
- แต่สถานการณ์ปัจจุบันยังคลุมเครือ
- ยังไม่มี outage จริง ไม่มีลูกค้าร้องเรียน และไม่มีผลกระทบต่อรายได้
- สิ่งที่มีอยู่มีเพียง คำเตือนจากวิศวกร ว่า “ถ้าไม่แก้ตอนนี้จะกลายเป็นวิกฤต”
- สำหรับ VP มีทางเลือกอยู่ 2 แบบ
- ทางเลือก A: อนุมัติการรีแฟกเตอร์
- ยอมรับว่าความเร็วในการพัฒนาฟีเจอร์จะลดลง 6 สัปดาห์
- มีความเสี่ยงที่จะพลาด OKR รายไตรมาส
- ต้องอธิบายกับ CEO ว่าทำไมโรดแมปจึงล่าช้าเพราะ “งานเทคนิคที่ลูกค้ามองไม่เห็น”
- มีความเสี่ยงที่ กำหนดการเปิดตัวฟีเจอร์ ที่ทีมขายเคยรับปากไว้จะสั่นคลอน
- สุดท้ายอาจส่งผลเสียโดยตรงต่อ โบนัสสิ้นปี
- ผลตอบแทนของทางเลือกนี้จะได้รับในอีก 12~18 เดือนข้างหน้า: วิศวกรอาวุโสคนนั้นอยู่กับองค์กรต่อ เพราะรู้สึกว่า “การตัดสินทางเทคนิคของตนได้รับความเคารพ”
- ทางเลือก B: ตัดสินใจให้ฟีเจอร์มาก่อน
- ยอมรับว่าหนี้ทางเทคนิค “สำคัญ” แต่เลื่อนไปเป็น “ไตรมาสหน้า”
- เปิดตัวตามโรดแมปเดิมให้สำเร็จ บรรลุ OKR และรับโบนัส
- วิศวกรอาวุโสยังอยู่ต่อในตอนนี้ เพราะ stock option ยังไม่ vest
- ถ้าระบบยืนยันตัวตนพังในภายหลัง นั่นก็เป็นปัญหาของไตรมาสในอนาคต
- ถ้าวิศวกรลาออกในอีก 6 เดือน ก็มองว่าน่าจะจ้างคนใหม่มาแทนได้
- ทางเลือก A: อนุมัติการรีแฟกเตอร์
- ในโครงสร้างแบบนี้ ทางเลือก B ชนะเสมอ — จนกว่าจะล้มเหลวจริง ๆ
- B จะชนะไปเรื่อย ๆ จนกระทั่งเกิด ระบบหลักล่ม ระหว่างการเปิดตัวสินค้า วิศวกรอาวุโสลาออก 5 คนภายใน 18 เดือน และ CFO เริ่มถามว่า “ทำไมเราถึงจ่ายค่ารีไฮร์ปีละ 1.4 ล้านดอลลาร์”
- เพราะนี่คือ ความไม่สอดคล้องกันโดยพื้นฐาน
- โครงสร้างค่าตอบแทนของผู้บริหารถูกปรับให้เหมาะกับ ผลงานรายไตรมาส
- แต่การรักษาวิศวกรและการจัดการหนี้ทางเทคนิคต้องการ การลงทุนระยะยาว
- การปรับปรุงการไหลของข้อมูลเพียงอย่างเดียวไม่สามารถอุดช่องว่างนี้ได้
- ทางออกคือ การออกแบบโครงสร้างทางเศรษฐศาสตร์ใหม่ทั้งระบบ
Why the Math Favors Dysfunction - พอคำนวณดูแล้ว ระบบพังจึงแทบเป็นเรื่องเลี่ยงไม่ได้
-
ต้นทุนแฝง ทำงานในลักษณะที่มองไม่เห็น จนทำให้ ผู้กระทำการที่มีเหตุผลตัดสินใจอย่างไร้เหตุผล
-
หากวิศวกรอาวุโส 1 คนที่มีเงินเดือนระดับ $200,000 ลาออก ต้นทุนรวมที่แท้จริงจะคำนวณได้ที่ $500,000 ~ $1,000,000 ขึ้นไป
- ผู้บริหารส่วนใหญ่มักคิดว่าตัวเลขนี้เกินจริงเมื่อได้ยินครั้งแรก แต่จริง ๆ แล้วไม่ใช่ วิธีคำนวณมีดังนี้
-
ต้นทุนการทดแทนโดยตรง: $85,000-$100,000
- ค่าธรรมเนียมการจ้างงาน: ค่าธรรมเนียมของรีครูตเตอร์ภายนอก 20-25% ซึ่งสำหรับวิศวกรเงินเดือน 200,000 ดอลลาร์จะอยู่ที่ $40,000-$50,000
- หากดำเนินการสรรหาภายในเอง (เว็บประกาศงาน, เครื่องมือ sourcing, เงินเดือนรีครูตเตอร์) จะอยู่ที่ $15,000-$20,000
- โบนัสเซ็นสัญญา: ในตลาดที่มีการแข่งขันสูง ต้องใช้ $20,000-$40,000 เพื่อให้ได้ผู้สมัครระดับซีเนียร์
- โดยเฉพาะเมื่อพวกเขาย้ายงานทั้งที่ยังมีหุ้นค้างอยู่กับบริษัทปัจจุบัน ถือว่าแทบจำเป็น
- ค่าใช้จ่ายในการย้าย: หากเป็นการย้ายภายในประเทศจะอยู่ที่ $10,000-$30,000 และหากย้ายข้ามประเทศจะสูงกว่านี้
- ค่าธรรมเนียมการจ้างงาน: ค่าธรรมเนียมของรีครูตเตอร์ภายนอก 20-25% ซึ่งสำหรับวิศวกรเงินเดือน 200,000 ดอลลาร์จะอยู่ที่ $40,000-$50,000
-
ต้นทุนจากตำแหน่งว่าง (Vacancy): $50,000-$100,000
- โดยเฉลี่ยใช้เวลา 3-6 เดือน ในการจ้างวิศวกรอาวุโส
- ในช่วงที่ตำแหน่งว่าง งานของวิศวกรคนนั้นไม่ได้หยุดไป และมีต้นทุน 2 แบบเกิดขึ้นพร้อมกัน
- อย่างหนึ่งคือ ประสิทธิภาพของทีมลดลงเพราะต้องกระจายงานใหม่ และอีกอย่างคือ เกิดต้นทุนค่าเสียโอกาสจากการละทิ้งงาน
- ต้นทุนจากการกระจายงานใหม่ $25,000-$40,000:
- ประมาณ 60% ของงานที่วิศวกรที่ลาออกเคยทำจะถูกกระจายไปยังสมาชิกทีมที่เหลือ
- นี่ไม่ใช่การย้ายทรัพยากรงานอย่างอิสระ แต่ทำให้ประสิทธิภาพลดลง
- วิศวกรที่มีภาระงานล้นอยู่แล้วต้องมาจัดการ code review ในส่วนที่ไม่คุ้นเคย ตอบคำถามเกี่ยวกับระบบที่ตนไม่ได้พัฒนา และดูแลบริการที่ยังไม่เข้าใจทั้งหมด
- หากวิศวกร 3 คนรับภาระเพิ่มคนละ 20% ก็ไม่ได้แปลว่าแค่ทำงานเพิ่ม 20% แต่ประสิทธิภาพโดยรวมลดลงเพราะต้องสลับบริบท
- ทำให้เกิดการสูญเสียผลิตภาพ 10-15% ต่อวิศวกรในช่วงที่ตำแหน่งว่าง
- การคำนวณต้นทุนจากการกระจายงานใหม่
- จำนวนวิศวกรที่รับงานแทน × อัตราการลดลงของผลิตภาพ × ระยะเวลาตำแหน่งว่าง (เดือน) × (เงินเดือนเฉลี่ย / 12)
- ในสถานการณ์ทั่วไปคือ วิศวกร 3 คน × ผลิตภาพลดลง 12% × 4 เดือน × ($180,000 / 12) = $21,600
- หากวิศวกรที่ลาออกดูแลงานในด้านที่ ต้องใช้ความเชี่ยวชาญสูง เช่น infrastructure, security, platform ตัวเลขนี้อาจเพิ่มเป็น $30,000–$40,000
- ต้นทุนจากการละทิ้งงาน $25,000-$60,000:
- อีก 40% ที่เหลือจะไม่ถูกกระจายต่อ แต่ถูกเลื่อนออกไปหรือยกเลิกไปเลย
- งานอย่างการปรับปรุงแพลตฟอร์ม การลดหนี้เทคนิค การพัฒนาสถาปัตยกรรม เอกสาร และการเมนเทอร์ ไม่ได้เกี่ยวกับการปล่อยฟีเจอร์โดยตรงแต่เป็นงานป้องกันวิกฤตในอนาคต ซึ่งจะถูก ตัดออกจากโรดแมปอย่างเงียบ ๆ
- ต้นทุนในทันที ของการละทิ้งงาน (Work Abandonment) คำนวณจากมูลค่าเงินเดือนเทียบเท่าของงานที่ไม่ได้ทำ
- 40% ของงานที่วิศวกรที่ลาออกเคยรับผิดชอบจะไม่ได้ถูกทำในช่วงที่ตำแหน่งว่าง
- สูตรคำนวณคือ 40% × 4 เดือน × ($200,000 / 12) = $26,667
- แต่ต้นทุนที่แท้จริงไม่ได้จบลงทันที
- งานที่ถูกเลื่อนจะสร้าง ต้นทุนสะสม ต่อเนื่องไปในไตรมาสถัด ๆ ไป
- ตัวอย่างเช่น
- หากการปรับแต่งฐานข้อมูลที่วิศวกรโครงสร้างพื้นฐานอาวุโสวางแผนไว้ถูกเลื่อนออกไป
- ประสิทธิภาพของ query จะค่อย ๆ แย่ลง
- และสุดท้ายจะต้องมี การรับมือฉุกเฉิน ที่ใหญ่กว่าขอบเขตงานเดิมมาก
- หากการรีวิวสถาปัตยกรรมที่วิศวกรคนนั้นดูแลอยู่หยุดชะงัก
- การตัดสินใจทางเทคนิคก็จะดำเนินต่อไป
- ทั้งที่ไม่มีความเชี่ยวชาญที่จะช่วยกรองความผิดพลาดที่มีต้นทุนสูงล่วงหน้าได้
- หากการปรับแต่งฐานข้อมูลที่วิศวกรโครงสร้างพื้นฐานอาวุโสวางแผนไว้ถูกเลื่อนออกไป
- ต้นทุนจากการละทิ้งงานที่วัดได้คือ
- มูลค่าของ “งานที่เดิมควรทำแต่ไม่ได้ทำ”
- สูตรคำนวณแบบอนุรักษ์นิยมมีดังนี้
- (สัดส่วนงานที่ถูกละทิ้ง × เงินเดือน / 12) × จำนวนเดือนที่ตำแหน่งว่าง
- (40% × $200,000 / 12) × 4 เดือน = $26,667
- ช่วงต้นทุนจากการละทิ้งงานที่สมจริงคือ $25,000–$60,000
- ขึ้นอยู่กับสัดส่วนว่างานที่ถูกทิ้งเป็นงานเชิงป้องกันหรือเป็นงานที่เน้นฟีเจอร์
- ต้นทุนรวมจากตำแหน่งว่าง (Combined Vacancy Cost): $50,000–$100,000
- เป็นผลรวมของต้นทุนจากการกระจายงานใหม่ $25,000–$40,000 + ต้นทุนจากการละทิ้งงาน $25,000–$60,000
- ตัวเลขนี้สะท้อนเฉพาะ ผลกระทบโดยตรงและวัดได้ ที่เกิดขึ้นในช่วง ตำแหน่งว่าง 4 เดือน เท่านั้น
- การคำนวณนี้จัดทำอย่างอนุรักษ์นิยม
-
ต้นทุนการ onboard และการปรับตัว: $100,000-$125,000
- ผลิตภาพของวิศวกรอาวุโสคนใหม่: เดือนที่ 1 ประมาณ 25%, เดือนที่ 2-3 50%, เดือนที่ 4-5 75%, และเข้าสู่ผลิตภาพเต็มที่ในเดือนที่ 6
- เดือนที่ 1: สูญเสียผลิตภาพ 75% = (200,000 ดอลลาร์ / 12 เดือน) × 0.75 = 12,500 ดอลลาร์
- เดือนที่ 2~3: สูญเสียผลิตภาพ 50% = (200,000 ดอลลาร์ / 12 เดือน) × 0.50 × 2 = 16,667 ดอลลาร์
- เดือนที่ 4~5: สูญเสียผลิตภาพ 25% = (200,000 ดอลลาร์ / 12 เดือน) × 0.25 × 2 = 8,333 ดอลลาร์
- ผลต่างด้านผลิตภาพรวมใน 6 เดือนแรก: $37,500
- ต้นทุนกำลังคนสำหรับ onboarding: วิศวกรอาวุโสคนใหม่ใช้เวลาของวิศวกรคนอื่น 10-15 ชั่วโมงต่อสัปดาห์ในเดือนแรก และ 5-8 ชั่วโมงต่อสัปดาห์ในเดือนที่ 2-3
- เดือนที่ 1: 12 ชั่วโมงต่อสัปดาห์ × 4 สัปดาห์ × 90 ดอลลาร์ต่อชั่วโมง = 4,320 ดอลลาร์
- เดือนที่ 2~3: 6 ชั่วโมงต่อสัปดาห์ × 8 สัปดาห์ × 90 ดอลลาร์ต่อชั่วโมง = 4,320 ดอลลาร์
- ต้นทุนกำลังคนสำหรับ onboarding ที่คิดจากอัตรา $90 ต่อชั่วโมง: $8,640
- ดังนั้นใน 6 เดือนแรกจึงเกิด ความสูญเสีย $46,140
- แต่เนื่องจากวิศวกรอาวุโสส่วนใหญ่ต้องใช้เวลาประมาณ 1 ปี จึงจะมีความเชี่ยวชาญในโดเมนได้ถึงระดับเดียวกับวิศวกรคนก่อน จึงประเมินไว้ที่ $92,000-$125,000
- ผลิตภาพของวิศวกรอาวุโสคนใหม่: เดือนที่ 1 ประมาณ 25%, เดือนที่ 2-3 50%, เดือนที่ 4-5 75%, และเข้าสู่ผลิตภาพเต็มที่ในเดือนที่ 6
-
การสูญเสียความรู้เฉพาะในองค์กร (Tribal Knowledge): $100,000-$300,000
- เป็นสิ่งที่วัดเชิงปริมาณได้ยากที่สุด แต่จะ ปรากฏออกมาเป็นความผิดพลาด ในไตรมาสถัด ๆ ไป
- สิ่งที่วิศวกรที่ลาออกรู้มีเช่น:
- ส่วนไหนของ codebase เปราะบางและต้องเปลี่ยนอย่างระมัดระวัง
- ลูกค้ารายใดมีข้อกำหนดพิเศษ และเพราะเหตุใด
- การตัดสินใจด้านสถาปัตยกรรมใดเป็น trade-off ที่ตั้งใจไว้ เทียบกับอะไรคือหนี้เทคนิค
- โค้ด 3 บรรทัดที่สำคัญจริง ๆ ในบริการที่มี 10,000 บรรทัด
- เหตุผลที่ database query บางตัวดูไม่มีประสิทธิภาพแต่ต้องเขียนแบบนั้น (เพราะ “การปรับให้เหมาะสม” ที่ดูชัดเจนเคยทำให้ข้อมูลเสียหายในเงื่อนไขเฉพาะที่พบเมื่อ 3 ปีก่อน)
- ความผิดพลาดจากการขาดบริบท: วิศวกรใหม่ไป optimize query ที่ “ช้า” แล้วทำให้ workflow หลักของลูกค้ารายใหญ่ 2 รายของบริษัทหยุดทำงาน
- ใช้เวลา 2 วันในการหาสาเหตุ ($4,615), 1 สัปดาห์ในการทำ fix ที่เหมาะสม ($7,692), และการกู้คืนความสัมพันธ์กับลูกค้า
- ต้นทุนของเหตุการณ์เดียวประมาณ $12,000-$15,000 และเกิด 3-5 ครั้งในปีแรกต่อวิศวกรอาวุโสที่ลาออก 1 คน
- ความล่าช้าในการตัดสินใจ: คำถามที่วิศวกรที่ลาออกเคยตอบได้ใน 30 วินาที ตอนนี้ต้องใช้เวลา 3 ชั่วโมงไปกับการทำ code archaeology, ค้นประวัติ Slack, และคุยกันว่า “มีใครรู้ไหมว่าทำไมถึงทำแบบนี้?”
- หากเกิดสัปดาห์ละ 2 ครั้ง เป็นเวลา 6 เดือน: $14,040
- โครงการที่ถูกเลื่อนหรือยกเลิก: มีเพียงวิศวกรที่ลาออกเท่านั้นที่เข้าใจระบบยืนยันตัวตนดีพอจะทำ SSO integration ได้อย่างปลอดภัย
- โครงการนั้นจึงล่าช้า 6-9 เดือน และหาก SSO เป็นข้อจำเป็นสำหรับสัญญาระดับองค์กรมูลค่า 500,000 ดอลลาร์ ต้นทุนจากความล่าช้าก็วัดได้
- ค่าประเมินแบบอนุรักษ์นิยมสำหรับการสูญเสียความรู้ภายในนี้คือ 100,000 ถึง 300,000 ดอลลาร์ ในช่วง 12 เดือนหลังการลาออก
-
ต้นทุนรวมต่อการลาออกของวิศวกร
- การทดแทนโดยตรง: $85,000-$100,000
- ต้นทุนจากตำแหน่งว่าง: $50,000-$100,000
- การปรับตัวและ onboarding: $92,000-$125,000
- การสูญเสียความรู้ภายใน: $100,000-$300,000
- ยอดรวมแบบอนุรักษ์นิยม: $327,000-$625,000
- ยอดรวมที่สมจริงเมื่อรวมความล่าช้าของโครงการและต้นทุนค่าเสียโอกาส: $500,000-$1,000,000
-
ต้นทุนเหล่านี้ กระจายไปทั่วทั้งงบประมาณและถูกกลบด้วยสัญญาณรบกวน: ค่าใช้จ่ายในการจ้างงานอยู่ในงบของ HR, การสูญเสียผลิตภาพไม่ได้ถูกติดตาม, การสูญหายของความรู้ภายในไม่ปรากฏในรายงานรายไตรมาส
- การผ่อนผันหนี้ทางเทคนิคและการตัดสินใจให้ความสำคัญกับฟีเจอร์ก่อน สร้าง ผลงานที่เกิดขึ้นทันทีและมองเห็นได้ชัด: เดโมของทีมขาย, การประกาศเปิดตัวของฝ่ายการตลาด, รายงานต่อบอร์ดบริหารของ CEO เป็นต้น
- นี่คือปรากฏการณ์ที่นักเศรษฐศาสตร์เรียกว่า ปัญหา "กบต้ม":
- การลาออกของพนักงานแต่ละคนดูเหมือนยังพอรับมือได้, การเลื่อนงานด้านเทคนิคก็ดูสมเหตุสมผล, และการประนีประนอมรายไตรมาสก็ล้วนดูมีเหตุผลเมื่อพิจารณาแยกกัน
- แต่เมื่อรูปแบบเริ่มชัดเจนขึ้น (อัตราการลาออกของวิศวกรอาวุโสต่อปี 18%, หนี้ทางเทคนิคสะสม, ระบบล่มต่อเนื่องเป็นลูกโซ่) องค์กรก็ ยอมรับไปแล้วว่าความบกพร่องในการทำงานเป็นเรื่องปกติ
การฟื้นตัว (Recovery) มีหน้าตาเป็นอย่างไร
- ก่อนหายนะ Black Friday 14 เดือน วิศวกรแพลตฟอร์มอาวุโสของบริษัทประมวลผลการชำระเงินขนาดกลางได้ แสดงความกังวลอย่างเป็นรูปธรรม
- "ระบบประมวลผลธุรกรรมจะ รองรับทราฟฟิกช่วงวันหยุดตามคาดการณ์ไม่ไหว"
- เสนอรายละเอียดว่าจำเป็นต้องทำ database sharding และ queue optimization: ประเมินว่าใช้ เวลาวิศวกรรม 6 สัปดาห์ และค่าโครงสร้างพื้นฐาน $80,000
- ถูก VP of Product ลดลำดับความสำคัญ:
- เห็นว่าการปล่อยฟีเจอร์อีกสองอย่างสำคัญกว่า
- ในการรีวิวรายไตรมาสมีการชื่นชมว่า "มีความสามารถในการมองเห็นปัญหาที่อาจเกิดขึ้นล่วงหน้า" แต่ ข้อเสนอด้านสถาปัตยกรรมถูกปล่อยทิ้งไว้ใน Jira
- วิศวกรคนนั้นย้ายไปคู่แข่งในอีก 4 เดือนต่อมาโดยได้ ขึ้นเงินเดือน 15% ต้องใช้เวลาค้นหาผู้แทน 3 เดือนและค่าใช้จ่ายในการจ้าง $47,000 จากนั้นยังต้องใช้เวลาอีก 5 เดือนกว่าจะทำงานได้เต็มประสิทธิภาพ
- ระหว่างนั้น วิศวกรอาวุโส ลาออกเพิ่มอีก 2 คน: 1 คนเพราะความหงุดหงิดกับหนี้ทางเทคนิค และอีก 1 คนรับตำแหน่ง Principal Engineer จากภายนอกซึ่งบริษัทนี้ไม่มี
- กว่าจะมีการพูดถึง คำเตือนแรกนั้น อีกครั้งก็คือ 9 เดือนต่อมาในการรีวิวสถาปัตยกรรม
- ตอนนั้น ความทรงจำระดับองค์กร เกี่ยวกับบริบทของข้อเสนอและวิธีแก้ได้หายไปแล้ว
- จึงมอบหมายให้วิศวกรจูเนียร์ "ไปสำรวจทางเลือก"
- ในวัน Black Friday หายนะเริ่มต้นขึ้นเมื่อธุรกรรมพุ่งสูงเวลา 9:47 น.
- ตั้งแต่ 10:23 น. ฐานข้อมูลเริ่มปฏิเสธคำขอเขียน
- คอขวดคือ จุดเดียวกับที่ถูกชี้ไว้เมื่อ 14 เดือนก่อน และความขัดข้องครั้งนี้ทำให้ ธุรกรรมมูลค่า $2.5M ประมวลผลไม่สำเร็จ
- การกู้คืนใช้เวลา 5 ชั่วโมง
- ต้องจ่าย $180,000 เพื่อขยายโครงสร้างพื้นฐานฉุกเฉิน และให้วิศวกร 3 คนทำงานล่วงเวลาตลอดวันหยุดเพื่อทำการเปลี่ยนแปลงสถาปัตยกรรมแบบถาวร
- 3 ธันวาคม มีการส่ง postmortem ที่ CTO เป็นผู้ผลักดันให้ผู้บริหารพิจารณา โดยมีรายการใหม่เพิ่มเข้ามา
- เพิ่มส่วน "Previously Raised Concerns" เพื่อบันทึกทั้งคำเตือนแรกของวิศวกรคนนั้น การตัดสินใจลดลำดับความสำคัญ และการสูญเสียบุคลากรที่ตามมา
- CFO ลองคำนวณต้นทุนรวม
- ต้นทุนจากการสูญเสียวิศวกร (อาวุโส 3 คน) : มีต้นทุนที่วัดได้ $235,000 ต่อคน
- การสรรหา $47,000 + signing bonus $30,000 + ต้นทุนจากตำแหน่งว่าง $83,000 (เฉลี่ย 4 เดือน) + onboarding·ramp-up $75,000
- รวม $705,000
- ต้นทุนจากการสูญเสียความรู้แบบชนเผ่า (tribal knowledge): $2.2M
- ความเข้าใจเกี่ยวกับโครงสร้างฐานข้อมูล รูปแบบความล้มเหลว และวิธีแก้เดิมได้หายไปจากองค์กร
- ทีมต้องค้นพบปัญหาใหม่อีกครั้ง ศึกษาวิธีแก้ใหม่อีกครั้ง และนำไปใช้ในภาวะฉุกเฉิน
- ช่องว่างของความรู้นี้ทำให้ การย้ายระบบที่ควรวางแผนได้ กลายเป็น การตอบสนองต่อวิกฤต
- ต้นทุนการสืบสวน ความพยายามที่ผิดพลาด การดึง vendor เข้ามาแบบเร่งด่วน และค่าใช้จ่ายในการรับมือกับร้านค้าสะสมเพิ่มขึ้น
- ต้นทุนจากธุรกรรมที่ล้มเหลว:
- มูลค่าการประมวลผลการชำระเงินที่ล้มเหลว $2.5M
- แม้อัตราค่าธรรมเนียมจะอยู่ที่ 2.9% ทำให้รายได้ที่สูญเสียโดยตรงเป็น $72,500 แต่มีข้อผูกพันตามสัญญาที่ต้องประมวลผลทุกธุรกรรม
- ดังนั้นจึงเกิดค่าปรับจากการละเมิด SLA เพราะประมวลผลไม่สำเร็จ $180,000 และค่าใช้จ่ายด้าน merchant support กับการป้องกันการย้ายออก $45,000
- ต้นทุนโครงสร้างพื้นฐานฉุกเฉิน: $180,000
- การขยายฐานข้อมูลแบบฉุกเฉิน (read replica เพิ่มเติม, instance ที่อัปเกรดแล้ว, ค่า vendor support แบบเร่งด่วน)
- การตั้งค่า load balancer ใหม่และการปรับ CDN optimization เพื่อให้รองรับทราฟฟิกที่คาดไว้เมื่อ 14 เดือนก่อนได้
- ต้นทุนการกู้คืนและการดำเนินการหลังเหตุการณ์: $87,000
- วิศวกรอาวุโส 3 คนทำงาน 72 ชั่วโมงในช่วงสุดสัปดาห์วันหยุด ที่อัตราค่าล่วงเวลา 2.5 เท่า: $51,923
- งานติดตามผล 2 สัปดาห์ของทีมวิศวกรรมวงกว้าง: $38,462
- ต้นทุนรวมของอุบัติการณ์: $3.47M
- ต้นทุนการป้องกันที่เคยเสนอไว้เดิม: $80,000 (รวมเวลางานวิศวกรรม 6 สัปดาห์ของวิศวกรอาวุโส 1 คนและค่าโครงสร้างพื้นฐาน)
- หน้าแรกของ postmortem เขียนว่า $3.47M vs $80,000 และ ตัวเลขนี้เปลี่ยนทิศทางของบทสนทนา
- เพื่อตอบคำถามจากบอร์ด CEO จึงสั่งให้ทำ การวิเคราะห์การรักษาพนักงาน
- อัตราการลาออกของวิศวกรอาวุโสอยู่ที่ 34% ต่อปี (มากกว่าค่าเฉลี่ยอุตสาหกรรมของบริษัทที่ทำกำไรได้มากกว่าสองเท่า)
- จากการสัมภาษณ์พนักงานขาออกที่ก่อนหน้านี้ถูกเก็บไว้โดยไม่มีการทบทวนจากผู้บริหาร พบ รูปแบบที่สอดคล้องกัน
- วิศวกรที่มีความสามารถจะลาออกเมื่อข้อกังวลทางเทคนิคของตนได้รับการรับรู้ แต่ไม่ถูกนำไปปฏิบัติ
- ดำเนินมาตรการปรับปรุง 4 ข้อเป็นเวลา 18 เดือน:
- CFO เริ่มติดตาม ต้นทุนการลาออก ในรายงานรายไตรมาสควบคู่กับต้นทุนการได้มาซึ่งลูกค้า — จู่ ๆ ต้นทุนการลาออกเฉลี่ย $235,000 ก็ไปปรากฏในเอกสารชุดเดียวกับการตัดสินใจใช้งบการตลาด
- ผู้บริหารทุกคนเข้าร่วม on-call rotation รายไตรมาส — VP of Product ที่เคยลดลำดับความสำคัญของงานฐานข้อมูลได้รับรายงานยาว 23 หน้า ในสัปดาห์แรก โดย 19 เคสเกี่ยวข้องกับหนี้ทางเทคนิคที่ถูกชี้ไว้ในช่วง 6 เดือนก่อนหน้า
- คณะกรรมการค่าตอบแทน เพิ่มปัจจัยด้านการรักษาบุคลากรในค่าตอบแทนผันแปรของผู้บริหาร: การรักษาวิศวกรอาวุโสไว้ได้ 90% ต่อปี มีน้ำหนัก 25% ในการคำนวณโบนัส
- เปิดเส้นทาง Staff และ Principal IC ใหม่ให้สอดคล้องทั้งในระดับและค่าตอบแทนกับตำแหน่ง Director และ VP
- หลังผ่านไป 18 เดือน บริษัทชำระเงินแห่งนี้ลดอัตราการลาออกของวิศวกรอาวุโสลงเหลือ 9% ต่อปี
- ที่สำคัญยิ่งกว่านั้นคือกระบวนการรีวิวสถาปัตยกรรมที่เปลี่ยนไป:
- ข้อเสนอเกี่ยวกับหนี้ทางเทคนิคตอนนี้จะมี ต้นทุนของความขัดข้องที่คำนวณไว้ รวมอยู่ด้วย
- ผู้บริหารถามกันเป็นปกติว่า "ถ้าเลื่อนเรื่องนี้ออกไป ความเสี่ยงที่วิศวกรจะลาออกคือเท่าไร?"
- วิศวกรแพลตฟอร์มที่เคยยกข้อกังวลเรื่องฐานข้อมูลในตอนแรก กลับมาในตำแหน่ง Principal Engineer
- ได้ ขึ้นเงินเดือน 40% จากตอนที่ลาออก — ถูกจ้างกลับมาโดยเฉพาะเพื่อเป็นผู้นำด้าน infrastructure scaling
- การกลับมาของวิศวกรคนนี้ พร้อมกับความเปลี่ยนแปลงที่ตัวเลขแสดงให้เห็น เป็นสัญลักษณ์ว่าการคำนวณเชิงเศรษฐศาสตร์ขององค์กรได้เปลี่ยนไปจริง ๆ
มาตรการแทรกแซง (Intervention) 6 ข้อที่ได้ผลจริง
-
การแทรกแซงเชิงโครงสร้าง ที่จัดเรียงแรงจูงใจใหม่ ไม่ใช่การเก็บข้อมูลหรือกิจกรรมสร้างความเข้าอกเข้าใจ แต่เป็น การออกแบบเชิงเศรษฐศาสตร์ใหม่
-
ลำดับชั้นของอิทธิพล
- มาตรการแทรกแซงทั้ง 6 อย่างอาจดูเป็นภาระ แต่ ระดับความยากในการนำไปใช้และเวลาที่ใช้สร้างมูลค่าไม่เท่ากัน ลำดับจึงสำคัญ
- วิธีที่ให้ผลเร็วที่สุด: มาตรการที่ต้องการเพียงความเห็นชอบขั้นต่ำจากองค์กร
- การบัญชีต้นทุนการลาออก (#1): ต้องการเพียงการอนุมัติจาก CFO และเวลาของนักวิเคราะห์การเงิน
- การติดตามเหตุการณ์ที่เกิดจากคำเตือนที่ถูกเพิกเฉย (#2): ต้องการเพียงการเปลี่ยนแปลงกระบวนการ SRE ไม่ต้องใช้งบประมาณหรือการปรับโครงสร้าง ขอแค่มีการจัดทำเอกสาร postmortem อย่างเป็นระบบ
- ทั้งสองอย่าง เริ่มได้ภายใน 30 วัน และให้หลักฐานเชิงปริมาณสำหรับการต่อสู้ที่ยากกว่า
- การแทรกแซงระยะกลาง: ต้องการการเปลี่ยนแปลงวัฒนธรรม แต่ไม่จำเป็นต้องปรับโครงสร้างค่าตอบแทน
- การหมุนเวียน on-call ของผู้บริหาร (#3): จะสำเร็จเมื่อผู้บริหารคนหนึ่งได้สัมผัสผลของการเลื่อนงานปรับปรุงโครงสร้างพื้นฐานด้วยตัวเอง แล้วนโยบายนั้นจะหยั่งรากเองตามธรรมชาติ
- คณะกรรมการที่ปรึกษาด้านเทคนิคที่มีอำนาจจริง (#5): ได้ผลเมื่อผู้บริหารยอมรับอย่างแท้จริงว่าการตัดสินใจของตนอาจถูกคว่ำได้ และแนวทางทดลองใช้แบบเล็ก ๆ มักล้มเหลวภายในไม่กี่ไตรมาส
- ระยะเวลาดำเนินการ 3-6 เดือน: เพราะไม่ได้ต้องการแค่การเปลี่ยนนโยบาย แต่ต้องสร้างความไว้วางใจด้วย
- การแทรกแซงเชิงโครงสร้าง: ต้องได้รับอนุมัติจากบอร์ดหรือคณะกรรมการค่าตอบแทน ใช้เวลา 6-12 เดือน แต่ให้การเปลี่ยนแปลงที่ลึกที่สุด
- ใส่ตัวชี้วัดการรักษาคนเก่งไว้ในระบบค่าตอบแทน (#4): เมื่อโบนัสผู้บริหารผูกกับการรักษาวิศวกรอาวุโสไว้ได้ หนี้ทางเทคนิคก็กลายเป็นเรื่องสำคัญเชิงกลยุทธ์ในชั่วข้ามคืน
- ทำให้เส้นทาง IC มีความเท่าเทียมกัน (#6): เมื่อ Staff Engineer ได้ค่าตอบแทนระดับผู้บริหารอาวุโสโดยไม่ต้องบริหารทีม การรักษาความเชี่ยวชาญทางเทคนิคไว้ก็เป็นไปได้ในเชิงโครงสร้าง
- มาตรการขั้นต่ำที่ใช้งานได้จริง: รวมสององค์ประกอบจากคนละชั้น
- การบัญชีต้นทุนการลาออก (ผลเร็ว) + ตัวชี้วัดการรักษาคนไว้ในค่าตอบแทน (การเปลี่ยนแปลงเชิงโครงสร้าง)
- อย่างแรกใช้สร้าง business case อย่างหลังทำให้การลงมือทำของผู้บริหารเป็นสิ่งสมเหตุสมผล
- บริษัทที่อยู่ในภาวะวิกฤต: ใช้มาตรการผลเร็วทันที + ออกแบบการเปลี่ยนแปลงเชิงโครงสร้างควบคู่กัน
- บริษัทที่มีสัญญาณเตือนล่วงหน้า: เริ่มจากการวัดผล (การบัญชีต้นทุน, การติดตามเหตุการณ์) + ใช้ข้อมูลผลลัพธ์มาสนับสนุนการแทรกแซงที่ลึกกว่า
-
1. การบัญชีต้นทุนการลาออก (Cost-of-Attrition Accounting)
- ทำให้ สิ่งที่มองไม่เห็นมองเห็นได้: คำนวณต้นทุนทั้งหมดของการสูญเสียวิศวกรอาวุโสแต่ละคน
- ค่าใช้จ่ายในการสรรหาเฉลี่ย $35,000
- ใช้เวลาประมาณ 6 เดือนกว่าจะถึงระดับผลิตภาพเต็มที่ (50% ของเงินเดือนวิศวกรอาวุโส)
- ความล่าช้าของโปรเจกต์จากการสูญเสียองค์ความรู้
- ต้นทุนค่าเสียโอกาสของการตัดสินใจด้านสถาปัตยกรรมที่มีเพียงวิศวกรคนนั้นเท่านั้นที่เข้าใจ
- ติดตามตัวเลขนี้รายเดือน และใส่ไว้ใน แดชบอร์ดผู้บริหารชุดเดียวกัน กับ CAC และตัวชี้วัดรายได้
- บริษัทบริการทางการเงินแห่งหนึ่งติดตามต้นทุนการลาออกรายไตรมาสแล้วพบว่า
- Q1: วิศวกรอาวุโสลาออก 2 คน, $400,000
- Q3: คาดการณ์ต้นทุนรายปี $900,000
- เมื่อ CFO นำเสนอตัวเลขนี้ควบคู่กับ งบประมาณวิศวกรรมรายปี $3M
- คำถามของ CEO เปลี่ยนจาก “ทำไมถึงลาออก” เป็น “ต้องใช้เงินเท่าไรถึงจะหยุดได้”
- ผลคือเมื่อลงทุน $400,000 ในการจัดการหนี้ทางเทคนิคและปรับค่าตอบแทน
อัตราการลาออกของวิศวกรอาวุโส ลดลง 43% และคืนทุนทั้งหมด ภายในสองไตรมาส
- ทำให้ สิ่งที่มองไม่เห็นมองเห็นได้: คำนวณต้นทุนทั้งหมดของการสูญเสียวิศวกรอาวุโสแต่ละคน
-
2. ติดตามเหตุการณ์ที่เกิดจากคำเตือนที่ถูกเพิกเฉย
- ปรับเทมเพลต postmortem โดยเพิ่ม ส่วนบังคับชื่อ "คำเตือนล่วงหน้า (Prior Warnings)"
- กำหนดให้ผู้รับผิดชอบตรวจสอบ คำเตือนในอดีต เกี่ยวกับ failure mode นี้จาก Jira, Slack, บันทึกการทบทวนสถาปัตยกรรม และอีเมล
- รายการที่ต้องบันทึก: เวลาที่มีการเตือน, ผู้ที่เตือน, มาตรการที่เสนอ, เหตุผลที่ถูกลดลำดับความสำคัญ
- คำนวณต้นทุนของเหตุการณ์: ผลกระทบต่อรายได้จาก downtime, ภาระของฝ่ายสนับสนุนลูกค้า, เวลาเชิงวิศวกรรมที่ใช้ในการกู้คืน
- บริษัทเทคโนโลยีด้านสุขภาพแห่งหนึ่งนำวิธีนี้ไปใช้แล้ว
- ภายใน 6 เดือนพบว่า 70% ของเหตุการณ์ในโปรดักชันถูกคาดการณ์ไว้ล่วงหน้า
- วิศวกรเคยยกข้อกังวลขึ้นมาแล้ว แต่ผู้บริหารลดความสำคัญของการแก้ปัญหาเพราะมุ่งไปที่การพัฒนาฟีเจอร์
- ต้นทุนรวมตลอด 1 ปี: เหตุการณ์ที่ป้องกันได้สร้างความเสียหาย 1.8 ล้านดอลลาร์
- เมื่อผู้บริหารยืนยันได้ว่าในเหตุขัดข้องร้ายแรง 14 จาก 16 ครั้ง คำเตือนทางเทคนิคนั้นถูกต้อง ก็ ตระหนักถึงความร้ายแรงของรูปแบบนี้
- เมื่อพิสูจน์ได้ว่าการคาดการณ์แม่นยำอย่างสม่ำเสมอ ก็เกิด การเปลี่ยนพฤติกรรม
-
3. การหมุนเวียน on-call ของผู้บริหาร
- ผู้บริหารทุกคน (รวมถึงฝ่ายผลิตภัณฑ์, VP, ผู้อำนวยการ) ต้อง ทำ on-call ไตรมาสละ 1 สัปดาห์
- นโยบายการ escalate:
- หากวิศวกร on-call เห็นว่าการแจ้งเตือนเกี่ยวข้องกับงานแก้ไขที่เคยถูกลดความสำคัญ หรือกับงานเทคนิคที่ถูกเลื่อนออกไป
- ให้ รายงานตรงถึงผู้รับผิดชอบที่ตัดสินใจนั้นทันที โดยไม่คำนึงถึงเวลาและวัน
- สิ่งนี้ให้ การเรียนรู้จากประสบการณ์ตรง ที่ทรงพลังกว่าแดชบอร์ดใด ๆ
- กรณีตัวอย่าง: VP of Product คนหนึ่งเจอ การเรียก 17 ครั้งใน 5 วัน จากปัญหา database connection pool เดิมที่วิศวกรเคยติดธงไว้ว่าเป็นการแก้ไขแบบ “มีก็ดี” เมื่อ 7 เดือนก่อน
- ประเด็นนี้ถูกจัดเป็น P3 และ VP เลือกให้ความสำคัญกับการปล่อยฟีเจอร์ 3 อย่างแทน
- หลังถูกเรียกตอนตี 3 ติดต่อกัน 5 ครั้ง ก็ เปลี่ยนเป็น P0 และแก้เสร็จภายใน 8 วัน
- ต่อมา VP คนนั้นยอมรับว่า “ฉันเคยคิดว่าวิศวกรพูดเกินจริงเรื่อง alert fatigue แต่ไม่ใช่เลย”
-
4. ผูกตัวชี้วัดการรักษาคนไว้กับค่าตอบแทนผู้บริหาร
- ปรับโครงสร้างให้ 25% ของค่าตอบแทนผันแปรของผู้บริหารขึ้นอยู่กับอัตราการรักษาวิศวกรอาวุโสไว้ได้
- นิยามของ "อาวุโส": อยู่กับบริษัทเกิน 2 ปี, ได้คะแนนประเมินผลงานเกินความคาดหวัง, หรือรับผิดชอบระบบสำคัญ
- การตั้งเป้าหมาย: รักษาวิศวกรอาวุโสไว้ได้ 90% ต่อปี
- หากต่ำกว่าเป้า โบนัสจะถูกหักลดตามสัดส่วน
- หากเกินเป้า โบนัสจะจ่ายแบบมีตัวคูณ
- กรณีตัวอย่าง: บริษัท SaaS ระดับ Series B ใช้โครงสร้างนี้ในปี 2021
- วิศวกรอาวุโสลาออกต่อปี 28%
- ผู้บริหารต่อต้านในช่วงแรก: คัดค้านว่า “เราไม่สามารถควบคุมได้หรอกถ้าใครสักคนได้รับข้อเสนอที่ดีกว่า”
- CEO ตอบว่า: “ถ้าอย่างนั้นก็เท่ากับเรายอมรับว่าเราแข่งขันได้แค่เรื่องเงินเดือน ปรับปรุงมันหรือยอมรับผลกระทบต่อค่าตอบแทน”
- ภายใน 1 ปี อัตราการลาออก ลดลงเหลือ 11%
- รูปแบบของ exit interview เปลี่ยนไป: วิศวกรที่ลาออกพูดถึง การลาออกเพราะโอกาส (ได้เลื่อนเป็นหัวหน้าในบริษัทที่ใหญ่กว่า, ไปก่อตั้งสตาร์ทอัพ, ย้ายถิ่นฐาน) แทน การลาออกเพราะความผิดปกติขององค์กร (ข้อกังวลทางเทคนิคถูกเพิกเฉย, ไม่มีการเติบโต, วัฒนธรรมเป็นพิษ)
- เมื่อผู้บริหารเริ่ม รู้สึกรับผิดชอบต่อการรักษาคนเก่งไว้ การทำเป้าโบนัสให้สำเร็จก็กลายเป็นส่วนที่ง่ายที่สุด
-
5. คณะกรรมการที่ปรึกษาด้านเทคนิค (TAB) ที่มีอำนาจจริง
- ตั้งคณะกรรมการจาก วิศวกรอาวุโส 5 คน ที่เลือกโดยองค์กรวิศวกรรมเอง (ไม่ใช่แต่งตั้งโดยผู้บริหาร)
- ประชุมรายไตรมาสกับผู้บริหารระดับ C
- มีอำนาจหนึ่งอย่างคือ: คัดค้านการตัดสินใจของผู้บริหารได้ 1 เรื่องต่อไตรมาส
- ข้อกำหนด: เมื่อคัดค้านต้องมี ข้อเสนอทางเลือกเป็นลายลักษณ์อักษร ที่รวมเหตุผลทางเทคนิค ต้นทุนที่คาดการณ์ และการวิเคราะห์ความเสี่ยง
- ผู้บริหารจะลบล้างสิทธิคัดค้านได้เฉพาะเมื่อ CEO อนุมัติและมีการบันทึกเหตุผลไว้
- กรณีตัวอย่าง: บริษัทโครงสร้างพื้นฐานบล็อกเชนแห่งหนึ่งตั้ง TAB ในต้นปี 2020
- ใน 2 ปี ใช้สิทธิคัดค้าน 2 ครั้ง
- การคัดค้านครั้งแรก: ขัดขวางการตัดสินใจสร้างเฟรมเวิร์กสำหรับข้อตกลงแบบปิด proprietary และเสนอให้ขยายโปรโตคอลโอเพนซอร์สที่มีอยู่แทน ประเมินว่าช่วย ประหยัดเวลาในการพัฒนา 18 เดือน
- การคัดค้านครั้งที่สอง: ป้องกันการปล่อย database migration โดยไม่มีการทดสอบ rollback แบบครอบคลุม การวิเคราะห์หลังนำไปใช้ประเมินว่า TAB ป้องกันเหตุข้อมูลเสียหายมูลค่า 2 ล้านดอลลาร์
- ผลกระทบที่แท้จริงละเอียดอ่อนกว่านั้น: ผู้บริหารเริ่มถามว่า "TAB จะอนุมัติเรื่องนี้ไหม?" ก่อนสรุปการตัดสินใจทางเทคนิค
- ภัยคุกคามจากการคัดค้านทำให้ คุณภาพของข้อเสนอเปลี่ยนไป ก่อนจะถึงมือ TAB
- วิศวกรรายงานว่าการตัดสินเชิงเทคนิคของพวกเขาในที่สุดก็มีความสำคัญต่อการตัดสินใจของผู้บริหาร
-
6. เส้นทาง IC (ผู้มีส่วนร่วมรายบุคคล) ที่มีความเท่าเทียมด้านค่าตอบแทน
-
กำหนดเส้นทางความก้าวหน้าในสายอาชีพ IC ให้ชัดเจน: Staff Engineer, Principal Engineer, Distinguished Engineer
- ช่วงค่าตอบแทนควร สอดคล้องกับระดับ Director, VP, SVP ตามลำดับ
-
เกณฑ์การเลื่อนตำแหน่ง: พิจารณาจาก อิทธิพลทางเทคนิค ความเป็นผู้นำด้านสถาปัตยกรรม และผลกระทบเป็นลูกโซ่ที่ทำให้วิศวกรคนอื่นทำงานได้มีประสิทธิภาพขึ้น มากกว่าขนาดทีมหรือสายการบังคับบัญชา
-
กรณีตัวอย่าง: บริษัทฟินเทคแห่งหนึ่งสูญเสียวิศวกรระดับ Staff ไป 3 คนภายใน 6 เดือน
-
ในการสัมภาษณ์ก่อนลาออกพบรูปแบบเดิมซ้ำ ๆ: "หากไม่เป็นผู้จัดการ ก็ไปไม่ถึงค่าตอบแทนระดับ L7 ไม่อยากบริหาร แต่อยากเป็นนักพัฒนา"
- บริษัทเริ่มใช้ สายอาชีพ IC ที่มีความเท่าเทียมด้านค่าตอบแทน
- ภายใน 1 ปี: วิศวกร 2 คนที่ก่อนหน้านี้กำลังไปสัมภาษณ์งานที่อื่นได้รับการเลื่อนตำแหน่งเป็น Principal, รับ Senior IC 3 คนจากคู่แข่งที่ไม่มีเส้นทางอาชีพลักษณะใกล้เคียง, การสูญเสียบุคลากรสายเทคนิคอาวุโสลดลง 62%
- ที่สำคัญยิ่งกว่านั้น วิศวกรที่ยังอยู่กับบริษัทช่วยป้องกันความผิดพลาดด้านสถาปัตยกรรมที่ประเมินมูลค่าได้ราว 3 ล้านดอลลาร์
- ซึ่งเป็นการตัดสินใจที่วิศวกรระดับจูเนียร์หรือมิดเลเวลไม่สามารถคัดค้านได้ เพราะขาดทั้งความเชี่ยวชาญหรืออำนาจ
แนวทางการนำไปใช้ (Implementation Paths)
- กำหนดการนำไปใช้จะแตกต่างกันไปตาม ระดับความรุนแรงที่องค์กรกำลังเผชิญอยู่
-
บริษัทที่อยู่ในภาวะวิกฤต (อัตราการลาออกของซีเนียร์ >20%, เพิ่งเกิดเหตุขัดข้องร้ายแรงล่าสุด)
- สัปดาห์ที่ 1-2: คำนวณต้นทุนการลาออกจริงตลอด 12 เดือน (รวมต้นทุนการจ้าง, เวลาปรับตัวด้านผลิตภาพ, ความล่าช้าของโครงการ, การสูญเสียองค์ความรู้ที่ขาดหาย), วิเคราะห์รูปแบบจากการสัมภาษณ์ตอนลาออก, จับคู่ incident ใน production กับสัญญาณเตือนที่เคยถูกเพิกเฉยก่อนหน้า
- สัปดาห์ที่ 3-4: นำเสนอสิ่งที่ค้นพบต่อ CFO และ CEO, แสดงรูปแบบ (ยกประเด็นความกังวลทางเทคนิค → ถูกลดลำดับความสำคัญ → วิศวกรลาออก → เกิด incident หรือค่าใช้จ่าย), ประเมินมูลค่าความเสียหายรวมเชิงปริมาณ, เสนอการแทรกแซงทันที
- สัปดาห์ที่ 5-8: เริ่ม executive on-call rotation (เปลี่ยนวัฒนธรรมได้เร็วที่สุด), เริ่มติดตามต้นทุนการลาออก (สร้างกรณีสำหรับการเปลี่ยนแปลงอย่างต่อเนื่อง), สร้าง TAB pilot ด้วยวิศวกร 3 คน, เริ่มติดตามต้นทุนการลาออกรายเดือนในแดชบอร์ดผู้บริหาร
- สัปดาห์ที่ 9-12: เสนอการเปลี่ยนโครงสร้างค่าตอบแทนต่อบอร์ด, ผูกโบนัสผู้บริหารกับอัตราการรักษาพนักงาน, ประกาศเส้นทางอาชีพ IC อย่างเป็นทางการ, สื่อสารอย่างโปร่งใสว่าอะไรเปลี่ยนไปและเพราะเหตุใด
-
บริษัทที่มีสัญญาณเตือนล่วงหน้า (อัตราการลาออก 12-18%, วิศวกรพูดถึงความกังวลใน 1:1)
- เดือนที่ 1-2: เริ่มติดตามต้นทุนการลาออกและสร้างกรณีเชิงเศรษฐศาสตร์, สำรวจวิศวกรเรื่องความเสี่ยงในการรักษาพนักงานและอะไรที่จะทำให้อยู่ต่อ, ระบุ 3 ความกังวลที่ถูกพูดถึงบ่อยที่สุด
- เดือนที่ 3-4: ทดลองให้ผู้บริหารเป็นผู้สนับสนุนทรัพยากรและทำ executive on-call rotation, เริ่ม TAB pilot, ใช้ทั้งสองอย่างเพื่อทำให้ technical debt และแรงเสียดทานในองค์กรปรากฏชัด, จัดทำเอกสารต้นทุนของงานที่ถูกเลื่อนออกไป
- เดือนที่ 5-6: ใช้การเปลี่ยนโครงสร้างค่าตอบแทนแบบถาวร, ทำให้อำนาจของ TAB เป็นทางการ, เปิดเผยเกณฑ์และช่วงค่าตอบแทนของเส้นทางอาชีพ IC, ตั้งการรักษาวิศวกรระดับซีเนียร์เป็นเป้าหมายผู้บริหารอย่างชัดเจน
กรณีที่สิ่งนี้ใช้ไม่ได้ผล
- การแทรกแซงเหล่านี้ ล้มเหลวอย่างคาดการณ์ได้ใน 3 สถานการณ์ และหากไม่ยอมรับข้อนี้ก็จะเสียเวลาเปล่า
-
1. โมเดลธุรกิจที่ถูกออกแบบมาโดยมีการลาออกเป็นสมมติฐานตั้งแต่แรก
- บริษัทที่ปรึกษาและผู้รับจ้างตามสัญญาคาดว่า อัตราการลาออกต่อปีอยู่ที่ 20-40%
- โมเดลธุรกิจสะท้อนต้นทุนการเปลี่ยนคนไว้ในราคาแล้ว และอัตราค่าบริการก็ตั้งอยู่บนสมมติฐานว่าความเชี่ยวชาญเฉพาะภายในองค์กรมีจำกัด
- กลยุทธ์การรักษาคนที่ออกแบบมาสำหรับบริษัทผลิตภัณฑ์ ไม่มีความหมาย ในที่ซึ่งการหมุนเวียนลูกค้าผลักดันให้เกิดการลาออกตามธรรมชาติ และ partner track สร้างแรงกดดันแบบ up-and-out โดยเจตนา
- ในทำนองเดียวกัน สตาร์ทอัพระยะเริ่มต้นก่อน product-market fit อาจเผชิญการลาออกของวิศวกรซึ่งไม่ได้สะท้อนความล้มเหลวในการรักษาคน แต่เป็นสัญญาณของการ pivot ที่จำเป็น
- หากบริษัทกำลังเปลี่ยนทิศทางครั้งใหญ่ทุก 6 เดือน อัตราการรักษาที่ต่ำอาจหมายถึง การจัดสรรบุคลากรใหม่อย่างเหมาะสม ไม่ใช่ความผิดปกติเชิงระบบ
-
2. ทำแค่ให้เหมือนว่ากำลังทำ (Implementation Theater)
- การแทรกแซงที่มีแต่รูปแบบภายนอกให้ผลแย่กว่าการไม่ทำอะไรเลย
- TAB ที่ไม่มีอำนาจคัดค้านจริงจะกลายเป็น ช่องระบาย ให้ความกังวลของวิศวกร
- เมื่อพวกเขาต้องลงทุนเวลาให้ข้อเสนอที่ถูกมองข้ามอย่างเป็นระบบ จะยิ่ง เพิ่มความโกรธเท่านั้น
- การทำ executive on-call rotation ที่ไม่เชื่อมโยงกับการแก้ที่ต้นตอ จะสร้าง ความเห็นอกเห็นใจแบบแสดงให้ดูแต่ไร้ความรับผิดชอบ
- VP ที่ถูกเรียกเพราะปัญหาที่ตนไม่สามารถจัดลำดับความสำคัญเพื่อแก้ได้ จะได้เรียนรู้เพียงว่าวิศวกรมักบ่นเรื่องอะไร
- การทำบัญชีต้นทุนการลาออกที่คำนวณแล้ว แต่ไม่เคยปรากฏในแดชบอร์ดผู้บริหารหรือการคุยเรื่องค่าตอบแทน จะยังคงเป็นเพียง การถกเถียงในเชิงทฤษฎี
- การแทรกแซงที่ทำแบบครึ่งๆ กลางๆ แสดงให้เห็นว่าองค์กรแค่ ทำเป็นสนใจโดยไม่มีเจตนาจริงต่อการเปลี่ยนแปลงเชิงโครงสร้าง
-
3. ไม่มีเงื่อนไขเบื้องต้นด้านวัฒนธรรม
- การแทรกแซงเหล่านี้ต้องการ เงื่อนไขเบื้องต้นด้านวัฒนธรรม ที่หลายองค์กรไม่มี: ผู้นำต้องต้องการ การเปลี่ยนแปลงพฤติกรรมจริง ไม่ใช่การจัดการภาพลักษณ์
- หากผู้บริหารมองการรักษาวิศวกรเป็นปัญหา PR ไม่ใช่ปัญหาเชิงเศรษฐศาสตร์ พวกเขาจะทำเฉพาะสิ่งที่มองเห็นได้มากที่สุด (คณะกรรมการที่ปรึกษา, listening tour) และหลีกเลี่ยงสิ่งที่มีต้นทุนสูงกว่า (การปรับโครงสร้างค่าตอบแทน, อำนาจคัดค้านจริง)
- แบบทดสอบวินิจฉัย: ลองเสนอให้ผูก 25% ของค่าตอบแทนผันแปรของผู้บริหารเข้ากับการรักษาวิศวกรระดับซีเนียร์
- หากผู้นำรีบอธิบายทันทีว่า “ทำไมสิ่งนี้ถึงทำไม่ได้ในบริษัทเรา” ก็แปลว่า คุณได้คำตอบแล้ว
- พวกเขาต้องการทางออกที่ไม่มีต้นทุนส่วนตัว
- หากผู้นำรีบอธิบายทันทีว่า “ทำไมสิ่งนี้ถึงทำไม่ได้ในบริษัทเรา” ก็แปลว่า คุณได้คำตอบแล้ว
- บริษัทที่ยังไม่พร้อมมอบอำนาจคัดค้านให้วิศวกร, ผูกเงินเดือนผู้บริหารกับการรักษาพนักงาน, และสะท้อนต้นทุนการลาออกในรีวิวการเงินรายไตรมาส ก็ ยังไม่พร้อมสำหรับการเปลี่ยนแปลงเชิงโครงสร้าง
- พวกเขาเพียงยอมรับว่ามีความกังวล แนะนำให้ “ศึกษาเพิ่มเติม” และพอใจกับ รายงานที่ปรึกษา ที่ปล่อยให้มีฝุ่นเกาะ ในขณะที่วิศวกรซีเนียร์ยังคงลาออกต่อไป
- การแทรกแซงจะได้ผลเมื่อผู้นำตระหนักว่า ต้นทุนการลาออกปีละ 1.4 ล้านดอลลาร์ สูงกว่ามาตรการที่จำเป็นเพื่อหยุดมัน
- หากไม่มีการตระหนักเช่นนั้น ไม่ว่าคณะกรรมการที่ปรึกษาจะมากแค่ไหนก็ไม่สามารถทดแทนการจัดแนวทางเศรษฐศาสตร์ได้
การคำนวณเชิงเศรษฐศาสตร์แบบใหม่
- ขณะที่บริษัทโครงสร้างพื้นฐานบล็อกเชนที่ผู้เขียนเป็นผู้นำ ขยายจากวิศวกร 10 คนเป็น 187 คนในเวลา 3 ปี
- บริษัทสามารถรักษาอัตราการลาออกของวิศวกรซีเนียร์ต่อปีไว้ที่ เฉลี่ย 6% ซึ่งต่ำกว่าอัตราการลาออกทั่วไปของบริษัทที่เติบโตเร็วมากซึ่งอยู่ที่ 35~40% อย่างมาก
- สาเหตุของผลลัพธ์นี้ไม่ได้มาจากสวัสดิการหรือกลไกทางวัฒนธรรม แต่เป็น การออกแบบโครงสร้างแรงจูงใจใหม่
- ผู้จัดการระดับกลางได้รับรางวัลจากการ ทำให้ความเสี่ยงทางเทคนิคปรากฏตั้งแต่เนิ่นๆ ไม่ใช่จากการทำให้ทุกอย่างดูเหมือนอยู่ภายใต้การควบคุม
- การทำ postmortem ต้องมี เอกสารเตือนก่อนหน้า; คำเตือนที่ถูกเพิกเฉยจะกลายเป็น หัวข้อประเมินผลงาน ของผู้ที่ลดลำดับความสำคัญมัน
- ฝ่ายผู้นำทางเทคนิคมีอำนาจคัดค้านในการตัดสินใจด้านสถาปัตยกรรม เรา ใช้มัน 2 ครั้ง แต่เพียงความเป็นไปได้ที่จะใช้สิทธิ์คัดค้านก็ช่วยยกระดับคุณภาพของข้อเสนอโดยรวม
- มีเส้นทางอาชีพ IC ตั้งแต่ก่อตั้งบริษัท; พนักงานอาวุโสที่สุดที่ไม่ใช่ผู้จัดการ ได้รับค่าตอบแทนมากกว่าผู้อำนวยการส่วนใหญ่
- ต้นทุนของระบบ: ประมาณ $400,000 ต่อปี สำหรับการปรับค่าตอบแทน, ภาระงานด้าน governance, และการจัดลำดับความสำคัญของ technical debt ที่ทำให้บางฟีเจอร์ล่าช้า
- จำนวนที่ประหยัดได้:
- ต้นทุนการลาออกที่ป้องกันได้ 2.1 ล้านดอลลาร์ (ใช้มาตรฐานอุตสาหกรรมที่ลาออก 35% กับจำนวนวิศวกรซีเนียร์)
- นอกจากนี้ยังมีการประหยัดที่วัดไม่ได้แต่มีนัยสำคัญ จากการตัดสินใจด้านสถาปัตยกรรมที่ไม่ก่อ incident ระดับหลายล้านดอลลาร์ เพราะวิศวกรซีเนียร์มีอำนาจสั่งหยุดได้
ความจริงที่ชวนอึดอัด
- บริษัทส่วนใหญ่จะไม่ทำการแทรกแซงเหล่านี้ จนกว่าจะถูกบีบให้ทำอย่างหลีกเลี่ยงไม่ได้
- ตัวเร่งให้ต้องทำมักเป็นสถานการณ์ หายนะ: incident ใน production ที่สร้างต้นทุนหลายล้านดอลลาร์, การสูญเสียพนักงานครั้งใหญ่ที่ทำให้ทีมหลักเป็นอัมพาต, หรือคู่แข่งเข้ามาดึงวิศวกรหลักของคุณไปครึ่งทีมด้วยการเสนอสิ่งที่คุณปฏิเสธ นั่นคือการให้ความเคารพต่อวิจารณญาณทางเทคนิค
- เมื่อถึงตอนนั้น คุณจะไม่ได้ทำเพื่อป้องกันอีกต่อไป แต่กำลัง ไล่ตามการฟื้นฟูความเสียหาย
- การฟื้นฟูมีราคาแพง เพราะวิศวกรที่ดีที่สุดซึ่งสามารถป้องกันวิกฤตครั้งถัดไปได้ ลาออกไปแล้ว
- ผู้สืบทอดของพวกเขาอาจมีความสามารถ แต่ขาดความรู้เกี่ยวกับองค์กร จึงไม่รู้ว่าควรเตือนเรื่องใด และยิ่ง เร่งวงจรล่มสลาย
- คำถามไม่ใช่ว่าการแทรกแซงเหล่านี้ได้ผลหรือไม่ เพราะ หลักฐานชัดเจน
- บริษัทที่ปรับแรงจูงใจของผู้บริหารให้สอดคล้องกับการรักษาพนักงาน, มอบอำนาจที่มีความหมายให้วิศวกร, และมองการลาออกเป็นปัญหาเชิงเศรษฐศาสตร์ ทำผลงานได้ดีกว่าอย่างสม่ำเสมอ ทั้งด้านการรักษาพนักงาน, อัตราการเกิด incident, และสุขภาพทางเทคนิคระยะยาว
- หากวิศวกรที่มีทักษะกำลังลาออก และวิธีแก้แบบทั่วไปไม่ได้ผล ปัญหาอาจไม่ใช่ การสื่อสาร แต่เป็นเรื่องเศรษฐศาสตร์
10 ความคิดเห็น
ผู้บริหารได้ยินแล้วก็พยักหน้า
ยอมรับว่ามีปัญหา
บอกว่าจะปรับลำดับความสำคัญ
> ติดอยู่ตรงนี้แหละ
ความจริงที่น่าอึดอัด +
แม้อ่านบทความนี้ ผู้บริหารที่ต้องเป็นคนตัดสินใจจริงก็จะยังไม่เข้าใจอยู่ดี
เห็นด้วยครับ
จริงมาก
เป็นบทความที่มีแนวทางแก้ปัญหาอยู่ด้วยจริง ๆ หายากมาก ขอบคุณครับ
กำลังดูบนมือถืออยู่ แต่เหมือนมีรายการบางอันในเนื้อหาหลักที่น่าจะมีปัญหาเรื่องการจัดวาง เลยกลายเป็นหนึ่งบรรทัดมีแค่หนึ่งตัวอักษร นอกจากนั้นพอมีการย่อหน้าเข้าไปลึกขึ้นอีกนิด ความยาวของบรรทัดก็สั้นลงอย่างมากเลยครับ
แก้ไขแล้ว ขอบคุณที่แจ้งมาครับ
ใช่ครับ บน iOS 26.1 x safari ก็มีอาการเดียวกัน
ฉันก็อยากรีแฟกเตอร์เหมือนกัน
ถ้าคุณแสดงแรงจูงใจให้ผมดู ผมก็จะแสดงผลลัพธ์ให้คุณเห็น - ชาร์ลี มังเกอร์