12 วิธีที่ใช้วัดผลการเขียนโค้ดแบบมี AI ช่วยแล้วอาจผิดพลาด
(third-bit.com)- คุณค่าของ การเขียนโค้ดแบบมี AI ช่วย ยากจะย่อให้เหลือเพียงตัวเลขง่าย ๆ อย่างจำนวนบรรทัดโค้ด จำนวนตั๋วงาน หรือความพึงพอใจ และข้อสรุปอาจบิดเบือนได้ตามวิธีประเมิน
- จำนวนบรรทัดโค้ด รวมถึงจำนวนคอมมิต, Pull Request และตั๋วงาน เป็นเพียงตัวชี้วัดปริมาณกิจกรรมเท่านั้น และเมื่อกลายเป็นเป้าหมายก็สามารถถูกปั่นตัวเลขได้ง่าย อีกทั้งไม่สามารถแยกแยะคุณภาพได้
- อัตราการยอมรับ และอัตราการนำไปใช้ เป็นเพียงสัญญาณว่าข้อเสนอ “ดูเข้าท่า” หรือเครื่องมือถูกนำไปแจกจ่ายแล้ว ไม่ได้รับประกันความถูกต้อง ความปลอดภัย หรือความสามารถในการบำรุงรักษา
- งานทดลองแบบของเล่น การเปรียบเทียบก่อน-หลังที่ไม่มีกลุ่มควบคุม การเปรียบเทียบผู้ใช้แบบสมัครใจ และ baseline ที่อ่อนแอ ทำให้แยกผลของ LLM ออกจาก selection bias ได้ยาก
- การตัดสินเรื่องผลิตภาพจำเป็นต้องใช้ ตัวชี้วัดระดับระบบ ที่รวมการรีวิว การดีบัก ความปลอดภัย technical debt คอขวดของทีม และการเปลี่ยนแปลงระยะยาว
สิ่งที่กำลังถูกประเมินและสมมติฐานตั้งต้น
- เมื่อพยายามพิสูจน์ว่าค่าใช้จ่ายค่าสมาชิกของ เครื่องมือเขียนโค้ดแบบมี AI ช่วย คุ้มค่าหรือไม่ จำนวนบรรทัดโค้ดที่สร้างขึ้น จำนวนตั๋วงานที่ปิดได้ และแบบสำรวจความพึงพอใจของนักพัฒนา ต่างก็อาจนำไปสู่ข้อสรุปที่ผิดพลาดได้คนละแบบ
- ประเด็นสำคัญไม่ใช่ คุณค่าของการเขียนโค้ดโดยมี LLM ช่วย ในตัวมันเอง แต่คือวิธีประเมินผลนั้นหลงทางได้ง่ายเพียงใด
- คำวิจารณ์เดียวกันนี้สามารถปรับใช้ได้เกือบตรงตัวกับข้ออ้างเกี่ยวกับการพัฒนาแบบ Agile, test-driven development และแนวปฏิบัติด้านการพัฒนาซอฟต์แวร์อื่น ๆ
- ข้อสรุปคือ หากวิศวกรรมซอฟต์แวร์รับเอาวิธีวิจัยจากสายมนุษยศาสตร์/สังคมศาสตร์มาใช้อย่างจริงจัง ก็น่าจะไปได้ไกลกว่านี้มากในการศึกษาเรื่องลักษณะนี้
ตัวชี้วัดผลิตภาพที่ชวนให้เข้าใจผิด
-
นับจำนวนบรรทัดโค้ดที่สร้างขึ้น
- จำนวนบรรทัดโค้ด ถูกใช้มาอย่างยาวนานในฐานะตัวชี้วัดแทนผลิตภาพซึ่งวัดตรง ๆ ได้ยาก
- LLM อาจสร้างโค้ดได้มากขึ้น แต่ไม่ได้รับประกันผลลัพธ์ที่ดีกว่า
- ทีมที่มีจำนวนบรรทัดโค้ดต่อนักพัฒนาเพิ่มขึ้น 40% หลังใช้ LLM อาจไม่ได้กำลังวัดผลิตภาพ แต่กำลังวัด ความฟุ่มเฟือยของโค้ด
- การปรับปรุงที่แทนที่ลอจิกยุ่งเหยิง 2,000 บรรทัดด้วยโค้ดสะอาด 200 บรรทัด จะดูเหมือนเป็นความสูญเสียหากดูจากตัวชี้วัดจำนวนบรรทัดโค้ด
- โค้ดที่มากขึ้นหมายถึงสิ่งที่ต้องอ่าน ต้องบำรุงรักษา และต้องดีบักมากขึ้น และภาระในอนาคตที่ AI ทิ้งไว้ก็ไม่ปรากฏในตัวเลขจำนวนบรรทัด
-
นับคอมมิต, Pull Request, ตั๋วงาน
- ในปี 2023 McKinsey เสนอแนวทางวัดผลิตภาพของนักพัฒนารายบุคคลด้วยจำนวนกิจกรรม เช่น คอมมิต, Pull Request และ code review
- ตาม กฎของ Goodhart เมื่อค่าที่ถูกวัดกลายเป็นเป้าหมาย มันจะไม่ใช่ตัวชี้วัดที่ดีอีกต่อไป
- หากมีการติดตามจำนวนคอมมิต นักพัฒนาก็จะทำคอมมิตให้เล็กลงและถี่ขึ้น และหากติดตามจำนวนตั๋วงาน ตั๋วก็จะถูกแตกย่อย
- ตัวเลขอาจดูดีขึ้น แต่ตัวงานจริงที่อยู่ข้างใต้ไม่ได้ดีขึ้นเสมอไป
- กิจกรรมไม่ใช่ผลลัพธ์ และแม้ผลลัพธ์ก็ยังไม่ใช่มูลค่าในทันที
-
มองอัตราการยอมรับข้อเสนอเป็นสัญญาณคุณภาพ
- อัตราการยอมรับข้อเสนอที่สูงของ LLM coding assistant มักถูกยกมาเป็นหลักฐานว่าเครื่องมือนั้นมีประโยชน์
- อัตราการยอมรับ วัดเพียงว่าโค้ดที่สร้างขึ้น “ดูน่าเชื่อพอ” ให้ผู้พัฒนากด Tab หรือไม่ ไม่ได้วัดความถูกต้อง ความปลอดภัย หรือความสามารถในการบำรุงรักษา
- นักพัฒนาที่ถูกกดดันเรื่องเวลาจะยอมรับข้อเสนอมากขึ้น และในนั้นย่อมมีข้อเสนอที่ไม่ปลอดภัยปะปนอยู่
- งานวิจัยในองค์กรกับนักพัฒนา 400 คนพบอัตราการยอมรับเฉลี่ย 33% และความพึงพอใจของนักพัฒนาที่สูง แต่ไม่ได้ติดตามความถูกต้องหรือความปลอดภัยของโค้ดที่ถูกยอมรับ
- ตัวชี้วัดที่ให้รางวัลกับสิ่งที่ “ดูเหมือนดี” ไม่ใช่ตัวชี้วัดที่ให้รางวัลกับสิ่งที่ดีจริง
-
มองอัตราการนำไปใช้เป็นตัวชี้วัดความสำเร็จ
- คำพูดว่า “เราทำให้อัตราการนำ AI tool ไปใช้ในทั้งองค์กรวิศวกรรมแตะ 90% ได้แล้ว” เป็น ผลงานด้านการจัดซื้อและการกระจายเครื่องมือ ไม่ใช่ผลงานด้านผลิตภาพ
- อัตราการนำไปใช้วัดเพียงว่าเครื่องมือถูกติดตั้งและถูกเปิดใช้งานหรือไม่ ไม่ได้บอกว่าข้อเสนอมีประโยชน์ไหม นักพัฒนายอมรับแบบไม่วิจารณญาณหรือไม่ หรือข้อเสนอที่ยอมรับนั้นถูกต้องหรือไม่
- หากอัตราการนำไปใช้สูงแต่คุณภาพของข้อเสนอต่ำ นักพัฒนาอาจเสียเวลาไปกับการจัดการเครื่องมือมากกว่าจะได้รับประโยชน์จากมัน
- งานวิจัย IBM เกี่ยวกับ enterprise AI coding assistant พบว่าเครื่องมือมักสร้างผลเพิ่มผลิตภาพสุทธิได้ แต่ประโยชน์นั้นไม่ได้กระจายเท่ากันในผู้ใช้ทั้งหมด
- อัตราการนำไปใช้วัดง่ายกว่าประโยชน์ และนั่นเองคือเหตุผลที่มันมักถูกนำไปรายงาน
ข้อผิดพลาดในการออกแบบการทดลอง
-
จับเวลางานประดิษฐ์ที่ไม่สะท้อนโลกจริง
- งานวิจัย GitHub Copilot ที่ถูกอ้างถึงอย่างแพร่หลาย พบว่าผู้ใช้ทำงานเสร็จเร็วกว่าผู้ไม่ใช้ 55%
- งานนั้นคือการสร้าง HTTP server ด้วย JavaScript จากศูนย์ ภายในเวลา 90 นาที และนักพัฒนาไม่มีภาระอื่นใดในวันนั้น
- แต่การพัฒนาซอฟต์แวร์จริงต้องมีทั้งการสำรวจ codebase ขนาดใหญ่ที่ตนไม่ได้เขียน การทำความเข้าใจ requirements ของตั๋วงานที่กำกวม การประสานงานกับเพื่อนร่วมทีม และการประชุม
- ความเร็วใน งาน greenfield แบบของเล่น จึงไม่สามารถทำนายความเร็วของงานจริงเหล่านี้ได้
- ใน randomized controlled trial กับนักพัฒนาโอเพนซอร์สที่มีประสบการณ์ กลับพบสวนทางกับความคาดหวังของผู้เข้าร่วมว่า การให้สิทธิ์เข้าถึง AI tool ทำให้เวลาทำงานเสร็จเพิ่มขึ้น 19%
-
เปรียบเทียบก่อน-หลังโดยไม่มีกลุ่มควบคุม
- หากเริ่มใช้ LLM ในเดือนมกราคม แล้วในเดือนมิถุนายน Pull Request ถูก deploy ได้เร็วขึ้น ก็อาจดูเหมือนว่าเครื่องมือเป็นสาเหตุ
- แต่ถ้าในช่วงเดียวกันมีการจ้างวิศวกรเพิ่ม 12 คน รีแฟกเตอร์ CI pipeline และเปลี่ยน cloud provider ก็จะไม่สามารถแยกสาเหตุออกจากกันได้
- หากไม่มีกลุ่มที่ไม่ได้ใช้เครื่องมือ ก็ยากจะบอกว่าผลที่เห็นมาจาก LLM หรือจากการเปลี่ยนแปลงอื่นที่เกิดขึ้นพร้อมกัน
- ความเที่ยงตรงภายใน ต้องอาศัย counterfactual ที่น่าเชื่อถือว่า หากไม่มีเครื่องมือนั้น อะไรจะเกิดขึ้น
-
เปรียบเทียบผู้ที่สมัครใจใช้กับผู้ที่ไม่ใช้
- หากเปรียบเทียบนักพัฒนาที่เลือกใช้ LLM กับผู้ที่ไม่เลือกใช้ คุณกำลังเปรียบเทียบคนสองกลุ่มที่ต่างกัน ไม่ใช่สองเงื่อนไขการทดลอง
- ผู้ใช้งานช่วงแรกมักมีแนวโน้มชอบทดลอง คุ้นกับเครื่องมือใหม่ และอาจเป็นคนที่มีผลงานสูงอยู่แล้ว มากกว่าผู้ใช้ช่วงหลังหรือผู้ไม่ใช้
- เพราะ selection bias ความแตกต่างที่สังเกตได้อาจเป็นคุณสมบัติของคน ไม่ใช่ของเครื่องมือ
- วิธีนี้มีต้นทุนดำเนินการต่ำที่สุด จึงกลายเป็นข้อบกพร่องด้านการออกแบบที่พบได้บ่อยในรายงานผลิตภาพ AI ของภาคอุตสาหกรรม
- งานวิจัยเชิงตามติดระยะยาว 2 ปีในองค์กรเทคโนโลยีขนาดใหญ่ซึ่งติดตามการใช้ Copilot พบว่า ตั้งแต่ก่อนเริ่มใช้เครื่องมือ ผู้ใช้ก็มีความเคลื่อนไหวมากกว่าผู้ไม่ใช้อย่างสม่ำเสมออยู่แล้ว
-
เปรียบเทียบ AI กับ ‘ไม่มีอะไรเลย’
- หากนำ AI-assisted developer ไปเทียบกับกลุ่มควบคุมที่ไม่ใช้เครื่องมือใดเลย ก็เท่ากับเลือก baseline ที่ไม่มีอยู่จริงในงานจริง
- แม้นักพัฒนาที่ไม่มี LLM assistant ก็ยังมีเอกสาร มีเพื่อนร่วมงาน และมีเวลาคิดปัญหาด้วยตนเอง
- คำถามสำคัญคือ LLM tool ดีกว่าทางเลือกที่นักพัฒนามีอยู่แล้วหรือไม่ แต่การเปรียบเทียบเช่นนี้กลับพบได้น้อย
- หากเลือก baseline ที่อ่อนแอ เครื่องมืออะไรก็ดูดีได้ทั้งนั้น แต่นั่นไม่ได้แปลว่ามันมีประโยชน์จริง
สิ่งที่หายไปจากขอบเขตการวัด
-
วัดแค่ครึ่งเดียวที่วัดง่าย
- LLM ทำให้การสร้างโค้ดเร็วขึ้น และส่วนนี้วัดได้ง่าย
- แต่อีกครึ่งที่ยากกว่าคือ เวลาในการรีวิวโค้ดที่ LLM สร้าง เวลาในการดีบักที่สูญเสียไปเพราะข้อเสนอที่ผิดแต่พูดอย่างมั่นใจ ช่องโหว่ด้านความปลอดภัยจากโค้ดที่ดูใช้ได้แต่ไม่ปลอดภัย และ technical debt จากวิธีแก้ปัญหาเฉพาะหน้าที่ไม่สนใจการออกแบบโดยรอบ
- งานศึกษาซอร์สโค้ดของ GitHub Copilot พบว่าโค้ดที่สร้างขึ้นจำนวนมากมี ช่องโหว่ด้านความปลอดภัย และนักพัฒนาที่ถูกกดดันเรื่องเวลาจะยอมรับข้อเสนอที่ไม่ปลอดภัยในอัตราที่สูงขึ้น
- การประเมิน LLM หลัก 5 ตัวในปี 2025 พบว่าไม่มีโมเดลใดสร้างโค้ดเว็บแอปพลิเคชันที่ผ่านมาตรฐานความปลอดภัยระดับอุตสาหกรรมได้
- การวิเคราะห์ขนาดใหญ่ของคอมมิตที่ AI เขียนมากกว่า 300,000 รายการ พบว่ามากกว่า 15% ได้นำปัญหาด้านคุณภาพอย่างน้อยหนึ่งอย่างเข้ามา และเกือบหนึ่งในสี่ของปัญหาเหล่านั้นคงอยู่ใน codebase ระยะยาว
- หากวัดเฉพาะ input ที่เพิ่มขึ้นแต่ไม่สนต้นทุนที่เพิ่มตามมา นั่นไม่ใช่การวัดผล แต่เป็นการตลาด
-
ต้องวัดระบบ ไม่ใช่แค่รายบุคคล
- ความเร็วในการเขียนโค้ดของรายบุคคลวัดได้ง่ายที่สุด จึงมักถูกวัดบ่อยที่สุด
- แม้ AI tool จะทำให้นักพัฒนาเขียนโค้ดได้เร็วขึ้น 30% แต่หาก lead time จากตั๋วงานถึง production ของทีมไม่เปลี่ยน แปลว่าคอขวดไม่ได้อยู่ที่การเขียนโค้ด
- เมื่อโค้ดที่สร้างขึ้นเพิ่มขึ้น ปริมาณโค้ดที่ต้องรีวิวก็เพิ่มขึ้นตาม และหาก AI เพิ่มแค่ปริมาณโค้ดแต่ไม่เพิ่มความสามารถในการรีวิว cycle time อาจแย่ลงได้
- งานวิจัยเชิงประจักษ์กับนักพัฒนามืออาชีพพบว่า AI tool เพิ่ม output ของผู้มีประสบการณ์น้อย แต่สำหรับนักพัฒนาระดับ senior ผลิตภาพของตนลดลง 19% เพราะภาระ code review จากโค้ดที่ AI สร้างเพิ่มขึ้น 6.5%
- การปรับให้เหมาะแค่ขั้นตอนเดียวใน pipeline แล้วมองข้ามส่วนที่เหลือ คือความล้มเหลวของการคิดเชิงระบบที่ปลอมตัวมาในรูปงานวิจัยด้านผลิตภาพ
ความบิดเบือนของผลตามกาลเวลา
-
ถามนักพัฒนาว่ารู้สึกว่าผลิตภาพดีขึ้นไหม
- ผลสำรวจอย่าง “87% ของนักพัฒนารู้สึกว่าตนมีผลิตภาพมากขึ้นเมื่อใช้ AI tool” มักถูกอ้างเป็นหลักฐานว่าเครื่องมือได้ผล
- แต่ การรายงานด้วยตนเอง สามารถสร้างความเข้าใจผิดอย่างเป็นระบบได้ด้วย 3 เหตุผล
- จาก Hawthorne effect คนมักทำงานต่างไปเมื่อรู้ว่าตนกำลังถูกสังเกตหรือประเมิน
- เครื่องมือใหม่ก่อให้เกิด ผลของความใหม่ ซึ่งทำให้รู้สึกว่าเร็วขึ้นเพียงเพราะมันใหม่ และความรู้สึกนี้มักหายไปภายในไม่กี่สัปดาห์
- social desirability bias ทำให้ผู้ตอบมีแนวโน้มตอบในสิ่งที่คิดว่าแบบสำรวจอยากได้ยิน โดยเฉพาะเมื่อฝ่ายบริหารเป็นผู้เลือกเครื่องมือนั้น
-
วัดเฉพาะช่วงที่ความใหม่ยังทำงานอยู่
- หากการศึกษา 4 สัปดาห์พบว่าผลิตภาพดีขึ้น สิ่งที่มันพบก็คือผลิตภาพที่ดีขึ้นในช่วง 4 สัปดาห์เท่านั้น
- นักพัฒนามักทุ่มเทกับเครื่องมือใหม่มากเป็นพิเศษในช่วงแรก ทำให้ผลที่สังเกตได้อาจสูงเกิน baseline ระยะยาว
- ผลกระทบที่สำคัญจริงมักปรากฏในช่วงหลายเดือน ไม่ใช่ไม่กี่สัปดาห์
- การเสื่อมของทักษะ จากงานที่มอบหมายให้ AI, technical debt ที่สะสมจากข้อเสนอที่ผิด และการเปลี่ยนแปลงของวิธีทำงานร่วมกันในทีม ล้วนต้องอาศัยการสังเกตระยะยาว
- งานวิจัยที่ออกแบบมาเพื่อตรวจจับผลดีระยะสั้น จะไม่สามารถบอกได้ว่าเกิดอะไรขึ้นหลังงานวิจัยจบลง
- การวิเคราะห์โอเพนซอร์สรีโพสิทอรี 807 แห่งที่นำ Cursor ไปใช้ พบว่าความเร็วในการพัฒนาเพิ่มขึ้นมากหลังนำไปใช้ แต่เป็นเพียงชั่วคราว ขณะที่ความซับซ้อนของโค้ดและ static analysis warning เพิ่มขึ้นอย่างมีนัยสำคัญและต่อเนื่อง
บทสรุปเพื่อการตีความที่ดีกว่า
- การวัดผลิตภาพ ยากจะย่อให้เหลือเป็นตัวเลขเดียวหรือตัวชี้วัดแทนที่หยิบใช้ได้ง่าย
- หากต้องการตัดสินผลของการเขียนโค้ดแบบมี LLM ช่วย ต้องดูให้ครบทั้งความเร็วในการเขียนโค้ด การรีวิว การดีบัก ความปลอดภัย การบำรุงรักษา technical debt คอขวดของทีม และการเปลี่ยนแปลงระยะยาว
- หากไม่มีกลุ่มควบคุม baseline ที่สมจริง การควบคุม selection bias การสังเกตระยะยาว และตัวชี้วัดระดับระบบ ก็ยากจะแยกผลของ AI tool ออกจากผลของการเปลี่ยนแปลงอื่น
- ค่าที่วัดง่ายมักถูกรายงานง่าย แต่ค่าที่ง่ายไม่ได้มาแทนค่าที่สำคัญ
- หากต้องการประเมินแนวปฏิบัติด้านการพัฒนาซอฟต์แวร์ เราจำเป็นต้องรับเอาวิธีวิจัยจากสายมนุษยศาสตร์/สังคมศาสตร์มาใช้อย่างจริงจังมากขึ้น
แหล่งข้อมูลสำคัญที่ถูกอ้างถึง
- Kent Beck, “Measuring Developer Productivity: Real-World Examples”: ตัวอย่างการวัดผลิตภาพนักพัฒนาในโลกจริง
- Catherine M. Hicks, Carol Lee, Kristen Foster-Marks, “The New Developer: AI Skill Threat, Identity Change & Developer Thriving in the Transition to AI-Assisted Software Development”: ว่าด้วยภัยคุกคามต่อทักษะ การเปลี่ยนอัตลักษณ์ และความงอกงามของนักพัฒนาในช่วงเปลี่ยนผ่านสู่การพัฒนาซอฟต์แวร์แบบมี AI ช่วย
- McKinsey, “Yes, You Can Measure Software Developer Productivity”: ข้อเสนอการวัดผลิตภาพจากกิจกรรมอย่างคอมมิต, Pull Request และ code review
- Peng2023: งานวิจัยที่พบว่าผู้ใช้ GitHub Copilot ทำงานสร้าง HTTP server เสร็จเร็วขึ้น 55%
- Becker2025: งานวิจัยที่พบว่าการให้สิทธิ์เข้าถึง AI tool กับนักพัฒนาโอเพนซอร์สที่มีทักษะสูง ทำให้เวลาทำงานเสร็จเพิ่มขึ้น 19%
- Pearce2022: งานวิจัยที่ประเมินช่องโหว่ความปลอดภัยในโค้ดที่ GitHub Copilot สร้าง และการยอมรับข้อเสนอที่ไม่ปลอดภัยเพิ่มขึ้นเมื่ออยู่ภายใต้แรงกดดันด้านเวลา
- He2026: งานวิจัยที่ยืนยันการเพิ่มขึ้นของความเร็วในการพัฒนาระยะสั้นหลังใช้ Cursor และการเพิ่มขึ้นของความซับซ้อนของโค้ดกับ static analysis warning ในระยะยาว
- Xu2025: งานวิจัยว่าด้วยการที่การเขียนโปรแกรมแบบมี AI ช่วยอาจเพิ่มภาระรีวิวและภาระบำรุงรักษาของนักพัฒนาที่มีประสบการณ์ จนทำให้ผลิตภาพลดลง
1 ความคิดเห็น
ความเห็นจาก Lobste.rs
ผู้เขียนเป็นหนึ่งในผู้ก่อตั้ง Software Carpentry จึงเป็นคนที่คิดเรื่องวิธีวัด ผลิตภาพซอฟต์แวร์ ให้ดีขึ้นมาตั้งนานก่อน LLM จะถือกำเนิด
งานวิจัย METR ที่ถูกอ้างถึงน่าสนใจกว่าที่คนมักพูดถึงกันมาก สำหรับหลายคน พาดหัวคือ “AI ทำให้คนทำงานช้าลง” ซึ่งก็อาจโต้แย้งได้ว่าเป็นแค่ LLM แบบปี 2025 ที่ยังคงดีขึ้นเรื่อย ๆ
แต่ผลที่น่าสนใจกว่าคือ หลังจบการทดลอง ค่าที่แต่ละคนประเมินไว้กลับไม่ตรงกับผลจริงแม้แต่ในแง่ทิศทาง ดูเหมือนจะมีปัจจัยบางอย่างในเรื่องนี้ที่สร้างความยากพื้นฐานให้กับการวัดทุกประเภท ซึ่งบริษัทส่วนใหญ่กลับมองข้าม
แม้แต่ ความรู้สึกคลุมเครือ ว่าเครื่องมือทำให้คนมีผลิตภาพมากขึ้นก็ยังเชื่อถือไม่ได้ ผู้คนไม่รู้ตัวเองจริง ๆ
งานศึกษาติดตามผลที่ตามมาก็ล้มเหลวไปแทบหมดเพราะ selection bias
คำพูดที่ว่า “เครื่องมือใหม่รู้สึกว่าเร็วกว่าเพราะมันใหม่ และความรู้สึกนั้นมักหายไปในไม่กี่สัปดาห์” ดูเหมือนจะกลับด้านสำหรับฉัน
เครื่องมือใหม่ทำให้ฉันช้าลงเสมอเพราะยังไม่คุ้น แน่นอนว่ามองเห็น ศักยภาพ ที่จะเร็วขึ้นได้ แต่ก็ยังใช้มันได้ไม่คล่องพอ
ช่วงแรกมันอาจดูน่าประทับใจ แต่สุดท้ายพอกลับไปสู่จังหวะการทำงานปกติ ผลนั้นก็จะค่อย ๆ หายไปเอง
การวัดเป็นเรื่องยาก ในแง่หนึ่ง การพยายามวัด AI-assisted coding เองอาจเป็นความผิดพลาด
ชัดเจนว่ามันทำให้งานบางอย่างเร็วขึ้น และก็น่าจะมีวิธีใช้มันให้เร็วขึ้นจริงอยู่ไม่น้อย
คำถามที่สำคัญกว่าคือ วิธีนั้นคืออะไร และเราสูญเสียอะไรไปในกระบวนการ
ต้นฉบับเองก็พูดถึงเรื่องนี้ในฐานะ “การวัดเฉพาะครึ่งที่ง่ายกว่า”
สำหรับคำถามที่ว่า “ถ้าสัปดาห์หน้าผู้จัดการขอให้คุณพิสูจน์ว่าเครื่องมือ AI coding ที่บริษัทสมัครไว้คุ้มค่าสมาชิก คุณจะวัดจำนวนบรรทัดโค้ดที่สร้างขึ้น หรือจะวัดจำนวน ticket ที่ปิดได้?” นั้น Claude วัดจำนวนบรรทัดโค้ด อัตราการยอมรับ และการใช้โทเค็นจากข้อมูลการชำระเงินอยู่แล้ว
จำนวน ticket ที่ปิดได้คงเป็นความเร็วของทีม ซึ่งผลลัพธ์จาก AI ก็เป็นเพียงปัจจัยหนึ่งในนั้น และ Jira ก็วัด sprint velocity อยู่แล้ว
ไม่ว่าอย่างไร คำถามนี้ก็ถูกปั่นแต่งได้ง่าย ขึ้นอยู่กับว่าคุณคิดว่าผู้จัดการต้องการผลลัพธ์แบบไหน และก็น่าจะมีโอกาสสูงว่ากำลังถูกทำแบบนั้นอยู่แล้ว
ดูเหมือนผู้เขียนจะพลาดคำถามสำคัญมากข้อหนึ่งไป นั่นคือ “การใช้ AI ก่อให้เกิดความเสียหายอะไรบ้าง?”
ฉันมองว่านี่เป็นคำถามที่พื้นฐานกว่าคำถามอื่นทั้งหมด เพราะความเสียหายวัดได้ง่ายกว่ามาก แค่เปิด Git forge ไว้สักตัว แล้วดูพวก crawler พุ่งเข้ามาเหมือนฉลามได้กลิ่นเลือดก็พอ
การที่ scraper ทำ DDoS ใส่อินเทอร์เน็ตทั้งระบบเป็นปัญหาที่วัดได้ และถ้าคุณโฮสต์ระบบเอง นี่คือความจริงที่สัมผัสได้โดยตรง
ประโยชน์ที่เรียกกันว่าเป็นข้อดีของ AI ซึ่งเรายังวัดกันได้ไม่ดีนักนั้น คุ้มพอจริงหรือที่จะยอมรับความเสียหายที่เป็นรูปธรรมมากจาก crawler?
แล้วถ้ารวมพลังงานที่ใช้ในการรัน crawler และประมวลผลคำขอเหล่านั้น ต้นทุนการฝึก ต้นทุนการอนุมาน และความจำเป็นของ data center ที่ใหญ่ขึ้นเรื่อย ๆ เข้าไปด้วยล่ะ?
ฉันคิดว่าการถามว่าข้อดีที่เรียกกันเช่นนั้นของ AI คุ้มค่าพอจะแลกกับทุกสิ่งเหล่านี้หรือไม่ เป็นคำถามที่สำคัญกว่ามาก
ทำนองว่า “ต่อให้สิ่งเหล่านี้ไม่ใช้พลังงาน มันก็ยังสร้างโค้ดแย่ ๆ อยู่ดี เพราะงั้นเรื่องนั้นสำคัญกว่ามาก” หรือ “จะพูดเรื่องการเขียนโค้ดไปทำไม ความเสียหายที่แท้จริงคือการนำไปใช้เพื่อการสอดส่อง” แล้วประเด็นก็ถูกเลื่อนไปเรื่อย ๆ