- ช่วงหลังมานี้เริ่มเห็น คุณภาพโดยรวมของเครื่องมือผู้ช่วยเขียนโค้ดด้วย AI ลดลง โดยทั้งความเร็วในการทำงานและความแม่นยำของผลลัพธ์แย่ลงกว่าเดิม
- โมเดลภาษาขนาดใหญ่ (LLM) รุ่นใหม่ลดข้อผิดพลาดทางไวยากรณ์ลง แต่กลับสร้าง ความล้มเหลวแบบเงียบ (silent failure) ที่รันได้แต่ให้ผลลัพธ์ผิดบ่อยขึ้น
- ในการทดลอง GPT-5 กลบปัญหาด้วยการสร้างค่าขึ้นมาเองโดยไม่เปิดเผยสาเหตุของข้อผิดพลาด ขณะที่ GPT-4 และ Claude รุ่นเก่า กลับชี้ให้เห็นปัญหาในข้อมูลหรือตัวโค้ดได้ค่อนข้างชัดเจน
- การเปลี่ยนแปลงนี้เชื่อมโยงกับ ผลลัพธ์จากการที่กระบวนการใช้การยอมรับของผู้ใช้เป็นสัญญาณการเรียนรู้ จนทำให้คุณภาพข้อมูลพร่าเลือน
- หากยังไม่ลงทุนกับ ข้อมูลคุณภาพสูงและการตรวจสอบโดยผู้เชี่ยวชาญ แทนการมุ่งความสำเร็จในการรันระยะสั้น ความเสี่ยงที่โมเดลจะกลับไปเรียนรู้ข้อผิดพลาดที่ตัวเองสร้างขึ้นก็จะยิ่งสูงขึ้น
ปรากฏการณ์ประสิทธิภาพถดถอยของเครื่องมือผู้ช่วยเขียนโค้ดด้วย AI
- ในช่วงไม่กี่เดือนที่ผ่านมา ประสิทธิภาพการทำงานและความน่าเชื่อถือของโค้ดจาก AI ลดลงพร้อมกัน
- งานที่เมื่อก่อนใช้ AI ช่วยแล้วเสร็จใน 5 ชั่วโมง ตอนนี้กลับใช้เวลา 7~8 ชั่วโมงขึ้นไปมากขึ้น
- ผู้ใช้บางส่วนหันกลับไปเลือก LLM รุ่นก่อนหน้าอีกครั้ง เพราะเหตุผลด้านความเสถียร
- การเปลี่ยนแปลงนี้ถูกสังเกตเห็นซ้ำ ๆ ใน สภาพแวดล้อมทดสอบที่รันโค้ดที่ AI สร้างขึ้นโดยไม่มีมนุษย์เข้าแทรกแซง
‘ความล้มเหลวแบบเงียบ’ ที่เด่นชัดในโมเดลรุ่นใหม่
- ปัญหาในอดีตส่วนใหญ่เป็น ข้อผิดพลาดทางไวยากรณ์หรือข้อผิดพลาดเชิงตรรกะที่ชัดเจน ซึ่งมักถูกพบได้ทันทีในขั้นตอนการรัน
- โมเดลรุ่นล่าสุดกลับมีแนวโน้มสร้าง โค้ดที่ดูเหมือนรันได้ตามปกติ แต่มีความหมายผิด มากขึ้น
- ตัดการตรวจสอบความปลอดภัยออก
- สร้างค่าปลอมที่แค่ทำให้รูปแบบผลลัพธ์ดูถูกต้อง
- ข้อผิดพลาดที่แฝงอยู่ แบบนี้มักถูกค้นพบช้า และนำไปสู่ต้นทุนกับความสับสนที่สูงขึ้นในขั้นตอนถัดไป
- สิ่งนี้ขัดแย้งโดยตรงกับเหตุผลที่ภาษาโปรแกรมสมัยใหม่ถูกออกแบบมาให้ ล้มเหลวอย่างรวดเร็วและชัดเจน
ความแตกต่างที่เห็นได้จากการทดสอบง่าย ๆ
- มีการป้อนข้อผิดพลาดของโค้ด Python ที่อ้างถึงคอลัมน์ที่ไม่มีอยู่จริงให้กับ ChatGPT หลายเวอร์ชัน
- GPT-4: ส่วนใหญ่ตอบโดยชี้สาเหตุของข้อผิดพลาดหรือชวนให้ดีบัก
- GPT-4.1: ชวนให้พิมพ์คอลัมน์ของ DataFrame ออกมาเพื่อตรวจสอบปัญหา
- GPT-5: ใช้อินเด็กซ์จริงมาคำนวณเพื่อทำให้ดูเหมือนรันโค้ดสำเร็จ แต่ผลลัพธ์ที่ได้เป็นค่าที่ไร้ความหมาย
- พบแนวโน้มคล้ายกันใน โมเดล Claude
- รุ่นเก่าเน้นการรับรู้ปัญหา
- รุ่นใหม่มักเพิกเฉยต่อข้อผิดพลาดหรือเสนอวิธีแก้แบบอ้อม ๆ
ความเชื่อมโยงระหว่างวิธีการเรียนรู้กับคุณภาพที่ลดลง
- โมเดลระยะแรกเน้นเรียนรู้จากโค้ดที่มีอยู่จำนวนมาก แม้จะมีข้อผิดพลาดมาก แต่ก็ ไม่ได้ซ่อนปัญหาเอาไว้
- ต่อมาเมื่อมีการผสานเข้ากับ IDE พฤติกรรมของผู้ใช้ (การยอมรับโค้ด·ความสำเร็จในการรัน) ก็ถูกนำมาใช้เป็นสัญญาณการเรียนรู้
- เมื่อผู้ใช้มือใหม่เพิ่มขึ้น สัญญาณที่ว่าแค่รันได้ก็ถือว่าเป็นโค้ดที่ดี จึงสะสมมากขึ้น และโมเดลก็เรียนรู้สิ่งนี้
- ส่งผลให้รูปแบบที่ไม่แม่นยำอย่าง การตัดการตรวจสอบความปลอดภัยและการสร้างข้อมูลปลอม ยิ่งถูกเสริมให้เด่นชัด
- ยิ่งฟังก์ชันการเขียนโค้ดอัตโนมัติมีมากขึ้น การตรวจสอบโดยมนุษย์ก็ยิ่งลดลง ทำให้ โมเดลเรียนรู้ผิดซ้ำแล้วซ้ำเล่า
ทิศทางที่จำเป็นต่อจากนี้
- เครื่องมือผู้ช่วยเขียนโค้ดด้วย AI ยังคงเป็น เครื่องมือที่ช่วยเพิ่มผลิตภาพและการเข้าถึงงานพัฒนาได้อย่างมาก
- แต่การเรียนรู้ที่เน้นเพียงความสำเร็จในการรันจะ บั่นทอนคุณภาพโค้ดในระยะยาว
- จำเป็นต้องมีทั้ง ข้อมูลคุณภาพสูงที่ผู้เชี่ยวชาญเป็นผู้กำกับป้ายกำกับ และ กระบวนการฝึกซ้ำอย่างมีความรับผิดชอบ
- มิฉะนั้น โมเดลมีแนวโน้มสูงที่จะตกอยู่ในวงจร ผลลัพธ์ผิด → การเรียนรู้ผิด → ผลลัพธ์ที่แย่ลง
1 ความคิดเห็น
ความเห็นจาก Hacker News
น่าสนใจที่เวลาคนสายคลั่ง AI พูดถึง การเพิ่มผลิตภาพ ของตัวเอง มักอิงจากประสบการณ์ส่วนตัว แต่พอเป็นความเห็นแย้งกลับเรียกร้อง ภาระการพิสูจน์ แบบเกินเหตุ
ผู้เขียนถึงกับประกาศว่าจะ สาธิตแบบไลฟ์สตรีม แต่สุดท้ายใช้เวลาชั่วโมงหนึ่งก็ยังทำงานขยายแบบง่าย ๆ ชิ้นเดียวไม่เสร็จ
ถ้าเป็นผมลงมือทำเองก็น่าจะใช้เวลาพอ ๆ กัน
เลยคอมเมนต์ถามว่า “ไหนล่ะที่ว่าเร็วขึ้น 10 เท่า” เขาก็ปฏิเสธทำนองว่า “มันเป็นแค่ข้อผิดพลาดชั่วคราว” หรือ “ระหว่างที่ AI ตอบ เขาไปทำอย่างอื่นได้”
พูดตรง ๆ ตอนแรกผมก็สงสัย แต่ก็หวังว่าความสงสัยของผมจะผิด ปรากฏว่าไม่ใช่
สุดท้ายแล้ว ภาระการพิสูจน์เรื่องการเพิ่มผลิตภาพ ควรอยู่ที่คนที่เป็นฝ่ายอ้าง
ผมไม่คิดว่า AI คิดอย่างสร้างสรรค์ได้ แต่ฟังก์ชัน เติมโค้ดอัตโนมัติแบบแท็บ ช่วยประหยัดเวลาเรื่องลูป การจัดการข้อผิดพลาด และการทำเอกสารได้เยอะ
ความเร็วในการแก้ปัญหาไม่ได้เปลี่ยน แต่ขั้นตอนลงมือนำไปใช้เร็วขึ้นอย่างชัดเจน
ถ้าจะบอกว่า “เร็วขึ้น 10 เท่า” ก็เป็นการเร็วขึ้น 10 เท่าในแง่ ความเร็วในการพิมพ์ ไม่ใช่การแก้ปัญหา
แม้ในโปรเจ็กต์ C# ขนาด 1 ล้านบรรทัด ก็ยังเพิ่มผลิตภาพได้มากโดยคุณภาพไม่ตก
กับคนที่ชอบวิจารณ์ ผมอยากบอกว่า “ก็ลองให้ดูสิ” มันไม่ใช่เทคนิคลับอะไร แค่ต้อง ใช้เวลาเรียนรู้วิธีใช้เครื่องมือ เท่านั้น
แต่ทำไมพวกเขาไม่โชว์ผลงานสุดยอดที่สร้างขึ้นมา กลับพยายามมานั่งโน้มน้าวผมแทน?
ก็อดสงสัยไม่ได้ว่ามี ผลตอบแทนหรือแรงจูงใจ อะไรอยู่เบื้องหลังหรือเปล่า
ปัญหาไม่ใช่ว่า AI แย่ลง แต่คือ ความสามารถในการทำซ้ำผลลัพธ์ ลดลง
เหมือนแอปเรียกแท็กซี่หรือแอปส่งอาหาร ระบบนิเวศ LLM ก็น่าจะไปจบที่ โครงสร้างการขึ้นราคา เหมือนกัน ตอนนี้แค่ยังอยู่ในภาวะ มีเงินลงทุนคอยอุดหนุน เท่านั้น
ตอนนี้ถูกเพราะมีเงินอุดหนุน แต่ไม่นานก็น่าจะ ถูกได้แม้ไม่มีเงินอุดหนุน
อย่างไรก็ดี ถ้าจะใช้โมเดลล่าสุดระดับ SOTA ก็อาจแพงขึ้นได้ แต่ก็เป็นอีกประเด็นหนึ่งเรื่องความคุ้มค่า
มีเงิน 10,000–20,000 ดอลลาร์ก็ประกอบเครื่องที่สร้างโทเคนได้ทั้งวัน และผู้ให้บริการรายใหญ่ก็ยิ่งมีประสิทธิภาพกว่าด้วย economies of scale
เรื่องแบบนี้ยังทำให้น่าเชื่อถือได้ยาก
พอเงินลงทุนหายไป ราคาก็จะขึ้น และกว่าที่การแข่งขันจะหายไปจนหมด เราถึงจะได้เห็น โครงสร้างต้นทุนที่แท้จริง
มีคนมองว่าการทดสอบที่บอกว่า “AI แย่ลง” นั้นแปลก
เช่น ถ้าโค้ดอ้างถึงคอลัมน์ที่ไม่มีอยู่จริง แล้วสั่งว่า “ส่งมาเฉพาะโค้ดที่เสร็จสมบูรณ์โดยไม่ต้องมีคอมเมนต์” AI ก็แทบไม่มีทางเลือกนอกจากต้องส่ง โค้ดที่ผิด ออกมา
ถ้าเป็นนักพัฒนาที่มีฝีมือ ก็ควรชี้ว่า “คำขอนี้ผิด” การทดสอบนี้จึงเป็นการทดลองที่ใช้ได้ในการเผยให้เห็น การตอบเอาใจ (sycophantism)
การเงียบแล้วส่งผลลัพธ์ผิด ๆ ออกมานั้นอันตราย
ความผิดพลาดแบบนี้ใกล้เคียงกับ อาการหลอน (hallucination) ระดับ GPT-2 มากกว่า
ผมชอบเครื่องมือช่วยพัฒนาด้วย AI แต่ก็ไม่แน่ใจว่ามันเป็น ผลได้แบบสัมบูรณ์ เสมอไปหรือไม่
เมื่อก่อนผมกิน Huel เพื่อลดเวลาอาหารกลางวัน แต่สุดท้ายก็เสีย คุณค่าของการพัก ไป
AI ก็คล้ายกัน ถ้าพลาดรายละเอียด สุดท้ายอาจต้องเสีย เวลาเพื่อย้อนกลับมาแก้
เพราะงั้นผมเลยทำ ไฟล์ Markdown ยาว 15k โทเคน ที่รวมบริบทและข้อจำกัดทั้งหมดของโปรเจ็กต์ไว้ แล้วใส่มันเข้าไปในพรอมป์ต์ทุกครั้ง
มันเหมือนเอกสาร “world model” ชนิดหนึ่ง
พอมีเวลาเพิ่ม ก็กลับถูกคาดหวังให้ทำงานมากขึ้น และ self-efficacy กับ ความสามารถในการแก้ปัญหา ก็อ่อนลง
มันทำให้ลืมได้ง่ายว่า “ความไร้ประสิทธิภาพ” แบบนั้นจริง ๆ แล้วคือ กระบวนการในการได้มาซึ่งความรู้และอินไซต์
ถ้าเทียบกับ ต้นทุนการดำเนินงาน จริง การเพิ่มผลิตภาพจาก AI อาจถูกประเมินสูงเกินไปก็ได้
ตอนแรกคาดหวังบทความเชิงเทคนิคจาก IEEE แต่บทความนี้กลับน่าผิดหวังเพราะอยู่ในระดับ บทความแสดงความคิดเห็น (opinion piece) มากกว่า
ผมเห็นด้วยว่า GPT-5 มักโฟกัสแต่การแก้ปัญหาเฉพาะหน้าและ มองภาพใหญ่ไม่ออก แต่โมเดลอื่นยังทำได้ดีอยู่
ส่วนตัวผมใช้ Gemini-3-flash กับส่วนขยายแทน Copilot แบบปรับแต่งเอง ซึ่งมีประโยชน์กว่าและให้ ประสบการณ์พัฒนาที่เป็นส่วนตัว มากกว่า
เมื่อไม่นานมานี้ผมเห็น Cursor วน
grep,cd,lsซ้ำ ๆ เหมือนติดลูปไม่รู้จบดูเหมือนใส่ฟีเจอร์มากเกินไปเพราะพยายามจับกลุ่ม “vibe coder” เยอะเกินไป เวอร์ชันที่ เบากว่า กลับใช้ง่ายกว่า
“รันไม่ผ่าน” ไม่ได้เป็นสัญญาณแย่เสมอไป
บางครั้งมันอาจเป็น คำตอบที่ใกล้เคียงที่สุด หรือเป็น เบาะแสให้หา bug ได้
แต่การ ลบตรรกะตรวจสอบออกหรือเปลี่ยนความหมาย เพื่อให้รันผ่าน นั่นคือผลลัพธ์ที่แย่ที่สุด
ผมสงสัยว่าเมื่อ LLM ใช้ข้อมูลทั้งหมดบนอินเทอร์เน็ตจนหมดแล้ว จะเกิดอะไรขึ้น
ถ้า Stack Overflow หรือโค้ดโอเพนซอร์สหายไป สุดท้ายมันจะ เรียนรู้จากตัวเองจนพัง (model collapse) ไหม?
แต่ก็มีนักวิจัยจำนวนมากที่มองว่าในระดับข้อมูลจริง ความเสี่ยงไม่ได้สูงมาก
โมเดล NVIDIA Nemotron 3 Nano ล่าสุดถูกฝึกด้วย ข้อมูลสังเคราะห์ (synthetic data) ถึง 33%
โดยรันการจำลองพร้อมใส่ ฟังก์ชันคุณค่า อย่างความง่ายในการบำรุงรักษาเข้าไป
ถ้า AI ไม่สามารถรับรู้ข้อผิดพลาดของตัวเองได้ ก็มีโอกาสเกิด การพังทลายของตัวเอง ขึ้นได้
อินเทอร์เน็ตแบบ “sharing is caring” อาจหายไป
AI ไม่ได้แย่ลง แต่ ดีขึ้นแล้ว เพียงแค่วิธีใช้เปลี่ยนไป
ถ้ามี scaffolding ที่เหมาะสม ก็จะได้ผลลัพธ์ที่ดีกว่ามาก
การสรุปว่า “AI โง่” จากการทดสอบง่าย ๆ เป็นข้อผิดพลาด
เช่น ถ้าถามว่า “ยอดขายเดือนธันวาคม” โมเดลส่วนใหญ่จะรวมยอดของทุกเดือนธันวาคมโดยไม่ใส่เงื่อนไขปี
ข้อผิดพลาดเชิงตรรกะ แบบนี้ทำให้เกิดปัญหาในงานจริง
ดูเหมือนคลังคำศัพท์ทางเทคนิคและความสามารถในการอธิบายมีผลต่อประสิทธิภาพ
ผมเองก็รู้สึกถึง ความผันผวนของคุณภาพรายเดือน ของโมเดล
เหมือนมันลืมเรื่อง การจัดการข้อผิดพลาดหรือกฎการตั้งชื่อตัวแปร ที่เมื่อก่อนเคยทำได้ดี
ยิ่งบทสนทนายาว คุณภาพยิ่งตกในบางครั้ง ดูเหมือนจะมี จุดเหมาะสมของความยาวพรอมป์ต์ อยู่
งานใหม่ควร เริ่มในเธรดใหม่ และควรลบคำขอที่ไม่จำเป็นออก