- มีการเสนอเกณฑ์ชี้วัดใหม่สำหรับวัดประสิทธิภาพ โดยอิงจาก ‘ความยาว’ ของงานที่โมเดล AI สามารถทำได้สำเร็จอย่างสมบูรณ์
- มีการวิเคราะห์ว่าในช่วง 6 ปีที่ผ่านมา ความยาวของงานที่ AI สามารถทำสำเร็จได้ด้วยตัวเองเพิ่มขึ้นเป็นสองเท่าทุกประมาณ 7 เดือน
- งานที่ผู้เชี่ยวชาญมนุษย์ใช้เวลาไม่เกิน 4 นาทีมีอัตราสำเร็จเกือบ 100% แต่งานที่ใช้เวลามากกว่า 4 ชั่วโมงมีอัตราสำเร็จน้อยกว่า 10%
- หากแนวโน้มนี้ยังคงอยู่ คาดว่า ภายในไม่กี่ปี AI จะสามารถทำโปรเจกต์ระดับหลายสัปดาห์ได้อย่างอิสระ
- งานวิจัยนี้มีนัยสำคัญต่อ เบนช์มาร์ก AI การคาดการณ์ความสามารถในอนาคต และการบริหารความเสี่ยง
ภาพรวมของงานวิจัย
- METR เสนอวิธีใหม่ในการวัดว่า AI สามารถทำงานที่ยาวนานได้แค่ไหน
- เกณฑ์การวัดคือเวลาที่ผู้เชี่ยวชาญมนุษย์ใช้ในการทำงานนั้น
- ความสัมพันธ์ระหว่างความน่าจะเป็นที่โมเดลจะทำสำเร็จกับเวลาที่มนุษย์ใช้ทำงาน ถูกจำลองด้วย เส้นโค้งลอจิสติก
- แนวทางนี้ถูกเสนอให้เป็นตัวชี้วัดที่มีประโยชน์ในการประเมิน ความพร้อมสำหรับการใช้งานจริงของ AI
- ช่วยเติมเต็มข้อจำกัดของเบนช์มาร์กเดิมที่เน้นความสามารถในการแก้ปัญหาเดี่ยวเป็นหลัก
ผลลัพธ์สำคัญ
- ขีดจำกัดประสิทธิภาพของโมเดลในปัจจุบัน
- งานที่มนุษย์ทำได้ภายใน 4 นาที มีอัตราสำเร็จเกือบ 100%
- งานที่ใช้เวลามากกว่า 4 ชั่วโมง มีอัตราสำเร็จน้อยกว่า 10%
- ตัวอย่าง: Claude 3.7 Sonnet มีอัตราสำเร็จ 50% สำหรับงานที่มีความยาวประมาณ 1 ชั่วโมง
- แนวโน้มการพัฒนาประสิทธิภาพ
- ในช่วง 6 ปีที่ผ่านมา ความยาวของงานที่ทำสำเร็จได้ด้วยความเชื่อมั่น 50% เพิ่มขึ้นเป็นสองเท่าทุกประมาณ 7 เดือน
- ผลการวิเคราะห์ในสเกลลอการิทึมยืนยันว่าเกิด การเติบโตแบบเอ็กซ์โปเนนเชียลอย่างต่อเนื่อง
- หากแนวโน้มนี้ยังคงอยู่ ภายใน 2~4 ปีอาจสามารถทำงานระดับหลายสัปดาห์ได้
ระเบียบวิธีและการตรวจสอบ
- การตรวจสอบโดยอิงชุดข้อมูล
- มีการบันทึกเวลาที่มนุษย์ใช้ในการทำงานสำหรับกลุ่มงานที่หลากหลาย (เช่น ซอฟต์แวร์ การให้เหตุผล เป็นต้น)
- ในชุดข้อมูล SWE-Bench Verified ก็พบการเพิ่มขึ้นแบบเอ็กซ์โปเนนเชียลในลักษณะใกล้เคียงกัน
- ในข้อมูลดังกล่าว พบว่า ความเร็วในการเพิ่มขึ้นเป็นสองเท่าอยู่ต่ำกว่า 3 เดือน
- การวิเคราะห์ความไว
- มีการตรวจสอบความทนทานต่อปัจจัยต่าง ๆ เช่น การเลือกโมเดล การเลือกงาน และสัญญาณรบกวน
- ในการจำลองเพื่อคาดการณ์ช่วงเวลาที่จะทำงานยาว 1 เดือนได้ แม้ความคลาดเคลื่อนในการวัดจะสูง แนวโน้มก็ยังคงเดิม
การตีความและข้อจำกัด
- ช่วยอธิบาย ช่องว่างระหว่างผลลัพธ์บนเบนช์มาร์กของ AI กับประโยชน์ใช้สอยจริง
- แม้จะเหนือกว่ามนุษย์ในโจทย์ลักษณะข้อสอบ แต่ ยังทำโปรเจกต์ระยะยาวในโลกจริงได้ไม่ดีนัก
- ยอมรับ ความไม่แน่นอนของการคาดการณ์จากการลากเส้นแนวโน้มต่อไปในอนาคต
- หากใช้เฉพาะข้อมูลปี 2024~2025 ช่วงเวลาที่จะทำงานระดับรายเดือนได้จะ เร็วขึ้นราว 2.5 ปี
- มีการกล่าวถึงความเป็นไปได้ที่แนวโน้มล่าสุด อาจทำนายประสิทธิภาพในอนาคตได้ดีกว่าข้อมูลในอดีต
บทสรุปและความสำคัญ
- แนวทางการวัดประสิทธิภาพ AI ด้วย ‘ความยาวของงาน’
- ทำให้สามารถวัดเชิงปริมาณการพัฒนาประสิทธิภาพในงานหลายระดับความยากและหลายโดเมนได้
- ช่วยให้ตีความผลลัพธ์เชิงสัมบูรณ์ที่ เชื่อมโยงโดยตรงกับผลกระทบในโลกจริง ได้
- หาก การเติบโตแบบเอ็กซ์โปเนนเชียลอย่างต่อเนื่อง ยังคงดำเนินต่อไป
- มีแนวโน้มว่า ภายใน 10 ปี AI จะสามารถทำโปรเจกต์อัตโนมัติระดับรายเดือนได้
- ซึ่งมาพร้อมทั้ง ประโยชน์มหาศาลและความเสี่ยงมหาศาล
- ข้อมูลงานวิจัยและโค้ดวิเคราะห์ เผยแพร่บน GitHub เพื่อสนับสนุนงานวิจัยต่อยอดและการทดลองทำซ้ำ
2 ความคิดเห็น
ดูเหมือนจะเป็นเบนช์มาร์กที่ดีมากนะครับ
ช่วงนี้พอดูเครื่องมือ AI สำหรับเขียนโค้ดหลาย ๆ ตัว มักจะให้วางแผนล่วงหน้าแล้วค่อยทำงานในโหมด Agent เลยอยากรู้เหมือนกันว่าสิ่งนี้ส่งผลต่ออัตราความสำเร็จในระยะยาวอย่างมีนัยสำคัญจริงหรือเปล่า
ความคิดเห็นจาก Hacker News
เป็นพรอมป์ตสั้นๆ แค่บรรทัดเดียวแบบทวีต แต่เสร็จใน 15 นาที ระหว่างนั้นผมก็นั่งเล่น Kirby Air Riders อยู่
แต่สิ่งที่น่าเสียดายคือผ่านกระบวนการนี้มาแล้ว ผมกลับ ไม่ได้เรียนรู้อะไรเลยเกี่ยวกับการสร้าง vector search สุดท้ายเป้าหมายคือฟีเจอร์ ส่วนการเรียนรู้เป็นเรื่องรอง
แทนที่จะใช้เวลา 4 ชั่วโมงทำเอง ผมว่าให้เอเจนต์ทำเสร็จใน 15 นาที ระหว่างนั้นเราไปทำอย่างอื่น แล้วค่อยกลับมาใช้สัก 30 นาทีอ่านโค้ด แก้ไข และถามคำถาม ยังมีประสิทธิภาพกว่ามาก
การเรียนรู้อย่างจดจ่อ 30 นาที อาจดีกว่าการลองผิดลองถูก 4 ชั่วโมงก็ได้
AI เองก็จะค่อยๆ ทำโครงสร้างโค้ดหลุดมือไป และสุดท้ายคุณก็กลายเป็นลูกค้าที่ต้องพึ่ง Opus
เมื่อก่อนการเปิดเพลงแล้วแก้ปัญหาด้วย Scala เป็นอะไรที่สนุก แต่ตอนนี้การได้แค่ผลลัพธ์อย่างง่ายดายกลับทำให้รู้สึกว่างเปล่า
ตอนผมทำโมเดลเทรด ผมก็อยากให้ LLM เขียนโค้ดแทนมากกว่าจะไปนั่งเรียนกราฟเอง
แบบนี้ทำให้ ไม่ต้องเสียเวลากับการจัดการ API จุกจิก และโฟกัสได้เฉพาะส่วนที่ต้องใช้การตัดสินใจจริงๆ
ตอนพอร์ต Python HTML5 parser ไปเป็น JavaScript ผมลองให้ Codex CLI รันกับ html5lib-tests จำนวน 9,200 รายการ แล้วการได้เห็นมันวนลูปแก้ปัญหาอยู่นานกว่า 4 ชั่วโมงก็น่าประทับใจมาก
ผมสรุปเรื่องนี้ไว้ในโพสต์ ที่นี่
Opus 4.5 ทำงานระดับนี้ได้ด้วยความน่าเชื่อถือ 50% และเวลาในการรันจริงสั้นกว่านั้นมาก
ต่อจากนี้ถ้าผ่านเกณฑ์ 8 ชั่วโมงหรือ 40 ชั่วโมงได้เมื่อไรคงน่าสนใจกว่านี้มาก
มันแสดงให้เห็นชัดว่าถึง benchmark จะถูกทำลายได้เร็ว แต่การทำงานจริงให้เป็นอัตโนมัติยังยากอยู่มาก
ถ้าเป็นคนที่คุ้นกับ jq, ecosystem ของ PyPI หรือ annotation ของ TypeScript ก็อาจทำเสร็จได้เร็วกว่ามาก
สุดท้ายเสน่ห์ของ AI ก็คือ การได้ความช่วยเหลือระดับผู้เชี่ยวชาญแบบทันที
โมเดลส่วนใหญ่จะพูดทำนองว่า “ไปขั้นถัดไปกัน” แล้วหยุดเอง
ไม่รู้ว่ามีใครแก้ปัญหานี้ได้บ้างไหม
ตอนนี้ช่องว่างด้านราคาก็แคบลงกว่าเดิมมาก เลยมีความคุ้มค่าสำหรับใช้งานจริงมากขึ้น และ Haiku 4.5 ถ้าเปิด reasoning ก็ใช้ได้ดีพอสมควร
เหมาะเป็นพิเศษกับเครื่องมือเล็กๆ หรือการแก้ไขหน้าเดียว
ด้วย LLM ทำให้สองช่วงนี้ถูกผสานเข้าด้วยกันอย่างเป็นธรรมชาติ
เช่น ตอนทำแอนิเมชันด้วย AnimeJS ผมเรียนรู้จากการดู CCAgent เขียนโค้ด แล้วค่อยกลับมาจัดโครงสร้างและ refactor ด้วยตัวเอง
แบบนี้จะได้ทั้ง การประหยัดเวลา และ การควบคุมเชิงสร้างสรรค์ ไปพร้อมกัน
พูดอีกอย่างคือ งานสั้นเหมาะกับ GPT 5.1 แต่งานยาวเหมาะกับ Opus มากกว่า
ถ้าโยนงาน 4 ชั่วโมงให้ทำด้วยอัตราสำเร็จ 50% มันก็แทบจะเป็น การพนัน และถ้าล้มเหลวแล้วต้องมาดีบักต่อ ต้นทุนก็สูงมาก
เพราะงั้นผมคิดว่าควรมี จุดตรวจให้มนุษย์รีวิว ทุกๆ 30 นาที
แต่ความสามารถที่ AI จะ กู้สถานการณ์เองได้เมื่อไปติดกลางทาง ก็สำคัญเหมือนกัน
ภายนอกดูเหมือนปกติดี แต่มีบั๊กแบบละเอียดที่มักจะมาโผล่ทีหลัง
เพราะงั้นงานสำคัญผมยัง ไม่ใช้เอเจนต์ แถมมันยังดึงความสนุกของการทำงานออกไปอีก
ถ้ามีโอกาสครึ่งหนึ่งที่จะได้ผลลัพธ์ มันก็อาจเป็น การเดิมพันที่คุ้มค่าเมื่อเทียบกับเวลา
เราลองได้หลายแนวทางอย่างรวดเร็ว และแม้แต่ความล้มเหลวก็ยังได้บทเรียน
จะได้เห็นชัดขึ้นว่าทำไม LLM ถึงยัง ล้มเหลวบ่อยกับงานที่มนุษย์ทำได้ง่าย
เพราะตรวจผลได้ด้วยตัวเลข โค้ดยิ่งสั้นยิ่งดี และต้องใช้ การคิดเชิงระบบ ไม่ใช่แค่การจับมาผสมกันเฉยๆ
เท่าที่ผมเห็นมา ตอนนี้ Gemini Pro 3 ทำ optimization โค้ด SIMD ได้ดีที่สุด
ถ้างาน 4 ชั่วโมงต้องทำซ้ำหลายครั้ง โอกาสสำเร็จอาจลดเหลือ 6.25%
ขึ้นอยู่กับลักษณะของงาน