Opus 4.6, ความหมายของการแก้ปัญหาที่ใช้เวลา 14.5 ชั่วโมงตามเกณฑ์มนุษย์ (METR Time Horizon)
(metr.org)มีสถาบันวิจัยไม่แสวงหากำไรชื่อ METR อยู่ในสหรัฐอเมริกา
เป็นสถาบันวิจัยไม่แสวงหากำไรที่ตั้งอยู่ในเมืองเบิร์กลีย์ รัฐแคลิฟอร์เนีย สหรัฐอเมริกา และประเมินความสามารถของโมเดล AI แนวหน้าที่จะทำงานระยะยาวและทำงานได้อย่างอัตโนมัติด้วยตนเอง
นักวิจัยบางส่วนเตือนว่าความสามารถลักษณะนี้อาจก่อความเสี่ยงร้ายแรงต่อสังคม และ METR ก็ทำหน้าที่วัดความเสี่ยงนั้นโดยตรง
งานวิจัยของ METR แบ่งออกเป็นสามแกนหลัก
ประการแรก การประเมินความสามารถด้านความเป็นอิสระอย่างกว้างขวาง เพื่อวัดความสามารถของ AI agent ในการทำงานหลากหลายประเภทที่กินเวลาหลายชั่วโมงให้เสร็จได้ด้วยตนเอง
ประการที่สอง การประเมินความสามารถของ AI ในการเร่ง AI R&D เอง
ประการที่สาม การศึกษาพฤติกรรมของ AI ที่คุกคามความสมบูรณ์ของการประเมิน (เช่น sandbagging, reward hacking) และมาตรการรับมือ
โดยเฉพาะงานวิจัยเรื่อง Time Horizon ที่ METR เผยแพร่ พบว่าความยาวของงานที่ AI agent สามารถทำสำเร็จได้เพิ่มขึ้นเป็นสองเท่าทุกประมาณ 7 เดือนตลอด 6 ปีที่ผ่านมา และงานวิจัยนี้กำลังถูกใช้เป็นหลักฐานสำคัญในการคาดการณ์ว่า AI จะสร้างผลกระทบเชิงเปลี่ยนแปลงเมื่อใด
ด้านล่างนี้คือคำแปลด้วยเครื่องของหน้าที่ปรากฏเมื่อเข้า URL
ภาพรวม
Task-completion time horizon คือเวลาที่งานหนึ่งใช้เสร็จ (อิงจากเวลาที่ผู้เชี่ยวชาญมนุษย์ใช้ทำเสร็จ) ซึ่งคาดการณ์ว่า AI agent จะทำสำเร็จได้ที่ระดับความน่าเชื่อถือที่กำหนด ตัวอย่างเช่น 50%-time horizon คือความยาวของงานที่คาดว่า agent จะทำสำเร็จได้ด้วยความน่าจะเป็นครึ่งหนึ่ง กราฟด้านล่างแสดง 50%- และ 80%-time horizon ของ AI agent แนวหน้า ซึ่งคำนวณจากประสิทธิภาพบนงานซอฟต์แวร์ที่หลากหลายมากกว่า 100 งาน
เราจะอัปเดตค่าการวัด time horizon ของโมเดล frontier ที่เปิดเผยสู่สาธารณะเป็นระยะ เนื่องจากข้อจำกัดด้านทรัพยากร บางโมเดลอาจถูกวัดหลังเปิดตัวไประยะหนึ่ง หรือบางการเปิดตัวอาจถูกข้ามไปทั้งหมด
สำหรับการอภิปรายแบบเต็มเกี่ยวกับวิธีวิทยาและผลลัพธ์ โปรดดูบทความวิชาการและบล็อกโพสต์
รายละเอียดวิธีวิทยา
เพื่อประมาณ time horizon ของ AI agent แนวหน้า เราจะเริ่มจากประเมินก่อนว่าแต่ละงานใช้เวลานานเท่าใดหากให้ผู้เชี่ยวชาญมนุษย์ทำเสร็จ สำหรับแต่ละ agent เราจะฟิตเส้นโค้งโลจิสติกเพื่อทำนายความน่าจะเป็นของความสำเร็จของงานในฐานะฟังก์ชันของเวลาที่มนุษย์ใช้ทำงานนั้น เพื่อหาค่า 50%-time horizon (หรือ 80%-time horizon) เราจะหาเวลาที่ใช้ทำงานซึ่งเป็นจุดที่เส้นโค้งที่ฟิตไว้ตัดกับความน่าจะเป็นสำเร็จ 50% (หรือ 80%)
การกระจายของงาน: งานประกอบด้วย RE-Bench, HCAST และงานซอฟต์แวร์ระยะสั้น โดยหลักเป็นงานด้านวิศวกรรมซอฟต์แวร์ แมชชีนเลิร์นนิง และความปลอดภัยไซเบอร์ ซึ่งเป็นงานอิสระ นิยามชัดเจน และมีเกณฑ์ความสำเร็จที่ชัดเจนจนสามารถประเมินอัตโนมัติได้
การประเมินเวลาที่มนุษย์ใช้ทำงาน: สำหรับงานส่วนใหญ่ เราจ้างมนุษย์ให้ลองทำงานนั้นและใช้ค่าเฉลี่ยเรขาคณิตของเวลาที่ทำสำเร็จ มนุษย์เหล่านี้ได้รับคำสั่งและสภาพแวดล้อมเดียวกันกับ AI agent และถูกขอให้ทำงานให้เสร็จเร็วที่สุดเท่าที่จะทำได้ ค่าประมาณเวลาที่มนุษย์ใช้ทำงานของเราอาจสูงกว่าความเป็นจริงเมื่อเทียบกับผู้เชี่ยวชาญตัวจริง เพราะมนุษย์เหล่านั้น (รวมถึง AI agent) มีข้อมูลบริบทเกี่ยวกับงานน้อยกว่าผู้เชี่ยวชาญที่ทำงานลักษณะเทียบเท่ากันในงานประจำมาก
คำถามที่พบบ่อย (FAQ)
Q. “Time horizon” หมายถึงระยะเวลาที่ AI agent ในปัจจุบันสามารถทำงานได้อย่างอัตโนมัติหรือไม่?
ไม่ใช่ 50%-time horizon คือความยาวของงาน (ตามเกณฑ์ผู้เชี่ยวชาญมนุษย์) ที่ AI agent สามารถทำเสร็จได้ด้วยความเชื่อมั่น 50% มันเป็นตัวชี้วัดความยากของงาน ไม่ใช่เวลาจริงที่ AI ใช้ในการทำงานให้เสร็จ
Q. ถ้า AI agent ทำงานที่ใช้เวลา 2 ชั่วโมงได้ แล้วจริง ๆ มันใช้เวลานานแค่ไหน?
ขึ้นอยู่กับโมเดล งาน และการตั้งค่า agent แต่โดยทั่วไป AI agent มักเร็วกว่ามนุษย์หลายเท่า AI agent มักเขียนโค้ดได้ในครั้งเดียวโดยไม่ต้องทำซ้ำหลายรอบ และมีสิ่งที่ต้องค้นหาน้อยกว่า นอกจากนี้ AI agent จำนวนมากยังเขียนโค้ดได้เร็วกว่าวิศวกรซอฟต์แวร์มนุษย์มาก
Q. ค่าประมาณเวลาของงานอ้างอิงจากมนุษย์แบบไหน?
เป็นผู้เชี่ยวชาญที่มีทักษะในสาขาวิศวกรรมซอฟต์แวร์ แมชชีนเลิร์นนิง และความปลอดภัยไซเบอร์ โดยส่วนใหญ่จบจากมหาวิทยาลัย 100 อันดับแรกของโลก และมีประสบการณ์ที่เกี่ยวข้องเฉลี่ยราว 5 ปี งาน 2 ชั่วโมงของเรา จึงควรเข้าใจว่าเป็นงานที่ “พนักงานใหม่หรือฟรีแลนซ์รับจ้างที่แทบไม่มีบริบทล่วงหน้า” สามารถทำเสร็จได้ภายใน 2 ชั่วโมง มากกว่าจะเป็นงานสำหรับ “ผู้เชี่ยวชาญชำนาญการที่คุ้นเคยกับโปรเจกต์อยู่แล้ว”
Q. ถ้า time horizon เท่ากับ 2 ชั่วโมง แปลว่า AI สามารถทำงานเชิงสติปัญญาทุกอย่างที่มนุษย์ทำได้ใน 2 ชั่วโมงหรือไม่?
ไม่ใช่ การกระจายของงานของเราประกอบด้วยงานด้านวิศวกรรมซอฟต์แวร์ แมชชีนเลิร์นนิง และความปลอดภัยไซเบอร์เป็นหลัก ในงานวิจัยต่อเนื่อง เราได้ตรวจสอบว่า time horizon ของระบบ AI แตกต่างกันอย่างไรในหลายโดเมน และแม้จะพบแนวโน้มการเติบโตแบบเอ็กซ์โปเนนเชียลที่คล้ายกันในโดเมนอื่น ๆ แต่ค่าตัวเลข time horizon แบบสัมบูรณ์นั้นแตกต่างกัน ความสามารถของ AI เมื่อเทียบกับมนุษย์มีลักษณะ 'ขรุขระไม่สม่ำเสมอ (jagged)' และคาดว่า time horizon ของงานทั้งหมดที่มีมูลค่าทางเศรษฐกิจจะกระจายตัวครอบคลุมหลายลำดับขนาด
📊 การตีความกราฟ
กราฟหลัก (ภาพ 1, 6)
เมื่อดูเส้นทางตั้งแต่ GPT-2 (ปี 2019) ถึง Claude Opus 4.6 (กุมภาพันธ์ 2026) จะเห็นได้ว่า time horizon ของ AI เติบโตแบบก้าวกระโดดจาก เกือบ 0 นาทีเป็นประมาณ 14 ชั่วโมง 30 นาที โดยเฉพาะช่วงปี 2024~2026 เส้นโค้งชันขึ้นอย่างมาก แสดงให้เห็นว่าการพัฒนาความสามารถในช่วง 1~2 ปีหลังเหนือกว่าหลายปีก่อนหน้าอย่างชัดเจน
กราฟหลายโดเมน (ภาพ 5)
แสดงให้เห็นว่าในเบนช์มาร์กหลากหลายอย่าง เช่น METR-HRS (ซอฟต์แวร์), MATH, GPQA, Mock AIME, SWE-bench ต่างก็มี time horizon เพิ่มขึ้นแบบเอ็กซ์โปเนนเชียลเหมือนกัน แม้ค่าแบบสัมบูรณ์จะแตกต่างกันไปตามโดเมน แต่ แนวโน้มขาขึ้นนั้นเป็นสิ่งที่พบร่วมกัน
🔑 การตีความ “14 ชั่วโมง 30 นาที” — คำถามสำคัญ
> “ที่บอกว่า Claude Opus 4.6 ทำ ‘Fix complex bug in ML research codebase’ ได้ที่ 14.5 ชั่วโมง หมายความว่าอะไร?”
นี่คือส่วนที่เข้าใจผิดได้ง่ายที่สุด หากอธิบายให้แม่นยำคือ
| ความเข้าใจผิด | การตีความที่ถูกต้อง |
|---|---|
| “Claude Opus 4.6 ทำงานอยู่ 14.5 ชั่วโมง” | ❌ |
| “Claude Opus 4.6 ทำงานที่มีระดับความยากเทียบเท่างาน 14.5 ชั่วโมงได้สำเร็จด้วยความน่าจะเป็น 50%” | ✅ |
กล่าวคือ 14 ชั่วโมง 30 นาทีไม่ใช่เวลาที่ AI ใช้ แต่เป็นระดับความยากของงานตามเกณฑ์มนุษย์
ถ้าขยายความให้เป็นขั้นตอน จะได้ดังนี้
- METR เลือกงานชื่อ “Fix complex bug in ML research codebase”
- เมื่อนำงานนี้ไปให้ผู้เชี่ยวชาญมนุษย์หลายคนทำ พบว่าใช้เวลาเฉลี่ย ประมาณ 14 ชั่วโมง 30 นาที
- เมื่อนำงานเดียวกันนี้ให้ Claude Opus 4.6 ทำซ้ำหลายครั้ง พบว่า สำเร็จด้วยความน่าจะเป็นครึ่งหนึ่ง (50%)
- ดังนั้น “50%-time horizon ของ Claude Opus 4.6 = 14 ชั่วโมง 30 นาที”
ในความเป็นจริง เวลาที่ Claude Opus 4.6 ใช้จัดการงานนี้น่าจะสั้นกว่ามนุษย์มาก (ตาม FAQ ระบุว่า AI มักเร็วกว่ามนุษย์หลายเท่า)
💡 สรุปนัยสำคัญ
ข้อมูล time horizon ของ METR พิสูจน์อย่างเป็นรูปธรรมว่าความสามารถของ AI agent ในการทำงานอย่างอิสระกำลัง ขยายตัวด้วยความเร็วแบบเอ็กซ์โปเนนเชียล และข้อเท็จจริงที่ว่า Claude Opus 4.6 สามารถทำงานซอฟต์แวร์, ML และความปลอดภัยไซเบอร์ที่ซับซ้อน ซึ่งใช้เวลามากกว่า 14 ชั่วโมงตามเกณฑ์ผู้เชี่ยวชาญมนุษย์ ให้สำเร็จได้ด้วยความน่าจะเป็นครึ่งหนึ่งนั้น ชี้ว่า AI ได้ไปถึง จุดวิกฤตที่สามารถแทนที่หรือทำงานความรู้เชิงวิชาชีพจำนวนมากให้เป็นอัตโนมัติได้จริง เกินกว่าบทบาทเครื่องมือช่วยแบบง่าย ๆ และหากแนวโน้มนี้ยังคงต่อเนื่อง ก็มีนัยอย่างแรงว่าการนิยามบทบาทและมูลค่าของแรงงานมนุษย์ใหม่อย่างรากฐานจะหลีกเลี่ยงไม่ได้ในอุตสาหกรรมความรู้ทักษะสูงทั้งหมด ไม่ว่าจะเป็นการพัฒนาซอฟต์แวร์ ความปลอดภัย หรือการวิจัย
มีการระบุว่า Opus 4.6 ซึ่งอัปเดตในเดือนกุมภาพันธ์ 2026 จะสามารถแก้ปัญหาที่ผู้เชี่ยวชาญมนุษย์ใช้เวลา 14.5 ชั่วโมงได้
ด้วยความน่าจะเป็นสำเร็จ 50%
ผมคิดว่าเป็นกราฟที่น่าทึ่งมาก และเลยนำมาโพสต์เพราะมองว่าในอนาคตงานทุกอย่างจะค่อย ๆ ถูกทำให้เป็นอัตโนมัติและขับเคลื่อนด้วย AI มากขึ้น
ยังไม่มีความคิดเห็น