Opus 4.6, ความหมายของการแก้ปัญหาที่ใช้เวลา 14.5 ชั่วโมงตามเกณฑ์มนุษย์ (METR Time Horizon)

(metr.org)

5 คะแนน โดย princox 2026-02-21 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

มีสถาบันวิจัยไม่แสวงหากำไรชื่อ METR อยู่ในสหรัฐอเมริกา
เป็นสถาบันวิจัยไม่แสวงหากำไรที่ตั้งอยู่ในเมืองเบิร์กลีย์ รัฐแคลิฟอร์เนีย สหรัฐอเมริกา และประเมินความสามารถของโมเดล AI แนวหน้าที่จะทำงานระยะยาวและทำงานได้อย่างอัตโนมัติด้วยตนเอง

นักวิจัยบางส่วนเตือนว่าความสามารถลักษณะนี้อาจก่อความเสี่ยงร้ายแรงต่อสังคม และ METR ก็ทำหน้าที่วัดความเสี่ยงนั้นโดยตรง

งานวิจัยของ METR แบ่งออกเป็นสามแกนหลัก

ประการแรก การประเมินความสามารถด้านความเป็นอิสระอย่างกว้างขวาง เพื่อวัดความสามารถของ AI agent ในการทำงานหลากหลายประเภทที่กินเวลาหลายชั่วโมงให้เสร็จได้ด้วยตนเอง

ประการที่สอง การประเมินความสามารถของ AI ในการเร่ง AI R&D เอง

ประการที่สาม การศึกษาพฤติกรรมของ AI ที่คุกคามความสมบูรณ์ของการประเมิน (เช่น sandbagging, reward hacking) และมาตรการรับมือ

โดยเฉพาะงานวิจัยเรื่อง Time Horizon ที่ METR เผยแพร่ พบว่าความยาวของงานที่ AI agent สามารถทำสำเร็จได้เพิ่มขึ้นเป็นสองเท่าทุกประมาณ 7 เดือนตลอด 6 ปีที่ผ่านมา และงานวิจัยนี้กำลังถูกใช้เป็นหลักฐานสำคัญในการคาดการณ์ว่า AI จะสร้างผลกระทบเชิงเปลี่ยนแปลงเมื่อใด

ด้านล่างนี้คือคำแปลด้วยเครื่องของหน้าที่ปรากฏเมื่อเข้า URL

ภาพรวม

Task-completion time horizon คือเวลาที่งานหนึ่งใช้เสร็จ (อิงจากเวลาที่ผู้เชี่ยวชาญมนุษย์ใช้ทำเสร็จ) ซึ่งคาดการณ์ว่า AI agent จะทำสำเร็จได้ที่ระดับความน่าเชื่อถือที่กำหนด ตัวอย่างเช่น 50%-time horizon คือความยาวของงานที่คาดว่า agent จะทำสำเร็จได้ด้วยความน่าจะเป็นครึ่งหนึ่ง กราฟด้านล่างแสดง 50%- และ 80%-time horizon ของ AI agent แนวหน้า ซึ่งคำนวณจากประสิทธิภาพบนงานซอฟต์แวร์ที่หลากหลายมากกว่า 100 งาน

เราจะอัปเดตค่าการวัด time horizon ของโมเดล frontier ที่เปิดเผยสู่สาธารณะเป็นระยะ เนื่องจากข้อจำกัดด้านทรัพยากร บางโมเดลอาจถูกวัดหลังเปิดตัวไประยะหนึ่ง หรือบางการเปิดตัวอาจถูกข้ามไปทั้งหมด

สำหรับการอภิปรายแบบเต็มเกี่ยวกับวิธีวิทยาและผลลัพธ์ โปรดดูบทความวิชาการและบล็อกโพสต์

รายละเอียดวิธีวิทยา

เพื่อประมาณ time horizon ของ AI agent แนวหน้า เราจะเริ่มจากประเมินก่อนว่าแต่ละงานใช้เวลานานเท่าใดหากให้ผู้เชี่ยวชาญมนุษย์ทำเสร็จ สำหรับแต่ละ agent เราจะฟิตเส้นโค้งโลจิสติกเพื่อทำนายความน่าจะเป็นของความสำเร็จของงานในฐานะฟังก์ชันของเวลาที่มนุษย์ใช้ทำงานนั้น เพื่อหาค่า 50%-time horizon (หรือ 80%-time horizon) เราจะหาเวลาที่ใช้ทำงานซึ่งเป็นจุดที่เส้นโค้งที่ฟิตไว้ตัดกับความน่าจะเป็นสำเร็จ 50% (หรือ 80%)

การกระจายของงาน: งานประกอบด้วย RE-Bench, HCAST และงานซอฟต์แวร์ระยะสั้น โดยหลักเป็นงานด้านวิศวกรรมซอฟต์แวร์ แมชชีนเลิร์นนิง และความปลอดภัยไซเบอร์ ซึ่งเป็นงานอิสระ นิยามชัดเจน และมีเกณฑ์ความสำเร็จที่ชัดเจนจนสามารถประเมินอัตโนมัติได้

การประเมินเวลาที่มนุษย์ใช้ทำงาน: สำหรับงานส่วนใหญ่ เราจ้างมนุษย์ให้ลองทำงานนั้นและใช้ค่าเฉลี่ยเรขาคณิตของเวลาที่ทำสำเร็จ มนุษย์เหล่านี้ได้รับคำสั่งและสภาพแวดล้อมเดียวกันกับ AI agent และถูกขอให้ทำงานให้เสร็จเร็วที่สุดเท่าที่จะทำได้ ค่าประมาณเวลาที่มนุษย์ใช้ทำงานของเราอาจสูงกว่าความเป็นจริงเมื่อเทียบกับผู้เชี่ยวชาญตัวจริง เพราะมนุษย์เหล่านั้น (รวมถึง AI agent) มีข้อมูลบริบทเกี่ยวกับงานน้อยกว่าผู้เชี่ยวชาญที่ทำงานลักษณะเทียบเท่ากันในงานประจำมาก

คำถามที่พบบ่อย (FAQ)

Q. “Time horizon” หมายถึงระยะเวลาที่ AI agent ในปัจจุบันสามารถทำงานได้อย่างอัตโนมัติหรือไม่?

ไม่ใช่ 50%-time horizon คือความยาวของงาน (ตามเกณฑ์ผู้เชี่ยวชาญมนุษย์) ที่ AI agent สามารถทำเสร็จได้ด้วยความเชื่อมั่น 50% มันเป็นตัวชี้วัดความยากของงาน ไม่ใช่เวลาจริงที่ AI ใช้ในการทำงานให้เสร็จ

Q. ถ้า AI agent ทำงานที่ใช้เวลา 2 ชั่วโมงได้ แล้วจริง ๆ มันใช้เวลานานแค่ไหน?

ขึ้นอยู่กับโมเดล งาน และการตั้งค่า agent แต่โดยทั่วไป AI agent มักเร็วกว่ามนุษย์หลายเท่า AI agent มักเขียนโค้ดได้ในครั้งเดียวโดยไม่ต้องทำซ้ำหลายรอบ และมีสิ่งที่ต้องค้นหาน้อยกว่า นอกจากนี้ AI agent จำนวนมากยังเขียนโค้ดได้เร็วกว่าวิศวกรซอฟต์แวร์มนุษย์มาก

Q. ค่าประมาณเวลาของงานอ้างอิงจากมนุษย์แบบไหน?

เป็นผู้เชี่ยวชาญที่มีทักษะในสาขาวิศวกรรมซอฟต์แวร์ แมชชีนเลิร์นนิง และความปลอดภัยไซเบอร์ โดยส่วนใหญ่จบจากมหาวิทยาลัย 100 อันดับแรกของโลก และมีประสบการณ์ที่เกี่ยวข้องเฉลี่ยราว 5 ปี งาน 2 ชั่วโมงของเรา จึงควรเข้าใจว่าเป็นงานที่ “พนักงานใหม่หรือฟรีแลนซ์รับจ้างที่แทบไม่มีบริบทล่วงหน้า” สามารถทำเสร็จได้ภายใน 2 ชั่วโมง มากกว่าจะเป็นงานสำหรับ “ผู้เชี่ยวชาญชำนาญการที่คุ้นเคยกับโปรเจกต์อยู่แล้ว”

Q. ถ้า time horizon เท่ากับ 2 ชั่วโมง แปลว่า AI สามารถทำงานเชิงสติปัญญาทุกอย่างที่มนุษย์ทำได้ใน 2 ชั่วโมงหรือไม่?

ไม่ใช่ การกระจายของงานของเราประกอบด้วยงานด้านวิศวกรรมซอฟต์แวร์ แมชชีนเลิร์นนิง และความปลอดภัยไซเบอร์เป็นหลัก ในงานวิจัยต่อเนื่อง เราได้ตรวจสอบว่า time horizon ของระบบ AI แตกต่างกันอย่างไรในหลายโดเมน และแม้จะพบแนวโน้มการเติบโตแบบเอ็กซ์โปเนนเชียลที่คล้ายกันในโดเมนอื่น ๆ แต่ค่าตัวเลข time horizon แบบสัมบูรณ์นั้นแตกต่างกัน ความสามารถของ AI เมื่อเทียบกับมนุษย์มีลักษณะ 'ขรุขระไม่สม่ำเสมอ (jagged)' และคาดว่า time horizon ของงานทั้งหมดที่มีมูลค่าทางเศรษฐกิจจะกระจายตัวครอบคลุมหลายลำดับขนาด

📊 การตีความกราฟ

กราฟหลัก (ภาพ 1, 6)

เมื่อดูเส้นทางตั้งแต่ GPT-2 (ปี 2019) ถึง Claude Opus 4.6 (กุมภาพันธ์ 2026) จะเห็นได้ว่า time horizon ของ AI เติบโตแบบก้าวกระโดดจาก เกือบ 0 นาทีเป็นประมาณ 14 ชั่วโมง 30 นาที โดยเฉพาะช่วงปี 2024~2026 เส้นโค้งชันขึ้นอย่างมาก แสดงให้เห็นว่าการพัฒนาความสามารถในช่วง 1~2 ปีหลังเหนือกว่าหลายปีก่อนหน้าอย่างชัดเจน

กราฟหลายโดเมน (ภาพ 5)

แสดงให้เห็นว่าในเบนช์มาร์กหลากหลายอย่าง เช่น METR-HRS (ซอฟต์แวร์), MATH, GPQA, Mock AIME, SWE-bench ต่างก็มี time horizon เพิ่มขึ้นแบบเอ็กซ์โปเนนเชียลเหมือนกัน แม้ค่าแบบสัมบูรณ์จะแตกต่างกันไปตามโดเมน แต่ แนวโน้มขาขึ้นนั้นเป็นสิ่งที่พบร่วมกัน

🔑 การตีความ “14 ชั่วโมง 30 นาที” — คำถามสำคัญ

“ที่บอกว่า Claude Opus 4.6 ทำ ‘Fix complex bug in ML research codebase’ ได้ที่ 14.5 ชั่วโมง หมายความว่าอะไร?”

นี่คือส่วนที่เข้าใจผิดได้ง่ายที่สุด หากอธิบายให้แม่นยำคือ

ความเข้าใจผิด	การตีความที่ถูกต้อง
“Claude Opus 4.6 ทำงานอยู่ 14.5 ชั่วโมง”	❌
“Claude Opus 4.6 ทำงานที่มีระดับความยากเทียบเท่างาน 14.5 ชั่วโมงได้สำเร็จด้วยความน่าจะเป็น 50%”	✅

กล่าวคือ 14 ชั่วโมง 30 นาทีไม่ใช่เวลาที่ AI ใช้ แต่เป็นระดับความยากของงานตามเกณฑ์มนุษย์

ถ้าขยายความให้เป็นขั้นตอน จะได้ดังนี้

METR เลือกงานชื่อ “Fix complex bug in ML research codebase”
เมื่อนำงานนี้ไปให้ผู้เชี่ยวชาญมนุษย์หลายคนทำ พบว่าใช้เวลาเฉลี่ย ประมาณ 14 ชั่วโมง 30 นาที
เมื่อนำงานเดียวกันนี้ให้ Claude Opus 4.6 ทำซ้ำหลายครั้ง พบว่า สำเร็จด้วยความน่าจะเป็นครึ่งหนึ่ง (50%)
ดังนั้น “50%-time horizon ของ Claude Opus 4.6 = 14 ชั่วโมง 30 นาที”

ในความเป็นจริง เวลาที่ Claude Opus 4.6 ใช้จัดการงานนี้น่าจะสั้นกว่ามนุษย์มาก (ตาม FAQ ระบุว่า AI มักเร็วกว่ามนุษย์หลายเท่า)

💡 สรุปนัยสำคัญ

ข้อมูล time horizon ของ METR พิสูจน์อย่างเป็นรูปธรรมว่าความสามารถของ AI agent ในการทำงานอย่างอิสระกำลัง ขยายตัวด้วยความเร็วแบบเอ็กซ์โปเนนเชียล และข้อเท็จจริงที่ว่า Claude Opus 4.6 สามารถทำงานซอฟต์แวร์, ML และความปลอดภัยไซเบอร์ที่ซับซ้อน ซึ่งใช้เวลามากกว่า 14 ชั่วโมงตามเกณฑ์ผู้เชี่ยวชาญมนุษย์ ให้สำเร็จได้ด้วยความน่าจะเป็นครึ่งหนึ่งนั้น ชี้ว่า AI ได้ไปถึง จุดวิกฤตที่สามารถแทนที่หรือทำงานความรู้เชิงวิชาชีพจำนวนมากให้เป็นอัตโนมัติได้จริง เกินกว่าบทบาทเครื่องมือช่วยแบบง่าย ๆ และหากแนวโน้มนี้ยังคงต่อเนื่อง ก็มีนัยอย่างแรงว่าการนิยามบทบาทและมูลค่าของแรงงานมนุษย์ใหม่อย่างรากฐานจะหลีกเลี่ยงไม่ได้ในอุตสาหกรรมความรู้ทักษะสูงทั้งหมด ไม่ว่าจะเป็นการพัฒนาซอฟต์แวร์ ความปลอดภัย หรือการวิจัย

มีการระบุว่า Opus 4.6 ซึ่งอัปเดตในเดือนกุมภาพันธ์ 2026 จะสามารถแก้ปัญหาที่ผู้เชี่ยวชาญมนุษย์ใช้เวลา 14.5 ชั่วโมงได้
ด้วยความน่าจะเป็นสำเร็จ 50%

ผมคิดว่าเป็นกราฟที่น่าทึ่งมาก และเลยนำมาโพสต์เพราะมองว่าในอนาคตงานทุกอย่างจะค่อย ๆ ถูกทำให้เป็นอัตโนมัติและขับเคลื่อนด้วย AI มากขึ้น