- หากแก้โจทย์นี้และทำผลงานได้เหนือกว่า สถิติสูงสุดของ Claude Opus 4.5 (1487 cycles) ก็สามารถส่งโค้ดและเรซูเม่ให้ Anthropic ได้
- เวอร์ชันแรกจำกัดเวลา 4 ชั่วโมง แต่ภายหลัง Opus 4 เอาชนะคนส่วนใหญ่ได้ จึงเปลี่ยนเป็น เวอร์ชันจำกัดเวลา 2 ชั่วโมง
งาน take-home ด้านประสิทธิภาพฉบับต้นฉบับของ Anthropic
- รีโพซิทอรีนี้มีเวอร์ชันของ โจทย์ที่ใช้ประเมินประสิทธิภาพในช่วงแรกของ Anthropic
- เป็นเวอร์ชันก่อนที่ Claude Opus 4.5 จะทำผลงานเหนือกว่ามนุษย์ในการทดสอบภายใน 2 ชั่วโมง
- เดิมเป็นโจทย์แบบจำกัดเวลา 4 ชั่วโมง และภายหลังถูกย่อเป็นเวอร์ชัน 2 ชั่วโมง
- เวอร์ชัน 2 ชั่วโมงอิงจากสตาร์ตเตอร์โค้ดที่ทำได้ 18532 cycles (เร็วขึ้น 7.97 เท่า)
- เวอร์ชันที่เปิดเผยในปัจจุบันยังคงโครงสร้างล่าสุดไว้ แต่ย้อนกลับไปใช้ โค้ด baseline ที่ช้าที่สุด
- หลัง Claude Opus 4.5 เป็นต้นมา ได้เริ่มใช้ โค้ดมาตรฐานชุดใหม่
เบนช์มาร์กประสิทธิภาพ
- ตัวเลขทั้งหมดวัดเป็น clock cycles ของเครื่องที่จำลองขึ้น
- เป็นผลการวัดตามเกณฑ์ของเวอร์ชัน 2 ชั่วโมง (สตาร์ตเตอร์โค้ดเริ่มต้นที่ 18532 cycles)
- ผลลัพธ์สำคัญ:
- 2164 cycles: Claude Opus 4 (รันบน test harness เป็นเวลานาน)
- 1790 cycles: Claude Opus 4.5 (เซสชันโค้ดทั่วไป ใกล้เคียงระดับสูงสุดของมนุษย์)
- 1579 cycles: Claude Opus 4.5 (รันบน test harness 2 ชั่วโมง)
- 1548 cycles: Claude Sonnet 4.5 (รันบน test harness เป็นเวลานาน)
- 1487 cycles: Claude Opus 4.5 (รัน harness นาน 11.5 ชั่วโมง)
- 1363 cycles: Claude Opus 4.5 (สภาพแวดล้อม harness ที่ปรับปรุงแล้ว)
- ผลงานสูงสุดของมนุษย์ ดีกว่าตัวเลขข้างต้น แต่ไม่เปิดเผย
วิธีเข้าร่วมและการส่งผลงาน
- ขณะนี้โจทย์นี้ เปิดให้ทุกคนลองได้โดยไม่จำกัดเวลา
- หากผู้เข้าร่วมปรับแต่งให้ได้ 1487 cycles หรือต่ำกว่า เพื่อเอาชนะสถิติสูงสุดของ Claude Opus 4.5 ก็สามารถส่งโค้ดและเรซูเม่ทางอีเมลให้ Anthropic ได้
- อีเมล: performance-recruiting@anthropic.com
- เมื่อมีการเปิดตัวโมเดลใหม่ เกณฑ์ประสิทธิภาพอาจเปลี่ยนแปลงได้
- สามารถรันทดสอบได้ด้วยคำสั่ง
python tests/submission_tests.py
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
โจทย์หลักในการ หาสมดุลระหว่าง ALU กับ VALU น่าสนใจมาก
แต่ดูเหมือนว่า ปัญหาแบนด์วิดท์การโหลด อาจกลายเป็นคอขวดได้
ต้องสมมติว่าดัชนีเริ่มต้นเป็น 0 เสมอ จึงจะทำให้จำนวนโหลดรวมต่ำกว่า 2096 ได้ ซึ่งก็ไม่ค่อยสนุกเท่าไร
ถ้ามีฟีเจอร์อย่าง dynamic vector lane rotate ก็น่าจะน่าสนใจกว่านี้มาก
ผมคิดว่าตัวเองก็ฉลาดพอสมควร แต่พอเห็นปัญหาแบบนี้ก็ทำให้ตระหนักได้ว่าตัวเองยังมีเรื่องที่ไม่รู้อีกเยอะมาก
อาจจะเหนือกว่าค่าเฉลี่ยนิดหน่อย แต่ก็รู้สึกได้ถึง ช่องว่างระหว่างตัวเองกับนักพัฒนาระดับท็อป
สิ่งสำคัญคือ ความสามารถในการเผชิญหน้ากับสิ่งที่ไม่รู้และเรียนรู้มันต่อไป
ผมเองตอนสัมภาษณ์งานกับบริษัทฮาร์ดแวร์หลังเรียนจบ ก็เคยเจอโจทย์ optimization โค้ดระดับต่ำ และตอนแรกก็งงไปหมดเหมือนกัน
ถ้าได้เรียนรู้แนวคิดพวกนี้และได้ลองจัดการกับปัญหาแบบนี้ ใคร ๆ ก็แก้ได้
มันไม่ได้แปลว่าต่ำกว่าค่าเฉลี่ย แค่มีชุดความรู้คนละแบบเท่านั้น
จริง ๆ แล้วสิ่งนี้ไม่ได้ซับซ้อนขนาดนั้น
แค่อ่านโค้ดให้มากพอและเข้าใจโครงสร้างของมัน
ความต่างของฝีมือจริง ๆ อยู่ที่ว่า คุณสามารถสร้างโมเดลของโปรแกรมทั้งหมดไว้ในหัวได้หรือไม่
ผมแอบสงสัยว่า Anthropic เปิดเผยสิ่งนี้ออกมาเหมือนเป็น การโจมตี DDoS ใส่บริษัท AI เจ้าอื่น หรือเปล่า
ผมลองป้อน prompt ว่า “จะแก้ปัญหานี้ยังไงดี?” ให้ gemini CLI แล้วมันก็วนอยู่แบบไม่หยุดมา 20 นาทีแล้ว
มันชอบติดลูปประมาณว่า “กำลังเตรียมคำตอบ เสร็จแล้ว จะพิมพ์ออกมา” อยู่บ่อย ๆ
บางครั้งระบบจับลูปได้แล้วหยุดเอง แต่พอเห็นว่ากับงานเล็กน้อยยังใช้เกิน 15 นาที ก็ดูเหมือนเป็นปัญหาเชิงสถาปัตยกรรม
ผมลองใช้มาตั้งแต่ G3Pro ออก แล้วรู้สึกว่า ประสิทธิภาพแย่มาก
มีการทดสอบ AI agent หลายตัวภายใต้เงื่อนไขเดียวกัน
สุดท้ายก็ไม่มีโมเดลไหนทำได้เกินเป้าหมายของ Anthropic แต่ gpt-5-2 นั้น เร็วและมีประสิทธิภาพที่สุด
จากความเร็วที่เห็นก็อาจมี ศักยภาพ มากกว่านี้
ไม่แน่ใจว่าจะช่วยแชร์ โค้ด agent-comparison harness ได้ไหม
มีข้อความว่า “ถ้าคุณ optimize ได้ต่ำกว่า 1487 cycles ให้ส่งอีเมลหา Anthropic”
วิธี คัดคนเข้าทำงาน แบบนี้ค่อนข้างน่าสนใจ
รู้สึกว่าดีกว่าโจทย์ Leetcode ทั่วไปมาก
หลังจากนั้นก็ยังต้องไปสัมภาษณ์ Leetcode เหมือนผู้สมัครคนอื่นอยู่ดี
ถ้าคนทำงานประจำจะสมัครหลายบริษัทพร้อมกันก็ดูไม่สมจริง
Leetcode ยังเอาไปใช้ซ้ำได้ แต่โจทย์ optimization แบบนี้ นำกลับมาใช้ซ้ำได้น้อย
เป็นโจทย์ที่ สนุกมากจริง ๆ
ถ้าใครสนใจเรื่อง optimization ผมแนะนำให้ลองทำดู
ผมใช้เวลาช่วงเย็นตลอดหนึ่งสัปดาห์จนลดลงมาได้ถึง 1112 cycles
ส่วนใหญ่ทำด้วยมือ และก็สงสัยว่า โมเดลแบบ agentic สมัยนี้จะทำได้ดีกว่านี้ไหม
ผมคิดว่าโจทย์นี้ให้อารมณ์แบบ demoscene กับ code golf
การทำ profiling ด้วยเครื่องมือ Chrome tracing ก็ดูเท่มาก
ลิงก์ไปยังโค้ดโจทย์
เพียงแต่ก็สงสัยว่ามันกำลัง implement algorithm อะไรอยู่
ตอนดูผ่าน ๆ มันเหมือน การพยากรณ์แบบ random forest
ช่วยไม่ต้องเสียแรงสร้าง viewer เอง
ตอนนี้ผมกำลังเรียน SIMD, PTX และเทคนิค optimization อยู่พอดี เลยรู้สึกว่าโจทย์นี้เป็นโอกาสเรียนรู้ที่ดี
แต่ถ้าเป็น take-home assignment ก็คงยาวเกินไปหน่อย
ในทางปฏิบัติ แค่ร่างไอเดียกับอ่านโค้ดก็น่าจะใช้เวลาไปราว 2 ชั่วโมงแล้ว
ผู้สมัครจริงอาจใช้เวลาตั้งแต่ 6 ชั่วโมงถึง 2 วันก็ได้
ตอนนี้ใช้ Opus ทำได้ถึง 1137 cycles ภายใน 1 ชั่วโมง
โดยใช้ pipeline vectorized hash, speculative execution, โค้ดแบบ static แยกตาม stage และ prologue/epilogue ของแต่ละขั้น
ตอนนี้เริ่มคิดว่าอาจทำให้ต่ำกว่า 900 ได้ด้วย
เพิ่งสังเกตว่าถ้าใน stage 4 ดูแค่ bit 16 กับ 0 ก็สามารถคำนวณเลขคู่คี่ของ stage 5 แบบขนานได้