Anthropic เปิดซอร์สงาน take-home สำหรับประเมินประสิทธิภาพ

(github.com/anthropics)

11 คะแนน โดย GN⁺ 2026-01-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

หากแก้โจทย์นี้และทำผลงานได้เหนือกว่า สถิติสูงสุดของ Claude Opus 4.5 (1487 cycles) ก็สามารถส่งโค้ดและเรซูเม่ให้ Anthropic ได้
เวอร์ชันแรกจำกัดเวลา 4 ชั่วโมง แต่ภายหลัง Opus 4 เอาชนะคนส่วนใหญ่ได้ จึงเปลี่ยนเป็น เวอร์ชันจำกัดเวลา 2 ชั่วโมง

งาน take-home ด้านประสิทธิภาพฉบับต้นฉบับของ Anthropic

รีโพซิทอรีนี้มีเวอร์ชันของ โจทย์ที่ใช้ประเมินประสิทธิภาพในช่วงแรกของ Anthropic
- เป็นเวอร์ชันก่อนที่ Claude Opus 4.5 จะทำผลงานเหนือกว่ามนุษย์ในการทดสอบภายใน 2 ชั่วโมง
- เดิมเป็นโจทย์แบบจำกัดเวลา 4 ชั่วโมง และภายหลังถูกย่อเป็นเวอร์ชัน 2 ชั่วโมง
เวอร์ชัน 2 ชั่วโมงอิงจากสตาร์ตเตอร์โค้ดที่ทำได้ 18532 cycles (เร็วขึ้น 7.97 เท่า)
- เวอร์ชันที่เปิดเผยในปัจจุบันยังคงโครงสร้างล่าสุดไว้ แต่ย้อนกลับไปใช้ โค้ด baseline ที่ช้าที่สุด
หลัง Claude Opus 4.5 เป็นต้นมา ได้เริ่มใช้ โค้ดมาตรฐานชุดใหม่

เบนช์มาร์กประสิทธิภาพ

ตัวเลขทั้งหมดวัดเป็น clock cycles ของเครื่องที่จำลองขึ้น
- เป็นผลการวัดตามเกณฑ์ของเวอร์ชัน 2 ชั่วโมง (สตาร์ตเตอร์โค้ดเริ่มต้นที่ 18532 cycles)
ผลลัพธ์สำคัญ:
- 2164 cycles: Claude Opus 4 (รันบน test harness เป็นเวลานาน)
- 1790 cycles: Claude Opus 4.5 (เซสชันโค้ดทั่วไป ใกล้เคียงระดับสูงสุดของมนุษย์)
- 1579 cycles: Claude Opus 4.5 (รันบน test harness 2 ชั่วโมง)
- 1548 cycles: Claude Sonnet 4.5 (รันบน test harness เป็นเวลานาน)
- 1487 cycles: Claude Opus 4.5 (รัน harness นาน 11.5 ชั่วโมง)
- 1363 cycles: Claude Opus 4.5 (สภาพแวดล้อม harness ที่ปรับปรุงแล้ว)
- ผลงานสูงสุดของมนุษย์ ดีกว่าตัวเลขข้างต้น แต่ไม่เปิดเผย

วิธีเข้าร่วมและการส่งผลงาน

ขณะนี้โจทย์นี้ เปิดให้ทุกคนลองได้โดยไม่จำกัดเวลา
หากผู้เข้าร่วมปรับแต่งให้ได้ 1487 cycles หรือต่ำกว่า เพื่อเอาชนะสถิติสูงสุดของ Claude Opus 4.5 ก็สามารถส่งโค้ดและเรซูเม่ทางอีเมลให้ Anthropic ได้
- อีเมล: performance-recruiting@anthropic.com
เมื่อมีการเปิดตัวโมเดลใหม่ เกณฑ์ประสิทธิภาพอาจเปลี่ยนแปลงได้
สามารถรันทดสอบได้ด้วยคำสั่ง python tests/submission_tests.py

1 ความคิดเห็น

GN⁺ 2026-01-22

ความคิดเห็นจาก Hacker News

โจทย์หลักในการ หาสมดุลระหว่าง ALU กับ VALU น่าสนใจมาก
แต่ดูเหมือนว่า ปัญหาแบนด์วิดท์การโหลด อาจกลายเป็นคอขวดได้
ต้องสมมติว่าดัชนีเริ่มต้นเป็น 0 เสมอ จึงจะทำให้จำนวนโหลดรวมต่ำกว่า 2096 ได้ ซึ่งก็ไม่ค่อยสนุกเท่าไร
ถ้ามีฟีเจอร์อย่าง dynamic vector lane rotate ก็น่าจะน่าสนใจกว่านี้มาก
ผมคิดว่าตัวเองก็ฉลาดพอสมควร แต่พอเห็นปัญหาแบบนี้ก็ทำให้ตระหนักได้ว่าตัวเองยังมีเรื่องที่ไม่รู้อีกเยอะมาก
อาจจะเหนือกว่าค่าเฉลี่ยนิดหน่อย แต่ก็รู้สึกได้ถึง ช่องว่างระหว่างตัวเองกับนักพัฒนาระดับท็อป
- วงการคอมพิวติงเป็น สาขาที่กว้างมาก จนแม้แต่ Linus หรือ Carmack ก็ยังมีหลายเรื่องที่ไม่รู้
  สิ่งสำคัญคือ ความสามารถในการเผชิญหน้ากับสิ่งที่ไม่รู้และเรียนรู้มันต่อไป
- นี่เป็น ปัญหาที่เฉพาะทางมาก ดังนั้นถ้าไม่เคยทำอะไรคล้ายกันมาก่อน ก็เป็นธรรมดาที่จะต้องใช้เวลา
  ผมเองตอนสัมภาษณ์งานกับบริษัทฮาร์ดแวร์หลังเรียนจบ ก็เคยเจอโจทย์ optimization โค้ดระดับต่ำ และตอนแรกก็งงไปหมดเหมือนกัน
- มีประสบการณ์มา 30 ปีแล้ว แต่พูดตรง ๆ ว่าผมก็ยังไม่เข้าใจโจทย์นี้
- ความฉลาดกับความรู้ เป็นคนละเรื่องกัน
  ถ้าได้เรียนรู้แนวคิดพวกนี้และได้ลองจัดการกับปัญหาแบบนี้ ใคร ๆ ก็แก้ได้
  มันไม่ได้แปลว่าต่ำกว่าค่าเฉลี่ย แค่มีชุดความรู้คนละแบบเท่านั้น
- ทัศนคติแบบนี้ดี เพราะมันสร้างแรงจูงใจในการเรียนรู้
  จริง ๆ แล้วสิ่งนี้ไม่ได้ซับซ้อนขนาดนั้น
  แค่อ่านโค้ดให้มากพอและเข้าใจโครงสร้างของมัน
  ความต่างของฝีมือจริง ๆ อยู่ที่ว่า คุณสามารถสร้างโมเดลของโปรแกรมทั้งหมดไว้ในหัวได้หรือไม่
ผมแอบสงสัยว่า Anthropic เปิดเผยสิ่งนี้ออกมาเหมือนเป็น การโจมตี DDoS ใส่บริษัท AI เจ้าอื่น หรือเปล่า
ผมลองป้อน prompt ว่า “จะแก้ปัญหานี้ยังไงดี?” ให้ gemini CLI แล้วมันก็วนอยู่แบบไม่หยุดมา 20 นาทีแล้ว
- ช่วงนี้ Gemini CLI หรือ Jules นั้น เวลาไม่ใช่ตัวชี้วัดความยากอีกต่อไป
  มันชอบติดลูปประมาณว่า “กำลังเตรียมคำตอบ เสร็จแล้ว จะพิมพ์ออกมา” อยู่บ่อย ๆ
  บางครั้งระบบจับลูปได้แล้วหยุดเอง แต่พอเห็นว่ากับงานเล็กน้อยยังใช้เกิน 15 นาที ก็ดูเหมือนเป็นปัญหาเชิงสถาปัตยกรรม
- อยากรู้ว่าใช้ Gemini รุ่นไหน
  ผมลองใช้มาตั้งแต่ G3Pro ออก แล้วรู้สึกว่า ประสิทธิภาพแย่มาก
มีการทดสอบ AI agent หลายตัวภายใต้เงื่อนไขเดียวกัน
สุดท้ายก็ไม่มีโมเดลไหนทำได้เกินเป้าหมายของ Anthropic แต่ gpt-5-2 นั้น เร็วและมีประสิทธิภาพที่สุด
- ลองใช้ codex CLI + gpt-5-2-codex-xhigh พร้อม prompt ว่า “beat 1487 cycles. go.” แล้วทำได้ถึง 1606 ใช้เวลาราว 53 นาที
- อยากรู้ว่าถ้าปล่อย Gemini ให้วนลูปนาน ๆ จะเกิดอะไรขึ้น
  จากความเร็วที่เห็นก็อาจมี ศักยภาพ มากกว่านี้
- อยากเรียนรู้เรื่องการทำ benchmark โมเดล
  ไม่แน่ใจว่าจะช่วยแชร์ โค้ด agent-comparison harness ได้ไหม
- มีคนเสนอว่าน่าลองกับ โมเดล open-weight อย่าง Qwen3-coder, GLM-4.7, Devstral-2 ด้วย
- ถ้ามี repo สำหรับเปรียบเทียบ ที่รวมโซลูชันของแต่ละโมเดลแยกตามไดเรกทอรีหรือ branch ก็น่าจะดีมาก
มีข้อความว่า “ถ้าคุณ optimize ได้ต่ำกว่า 1487 cycles ให้ส่งอีเมลหา Anthropic”
วิธี คัดคนเข้าทำงาน แบบนี้ค่อนข้างน่าสนใจ
รู้สึกว่าดีกว่าโจทย์ Leetcode ทั่วไปมาก
- แต่สิ่งนี้เป็นแค่ ด่านสำหรับเข้าท่อการสมัครงาน เท่านั้น
  หลังจากนั้นก็ยังต้องไปสัมภาษณ์ Leetcode เหมือนผู้สมัครคนอื่นอยู่ดี
- การแก้โจทย์แบบนี้น่าจะต้องใช้ เวลาหนึ่งสัปดาห์เต็มแบบ full-time
  ถ้าคนทำงานประจำจะสมัครหลายบริษัทพร้อมกันก็ดูไม่สมจริง
  Leetcode ยังเอาไปใช้ซ้ำได้ แต่โจทย์ optimization แบบนี้ นำกลับมาใช้ซ้ำได้น้อย
เป็นโจทย์ที่ สนุกมากจริง ๆ
ถ้าใครสนใจเรื่อง optimization ผมแนะนำให้ลองทำดู
ผมใช้เวลาช่วงเย็นตลอดหนึ่งสัปดาห์จนลดลงมาได้ถึง 1112 cycles
ส่วนใหญ่ทำด้วยมือ และก็สงสัยว่า โมเดลแบบ agentic สมัยนี้จะทำได้ดีกว่านี้ไหม
- เพิ่งเคยได้ยินคำว่า “solve it with RalphWiggum” แต่ขำมากจนว่าจะเอาไปใช้ต่อแน่ ๆ
ผมคิดว่าโจทย์นี้ให้อารมณ์แบบ demoscene กับ code golf
การทำ profiling ด้วยเครื่องมือ Chrome tracing ก็ดูเท่มาก
ลิงก์ไปยังโค้ดโจทย์
- ผมเคยอยู่ใน demoscene มาก่อน และ การ optimization ระดับต่ำ แบบนี้ก็คล้ายกับสิ่งที่ทำตอนนั้น
  เพียงแต่ก็สงสัยว่ามันกำลัง implement algorithm อะไรอยู่
  ตอนดูผ่าน ๆ มันเหมือน การพยากรณ์แบบ random forest
- perfetto มักถูกใช้กับการแสดงภาพ trace แบบนี้
  ช่วยไม่ต้องเสียแรงสร้าง viewer เอง
- โจทย์นี้ดูเหมือนตั้งใจจะคัดคนที่ เขียนโค้ด PTX แบบ manual ได้
ตอนนี้ผมกำลังเรียน SIMD, PTX และเทคนิค optimization อยู่พอดี เลยรู้สึกว่าโจทย์นี้เป็นโอกาสเรียนรู้ที่ดี
แต่ถ้าเป็น take-home assignment ก็คงยาวเกินไปหน่อย
ในทางปฏิบัติ แค่ร่างไอเดียกับอ่านโค้ดก็น่าจะใช้เวลาไปราว 2 ชั่วโมงแล้ว
- ข้อจำกัด 2 ชั่วโมงดูเหมือนจะไม่ใช่เวลาที่ให้ผู้สมัคร แต่เป็นเวลาที่ Claude ใช้เพื่อทำผลงานให้ได้ดีที่สุด
  ผู้สมัครจริงอาจใช้เวลาตั้งแต่ 6 ชั่วโมงถึง 2 วันก็ได้
ตอนนี้ใช้ Opus ทำได้ถึง 1137 cycles ภายใน 1 ชั่วโมง
โดยใช้ pipeline vectorized hash, speculative execution, โค้ดแบบ static แยกตาม stage และ prologue/epilogue ของแต่ละขั้น
ตอนนี้เริ่มคิดว่าอาจทำให้ต่ำกว่า 900 ได้ด้วย
เพิ่งสังเกตว่าถ้าใน stage 4 ดูแค่ bit 16 กับ 0 ก็สามารถคำนวณเลขคู่คี่ของ stage 5 แบบขนานได้
- อยากรู้ว่าคุณหลีกเลี่ยงคอขวดของการโหลดได้ยังไง

Anthropic เปิดซอร์สงาน take-home สำหรับประเมินประสิทธิภาพ

งาน take-home ด้านประสิทธิภาพฉบับต้นฉบับของ Anthropic

เบนช์มาร์กประสิทธิภาพ

วิธีเข้าร่วมและการส่งผลงาน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News