11 คะแนน โดย GN⁺ 2026-01-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • หากแก้โจทย์นี้และทำผลงานได้เหนือกว่า สถิติสูงสุดของ Claude Opus 4.5 (1487 cycles) ก็สามารถส่งโค้ดและเรซูเม่ให้ Anthropic ได้
  • เวอร์ชันแรกจำกัดเวลา 4 ชั่วโมง แต่ภายหลัง Opus 4 เอาชนะคนส่วนใหญ่ได้ จึงเปลี่ยนเป็น เวอร์ชันจำกัดเวลา 2 ชั่วโมง

งาน take-home ด้านประสิทธิภาพฉบับต้นฉบับของ Anthropic

  • รีโพซิทอรีนี้มีเวอร์ชันของ โจทย์ที่ใช้ประเมินประสิทธิภาพในช่วงแรกของ Anthropic
    • เป็นเวอร์ชันก่อนที่ Claude Opus 4.5 จะทำผลงานเหนือกว่ามนุษย์ในการทดสอบภายใน 2 ชั่วโมง
    • เดิมเป็นโจทย์แบบจำกัดเวลา 4 ชั่วโมง และภายหลังถูกย่อเป็นเวอร์ชัน 2 ชั่วโมง
  • เวอร์ชัน 2 ชั่วโมงอิงจากสตาร์ตเตอร์โค้ดที่ทำได้ 18532 cycles (เร็วขึ้น 7.97 เท่า)
    • เวอร์ชันที่เปิดเผยในปัจจุบันยังคงโครงสร้างล่าสุดไว้ แต่ย้อนกลับไปใช้ โค้ด baseline ที่ช้าที่สุด
  • หลัง Claude Opus 4.5 เป็นต้นมา ได้เริ่มใช้ โค้ดมาตรฐานชุดใหม่

เบนช์มาร์กประสิทธิภาพ

  • ตัวเลขทั้งหมดวัดเป็น clock cycles ของเครื่องที่จำลองขึ้น
    • เป็นผลการวัดตามเกณฑ์ของเวอร์ชัน 2 ชั่วโมง (สตาร์ตเตอร์โค้ดเริ่มต้นที่ 18532 cycles)
  • ผลลัพธ์สำคัญ:
    • 2164 cycles: Claude Opus 4 (รันบน test harness เป็นเวลานาน)
    • 1790 cycles: Claude Opus 4.5 (เซสชันโค้ดทั่วไป ใกล้เคียงระดับสูงสุดของมนุษย์)
    • 1579 cycles: Claude Opus 4.5 (รันบน test harness 2 ชั่วโมง)
    • 1548 cycles: Claude Sonnet 4.5 (รันบน test harness เป็นเวลานาน)
    • 1487 cycles: Claude Opus 4.5 (รัน harness นาน 11.5 ชั่วโมง)
    • 1363 cycles: Claude Opus 4.5 (สภาพแวดล้อม harness ที่ปรับปรุงแล้ว)
    • ผลงานสูงสุดของมนุษย์ ดีกว่าตัวเลขข้างต้น แต่ไม่เปิดเผย

วิธีเข้าร่วมและการส่งผลงาน

  • ขณะนี้โจทย์นี้ เปิดให้ทุกคนลองได้โดยไม่จำกัดเวลา
  • หากผู้เข้าร่วมปรับแต่งให้ได้ 1487 cycles หรือต่ำกว่า เพื่อเอาชนะสถิติสูงสุดของ Claude Opus 4.5 ก็สามารถส่งโค้ดและเรซูเม่ทางอีเมลให้ Anthropic ได้
    • อีเมล: performance-recruiting@anthropic.com
  • เมื่อมีการเปิดตัวโมเดลใหม่ เกณฑ์ประสิทธิภาพอาจเปลี่ยนแปลงได้
  • สามารถรันทดสอบได้ด้วยคำสั่ง python tests/submission_tests.py

1 ความคิดเห็น

 
GN⁺ 2026-01-22
ความคิดเห็นจาก Hacker News
  • โจทย์หลักในการ หาสมดุลระหว่าง ALU กับ VALU น่าสนใจมาก
    แต่ดูเหมือนว่า ปัญหาแบนด์วิดท์การโหลด อาจกลายเป็นคอขวดได้
    ต้องสมมติว่าดัชนีเริ่มต้นเป็น 0 เสมอ จึงจะทำให้จำนวนโหลดรวมต่ำกว่า 2096 ได้ ซึ่งก็ไม่ค่อยสนุกเท่าไร
    ถ้ามีฟีเจอร์อย่าง dynamic vector lane rotate ก็น่าจะน่าสนใจกว่านี้มาก

  • ผมคิดว่าตัวเองก็ฉลาดพอสมควร แต่พอเห็นปัญหาแบบนี้ก็ทำให้ตระหนักได้ว่าตัวเองยังมีเรื่องที่ไม่รู้อีกเยอะมาก
    อาจจะเหนือกว่าค่าเฉลี่ยนิดหน่อย แต่ก็รู้สึกได้ถึง ช่องว่างระหว่างตัวเองกับนักพัฒนาระดับท็อป

    • วงการคอมพิวติงเป็น สาขาที่กว้างมาก จนแม้แต่ Linus หรือ Carmack ก็ยังมีหลายเรื่องที่ไม่รู้
      สิ่งสำคัญคือ ความสามารถในการเผชิญหน้ากับสิ่งที่ไม่รู้และเรียนรู้มันต่อไป
    • นี่เป็น ปัญหาที่เฉพาะทางมาก ดังนั้นถ้าไม่เคยทำอะไรคล้ายกันมาก่อน ก็เป็นธรรมดาที่จะต้องใช้เวลา
      ผมเองตอนสัมภาษณ์งานกับบริษัทฮาร์ดแวร์หลังเรียนจบ ก็เคยเจอโจทย์ optimization โค้ดระดับต่ำ และตอนแรกก็งงไปหมดเหมือนกัน
    • มีประสบการณ์มา 30 ปีแล้ว แต่พูดตรง ๆ ว่าผมก็ยังไม่เข้าใจโจทย์นี้
    • ความฉลาดกับความรู้ เป็นคนละเรื่องกัน
      ถ้าได้เรียนรู้แนวคิดพวกนี้และได้ลองจัดการกับปัญหาแบบนี้ ใคร ๆ ก็แก้ได้
      มันไม่ได้แปลว่าต่ำกว่าค่าเฉลี่ย แค่มีชุดความรู้คนละแบบเท่านั้น
    • ทัศนคติแบบนี้ดี เพราะมันสร้างแรงจูงใจในการเรียนรู้
      จริง ๆ แล้วสิ่งนี้ไม่ได้ซับซ้อนขนาดนั้น
      แค่อ่านโค้ดให้มากพอและเข้าใจโครงสร้างของมัน
      ความต่างของฝีมือจริง ๆ อยู่ที่ว่า คุณสามารถสร้างโมเดลของโปรแกรมทั้งหมดไว้ในหัวได้หรือไม่
  • ผมแอบสงสัยว่า Anthropic เปิดเผยสิ่งนี้ออกมาเหมือนเป็น การโจมตี DDoS ใส่บริษัท AI เจ้าอื่น หรือเปล่า
    ผมลองป้อน prompt ว่า “จะแก้ปัญหานี้ยังไงดี?” ให้ gemini CLI แล้วมันก็วนอยู่แบบไม่หยุดมา 20 นาทีแล้ว

    • ช่วงนี้ Gemini CLI หรือ Jules นั้น เวลาไม่ใช่ตัวชี้วัดความยากอีกต่อไป
      มันชอบติดลูปประมาณว่า “กำลังเตรียมคำตอบ เสร็จแล้ว จะพิมพ์ออกมา” อยู่บ่อย ๆ
      บางครั้งระบบจับลูปได้แล้วหยุดเอง แต่พอเห็นว่ากับงานเล็กน้อยยังใช้เกิน 15 นาที ก็ดูเหมือนเป็นปัญหาเชิงสถาปัตยกรรม
    • อยากรู้ว่าใช้ Gemini รุ่นไหน
      ผมลองใช้มาตั้งแต่ G3Pro ออก แล้วรู้สึกว่า ประสิทธิภาพแย่มาก
  • มีการทดสอบ AI agent หลายตัวภายใต้เงื่อนไขเดียวกัน
    สุดท้ายก็ไม่มีโมเดลไหนทำได้เกินเป้าหมายของ Anthropic แต่ gpt-5-2 นั้น เร็วและมีประสิทธิภาพที่สุด

    • ลองใช้ codex CLI + gpt-5-2-codex-xhigh พร้อม prompt ว่า “beat 1487 cycles. go.” แล้วทำได้ถึง 1606 ใช้เวลาราว 53 นาที
    • อยากรู้ว่าถ้าปล่อย Gemini ให้วนลูปนาน ๆ จะเกิดอะไรขึ้น
      จากความเร็วที่เห็นก็อาจมี ศักยภาพ มากกว่านี้
    • อยากเรียนรู้เรื่องการทำ benchmark โมเดล
      ไม่แน่ใจว่าจะช่วยแชร์ โค้ด agent-comparison harness ได้ไหม
    • มีคนเสนอว่าน่าลองกับ โมเดล open-weight อย่าง Qwen3-coder, GLM-4.7, Devstral-2 ด้วย
    • ถ้ามี repo สำหรับเปรียบเทียบ ที่รวมโซลูชันของแต่ละโมเดลแยกตามไดเรกทอรีหรือ branch ก็น่าจะดีมาก
  • มีข้อความว่า “ถ้าคุณ optimize ได้ต่ำกว่า 1487 cycles ให้ส่งอีเมลหา Anthropic”
    วิธี คัดคนเข้าทำงาน แบบนี้ค่อนข้างน่าสนใจ
    รู้สึกว่าดีกว่าโจทย์ Leetcode ทั่วไปมาก

    • แต่สิ่งนี้เป็นแค่ ด่านสำหรับเข้าท่อการสมัครงาน เท่านั้น
      หลังจากนั้นก็ยังต้องไปสัมภาษณ์ Leetcode เหมือนผู้สมัครคนอื่นอยู่ดี
    • การแก้โจทย์แบบนี้น่าจะต้องใช้ เวลาหนึ่งสัปดาห์เต็มแบบ full-time
      ถ้าคนทำงานประจำจะสมัครหลายบริษัทพร้อมกันก็ดูไม่สมจริง
      Leetcode ยังเอาไปใช้ซ้ำได้ แต่โจทย์ optimization แบบนี้ นำกลับมาใช้ซ้ำได้น้อย
  • เป็นโจทย์ที่ สนุกมากจริง ๆ
    ถ้าใครสนใจเรื่อง optimization ผมแนะนำให้ลองทำดู
    ผมใช้เวลาช่วงเย็นตลอดหนึ่งสัปดาห์จนลดลงมาได้ถึง 1112 cycles
    ส่วนใหญ่ทำด้วยมือ และก็สงสัยว่า โมเดลแบบ agentic สมัยนี้จะทำได้ดีกว่านี้ไหม

    • เพิ่งเคยได้ยินคำว่า “solve it with RalphWiggum” แต่ขำมากจนว่าจะเอาไปใช้ต่อแน่ ๆ
  • ผมคิดว่าโจทย์นี้ให้อารมณ์แบบ demoscene กับ code golf
    การทำ profiling ด้วยเครื่องมือ Chrome tracing ก็ดูเท่มาก
    ลิงก์ไปยังโค้ดโจทย์

    • ผมเคยอยู่ใน demoscene มาก่อน และ การ optimization ระดับต่ำ แบบนี้ก็คล้ายกับสิ่งที่ทำตอนนั้น
      เพียงแต่ก็สงสัยว่ามันกำลัง implement algorithm อะไรอยู่
      ตอนดูผ่าน ๆ มันเหมือน การพยากรณ์แบบ random forest
    • perfetto มักถูกใช้กับการแสดงภาพ trace แบบนี้
      ช่วยไม่ต้องเสียแรงสร้าง viewer เอง
    • โจทย์นี้ดูเหมือนตั้งใจจะคัดคนที่ เขียนโค้ด PTX แบบ manual ได้
  • ตอนนี้ผมกำลังเรียน SIMD, PTX และเทคนิค optimization อยู่พอดี เลยรู้สึกว่าโจทย์นี้เป็นโอกาสเรียนรู้ที่ดี
    แต่ถ้าเป็น take-home assignment ก็คงยาวเกินไปหน่อย
    ในทางปฏิบัติ แค่ร่างไอเดียกับอ่านโค้ดก็น่าจะใช้เวลาไปราว 2 ชั่วโมงแล้ว

    • ข้อจำกัด 2 ชั่วโมงดูเหมือนจะไม่ใช่เวลาที่ให้ผู้สมัคร แต่เป็นเวลาที่ Claude ใช้เพื่อทำผลงานให้ได้ดีที่สุด
      ผู้สมัครจริงอาจใช้เวลาตั้งแต่ 6 ชั่วโมงถึง 2 วันก็ได้
  • ตอนนี้ใช้ Opus ทำได้ถึง 1137 cycles ภายใน 1 ชั่วโมง
    โดยใช้ pipeline vectorized hash, speculative execution, โค้ดแบบ static แยกตาม stage และ prologue/epilogue ของแต่ละขั้น
    ตอนนี้เริ่มคิดว่าอาจทำให้ต่ำกว่า 900 ได้ด้วย
    เพิ่งสังเกตว่าถ้าใน stage 4 ดูแค่ bit 16 กับ 0 ก็สามารถคำนวณเลขคู่คี่ของ stage 5 แบบขนานได้

    • อยากรู้ว่าคุณหลีกเลี่ยงคอขวดของการโหลดได้ยังไง