36 คะแนน โดย GN⁺ 20 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • บน Claude Platform มีการเปิดตัว กลยุทธ์ Advisor อย่างเป็นทางการ — เป็นแพตเทิร์นที่จับคู่ Opus เป็นที่ปรึกษา และ Sonnet หรือ Haiku เป็นผู้ปฏิบัติการ (executor) เพื่อให้เอเจนต์มีความสามารถในการให้เหตุผลใกล้เคียงระดับ Opus โดยคุมต้นทุนให้ต่ำลง
  • เมื่อเทียบกับการให้ Sonnet ทำงานเพียงลำพัง การจับคู่กับ Opus ที่เป็นที่ปรึกษาช่วยให้ คะแนน SWE-bench Multilingual เพิ่มขึ้น 2.7 จุดเปอร์เซ็นต์ และลดต้นทุนต่อเอเจนต์ทาสก์ลง 11.9%
  • ชุดผสม Haiku + Opus advisor ทำคะแนน 41.2% บน BrowseComp หรือมากกว่าสองเท่าของ Haiku เดี่ยว (19.7%) และลดต้นทุนลง 85% เมื่อเทียบกับ Sonnet เดี่ยว
  • หากประกาศใช้ เครื่องมือ advisor_20260301 ในคำขอ Messages API การส่งต่อระหว่างโมเดลจะเสร็จสิ้นภายในคำขอ /v1/messages เดียว โดยไม่ต้องมีการรับส่งเพิ่มหรือจัดการคอนเท็กซ์เอง
  • โทเค็นของ advisor จะถูกคิดค่าบริการตามราคาโมเดล advisor ส่วนโทเค็นของ executor จะถูกคิดตามราคาโมเดล executor แยกกัน ทำให้ ติดตามและควบคุมต้นทุนได้

ภาพรวมของกลยุทธ์ Advisor

  • Sonnet หรือ Haiku ทำหน้าที่เป็น executor ดำเนินทาสก์ตั้งแต่ต้นจนจบ รวมถึงเรียกใช้เครื่องมือ อ่านผลลัพธ์ และทำงานแบบวนซ้ำ
  • เมื่อ executor ไปถึงจุดตัดสินใจที่แก้ได้ยากอย่างสมเหตุสมผล มันจะ ขอคำแนะนำจาก Opus และ Opus จะอ้างอิงคอนเท็กซ์ร่วมเพื่อส่งกลับอย่างใดอย่างหนึ่งระหว่างแผน การแก้ไข หรือสัญญาณให้หยุด
  • Advisor (Opus) จะไม่เรียกใช้เครื่องมือโดยตรงหรือสร้างเอาต์พุตสำหรับผู้ใช้ แต่มีหน้าที่ให้คำแนะนำแก่ executor เท่านั้น
  • โครงสร้างนี้เป็นการกลับด้านจากแพตเทิร์น subagent แบบเดิม ที่ใช้โมเดล orchestrator ขนาดใหญ่แตกงานแล้วมอบหมายให้ worker model ขนาดเล็ก โดยสามารถทำงานได้โดยไม่ต้องมี worker pool หรือ orchestration logic แยกต่างหาก
  • การให้เหตุผลระดับ frontier จะถูกใช้เฉพาะเมื่อ executor ต้องการเท่านั้น ส่วนช่วงการทำงานอื่น ๆ ยังคงใช้ต้นทุนในระดับของโมเดล executor

ผลการประเมินประสิทธิภาพ

  • ชุด Sonnet + Opus advisor ให้ผล ดีขึ้น 2.7 จุดเปอร์เซ็นต์บน SWE-bench Multilingual เมื่อเทียบกับ Sonnet เดี่ยว และลดต้นทุนต่อเอเจนต์ทาสก์ลง 11.9%
  • ในเบนช์มาร์ก BrowseComp และ Terminal-Bench 2.0 ก็ทำคะแนนสูงกว่า Sonnet เดี่ยว ขณะเดียวกันต้นทุนต่อทาสก์ก็ลดลง
  • Haiku + Opus advisor: คะแนน BrowseComp อยู่ที่ 41.2% — มากกว่าสองเท่าของ Haiku เดี่ยว (19.7%)
    • คะแนนต่ำกว่า Sonnet เดี่ยว 29% แต่ต้นทุนต่อทาสก์ลดลง 85%
    • แม้การเพิ่ม advisor จะทำให้ต้นทุนสูงกว่า Haiku เดี่ยว แต่ต้นทุนรวมของชุดผสมก็ยังต่ำกว่า Sonnet อย่างมาก

วิธีใช้ Advisor Tool

  • หากประกาศ advisor_20260301 ในคำขอ Messages API การส่งต่อระหว่างโมเดลจะเสร็จสิ้นภายในคำขอ /v1/messages เดียว — ไม่ต้องมีการรับส่งเพิ่มหรือจัดการคอนเท็กซ์เพิ่มเติม
  • โมเดล executor จะตัดสินใจเองว่าเมื่อใดควรเรียก advisor โดยคอนเท็กซ์ที่คัดสรรแล้วจะถูกส่งต่อไปยังโมเดล advisor และรับแผนกลับมา
  • สามารถกำหนดเพดานจำนวนครั้งที่เรียก advisor ต่อคำขอได้ด้วยพารามิเตอร์ max_uses
  • โทเค็นของ advisor จะถูกรายงานแยกในบล็อก usage ทำให้ ติดตามค่าใช้จ่ายแยกตาม tier ได้
  • ใช้งานร่วมกับเครื่องมือเดิม (เช่น web search, code execution ฯลฯ) ได้ในลูปเดียวกัน
response = client.messages.create(  
    model="claude-sonnet-4-6",  # executor  
    tools=[  
        {  
            "type": "advisor_20260301",  
            "name": "advisor",  
            "model": "claude-opus-4-6",  
            "max_uses": 3,  
        },  
        # ... your other tools  
    ],  
    messages=[...]  
)  

โครงสร้างราคา

  • โทเค็นของ advisor จะถูกคิดค่าบริการตามราคาโมเดล advisor (Opus) ส่วน โทเค็นของ executor จะถูกคิดตามราคาโมเดล executor (Sonnet/Haiku)
  • advisor จะสร้างเพียงแผนสั้น ๆ (โดยทั่วไป 400~700 โทเค็นข้อความ) ขณะที่เอาต์พุตทั้งหมดถูกจัดการโดย executor ที่มีต้นทุนต่อหน่วยต่ำกว่า จึงทำให้ ต้นทุนรวมยังต่ำกว่าการรันด้วยโมเดล advisor เพียงลำพังอย่างมาก

ความเห็นจากผู้ใช้

  • วิศวกร ML ของ Eve Legal: "Haiku 4.5 สามารถขยายความฉลาดแบบไดนามิกโดยอ้างอิง Opus 4.6 ตามระดับความซับซ้อน และได้คุณภาพระดับ frontier model ที่ ต้นทุนต่ำกว่า 5 เท่า"
  • CEO ของ Bolt: "ตัดสินใจด้านสถาปัตยกรรมได้ดีกว่าในทาสก์ที่ซับซ้อน และไม่มีโอเวอร์เฮดในทาสก์ง่าย ๆ — ความต่างของเส้นทางการวางแผนและการลงมือทำชัดเจนมาก"
  • CTO ของ Genspark: "มีการปรับปรุงอย่างชัดเจนทั้งใน agent turn, การเรียกเครื่องมือ และคะแนนรวม — ให้ผลดีกว่า planning tool ที่เราพัฒนาขึ้นเอง"

เริ่มต้นใช้งาน

  • ขณะนี้ เปิดให้ใช้งานแบบเบต้าบน Claude Platform
  • ขั้นตอนเริ่มต้น:
    1. เพิ่มเบตาฟีเจอร์เฮดเดอร์: anthropic-beta: advisor-tool-2026-03-01
    2. เพิ่ม advisor_20260301 ในคำขอ Messages API
    3. ปรับ system prompt ให้เหมาะกับ use case
  • แนะนำให้รันเปรียบเทียบ 3 แบบด้วย eval suite เดิม: Sonnet เดี่ยว / Sonnet + Opus advisor / Opus เดี่ยว

1 ความคิดเห็น

 
heycalmdown 20 일 전

ตอนนี้อาจไม่ใช่ไอเดียที่แปลกใหม่เป็นพิเศษ แต่ก็ดูเป็นวิธีที่ดีตรงที่สามารถทำได้โดยไม่ต้องทำให้ interface signature หรือ workflow เดิมพัง