Anthropic เปิดตัว Claude Haiku 4.5

(anthropic.com)

5 คะแนน โดย GN⁺ 2025-10-16 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Claude Haiku 4.5 เป็นโมเดลขนาดเล็กที่แม้จะมีขนาดกะทัดรัด แต่ให้ ประสิทธิภาพด้านโค้ดระดับ Claude Sonnet 4 ด้วย ต้นทุนเพียง 1 ใน 3 และ ความเร็วมากกว่า 2 เท่า
ในเบนช์มาร์กการพัฒนาจริงอย่าง SWE-bench Verified แสดงให้เห็นถึง ประสิทธิภาพและการตอบสนองของ AI สำหรับงานเขียนโค้ด ที่เหนือกว่ารุ่นก่อนหน้า
เมื่อทำงานร่วมกับ Sonnet 4.5 สามารถจัดโครงแบบ มัลติเอเจนต์ หรือแบ่งปัญหาที่ซับซ้อนออกไปประมวลผลได้ และเหมาะกับ งานเรียลไทม์ กับ สภาพแวดล้อมที่ต้องการ latency ต่ำ
สามารถสัมผัสข้อดีของ ความฉลาดและความเร็วสูง ได้ในงานอย่างแชตบอตแบบเรียลไทม์ การซัพพอร์ตลูกค้า และ pair programming
จากผลการประเมินด้านความปลอดภัย พบว่ามี ระดับการจัดแนวสูงที่สุดในบรรดาโมเดลของ Anthropic และเปิดตัวภายใต้มาตรฐาน AI Safety Level 2 (ASL-2)
$1/$5 ต่อหนึ่งล้านโทเค็นขาเข้า/ขาออก

แนะนำ

Claude Haiku 4.5 คือโมเดลขนาดเล็กล่าสุดในไลน์อัปของ Anthropic ที่มุ่งสร้าง สมดุลระหว่างประสิทธิภาพ ความเร็ว และความคุ้มค่า สำหรับผู้ใช้ทุกคน
มีความสามารถด้านการเขียนโค้ดใกล้เคียงกับ Claude Sonnet 4 แต่มีต้นทุนเพียง 1 ใน 3 และเร็วกว่า 2 เท่าขึ้นไป
ในบางงานเฉพาะทาง (เช่น การใช้งานคอมพิวเตอร์) ยังทำผลงานได้ ดีกว่า Sonnet 4
โดยเฉพาะในเครื่องมือแบบเรียลไทม์อย่าง Claude for Chrome หรือ Claude Code จะมอบ สภาพแวดล้อมผู้ช่วย AI ที่แทบไร้ความหน่วง

คุณสมบัติหลักและกรณีใช้งาน

เหมาะกับ งานเรียลไทม์และงานที่ต้องการ latency ต่ำ จึงแสดงประสิทธิภาพสูงในแชตบอต งานบริการลูกค้า และ pair programming
สำหรับผู้ใช้ Claude Code โมเดลนี้ให้ การตอบสนองที่รวดเร็ว เหมาะอย่างยิ่งกับโปรเจ็กต์แบบหลายเอเจนต์และการทำต้นแบบอย่างรวดเร็ว
แม้ปัจจุบัน Sonnet 4.5 จะยังคงเป็นโมเดลระดับสูงสุด แต่ Haiku 4.5 ก็มอบ ประสิทธิภาพใกล้เคียงพร้อมความคุ้มค่าที่สูงกว่า
ทั้งสองโมเดลยังสามารถใช้งานร่วมกันได้ เช่น ให้ Sonnet 4.5 แยกปัญหาที่ซับซ้อนออกมา แล้วให้ Haiku 4.5 หลายตัวประมวลผลงานย่อยแบบขนาน
Claude Haiku 4.5 พร้อมใช้งานทั่วโลกตั้งแต่วันนี้ และนักพัฒนาสามารถใช้งานได้ทันทีใน Claude API ผ่าน claude-haiku-4-5
ราคาอยู่ที่ $1/$5 ต่อหนึ่งล้านโทเค็นขาเข้า/ขาออก

เบนช์มาร์กและการประเมินจากผู้ใช้

Haiku 4.5 เป็นหนึ่งในโมเดลที่ทรงพลังที่สุดที่ Anthropic เคยเปิดตัว
บริษัทหลากหลายแห่งอย่าง Augment, Warp, Gamma ระบุว่าจากการทดสอบจริง พบว่าได้ คุณภาพโค้ดมากกว่า 90% เมื่อเทียบกับ Sonnet 4.5
ในงานอย่าง agentic coding การประสานงานของซับเอเจนต์ และงานการใช้งานคอมพิวเตอร์ แสดงให้เห็นถึง ความก้าวหน้าแบบก้าวกระโดด พร้อมเพิ่มความฉับไวของประสบการณ์พัฒนาอย่างสูงสุด
เดิมทีคุณภาพ ความเร็ว และต้นทุนมักต้องแลกกัน แต่ Haiku 4.5 สามารถทำได้ทั้ง ความเร็วและความคุ้มค่าด้านต้นทุน
ให้ทั้งความฉลาดและการตอบสนองแบบเรียลไทม์ จึงเปิดทางสู่ ความเป็นไปได้ใหม่ของแอปพลิเคชัน AI
ประสิทธิภาพที่เมื่อ 6 เดือนก่อนยังถือว่าเป็น ระดับล้ำสมัย ตอนนี้สามารถทำได้ในราคาถูกลงและเร็วขึ้น
รองรับ เวิร์กโฟลว์ที่ซับซ้อน ได้อย่างรวดเร็วและเสถียร พร้อมความสามารถในการแก้ไขตัวเองแบบเรียลไทม์
ในงานเฉพาะทางอย่างการสร้างข้อความสำหรับสไลด์ ทำอัตราความสำเร็จได้สูงกว่ารุ่นเดิมอย่างชัดเจน
เมื่อนำไปใช้ร่วมกับ GitHub Copilot เป็นต้น จะให้คุณภาพโค้ดใกล้เคียง Sonnet 4 แต่เร็วกว่า

การประเมินด้านความปลอดภัย

จากผลการประเมินด้าน ความปลอดภัยและการจัดแนว หลายรูปแบบ พบว่าอัตราพฤติกรรมที่เป็นปัญหาต่ำ และความสามารถด้านการจัดแนวก็ดีขึ้นเมื่อเทียบกับเวอร์ชันก่อนหน้า (Claude Haiku 3.5)
มีอัตราพฤติกรรมไม่สอดคล้องต่ำกว่า Sonnet 4.5/Opus 4.1 จึงถูกประเมินว่าเป็น โมเดลที่ปลอดภัยที่สุด ในบรรดาโมเดลที่ Anthropic สร้างขึ้น
ความเสี่ยงด้านเคมี ชีวภาพ รังสี และนิวเคลียร์ (CBRN) ก็ถูกประเมินว่าอยู่ในระดับต่ำมาก จึงเปิดตัวภายใต้มาตรฐาน ASL-2
จึงสามารถใช้งานได้อย่างยืดหยุ่นกว่ามาตรฐาน ASL-3 ที่มีข้อจำกัดเข้มงวดกว่า (Sonnet 4.5, Opus 4.1)

ข้อมูลเพิ่มเติม

Claude Haiku 4.5 ใช้งานได้ทันทีใน Claude Code และแอปของ Anthropic
ด้วยการประมวลผลที่มีประสิทธิภาพ ผู้ใช้จึงสามารถเข้าถึง ประสิทธิภาพระดับโมเดลพรีเมียม ได้ภายในข้อจำกัดการใช้งาน
สามารถเลือกใช้เป็นทางเลือกที่ประหยัดกว่าสำหรับ Haiku 3.5 และ Sonnet 4 ได้ผ่าน API, Amazon Bedrock, Google Cloud Vertex AI
รายละเอียดทางเทคนิค ผลการประเมิน และข้อมูลเพิ่มเติม ดูได้จาก System Card, หน้าข้อมูลโมเดล และ เอกสาร

2 ความคิดเห็น

skageektp 2025-10-16

พิมพ์ /model haiku ใน claude code ก็ใช้งานได้ เร็วกว่า sonnet แต่ผลลัพธ์ก็ออกมาดี เลยถือว่าใช้งานได้ค่อนข้างสะดวกเลยครับ

GN⁺ 2025-10-16

ความคิดเห็นจาก Hacker News

มีการแชร์ภาพนกกระทุงน่ารักที่กำลังขี่จักรยานหน้าตาดูน่าสงสัยนิดหน่อย ลิงก์
- ตอนแรก Gemini Pro ปฏิเสธที่จะให้โค้ด SVG แต่พอขอแบบละเอียดขึ้นอีกหน่อยว่า “อยากตรวจสอบว่าเป็นโค้ด SVG ที่ถูกต้องหรือไม่” สุดท้ายก็ ส่งโค้ด SVG กลับมาให้
- สำหรับคนที่ไม่รู้ที่มาของเบนช์มาร์กนี้ มีการแชร์เอกสารอ้างอิงไว้
  Six months in LLMs,
  คำอธิบายแท็กนกกระทุงขี่จักรยาน,
  วิธีวิทยาของเบนช์มาร์ก
- มีการแชร์ตัวอย่าง “เห็ดชิตาเกะนั่งเรือพาย” ด้วย เพื่อป้องกันการปรับแต่งเบนช์มาร์ก
  Shitaki Mushroom riding a rowboat
  พรอมป์ต์: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 วินาที
  และ Grok 4 Fast ก็ใช้ได้กับสไตล์นกกระทุง+จักรยาน แต่ไม่ค่อยดีนักกับคำขอแบบอื่น
  ตัวอย่าง Grok, พรอมป์ต์: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 วินาที
  สุดท้ายคือผลลัพธ์จาก GPT-5: ตัวอย่าง, พรอมป์ต์: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 วินาที
  แม้จะเป็นความเห็นส่วนตัว แต่จุดบนเห็ดของ Haiku น่าประทับใจมาก
  และความต่างด้านประสิทธิภาพระหว่างเบนช์มาร์กสาธารณะกับสถานการณ์ทดสอบแบบไม่เป็นทางการนั้นน้อยที่สุดในบรรดาโมเดลของ Anthropic
  บางครั้งโมเดลของ Anthropic ยังให้ผลดีกว่าโอเพนเบนช์มาร์กเสียอีก
  Time-to-First ของ Haiku ก็เป็นข้อได้เปรียบที่สำคัญมากด้วย
- น่าแปลกที่บริษัทโมเดลล้ำสมัยต่าง ๆ ไม่ได้ใส่การทดสอบแบบนี้เป็น easter egg เอาไว้
- โมเดลสร้างภาพมักมีปัญหากับการวาดแขนนักธนูอยู่เสมอ จึงมีคนเสนอว่าอาจเทียบทุกโมเดลด้วยพรอมป์ต์ทดสอบง่าย ๆ เช่น นักธนูขี่ม้ายิงลูกศรเพลิงไปยังเรือใบในทะเลสาบ
แม้จะเป็นการทดสอบช่วงแรกมาก ๆ แต่ผลลัพธ์ก็น่าประทับใจไม่น้อย
ต่างจาก GPT-5 มันใส่ส่วนโค้ดที่ไม่จำเป็นในการแก้ไขโค้ดน้อยกว่า จึงเปลี่ยนแปลงได้แม่นยำกว่า
ทำให้ในงานจริง Haiku 4.5 อาจคุ้มค่ากว่าในแง่ประสิทธิภาพการใช้งาน แม้ต้นทุนที่เห็นจะสูงขึ้น
ปัญหาคือพลังของแบรนด์
ต่อให้ Haiku 4.5 อาจมีคุณภาพใกล้ Sonnet 4 แต่ภาพจำต่อโมเดลขนาดเล็กและการถดถอยของประสิทธิภาพบางส่วนในช่วงหลัง ทำให้เลือก Haiku 4.5 แทน Sonnet 4.5 ได้ไม่ง่าย
สงสัยว่า Haiku 3, 3.5, 4.5 อยู่ในช่วงจำนวนพารามิเตอร์ใกล้เคียงกันหรือไม่ และอยากให้เปิดเผยข้อมูลโมเดลทั้งหมดอย่างโปร่งใส
เพราะคนส่วนใหญ่ก็มักอยากใช้โมเดลใหญ่กว่าอยู่แล้ว แต่ส่วนตัวคิดว่า GPT-5 น่าประทับใจที่สุดเมื่อเทียบราคาและประสิทธิภาพ
ราคาอ้างอิง:
Haiku 3: อินพุต $0.25/M, เอาต์พุต $1.25/M
Haiku 4.5: อินพุต $1.00/M, เอาต์พุต $5.00/M
GPT-5: อินพุต $1.25/M, เอาต์พุต $10.00/M
GPT-5-mini: อินพุต $0.25/M, เอาต์พุต $2.00/M
GPT-5-nano: อินพุต $0.05/M, เอาต์พุต $0.40/M
GLM-4.6: อินพุต $0.60/M, เอาต์พุต $2.20/M
- อัปเดต: Haiku 4.5 ไม่ได้แค่แม่นยำในการแก้โค้ด แต่ยังเร็วมากด้วย
  ค่าเฉลี่ยอยู่ที่ 220 token/sec ซึ่งเกือบ 2 เท่าของโมเดลใกล้เคียงกัน
  ถ้ารักษาความเร็วระดับนี้ได้อย่างสม่ำเสมอ จะคุ้มค่ามาก
  โดยอ้างอิงแล้วเร็วใกล้เคียง Gemini 2.5 Flash Lite
  แน่นอนว่า Groq, Cerebras ฯลฯ ก็ไปได้ถึง 1000 token/sec แต่ไม่ใช่โมเดลที่เทียบกันตรง ๆ
  โมเดลของ Anthropic ในเบนช์มาร์กส่วนตัวที่ทดลองมามักทำได้ดีกว่าโอเพนเบนช์มาร์กเสมอ จึงค่อนข้างคาดหวัง
  ถ้าความเร็ว ประสิทธิภาพ และราคายังคงแบบนี้ต่อไป Haiku 4.5 จะเป็นตัวเลือกที่ยอดเยี่ยมสำหรับงานเขียนโค้ดส่วนใหญ่
  ส่วน Sonnet คงใช้เฉพาะบางสถานการณ์
  ก่อนหน้านี้โมเดล Claude มักมีปัญหาประสิทธิภาพตกในงานสายโซ่ยาว ๆ (เกิน 7 นาที) ซึ่งถ้า Haiku 4.5 เป็นแบบนั้นด้วยก็ถือเป็นจุดอ่อน
  แต่ตอนนี้ยังไม่ได้ลองทดสอบงานระยะยาว
  ปัญหาคือใน Claude Code ตอนนี้ยังนับการใช้ Haiku 4.5 กับ Sonnet 4.5 เท่ากันอยู่ ทั้งที่ราคาต่างกันมาก
  และหน้าสนับสนุนก็ยังไม่ได้อัปเดต เอกสารช่วยเหลือ
  ข้อมูลแบบนี้ควรประกาศให้ชัดตั้งแต่วันเปิดตัว
  ระบบเครื่องมือ การทดสอบ และการประกาศแบบนี้ กลับมาบดบังประสิทธิภาพที่ยอดเยี่ยมของโมเดล Anthropic
- รออัปเดต Haiku มานานมาก และเวอร์ชันก่อนหน้าก็ฉลาดคุ้มราคาจนใช้อยู่เรื่อย ๆ
  ในที่สุดรอบนี้ก็ออกมาแล้ว และกำลังทยอยอัปเกรดบอตทั้งหมดของตัวเองอยู่
- ปกติคิดว่าดูแค่ราคาโดยไม่มีค่าเฉลี่ยการใช้โทเคนประกอบนั้นไม่ค่อยมีความหมาย
ช่วงนี้การเปรียบเทียบโมเดลและฟีเจอร์ต่าง ๆ ยุ่งยากและน่ารำคาญเกินไป
แต่ละระบบนิเวศ LLM ก็มีข้อจำกัดต่างกันจนต้องสลับไปมาอยู่ตลอด และตอนนี้ก็จ่าย Claude Code กับ Codex อย่างละ $20 ต่อเดือน
ใช้ Cursor ด้วยเหมือนกัน แต่ไม่ได้สนใจว่าเบื้องหลังใช้โมเดลอะไร
แค่อยากได้เครื่องมือที่รวมเป็นหนึ่งและใช้งานได้สม่ำเสมอ
อยากให้มันดีขึ้นเองโดยอัตโนมัติ โดยไม่ต้องให้ฉันมาคิดว่าเบื้องหลังเกิดอะไรขึ้น
เหมือน TLS server ที่อยากให้รวมอยู่ได้ทุกที่ทั้ง CLI/Neovim/IDE
- ต่อให้เลือกแค่แบบเดียว ก็ยังเจอว่าแรก ๆ บอกให้พัฒนาแบบใช้พรอมป์ต์ จากนั้นก็แบบขับเคลื่อนด้วยคอนเท็กซ์ แล้วก็กลับไปใช้สเปกละเอียด ตอนนี้ก็มาบอกว่าวิธีแบบสนทนาดีกว่า
  แต่เดี๋ยวก็มีคนบอกว่าแนวทางขับเคลื่อนด้วยตัวอย่างดีกว่าอีก ถึงแต่ละแบบจะมีข้อดีข้อเสีย แต่เพราะไม่มีฉันทามติมาตรฐานในอุตสาหกรรม จึงหาตัวอย่างดี ๆ ได้ยาก
  ก่อนหน้านี้มีคนตอบไว้ว่า “bug-driven development” แล้วรู้สึกโดนใจ สุดท้ายก็คือใช้วิธีอะไรก็ได้ให้ได้ผลก่อน แล้วค่อยไล่แก้บั๊กกับเออร์เรอร์ทีหลัง
- สำหรับฉัน สิ่งสำคัญที่สุดคือการใช้งานแบบบูรณาการที่ใช้ได้ทั้ง CLI, neovim และ IDE โดยไม่ต้องเครียดกับการสลับเครื่องมือ
  เลยใช้ GitHub Copilot Pro+ อยู่
  พอมีโมเดลใหม่ออกมาก็เลือกใช้ได้ทันที (Claude Haiku 4.5 ก็มีแล้ว)
  ยังไม่เคยใช้โควต้าพรีเมียมหมด เพราะไม่ได้เป็นผู้ใช้สายหนัก
  ยังไม่เคยลองเวอร์ชัน CLI แต่ก็น่าสนใจ
  ก่อนที่ปลั๊กอิน IntelliJ จะอัปเดต เคยต้องไปยิงพรอมป์ต์ใน VS Code แล้วค่อยกลับมา
  Spaces ในเวอร์ชันเว็บก็มีประโยชน์กับงานเฉพาะทาง
  ไม่แน่ใจนักว่า Copilot เทียบกับ LLM เดี่ยว ๆ แล้วเป็นอย่างไร แต่ตราบใดที่มันโผล่มาเฉพาะเวลาที่ฉันต้องการและช่วยทำงานเงียบ ๆ ได้ดีก็พอแล้ว
- ถ้าจะเลือกอีกทางหนึ่ง ก็ใช้โมเดล openrouter/auto บน OpenRouter openrouter.ai ได้ ซึ่งจะช่วยเลือกโมเดลอย่าง GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 ฯลฯ ให้อัตโนมัติ
- จะใช้ Crystal เปิด Codex กับ Claude Code พร้อมกัน แล้วเลือกผลลัพธ์ที่ดีที่สุดก็ได้
- ฉันเองก็ใช้ OpenRouter ด้วยเหตุผลคล้ายกัน
  ด้านหนึ่งคือหลีกเลี่ยง lock-in อีกด้านก็เพื่อลดความไม่สะดวกจากการสลับเครื่องมือ และถึงจะ lock-in ก็ยังย้ายออกได้ง่าย
อยากรู้ว่าอนาคตของ Opus จะเป็นอย่างไร
จะยังไปทางประสิทธิภาพระดับ “สัตว์ประหลาด” พร้อมราคาสูงต่อไป หรือการขยับจาก 4 ไป 4.5 จะไม่หวือหวามากนัก
- เพิ่งเปิดตัว Opus 4.1 ไม่นานนี้ ดังนั้นความเปลี่ยนแปลงจาก 4.1 ไป 4.5 น่าจะน้อยกว่าการอัปเกรด Sonnet 4 -> 4.5
  แน่นอนก็ไม่รู้ว่าหมายเลขเวอร์ชันมีความหมายจริงหรือแค่เพื่อการตลาด
- ความรู้สึกของฉันคือ Sonnet และ Haiku 4.5 ใช้เบสโมเดลเดียวกับ 4 และการปรับปรุงหลักคือฟाइनจูนด้วยข้อมูลที่สร้างจาก Opus
  แม้จะเป็นแค่คนตามข่าวในวงการ ไม่ได้เป็นคนสร้างหรือพัฒนาเอง แต่การใช้โมเดลใหญ่ฟাইনจูนโมเดลเล็กก็เป็นแนวทางปกติของอุตสาหกรรม
  GPT-4 Turbo ที่เร็วและถูกกว่า GPT-4 ต้นฉบับมากก็น่าจะอธิบายได้ด้วยเหตุผลนี้
  การที่ OpenAI ซ่อน reasoning token ก็น่าจะเป็นกลยุทธ์เพื่อกันคู่แข่งเอาไปใช้ฝึกข้อมูล
- Opus เคยหายไปพักหนึ่งแล้วเพิ่งกลับมาอีกครั้ง
  น่าจะยังพัฒนาโมเดล 3 ขนาดคือใหญ่/กลาง/เล็กต่อไป และเลือกจังหวะเปิดตัวตามความต้องการของตลาดกับความสามารถของโมเดล
- อยากรู้ว่าโมเดลที่เล็กกว่า Haiku จะตั้งชื่อว่าอะไร หรือจะเป็น "Claude Phrase"?
ลองเปรียบเทียบ Haiku กับ Sonnet กับคำถามที่ต้องใช้การทำเอกสารโค้ดจริง ๆ
Haiku แต่งเอาผลลัพธ์ของฟังก์ชันขึ้นมาเองจนตอบผิด ส่วน Sonnet ตอบถูก
- ผลลัพธ์ Haiku: ลิงก์
  ผลลัพธ์ Sonnet: ลิงก์
ราคาอินพุต $1 เอาต์พุต $5 แม้จะถูกกว่า Sonnet 4.5 แต่ตอนนี้มี LLM ตัวเล็กและเร็วออกมาเยอะมาก จนสำหรับงาน agent coding ขนาดใหญ่ โมเดลที่ถูกกว่ายังสำคัญกว่า
Sonnet ยังถูกใช้กันมากทั้งที่ราคาแพง ดังนั้นถ้า Haiku คุณภาพดีพอก็น่าจะได้รับความนิยมมากพอ
- ถ้าใช้แคช ราคาจะลดลงถึง 10 เซ็นต์ต่ออินพุตล้านโทเคน
  โมเดลโอเพนซอร์สราคาถูกแทบทั้งหมดทำแคชได้มีประสิทธิภาพไม่เท่านี้
  เรื่องนี้อาจใหญ่มากจริง ๆ
- ฉันเป็นนักพัฒนามืออาชีพ จึงไม่ค่อยกังวลเรื่องค่าใช้จ่าย
  สิ่งสำคัญกว่ามากคือความเร็ว ถึงขั้นยอมจ่ายให้ Haiku 4.5 มากกว่า Sonnet 4.5 ก็ได้
  เวลาที่ต้องรอคำตอบมันเสียเปล่ามาก
  ถ้าทำ SWE Bench ได้เกิน 73% สำหรับฉันก็พอแล้ว
- ในแง่การใช้งาน API ตอนนี้ Claude Code แพงขึ้นจริง ๆ (ถ้าเชื่อแต่เบนช์มาร์ก อย่างน้อยคุณภาพก็ดีขึ้น)
- 3.5 Haiku เคยอยู่ที่ $0.8/$4 แต่ 4.5 เป็น $1/$5 เลยค่อนข้างน่าผิดหวัง ตอนนี้เมื่อเทียบกับโมเดลราคาประหยัดของ OpenAI และ Gemini (GPT-5-Nano $0.05/$0.40 · Gemini 2.0 Flash Lite $0.075/$0.30) ก็ยังสู้ด้านราคาได้ไม่ดีนัก
เข้าใจว่านี่คือผลิตภัณฑ์ Reasoner ขนาดเล็กตัวแรกของ Anthropic และแนบข้อมูล system card มาด้วย
System Card PDF
(ดูการพูดคุยที่เกี่ยวข้องได้ที่นี่)
ใน Extended NYT Connections (เบนช์มาร์กปริศนาจัดกลุ่มคำ) Haiku 4.5 ได้ 20.0 คะแนน, Haiku 3.5 ได้ 10.0 คะแนน, Sonnet 3.7 ได้ 19.2 คะแนน, Sonnet 4.0 ได้ 26.6 คะแนน, และ Sonnet 4.5 ได้ 46.1 คะแนน
ในฐานะนักพัฒนาอิสระ แค่ความเร็วตอบกลับที่เร็วขึ้น 3 เท่าก็รู้สึกว่าคุ้มค่าแล้ว
เลยคาดหวังว่าถ้าเปลี่ยนมาใช้ตัวนี้แทน claude 4.5 น่าจะเพิ่มผลิตภาพได้มาก
สงสัยว่าโมเดลเล็กแบบนี้เอาไว้ใช้ทำอะไร? ความเร็ว? เอาไว้ต่อยอดสู่ออนดีไวซ์? ลดค่า API? ถ้าคนส่วนใหญ่ใช้ Claude แบบสมัครสมาชิกอยู่แล้ว ก็อดสงสัยไม่ได้ว่ามันจะมีประโยชน์มากแค่ไหน
- ตอนนี้ทั้ง GPT-5-mini และ Haiku 4.5 ออกมาแล้ว ผมกลับอยากถามมากกว่าว่า “กรณีไหนที่ยังจำเป็นต้องใช้โมเดลใหญ่”
  ที่บริษัทของเรา งานแทบทั้งหมดนอกจากงานโค้ดภายในที่ซับซ้อน ก็ใช้โมเดลเล็กจัดการหมด
  ทั้งงานที่ผู้ใช้เห็น เวิร์กโฟลว์ต่าง ๆ (ดึงข้อมูล แปลงข้อมูล แปลภาษา รวมผล ประเมินผล ฯลฯ) โมเดล mini/nano ก็ทำได้ทั้งหมด
- ใน Claude Code โมเดลเล็กจะถูกตั้งค่าให้รับงานที่บริบทชัดเจนและโจทย์ชัดเจนจาก Sonnet 4.5 แบบอัตโนมัติได้
  ช่วยประหยัดคอนเท็กซ์วินโดว์ของเซสชันหลักและเพิ่ม throughput ของโทเคนได้มาก
- เหมาะมากสำหรับสร้างซับโมดูลเฉพาะทางไว้ให้โมเดลใหญ่เรียกใช้ผ่าน tool call
- เวิร์กโฟลว์ที่ฉันใช้กับ Cerebras Qwen Coder นั้นแทบเรียลไทม์ (3k tps) จนให้ความรู้สึกเหมือน natural language shell มากกว่าเอเจนต์
  เลยทดลองวนซ้ำได้เร็วมากก่อนจะวางแผนแล้วส่งต่อให้โมเดลใหญ่
- แค่ดูอันดับ LLM ของ OpenRouter ก็จะเห็นว่า โมเดลส่วนใหญ่ที่ถูกใช้จริงกับงาน vibe/agentic coding เป็น “คลาสเล็ก”
  ลิงก์อันดับ OpenRouter
  แน่นอนว่า Gemini 2.5 Pro ก็อยู่อันดับสูงกว่าที่คิดเหมือนกัน