- Claude Haiku 4.5 เป็นโมเดลขนาดเล็กที่แม้จะมีขนาดกะทัดรัด แต่ให้ ประสิทธิภาพด้านโค้ดระดับ Claude Sonnet 4 ด้วย ต้นทุนเพียง 1 ใน 3 และ ความเร็วมากกว่า 2 เท่า
- ในเบนช์มาร์กการพัฒนาจริงอย่าง SWE-bench Verified แสดงให้เห็นถึง ประสิทธิภาพและการตอบสนองของ AI สำหรับงานเขียนโค้ด ที่เหนือกว่ารุ่นก่อนหน้า
- เมื่อทำงานร่วมกับ Sonnet 4.5 สามารถจัดโครงแบบ มัลติเอเจนต์ หรือแบ่งปัญหาที่ซับซ้อนออกไปประมวลผลได้ และเหมาะกับ งานเรียลไทม์ กับ สภาพแวดล้อมที่ต้องการ latency ต่ำ
- สามารถสัมผัสข้อดีของ ความฉลาดและความเร็วสูง ได้ในงานอย่างแชตบอตแบบเรียลไทม์ การซัพพอร์ตลูกค้า และ pair programming
- จากผลการประเมินด้านความปลอดภัย พบว่ามี ระดับการจัดแนวสูงที่สุดในบรรดาโมเดลของ Anthropic และเปิดตัวภายใต้มาตรฐาน AI Safety Level 2 (ASL-2)
- $1/$5 ต่อหนึ่งล้านโทเค็นขาเข้า/ขาออก
แนะนำ
- Claude Haiku 4.5 คือโมเดลขนาดเล็กล่าสุดในไลน์อัปของ Anthropic ที่มุ่งสร้าง สมดุลระหว่างประสิทธิภาพ ความเร็ว และความคุ้มค่า สำหรับผู้ใช้ทุกคน
- มีความสามารถด้านการเขียนโค้ดใกล้เคียงกับ Claude Sonnet 4 แต่มีต้นทุนเพียง 1 ใน 3 และเร็วกว่า 2 เท่าขึ้นไป
- ในบางงานเฉพาะทาง (เช่น การใช้งานคอมพิวเตอร์) ยังทำผลงานได้ ดีกว่า Sonnet 4
- โดยเฉพาะในเครื่องมือแบบเรียลไทม์อย่าง Claude for Chrome หรือ Claude Code จะมอบ สภาพแวดล้อมผู้ช่วย AI ที่แทบไร้ความหน่วง
คุณสมบัติหลักและกรณีใช้งาน
- เหมาะกับ งานเรียลไทม์และงานที่ต้องการ latency ต่ำ จึงแสดงประสิทธิภาพสูงในแชตบอต งานบริการลูกค้า และ pair programming
- สำหรับผู้ใช้ Claude Code โมเดลนี้ให้ การตอบสนองที่รวดเร็ว เหมาะอย่างยิ่งกับโปรเจ็กต์แบบหลายเอเจนต์และการทำต้นแบบอย่างรวดเร็ว
- แม้ปัจจุบัน Sonnet 4.5 จะยังคงเป็นโมเดลระดับสูงสุด แต่ Haiku 4.5 ก็มอบ ประสิทธิภาพใกล้เคียงพร้อมความคุ้มค่าที่สูงกว่า
- ทั้งสองโมเดลยังสามารถใช้งานร่วมกันได้ เช่น ให้ Sonnet 4.5 แยกปัญหาที่ซับซ้อนออกมา แล้วให้ Haiku 4.5 หลายตัวประมวลผลงานย่อยแบบขนาน
- Claude Haiku 4.5 พร้อมใช้งานทั่วโลกตั้งแต่วันนี้ และนักพัฒนาสามารถใช้งานได้ทันทีใน Claude API ผ่าน
claude-haiku-4-5
- ราคาอยู่ที่ $1/$5 ต่อหนึ่งล้านโทเค็นขาเข้า/ขาออก
เบนช์มาร์กและการประเมินจากผู้ใช้
- Haiku 4.5 เป็นหนึ่งในโมเดลที่ทรงพลังที่สุดที่ Anthropic เคยเปิดตัว
- บริษัทหลากหลายแห่งอย่าง Augment, Warp, Gamma ระบุว่าจากการทดสอบจริง พบว่าได้ คุณภาพโค้ดมากกว่า 90% เมื่อเทียบกับ Sonnet 4.5
- ในงานอย่าง agentic coding การประสานงานของซับเอเจนต์ และงานการใช้งานคอมพิวเตอร์ แสดงให้เห็นถึง ความก้าวหน้าแบบก้าวกระโดด พร้อมเพิ่มความฉับไวของประสบการณ์พัฒนาอย่างสูงสุด
- เดิมทีคุณภาพ ความเร็ว และต้นทุนมักต้องแลกกัน แต่ Haiku 4.5 สามารถทำได้ทั้ง ความเร็วและความคุ้มค่าด้านต้นทุน
- ให้ทั้งความฉลาดและการตอบสนองแบบเรียลไทม์ จึงเปิดทางสู่ ความเป็นไปได้ใหม่ของแอปพลิเคชัน AI
- ประสิทธิภาพที่เมื่อ 6 เดือนก่อนยังถือว่าเป็น ระดับล้ำสมัย ตอนนี้สามารถทำได้ในราคาถูกลงและเร็วขึ้น
- รองรับ เวิร์กโฟลว์ที่ซับซ้อน ได้อย่างรวดเร็วและเสถียร พร้อมความสามารถในการแก้ไขตัวเองแบบเรียลไทม์
- ในงานเฉพาะทางอย่างการสร้างข้อความสำหรับสไลด์ ทำอัตราความสำเร็จได้สูงกว่ารุ่นเดิมอย่างชัดเจน
- เมื่อนำไปใช้ร่วมกับ GitHub Copilot เป็นต้น จะให้คุณภาพโค้ดใกล้เคียง Sonnet 4 แต่เร็วกว่า
การประเมินด้านความปลอดภัย
- จากผลการประเมินด้าน ความปลอดภัยและการจัดแนว หลายรูปแบบ พบว่าอัตราพฤติกรรมที่เป็นปัญหาต่ำ และความสามารถด้านการจัดแนวก็ดีขึ้นเมื่อเทียบกับเวอร์ชันก่อนหน้า (Claude Haiku 3.5)
- มีอัตราพฤติกรรมไม่สอดคล้องต่ำกว่า Sonnet 4.5/Opus 4.1 จึงถูกประเมินว่าเป็น โมเดลที่ปลอดภัยที่สุด ในบรรดาโมเดลที่ Anthropic สร้างขึ้น
- ความเสี่ยงด้านเคมี ชีวภาพ รังสี และนิวเคลียร์ (CBRN) ก็ถูกประเมินว่าอยู่ในระดับต่ำมาก จึงเปิดตัวภายใต้มาตรฐาน ASL-2
- จึงสามารถใช้งานได้อย่างยืดหยุ่นกว่ามาตรฐาน ASL-3 ที่มีข้อจำกัดเข้มงวดกว่า (Sonnet 4.5, Opus 4.1)
ข้อมูลเพิ่มเติม
- Claude Haiku 4.5 ใช้งานได้ทันทีใน Claude Code และแอปของ Anthropic
- ด้วยการประมวลผลที่มีประสิทธิภาพ ผู้ใช้จึงสามารถเข้าถึง ประสิทธิภาพระดับโมเดลพรีเมียม ได้ภายในข้อจำกัดการใช้งาน
- สามารถเลือกใช้เป็นทางเลือกที่ประหยัดกว่าสำหรับ Haiku 3.5 และ Sonnet 4 ได้ผ่าน API, Amazon Bedrock, Google Cloud Vertex AI
- รายละเอียดทางเทคนิค ผลการประเมิน และข้อมูลเพิ่มเติม ดูได้จาก System Card, หน้าข้อมูลโมเดล และ เอกสาร
2 ความคิดเห็น
พิมพ์
/model haikuใน claude code ก็ใช้งานได้ เร็วกว่า sonnet แต่ผลลัพธ์ก็ออกมาดี เลยถือว่าใช้งานได้ค่อนข้างสะดวกเลยครับความคิดเห็นจาก Hacker News
มีการแชร์ภาพนกกระทุงน่ารักที่กำลังขี่จักรยานหน้าตาดูน่าสงสัยนิดหน่อย ลิงก์
Six months in LLMs,
คำอธิบายแท็กนกกระทุงขี่จักรยาน,
วิธีวิทยาของเบนช์มาร์ก
Shitaki Mushroom riding a rowboat
พรอมป์ต์: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 วินาที
และ Grok 4 Fast ก็ใช้ได้กับสไตล์นกกระทุง+จักรยาน แต่ไม่ค่อยดีนักกับคำขอแบบอื่น
ตัวอย่าง Grok, พรอมป์ต์: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 วินาที
สุดท้ายคือผลลัพธ์จาก GPT-5: ตัวอย่าง, พรอมป์ต์: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 วินาที
แม้จะเป็นความเห็นส่วนตัว แต่จุดบนเห็ดของ Haiku น่าประทับใจมาก
และความต่างด้านประสิทธิภาพระหว่างเบนช์มาร์กสาธารณะกับสถานการณ์ทดสอบแบบไม่เป็นทางการนั้นน้อยที่สุดในบรรดาโมเดลของ Anthropic
บางครั้งโมเดลของ Anthropic ยังให้ผลดีกว่าโอเพนเบนช์มาร์กเสียอีก
Time-to-First ของ Haiku ก็เป็นข้อได้เปรียบที่สำคัญมากด้วย
แม้จะเป็นการทดสอบช่วงแรกมาก ๆ แต่ผลลัพธ์ก็น่าประทับใจไม่น้อย
ต่างจาก GPT-5 มันใส่ส่วนโค้ดที่ไม่จำเป็นในการแก้ไขโค้ดน้อยกว่า จึงเปลี่ยนแปลงได้แม่นยำกว่า
ทำให้ในงานจริง Haiku 4.5 อาจคุ้มค่ากว่าในแง่ประสิทธิภาพการใช้งาน แม้ต้นทุนที่เห็นจะสูงขึ้น
ปัญหาคือพลังของแบรนด์
ต่อให้ Haiku 4.5 อาจมีคุณภาพใกล้ Sonnet 4 แต่ภาพจำต่อโมเดลขนาดเล็กและการถดถอยของประสิทธิภาพบางส่วนในช่วงหลัง ทำให้เลือก Haiku 4.5 แทน Sonnet 4.5 ได้ไม่ง่าย
สงสัยว่า Haiku 3, 3.5, 4.5 อยู่ในช่วงจำนวนพารามิเตอร์ใกล้เคียงกันหรือไม่ และอยากให้เปิดเผยข้อมูลโมเดลทั้งหมดอย่างโปร่งใส
เพราะคนส่วนใหญ่ก็มักอยากใช้โมเดลใหญ่กว่าอยู่แล้ว แต่ส่วนตัวคิดว่า GPT-5 น่าประทับใจที่สุดเมื่อเทียบราคาและประสิทธิภาพ
ราคาอ้างอิง:
Haiku 3: อินพุต $0.25/M, เอาต์พุต $1.25/M
Haiku 4.5: อินพุต $1.00/M, เอาต์พุต $5.00/M
GPT-5: อินพุต $1.25/M, เอาต์พุต $10.00/M
GPT-5-mini: อินพุต $0.25/M, เอาต์พุต $2.00/M
GPT-5-nano: อินพุต $0.05/M, เอาต์พุต $0.40/M
GLM-4.6: อินพุต $0.60/M, เอาต์พุต $2.20/M
ค่าเฉลี่ยอยู่ที่ 220 token/sec ซึ่งเกือบ 2 เท่าของโมเดลใกล้เคียงกัน
ถ้ารักษาความเร็วระดับนี้ได้อย่างสม่ำเสมอ จะคุ้มค่ามาก
โดยอ้างอิงแล้วเร็วใกล้เคียง Gemini 2.5 Flash Lite
แน่นอนว่า Groq, Cerebras ฯลฯ ก็ไปได้ถึง 1000 token/sec แต่ไม่ใช่โมเดลที่เทียบกันตรง ๆ
โมเดลของ Anthropic ในเบนช์มาร์กส่วนตัวที่ทดลองมามักทำได้ดีกว่าโอเพนเบนช์มาร์กเสมอ จึงค่อนข้างคาดหวัง
ถ้าความเร็ว ประสิทธิภาพ และราคายังคงแบบนี้ต่อไป Haiku 4.5 จะเป็นตัวเลือกที่ยอดเยี่ยมสำหรับงานเขียนโค้ดส่วนใหญ่
ส่วน Sonnet คงใช้เฉพาะบางสถานการณ์
ก่อนหน้านี้โมเดล Claude มักมีปัญหาประสิทธิภาพตกในงานสายโซ่ยาว ๆ (เกิน 7 นาที) ซึ่งถ้า Haiku 4.5 เป็นแบบนั้นด้วยก็ถือเป็นจุดอ่อน
แต่ตอนนี้ยังไม่ได้ลองทดสอบงานระยะยาว
ปัญหาคือใน Claude Code ตอนนี้ยังนับการใช้ Haiku 4.5 กับ Sonnet 4.5 เท่ากันอยู่ ทั้งที่ราคาต่างกันมาก
และหน้าสนับสนุนก็ยังไม่ได้อัปเดต เอกสารช่วยเหลือ
ข้อมูลแบบนี้ควรประกาศให้ชัดตั้งแต่วันเปิดตัว
ระบบเครื่องมือ การทดสอบ และการประกาศแบบนี้ กลับมาบดบังประสิทธิภาพที่ยอดเยี่ยมของโมเดล Anthropic
ในที่สุดรอบนี้ก็ออกมาแล้ว และกำลังทยอยอัปเกรดบอตทั้งหมดของตัวเองอยู่
ช่วงนี้การเปรียบเทียบโมเดลและฟีเจอร์ต่าง ๆ ยุ่งยากและน่ารำคาญเกินไป
แต่ละระบบนิเวศ LLM ก็มีข้อจำกัดต่างกันจนต้องสลับไปมาอยู่ตลอด และตอนนี้ก็จ่าย Claude Code กับ Codex อย่างละ $20 ต่อเดือน
ใช้ Cursor ด้วยเหมือนกัน แต่ไม่ได้สนใจว่าเบื้องหลังใช้โมเดลอะไร
แค่อยากได้เครื่องมือที่รวมเป็นหนึ่งและใช้งานได้สม่ำเสมอ
อยากให้มันดีขึ้นเองโดยอัตโนมัติ โดยไม่ต้องให้ฉันมาคิดว่าเบื้องหลังเกิดอะไรขึ้น
เหมือน TLS server ที่อยากให้รวมอยู่ได้ทุกที่ทั้ง CLI/Neovim/IDE
แต่เดี๋ยวก็มีคนบอกว่าแนวทางขับเคลื่อนด้วยตัวอย่างดีกว่าอีก ถึงแต่ละแบบจะมีข้อดีข้อเสีย แต่เพราะไม่มีฉันทามติมาตรฐานในอุตสาหกรรม จึงหาตัวอย่างดี ๆ ได้ยาก
ก่อนหน้านี้มีคนตอบไว้ว่า “bug-driven development” แล้วรู้สึกโดนใจ สุดท้ายก็คือใช้วิธีอะไรก็ได้ให้ได้ผลก่อน แล้วค่อยไล่แก้บั๊กกับเออร์เรอร์ทีหลัง
เลยใช้ GitHub Copilot Pro+ อยู่
พอมีโมเดลใหม่ออกมาก็เลือกใช้ได้ทันที (Claude Haiku 4.5 ก็มีแล้ว)
ยังไม่เคยใช้โควต้าพรีเมียมหมด เพราะไม่ได้เป็นผู้ใช้สายหนัก
ยังไม่เคยลองเวอร์ชัน CLI แต่ก็น่าสนใจ
ก่อนที่ปลั๊กอิน IntelliJ จะอัปเดต เคยต้องไปยิงพรอมป์ต์ใน VS Code แล้วค่อยกลับมา
Spacesในเวอร์ชันเว็บก็มีประโยชน์กับงานเฉพาะทางไม่แน่ใจนักว่า Copilot เทียบกับ LLM เดี่ยว ๆ แล้วเป็นอย่างไร แต่ตราบใดที่มันโผล่มาเฉพาะเวลาที่ฉันต้องการและช่วยทำงานเงียบ ๆ ได้ดีก็พอแล้ว
ด้านหนึ่งคือหลีกเลี่ยง lock-in อีกด้านก็เพื่อลดความไม่สะดวกจากการสลับเครื่องมือ และถึงจะ lock-in ก็ยังย้ายออกได้ง่าย
อยากรู้ว่าอนาคตของ Opus จะเป็นอย่างไร
จะยังไปทางประสิทธิภาพระดับ “สัตว์ประหลาด” พร้อมราคาสูงต่อไป หรือการขยับจาก 4 ไป 4.5 จะไม่หวือหวามากนัก
แน่นอนก็ไม่รู้ว่าหมายเลขเวอร์ชันมีความหมายจริงหรือแค่เพื่อการตลาด
แม้จะเป็นแค่คนตามข่าวในวงการ ไม่ได้เป็นคนสร้างหรือพัฒนาเอง แต่การใช้โมเดลใหญ่ฟাইনจูนโมเดลเล็กก็เป็นแนวทางปกติของอุตสาหกรรม
GPT-4 Turbo ที่เร็วและถูกกว่า GPT-4 ต้นฉบับมากก็น่าจะอธิบายได้ด้วยเหตุผลนี้
การที่ OpenAI ซ่อน reasoning token ก็น่าจะเป็นกลยุทธ์เพื่อกันคู่แข่งเอาไปใช้ฝึกข้อมูล
น่าจะยังพัฒนาโมเดล 3 ขนาดคือใหญ่/กลาง/เล็กต่อไป และเลือกจังหวะเปิดตัวตามความต้องการของตลาดกับความสามารถของโมเดล
ลองเปรียบเทียบ Haiku กับ Sonnet กับคำถามที่ต้องใช้การทำเอกสารโค้ดจริง ๆ
Haiku แต่งเอาผลลัพธ์ของฟังก์ชันขึ้นมาเองจนตอบผิด ส่วน Sonnet ตอบถูก
ผลลัพธ์ Sonnet: ลิงก์
ราคาอินพุต $1 เอาต์พุต $5 แม้จะถูกกว่า Sonnet 4.5 แต่ตอนนี้มี LLM ตัวเล็กและเร็วออกมาเยอะมาก จนสำหรับงาน agent coding ขนาดใหญ่ โมเดลที่ถูกกว่ายังสำคัญกว่า
Sonnet ยังถูกใช้กันมากทั้งที่ราคาแพง ดังนั้นถ้า Haiku คุณภาพดีพอก็น่าจะได้รับความนิยมมากพอ
โมเดลโอเพนซอร์สราคาถูกแทบทั้งหมดทำแคชได้มีประสิทธิภาพไม่เท่านี้
เรื่องนี้อาจใหญ่มากจริง ๆ
สิ่งสำคัญกว่ามากคือความเร็ว ถึงขั้นยอมจ่ายให้ Haiku 4.5 มากกว่า Sonnet 4.5 ก็ได้
เวลาที่ต้องรอคำตอบมันเสียเปล่ามาก
ถ้าทำ SWE Bench ได้เกิน 73% สำหรับฉันก็พอแล้ว
เข้าใจว่านี่คือผลิตภัณฑ์ Reasoner ขนาดเล็กตัวแรกของ Anthropic และแนบข้อมูล system card มาด้วย
System Card PDF
(ดูการพูดคุยที่เกี่ยวข้องได้ที่นี่)
ใน Extended NYT Connections (เบนช์มาร์กปริศนาจัดกลุ่มคำ) Haiku 4.5 ได้ 20.0 คะแนน, Haiku 3.5 ได้ 10.0 คะแนน, Sonnet 3.7 ได้ 19.2 คะแนน, Sonnet 4.0 ได้ 26.6 คะแนน, และ Sonnet 4.5 ได้ 46.1 คะแนน
ในฐานะนักพัฒนาอิสระ แค่ความเร็วตอบกลับที่เร็วขึ้น 3 เท่าก็รู้สึกว่าคุ้มค่าแล้ว
เลยคาดหวังว่าถ้าเปลี่ยนมาใช้ตัวนี้แทน claude 4.5 น่าจะเพิ่มผลิตภาพได้มาก
สงสัยว่าโมเดลเล็กแบบนี้เอาไว้ใช้ทำอะไร? ความเร็ว? เอาไว้ต่อยอดสู่ออนดีไวซ์? ลดค่า API? ถ้าคนส่วนใหญ่ใช้ Claude แบบสมัครสมาชิกอยู่แล้ว ก็อดสงสัยไม่ได้ว่ามันจะมีประโยชน์มากแค่ไหน
ที่บริษัทของเรา งานแทบทั้งหมดนอกจากงานโค้ดภายในที่ซับซ้อน ก็ใช้โมเดลเล็กจัดการหมด
ทั้งงานที่ผู้ใช้เห็น เวิร์กโฟลว์ต่าง ๆ (ดึงข้อมูล แปลงข้อมูล แปลภาษา รวมผล ประเมินผล ฯลฯ) โมเดล mini/nano ก็ทำได้ทั้งหมด
ช่วยประหยัดคอนเท็กซ์วินโดว์ของเซสชันหลักและเพิ่ม throughput ของโทเคนได้มาก
เลยทดลองวนซ้ำได้เร็วมากก่อนจะวางแผนแล้วส่งต่อให้โมเดลใหญ่
ลิงก์อันดับ OpenRouter
แน่นอนว่า Gemini 2.5 Pro ก็อยู่อันดับสูงกว่าที่คิดเหมือนกัน