- นำประสิทธิภาพของ GPT‑5.4 มาทำให้อยู่ในรูปแบบที่รวดเร็วและมีประสิทธิภาพ
- GPT‑5.4 mini พัฒนาขึ้นอย่างมากเมื่อเทียบกับ GPT‑5 mini ในด้าน การเขียนโค้ด·การให้เหตุผล·ความเข้าใจแบบมัลติโหมด·การใช้เครื่องมือ และมีความเร็วมากกว่า 2 เท่า
- GPT‑5.4 nano เป็น โมเดลที่เล็กและถูกที่สุด เหมาะสำหรับงานจัดประเภท·การดึงข้อมูล·การจัดอันดับ·งานช่วยเขียนโค้ด
- ทั้งสองโมเดลได้รับการออกแบบมาให้เหมาะกับเวิร์กโหลดที่ เวลาแฝง (latency) มีความสำคัญ จึงเหมาะกับงานช่วยเขียนโค้ดที่ต้องการการตอบสนองหรือแอปพลิเคชันมัลติโหมดแบบเรียลไทม์
- โมเดลเหล่านี้ทำให้สามารถ ออกแบบระบบ AI แบบเบาที่ปรับสมดุลความเร็ว·ต้นทุน·ประสิทธิภาพได้อย่างเหมาะสมที่สุด
ภาพรวมของ GPT‑5.4 mini และ nano
- GPT‑5.4 mini และ nano เป็น เวอร์ชันขนาดเล็ก·ประสิทธิภาพสูง ของ GPT‑5.4 ที่ออกแบบมาโดยมีเป้าหมายเพื่อการตอบสนองที่รวดเร็วในสภาพแวดล้อมการประมวลผลปริมาณมาก
- mini พัฒนาขึ้นจาก GPT‑5 mini ในด้านการเขียนโค้ด การให้เหตุผล ความเข้าใจแบบมัลติโหมด และการใช้เครื่องมือ
- nano เป็น โมเดลที่เล็กที่สุด·ถูกที่สุด ที่มีประสิทธิภาพดีขึ้นกว่า GPT‑5 nano
- ทั้งสองโมเดลได้รับการปรับแต่งให้เหมาะกับ สภาพแวดล้อมที่เวลาแฝงส่งผลต่อประสบการณ์การใช้งานผลิตภัณฑ์โดยตรง (เช่น ผู้ช่วยเขียนโค้ด ซับเอเจนต์ การตีความภาพหน้าจอ การอนุมานภาพแบบเรียลไทม์ เป็นต้น)
- OpenAI ระบุว่า “โมเดลที่ดีที่สุดไม่ได้เป็นโมเดลที่ใหญ่ที่สุดเสมอไป” พร้อมเน้นย้ำเรื่อง การตอบสนองที่รวดเร็วและความสามารถในการใช้เครื่องมือได้อย่างเสถียร
การเปรียบเทียบประสิทธิภาพ
- ในเบนช์มาร์กหลัก GPT‑5.4 mini ทำคะแนนได้สูงกว่า GPT‑5 mini และแสดงประสิทธิภาพที่ใกล้เคียง GPT‑5.4
- SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
- OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
- ใน Terminal‑Bench 2.0, Toolathlon, GPQA Diamond เป็นต้น mini แสดง ประสิทธิภาพด้านความเร็วที่สูงเมื่อเทียบกับสมรรถนะ
- nano มอบ ความคุ้มค่าด้านต้นทุนที่เหมาะสมที่สุด ในสภาพแวดล้อมที่ความเร็วและต้นทุนมีความสำคัญ
เวิร์กโฟลว์การเขียนโค้ด
- ทั้งสองโมเดลเหมาะกับสภาพแวดล้อมการเขียนโค้ดที่ต้องการ การวนทำซ้ำ (iteration) อย่างรวดเร็ว
- ทำงานด้วย เวลาแฝงต่ำ ในงานอย่างการแก้ไขโค้ด การสำรวจโค้ดเบส การสร้างฟรอนต์เอนด์ และลูปดีบัก
- GPT‑5.4 mini ทำ อัตราการผ่าน (pass rate) ได้สูงกว่า GPT‑5 mini ภายใต้เวลาแฝงใกล้เคียงกัน และเข้าใกล้ระดับของ GPT‑5.4
- ในสภาพแวดล้อม Codex โมเดลขนาดใหญ่จะทำหน้าที่วางแผน·ตัดสินใจ ขณะที่ mini ทำหน้าที่เป็น ซับเอเจนต์ที่ประมวลผลงานรายละเอียดแบบขนาน
- ตัวอย่าง: การค้นหาโค้ด การตรวจสอบไฟล์ขนาดใหญ่ การประมวลผลเอกสาร เป็นต้น
- โครงสร้างลักษณะนี้จะยิ่งมีประโยชน์มากขึ้นเมื่อ ความเร็วและประสิทธิภาพของโมเดลขนาดเล็กดีขึ้น
การใช้งานคอมพิวเตอร์และการประมวลผลแบบมัลติโหมด
- GPT‑5.4 mini แสดงประสิทธิภาพที่แข็งแกร่งใน งานมัลติโหมดที่เกี่ยวข้องกับการใช้งานคอมพิวเตอร์ ด้วย
- สามารถตีความภาพหน้าจอของอินเทอร์เฟซผู้ใช้ที่ซับซ้อนได้อย่างรวดเร็วและดำเนินงานได้
- ใน OSWorld‑Verified มีประสิทธิภาพใกล้เคียง GPT‑5.4 และเหนือกว่า GPT‑5 mini อย่างชัดเจน
รูปแบบการให้บริการและราคา
- GPT‑5.4 mini
- ใช้งานได้ใน API, Codex และ ChatGPT
- ฟีเจอร์ที่รองรับ: อินพุตข้อความ·ภาพ การใช้เครื่องมือ การเรียกฟังก์ชัน การค้นหาเว็บ·ไฟล์ การใช้งานคอมพิวเตอร์ และสกิล
- คอนเท็กซ์วินโดว์ 400k, อินพุต $0.75 ต่อ 1 ล้านโทเค็น, เอาต์พุต $4.50 ต่อ 1 ล้านโทเค็น
- ใน Codex ใช้โควตา GPT‑5.4 เพียง 30% และสามารถจัดการงานเขียนโค้ดแบบง่ายได้ด้วย ต้นทุนประมาณ 1/3
- ใน ChatGPT ให้ผู้ใช้ Free·Go ใช้งานในฟีเจอร์ “Thinking” และใช้เป็น โมเดลสำรอง (fallback) ของ GPT‑5.4 Thinking สำหรับผู้ใช้อื่น
- GPT‑5.4 nano
- ให้บริการเฉพาะ API
- อินพุต $0.20 ต่อ 1 ล้านโทเค็น, เอาต์พุต $1.25 ต่อ 1 ล้านโทเค็น
รายละเอียดผลเบนช์มาร์กเพิ่มเติม
- การเขียนโค้ด
- SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
- Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
- การเรียกใช้เครื่องมือ
- MCP Atlas: mini 57.7%, nano 56.1%
- Toolathlon: mini 42.9%, nano 35.5%
- τ2‑bench(การสื่อสาร): mini 93.4%, nano 92.5%
- การประเมินความฉลาด
- GPQA Diamond: mini 88.0%, nano 82.8%
- HLE w/ tool: mini 41.5%, nano 37.7%
- มัลติโหมด·วิชัน
- MMMUPro w/ Python: mini 78.0%, nano 69.5%
- OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (ยิ่งต่ำยิ่งดี)
- ลองคอนเท็กซ์
- Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
- MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%
การประเมินโดยรวม
- GPT‑5.4 mini และ nano เป็น โมเดลขนาดเบาที่เพิ่มสมดุลระหว่างความเร็ว·ต้นทุน·ประสิทธิภาพได้สูงสุด เหมาะกับแอปพลิเคชันเรียลไทม์ขนาดใหญ่
- mini สามารถมีบทบาทสำคัญใน สถาปัตยกรรมซับเอเจนต์หรือระบบมัลติโหมด ส่วน nano มีประสิทธิภาพสำหรับ งานที่เรียบง่าย·ประมวลผลปริมาณมาก
- OpenAI มอบ พื้นฐานสำหรับการออกแบบระบบ AI หลายขนาดได้อย่างยืดหยุ่น ผ่านสองโมเดลนี้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ลองเช็กความเร็วปัจจุบันผ่าน API แล้ว ค่อนข้างน่าประทับใจ
GPT-5 Mini ได้ประมาณ 55~60 tokens/s โดยทั่วไป และในโหมด priority ได้ราว 115~120 t/s, ส่วน GPT-5.4 Mini เฉลี่ย 180~190 t/s และ GPT-5.4 Nano อยู่ที่ประมาณ 200 t/s
ถ้าเทียบกัน Gemini 3 Flash อยู่ที่ราว 130 t/s (Gemini API) และบน Vertex อยู่ราว 120 t/s
ถ้าดูราคาควบคู่กัน Claude Opus 4.6 อยู่ที่ $5/$25, GPT-5.4 อยู่ที่ $2.5/$15, Gemini 3.1 Pro อยู่ที่ $2/$12 เป็นต้น
มีการแชร์กริด เปรียบเทียบภาพนกกระทุงจากหลายโมเดล
โมเดล GPT ดีสำหรับการสนทนา แต่ประสบการณ์ในงานแบบ agentic work ไม่ค่อยดี
ทั้งช้าและเข้าใจคำสั่งไม่ดี ขณะที่โมเดลอื่นใช้พรอมป์ต์เดียวกันกลับทำงานได้ดี
Opus ทำงานร่วมกันได้ดี แต่บางครั้งก็เสนออะไรแปลก ๆ พรอมป์ต์ของ Codex อยู่ในคลัง OpenCode
ฉันคิดว่าการปล่อย โมเดลขนาดเล็ก (mini) มีความหมายมากกว่า SOTA เสียอีก
โมเดลใหญ่ดีมากอยู่แล้วจนแยกความต่างได้ยาก แต่โมเดลเล็กพอเปลี่ยนเวอร์ชันแล้วมักมี การกระโดดของคุณภาพ ชัดเจน
แถมยังถูกกว่ามาก เลยเอาไปใช้ในบริการจริงได้ง่าย
anyมากเกินไปใน TypeScriptสงสัยว่าทำไมการประเมิน LLM ถึงยังทำกันด้วย ความรู้สึก ("vibe check")
การเปรียบเทียบส่วนใหญ่ไม่ได้อิงการทดลองอย่างเป็นระบบ แต่เป็นการทดสอบแบบฉับพลัน
ตาม benchmark แล้ว GPT 5.4 Nano เหนือกว่า GPT-5 Mini ในเกือบทุกด้าน แต่ ราคากลับสูงขึ้น
GPT 5 mini: อินพุต $0.25 / เอาต์พุต $2.00 → GPT 5.4 mini: อินพุต $0.75 / เอาต์พุต $4.50
คะแนน OSWorld น่าสนใจ Mini ได้ 72.1% ส่วนเกณฑ์มนุษย์คือ 72.4% ถือว่าแทบจะเท่ากัน
เพราะงั้นถ้าไม่ใช่เคสล้มเหลวเฉพาะทาง ก็ใช้ Mini เป็นค่ามาตรฐานได้เลย
แต่ใน pipeline แบบหลายโมเดล ถ้า nano sub-agent ส่งต่อประวัติข้อความทั้งหมดแบบเดิม ขั้นตอน “ราคาถูก” ก็จะหมดความหมาย
เลยสงสัยว่ามีใครเคยวัดไหมว่าเมื่อความยาวคอนเท็กซ์ถึงระดับไหน nano จะไม่เร็วกว่าอีกต่อไป
ใน benchmark ของฉันเอง Nano ก็ให้ผลดีกว่า Mini
5.4 mini มี ปัญหาเรื่องความสม่ำเสมอ และแม้จะตั้ง temperature 0 ก็ยังออกมาปะปนกันทั้งคำตอบถูกและผิด
ดูลิงก์เปรียบเทียบ
คะแนน OSWorld ของ 5.4 Mini น่าทึ่งมาก แต่ก่อนโมเดลทั้งช้าและไม่แม่นพอจนใช้กับเอเจนต์แบบเรียลไทม์ไม่ได้ แต่ตอนนี้เริ่มเห็นความเป็นไปได้แล้ว
เช่น สามารถเทียบพฤติกรรมของแอป Win32 กับเวอร์ชันเว็บเพื่อสร้างการทดสอบอัตโนมัติได้ และยังคุ้มค่าด้านต้นทุนเมื่อขยายในระดับใหญ่
ถ้าดูตาม SWE-Bench, 5.4 mini high มีความแม่นยำและราคาใกล้กับ GPT 5.4 low แต่ เวลาแฝง (latency) นานกว่า (254 วินาที vs 171 วินาที)
สำหรับงานง่าย การรันที่ effort level ต่ำจะช่วยประหยัดต้นทุนได้มากกว่า แต่ ประสิทธิภาพในการจัดการคอนเท็กซ์ยาว ก็ยังอ่อนอยู่