OpenAI เปิดตัว GPT‑5.4 Mini และ Nano

(openai.com)

3 คะแนน โดย GN⁺ 2026-03-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

นำประสิทธิภาพของ GPT‑5.4 มาทำให้อยู่ในรูปแบบที่รวดเร็วและมีประสิทธิภาพ
GPT‑5.4 mini พัฒนาขึ้นอย่างมากเมื่อเทียบกับ GPT‑5 mini ในด้าน การเขียนโค้ด·การให้เหตุผล·ความเข้าใจแบบมัลติโหมด·การใช้เครื่องมือ และมีความเร็วมากกว่า 2 เท่า
GPT‑5.4 nano เป็น โมเดลที่เล็กและถูกที่สุด เหมาะสำหรับงานจัดประเภท·การดึงข้อมูล·การจัดอันดับ·งานช่วยเขียนโค้ด
ทั้งสองโมเดลได้รับการออกแบบมาให้เหมาะกับเวิร์กโหลดที่ เวลาแฝง (latency) มีความสำคัญ จึงเหมาะกับงานช่วยเขียนโค้ดที่ต้องการการตอบสนองหรือแอปพลิเคชันมัลติโหมดแบบเรียลไทม์
โมเดลเหล่านี้ทำให้สามารถ ออกแบบระบบ AI แบบเบาที่ปรับสมดุลความเร็ว·ต้นทุน·ประสิทธิภาพได้อย่างเหมาะสมที่สุด

ภาพรวมของ GPT‑5.4 mini และ nano

GPT‑5.4 mini และ nano เป็น เวอร์ชันขนาดเล็ก·ประสิทธิภาพสูง ของ GPT‑5.4 ที่ออกแบบมาโดยมีเป้าหมายเพื่อการตอบสนองที่รวดเร็วในสภาพแวดล้อมการประมวลผลปริมาณมาก
- mini พัฒนาขึ้นจาก GPT‑5 mini ในด้านการเขียนโค้ด การให้เหตุผล ความเข้าใจแบบมัลติโหมด และการใช้เครื่องมือ
- nano เป็น โมเดลที่เล็กที่สุด·ถูกที่สุด ที่มีประสิทธิภาพดีขึ้นกว่า GPT‑5 nano
ทั้งสองโมเดลได้รับการปรับแต่งให้เหมาะกับ สภาพแวดล้อมที่เวลาแฝงส่งผลต่อประสบการณ์การใช้งานผลิตภัณฑ์โดยตรง (เช่น ผู้ช่วยเขียนโค้ด ซับเอเจนต์ การตีความภาพหน้าจอ การอนุมานภาพแบบเรียลไทม์ เป็นต้น)
OpenAI ระบุว่า “โมเดลที่ดีที่สุดไม่ได้เป็นโมเดลที่ใหญ่ที่สุดเสมอไป” พร้อมเน้นย้ำเรื่อง การตอบสนองที่รวดเร็วและความสามารถในการใช้เครื่องมือได้อย่างเสถียร

การเปรียบเทียบประสิทธิภาพ

ในเบนช์มาร์กหลัก GPT‑5.4 mini ทำคะแนนได้สูงกว่า GPT‑5 mini และแสดงประสิทธิภาพที่ใกล้เคียง GPT‑5.4
- SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
- OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
ใน Terminal‑Bench 2.0, Toolathlon, GPQA Diamond เป็นต้น mini แสดง ประสิทธิภาพด้านความเร็วที่สูงเมื่อเทียบกับสมรรถนะ
nano มอบ ความคุ้มค่าด้านต้นทุนที่เหมาะสมที่สุด ในสภาพแวดล้อมที่ความเร็วและต้นทุนมีความสำคัญ

เวิร์กโฟลว์การเขียนโค้ด

ทั้งสองโมเดลเหมาะกับสภาพแวดล้อมการเขียนโค้ดที่ต้องการ การวนทำซ้ำ (iteration) อย่างรวดเร็ว
- ทำงานด้วย เวลาแฝงต่ำ ในงานอย่างการแก้ไขโค้ด การสำรวจโค้ดเบส การสร้างฟรอนต์เอนด์ และลูปดีบัก
GPT‑5.4 mini ทำ อัตราการผ่าน (pass rate) ได้สูงกว่า GPT‑5 mini ภายใต้เวลาแฝงใกล้เคียงกัน และเข้าใกล้ระดับของ GPT‑5.4
ในสภาพแวดล้อม Codex โมเดลขนาดใหญ่จะทำหน้าที่วางแผน·ตัดสินใจ ขณะที่ mini ทำหน้าที่เป็น ซับเอเจนต์ที่ประมวลผลงานรายละเอียดแบบขนาน
- ตัวอย่าง: การค้นหาโค้ด การตรวจสอบไฟล์ขนาดใหญ่ การประมวลผลเอกสาร เป็นต้น
โครงสร้างลักษณะนี้จะยิ่งมีประโยชน์มากขึ้นเมื่อ ความเร็วและประสิทธิภาพของโมเดลขนาดเล็กดีขึ้น

การใช้งานคอมพิวเตอร์และการประมวลผลแบบมัลติโหมด

GPT‑5.4 mini แสดงประสิทธิภาพที่แข็งแกร่งใน งานมัลติโหมดที่เกี่ยวข้องกับการใช้งานคอมพิวเตอร์ ด้วย
- สามารถตีความภาพหน้าจอของอินเทอร์เฟซผู้ใช้ที่ซับซ้อนได้อย่างรวดเร็วและดำเนินงานได้
- ใน OSWorld‑Verified มีประสิทธิภาพใกล้เคียง GPT‑5.4 และเหนือกว่า GPT‑5 mini อย่างชัดเจน

รูปแบบการให้บริการและราคา

GPT‑5.4 mini
- ใช้งานได้ใน API, Codex และ ChatGPT
- ฟีเจอร์ที่รองรับ: อินพุตข้อความ·ภาพ การใช้เครื่องมือ การเรียกฟังก์ชัน การค้นหาเว็บ·ไฟล์ การใช้งานคอมพิวเตอร์ และสกิล
- คอนเท็กซ์วินโดว์ 400k, อินพุต $0.75 ต่อ 1 ล้านโทเค็น, เอาต์พุต $4.50 ต่อ 1 ล้านโทเค็น
- ใน Codex ใช้โควตา GPT‑5.4 เพียง 30% และสามารถจัดการงานเขียนโค้ดแบบง่ายได้ด้วย ต้นทุนประมาณ 1/3
- ใน ChatGPT ให้ผู้ใช้ Free·Go ใช้งานในฟีเจอร์ “Thinking” และใช้เป็น โมเดลสำรอง (fallback) ของ GPT‑5.4 Thinking สำหรับผู้ใช้อื่น
GPT‑5.4 nano
- ให้บริการเฉพาะ API
- อินพุต $0.20 ต่อ 1 ล้านโทเค็น, เอาต์พุต $1.25 ต่อ 1 ล้านโทเค็น

รายละเอียดผลเบนช์มาร์กเพิ่มเติม

การเขียนโค้ด
- SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
- Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
การเรียกใช้เครื่องมือ
- MCP Atlas: mini 57.7%, nano 56.1%
- Toolathlon: mini 42.9%, nano 35.5%
- τ2‑bench(การสื่อสาร): mini 93.4%, nano 92.5%
การประเมินความฉลาด
- GPQA Diamond: mini 88.0%, nano 82.8%
- HLE w/ tool: mini 41.5%, nano 37.7%
มัลติโหมด·วิชัน
- MMMUPro w/ Python: mini 78.0%, nano 69.5%
- OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (ยิ่งต่ำยิ่งดี)
ลองคอนเท็กซ์
- Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
- MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%

การประเมินโดยรวม

GPT‑5.4 mini และ nano เป็น โมเดลขนาดเบาที่เพิ่มสมดุลระหว่างความเร็ว·ต้นทุน·ประสิทธิภาพได้สูงสุด เหมาะกับแอปพลิเคชันเรียลไทม์ขนาดใหญ่
mini สามารถมีบทบาทสำคัญใน สถาปัตยกรรมซับเอเจนต์หรือระบบมัลติโหมด ส่วน nano มีประสิทธิภาพสำหรับ งานที่เรียบง่าย·ประมวลผลปริมาณมาก
OpenAI มอบ พื้นฐานสำหรับการออกแบบระบบ AI หลายขนาดได้อย่างยืดหยุ่น ผ่านสองโมเดลนี้

1 ความคิดเห็น

GN⁺ 2026-03-18

ความคิดเห็นจาก Hacker News

ลองเช็กความเร็วปัจจุบันผ่าน API แล้ว ค่อนข้างน่าประทับใจ
GPT-5 Mini ได้ประมาณ 55~60 tokens/s โดยทั่วไป และในโหมด priority ได้ราว 115~120 t/s, ส่วน GPT-5.4 Mini เฉลี่ย 180~190 t/s และ GPT-5.4 Nano อยู่ที่ประมาณ 200 t/s
ถ้าเทียบกัน Gemini 3 Flash อยู่ที่ราว 130 t/s (Gemini API) และบน Vertex อยู่ราว 120 t/s
ถ้าดูราคาควบคู่กัน Claude Opus 4.6 อยู่ที่ $5/$25, GPT-5.4 อยู่ที่ $2.5/$15, Gemini 3.1 Pro อยู่ที่ $2/$12 เป็นต้น
- ดูแค่ token/s อย่างเดียวไม่พอ ต้องดู TTFT (เวลารอ token แรก) และ latency โดยรวมด้วย ถึงจะรู้ประสิทธิภาพการใช้งาน API จริง
- ต่อให้เร็ว ถ้า ขั้นตอนการคิด (reasoning) ยาว ก็อาจช้ากว่าได้ ในทางกลับกัน token/s ต่ำแต่คิดได้กระชับก็อาจมีประสิทธิภาพกว่า
- ทั้งที่ Google น่าจะได้เปรียบด้านทรัพยากรหรือค่าใช้จ่าย แต่ก็ยังสงสัยว่าทำไมคนถึงเลือก GPT หรือ Claude
- อยากให้มีการวัด ความเร็วการประมวลผลพรอมป์ต์ ของผู้ให้บริการหลักแต่ละรายด้วย ไม่ใช่แค่ความเร็วตอนสร้างผลลัพธ์
- ราคาของโมเดลราคาถูกขึ้นมาค่อนข้างมาก แต่ก่อนใช้ง่ายกว่านี้ ตอนนี้เริ่มรู้สึกเป็นภาระ
มีการแชร์กริด เปรียบเทียบภาพนกกระทุงจากหลายโมเดล
- ตอนนี้งานแบบนี้น่าจะถูกรวมอยู่ใน ข้อมูลฝึก (training data) แล้ว
- บางภาพให้ความรู้สึกเหมือน ฝันร้าย แต่เพราะแบบนั้นเลยยิ่งชอบ
- ส่วนตัวชอบนกกระทุงเวอร์ชัน nano xhigh มากที่สุด
- nano medium ดูเหมือนถูกสร้างขึ้นตอนเซิร์ฟเวอร์กำลังไหม้
โมเดล GPT ดีสำหรับการสนทนา แต่ประสบการณ์ในงานแบบ agentic work ไม่ค่อยดี
ทั้งช้าและเข้าใจคำสั่งไม่ดี ขณะที่โมเดลอื่นใช้พรอมป์ต์เดียวกันกลับทำงานได้ดี
- 5.4 Mini เร็วพอสำหรับ แอปพลิเคชันเสียง แต่ความสามารถในการทำตามคำสั่งยังไม่พอ เลยคิดจะลอง fine-tune Qwen 3.5 9B
- Gemini 3.1 กับ Claude Opus 4.6 ผ่านเกณฑ์ได้ แต่สาย ChatGPT ยังเน้นการสนทนาเกินไป การรักษาบริบทยังอ่อน เลยต้องมี การตรวจสอบผลลัพธ์
- GPT 5.2 Codex มักหลุดบริบทบ่อย ส่วน Claude ทำงานใน GitHub Copilot ได้เป็นธรรมชาติกว่ามาก GPT ใช้เวลา 20 นาทีแม้แต่กับการรีแฟกเตอร์ง่าย ๆ
- เคยใช้ 5.4 Pro วิเคราะห์ข้อมูล แล้วช้ามาก Sonnet 4.6 เร็วกว่ามาก สำหรับงานส่วนใหญ่ Haiku ก็เพียงพอแล้ว
- ในทางกลับกัน ฉันรู้สึกว่า Codex เก่งที่สุด เพียงแต่มี สไตล์ที่เย็นชา เกินไป บทสนทนาสั้นและแทรกแซงได้ยาก ซึ่งน่าเสียดาย
  Opus ทำงานร่วมกันได้ดี แต่บางครั้งก็เสนออะไรแปลก ๆ พรอมป์ต์ของ Codex อยู่ในคลัง OpenCode
ฉันคิดว่าการปล่อย โมเดลขนาดเล็ก (mini) มีความหมายมากกว่า SOTA เสียอีก
โมเดลใหญ่ดีมากอยู่แล้วจนแยกความต่างได้ยาก แต่โมเดลเล็กพอเปลี่ยนเวอร์ชันแล้วมักมี การกระโดดของคุณภาพ ชัดเจน
แถมยังถูกกว่ามาก เลยเอาไปใช้ในบริการจริงได้ง่าย
- เว็บแอป Gemini จะสลับไปใช้ Flash อัตโนมัติ พอคำตอบแปลกหรือตรรกะเพี้ยนก็สังเกตได้ทันที สำหรับใช้งานประจำวันยังไม่พอ แต่กับงานอัตโนมัติง่าย ๆ ถือว่าดีพอ
- GPT 5.4 อ่อนเรื่องงาน Svelte UI, Gemini มีแนวโน้มจะรีบลงมือทำมากกว่าถกเถียง และ Claude ชอบใช้ type any มากเกินไปใน TypeScript
- จากผลเปรียบเทียบ ความต่างระหว่าง 5 mini กับ 5.4 mini มีไม่มาก แต่ 5.4 mini ไม่นิ่งแต่มีอัตราตอบถูกสูงกว่า
- ในความเป็นจริงราคากำลังขึ้น GPT 5.4 mini แพงกว่า 5.0 mini ราว 3 เท่า และ Gemini 3.1 Flash Lite ก็แพงกว่าก่อนหน้า
- เมื่อเทียบกับโมเดลเปิดก็ไม่ได้ถูกขนาดนั้น และความฉลาดก็ต่ำกว่า ถ้าไม่ใช่กรณีที่ต้องลด latency ให้ต่ำที่สุด ก็มีเหตุผลน้อยที่จะใช้
สงสัยว่าทำไมการประเมิน LLM ถึงยังทำกันด้วย ความรู้สึก ("vibe check")
การเปรียบเทียบส่วนใหญ่ไม่ได้อิงการทดลองอย่างเป็นระบบ แต่เป็นการทดสอบแบบฉับพลัน
- มันไม่ใช่แค่ปัญหาทางวิศวกรรม เพราะแม้แต่ นิยามของความฉลาดและความสามารถ เองก็ยังไม่สมบูรณ์ benchmark เดิม ๆ ก็มีข้อบกพร่องมาก
- พอสร้าง benchmark ขึ้นมาก็จะมีคนบ่นว่า “ไร้ความหมาย” แต่การประเมินด้วยความรู้สึกแย่กว่านั้นมาก
- ชุดประเมินที่เปิดเผยสู่สาธารณะจะถูกทำให้ไร้ประโยชน์อย่างรวดเร็วด้วย ปัญหา dark forest แถมพลังการทำนายก็ต่ำ ดังนั้นอาจจะดีกว่าถ้าจัดการวิธีไม่เป็นทางการให้เป็นวิทยาศาสตร์แทน
- ถึงขั้นมีมุกว่า “ประเมินด้วยความรู้สึก และเขียนโค้ดด้วยความรู้สึก”
ตาม benchmark แล้ว GPT 5.4 Nano เหนือกว่า GPT-5 Mini ในเกือบทุกด้าน แต่ ราคากลับสูงขึ้น
GPT 5 mini: อินพุต $0.25 / เอาต์พุต $2.00 → GPT 5.4 mini: อินพุต $0.75 / เอาต์พุต $4.50
- โมเดลแพงขึ้นก็จริง แต่ ความคุ้มค่าต่อประสิทธิภาพ ดีขึ้น อาจไม่มีเหตุผลมากนักที่จะคงโมเดลประสิทธิภาพต่ำไว้
- เพราะเป็นโมเดลที่ใหญ่ขึ้น ต้นทุนเสิร์ฟจึงไม่มีทางต่ำกว่าอยู่แล้ว ถ้าประสิทธิภาพดีขึ้นก็เป็นธรรมดาที่จะแพงขึ้น
คะแนน OSWorld น่าสนใจ Mini ได้ 72.1% ส่วนเกณฑ์มนุษย์คือ 72.4% ถือว่าแทบจะเท่ากัน
เพราะงั้นถ้าไม่ใช่เคสล้มเหลวเฉพาะทาง ก็ใช้ Mini เป็นค่ามาตรฐานได้เลย
แต่ใน pipeline แบบหลายโมเดล ถ้า nano sub-agent ส่งต่อประวัติข้อความทั้งหมดแบบเดิม ขั้นตอน “ราคาถูก” ก็จะหมดความหมาย
เลยสงสัยว่ามีใครเคยวัดไหมว่าเมื่อความยาวคอนเท็กซ์ถึงระดับไหน nano จะไม่เร็วกว่าอีกต่อไป
- (อันนี้ดูเหมือนบอต)
ใน benchmark ของฉันเอง Nano ก็ให้ผลดีกว่า Mini
5.4 mini มี ปัญหาเรื่องความสม่ำเสมอ และแม้จะตั้ง temperature 0 ก็ยังออกมาปะปนกันทั้งคำตอบถูกและผิด
ดูลิงก์เปรียบเทียบ
คะแนน OSWorld ของ 5.4 Mini น่าทึ่งมาก แต่ก่อนโมเดลทั้งช้าและไม่แม่นพอจนใช้กับเอเจนต์แบบเรียลไทม์ไม่ได้ แต่ตอนนี้เริ่มเห็นความเป็นไปได้แล้ว
- บางคนมองข้าม OSWorld โดยเรียกว่า “OpenClaw” แต่ในฐานะ การประเมินการโต้ตอบครบวงจรที่ปลอดภัย มันทรงพลังมาก
  เช่น สามารถเทียบพฤติกรรมของแอป Win32 กับเวอร์ชันเว็บเพื่อสร้างการทดสอบอัตโนมัติได้ และยังคุ้มค่าด้านต้นทุนเมื่อขยายในระดับใหญ่
ถ้าดูตาม SWE-Bench, 5.4 mini high มีความแม่นยำและราคาใกล้กับ GPT 5.4 low แต่ เวลาแฝง (latency) นานกว่า (254 วินาที vs 171 วินาที)
สำหรับงานง่าย การรันที่ effort level ต่ำจะช่วยประหยัดต้นทุนได้มากกว่า แต่ ประสิทธิภาพในการจัดการคอนเท็กซ์ยาว ก็ยังอ่อนอยู่

OpenAI เปิดตัว GPT‑5.4 Mini และ Nano

ภาพรวมของ GPT‑5.4 mini และ nano

การเปรียบเทียบประสิทธิภาพ

เวิร์กโฟลว์การเขียนโค้ด

การใช้งานคอมพิวเตอร์และการประมวลผลแบบมัลติโหมด

รูปแบบการให้บริการและราคา

รายละเอียดผลเบนช์มาร์กเพิ่มเติม

การประเมินโดยรวม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News