3 คะแนน โดย GN⁺ 2026-03-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • นำประสิทธิภาพของ GPT‑5.4 มาทำให้อยู่ในรูปแบบที่รวดเร็วและมีประสิทธิภาพ
  • GPT‑5.4 mini พัฒนาขึ้นอย่างมากเมื่อเทียบกับ GPT‑5 mini ในด้าน การเขียนโค้ด·การให้เหตุผล·ความเข้าใจแบบมัลติโหมด·การใช้เครื่องมือ และมีความเร็วมากกว่า 2 เท่า
  • GPT‑5.4 nano เป็น โมเดลที่เล็กและถูกที่สุด เหมาะสำหรับงานจัดประเภท·การดึงข้อมูล·การจัดอันดับ·งานช่วยเขียนโค้ด
  • ทั้งสองโมเดลได้รับการออกแบบมาให้เหมาะกับเวิร์กโหลดที่ เวลาแฝง (latency) มีความสำคัญ จึงเหมาะกับงานช่วยเขียนโค้ดที่ต้องการการตอบสนองหรือแอปพลิเคชันมัลติโหมดแบบเรียลไทม์
  • โมเดลเหล่านี้ทำให้สามารถ ออกแบบระบบ AI แบบเบาที่ปรับสมดุลความเร็ว·ต้นทุน·ประสิทธิภาพได้อย่างเหมาะสมที่สุด

ภาพรวมของ GPT‑5.4 mini และ nano

  • GPT‑5.4 mini และ nano เป็น เวอร์ชันขนาดเล็ก·ประสิทธิภาพสูง ของ GPT‑5.4 ที่ออกแบบมาโดยมีเป้าหมายเพื่อการตอบสนองที่รวดเร็วในสภาพแวดล้อมการประมวลผลปริมาณมาก
    • mini พัฒนาขึ้นจาก GPT‑5 mini ในด้านการเขียนโค้ด การให้เหตุผล ความเข้าใจแบบมัลติโหมด และการใช้เครื่องมือ
    • nano เป็น โมเดลที่เล็กที่สุด·ถูกที่สุด ที่มีประสิทธิภาพดีขึ้นกว่า GPT‑5 nano
  • ทั้งสองโมเดลได้รับการปรับแต่งให้เหมาะกับ สภาพแวดล้อมที่เวลาแฝงส่งผลต่อประสบการณ์การใช้งานผลิตภัณฑ์โดยตรง (เช่น ผู้ช่วยเขียนโค้ด ซับเอเจนต์ การตีความภาพหน้าจอ การอนุมานภาพแบบเรียลไทม์ เป็นต้น)
  • OpenAI ระบุว่า “โมเดลที่ดีที่สุดไม่ได้เป็นโมเดลที่ใหญ่ที่สุดเสมอไป” พร้อมเน้นย้ำเรื่อง การตอบสนองที่รวดเร็วและความสามารถในการใช้เครื่องมือได้อย่างเสถียร

การเปรียบเทียบประสิทธิภาพ

  • ในเบนช์มาร์กหลัก GPT‑5.4 mini ทำคะแนนได้สูงกว่า GPT‑5 mini และแสดงประสิทธิภาพที่ใกล้เคียง GPT‑5.4
    • SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
    • OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
  • ใน Terminal‑Bench 2.0, Toolathlon, GPQA Diamond เป็นต้น mini แสดง ประสิทธิภาพด้านความเร็วที่สูงเมื่อเทียบกับสมรรถนะ
  • nano มอบ ความคุ้มค่าด้านต้นทุนที่เหมาะสมที่สุด ในสภาพแวดล้อมที่ความเร็วและต้นทุนมีความสำคัญ

เวิร์กโฟลว์การเขียนโค้ด

  • ทั้งสองโมเดลเหมาะกับสภาพแวดล้อมการเขียนโค้ดที่ต้องการ การวนทำซ้ำ (iteration) อย่างรวดเร็ว
    • ทำงานด้วย เวลาแฝงต่ำ ในงานอย่างการแก้ไขโค้ด การสำรวจโค้ดเบส การสร้างฟรอนต์เอนด์ และลูปดีบัก
  • GPT‑5.4 mini ทำ อัตราการผ่าน (pass rate) ได้สูงกว่า GPT‑5 mini ภายใต้เวลาแฝงใกล้เคียงกัน และเข้าใกล้ระดับของ GPT‑5.4
  • ในสภาพแวดล้อม Codex โมเดลขนาดใหญ่จะทำหน้าที่วางแผน·ตัดสินใจ ขณะที่ mini ทำหน้าที่เป็น ซับเอเจนต์ที่ประมวลผลงานรายละเอียดแบบขนาน
    • ตัวอย่าง: การค้นหาโค้ด การตรวจสอบไฟล์ขนาดใหญ่ การประมวลผลเอกสาร เป็นต้น
  • โครงสร้างลักษณะนี้จะยิ่งมีประโยชน์มากขึ้นเมื่อ ความเร็วและประสิทธิภาพของโมเดลขนาดเล็กดีขึ้น

การใช้งานคอมพิวเตอร์และการประมวลผลแบบมัลติโหมด

  • GPT‑5.4 mini แสดงประสิทธิภาพที่แข็งแกร่งใน งานมัลติโหมดที่เกี่ยวข้องกับการใช้งานคอมพิวเตอร์ ด้วย
    • สามารถตีความภาพหน้าจอของอินเทอร์เฟซผู้ใช้ที่ซับซ้อนได้อย่างรวดเร็วและดำเนินงานได้
    • ใน OSWorld‑Verified มีประสิทธิภาพใกล้เคียง GPT‑5.4 และเหนือกว่า GPT‑5 mini อย่างชัดเจน

รูปแบบการให้บริการและราคา

  • GPT‑5.4 mini
    • ใช้งานได้ใน API, Codex และ ChatGPT
    • ฟีเจอร์ที่รองรับ: อินพุตข้อความ·ภาพ การใช้เครื่องมือ การเรียกฟังก์ชัน การค้นหาเว็บ·ไฟล์ การใช้งานคอมพิวเตอร์ และสกิล
    • คอนเท็กซ์วินโดว์ 400k, อินพุต $0.75 ต่อ 1 ล้านโทเค็น, เอาต์พุต $4.50 ต่อ 1 ล้านโทเค็น
    • ใน Codex ใช้โควตา GPT‑5.4 เพียง 30% และสามารถจัดการงานเขียนโค้ดแบบง่ายได้ด้วย ต้นทุนประมาณ 1/3
    • ใน ChatGPT ให้ผู้ใช้ Free·Go ใช้งานในฟีเจอร์ “Thinking” และใช้เป็น โมเดลสำรอง (fallback) ของ GPT‑5.4 Thinking สำหรับผู้ใช้อื่น
  • GPT‑5.4 nano
    • ให้บริการเฉพาะ API
    • อินพุต $0.20 ต่อ 1 ล้านโทเค็น, เอาต์พุต $1.25 ต่อ 1 ล้านโทเค็น

รายละเอียดผลเบนช์มาร์กเพิ่มเติม

  • การเขียนโค้ด
    • SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
    • Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
  • การเรียกใช้เครื่องมือ
    • MCP Atlas: mini 57.7%, nano 56.1%
    • Toolathlon: mini 42.9%, nano 35.5%
    • τ2‑bench(การสื่อสาร): mini 93.4%, nano 92.5%
  • การประเมินความฉลาด
    • GPQA Diamond: mini 88.0%, nano 82.8%
    • HLE w/ tool: mini 41.5%, nano 37.7%
  • มัลติโหมด·วิชัน
    • MMMUPro w/ Python: mini 78.0%, nano 69.5%
    • OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (ยิ่งต่ำยิ่งดี)
  • ลองคอนเท็กซ์
    • Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
    • MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%

การประเมินโดยรวม

  • GPT‑5.4 mini และ nano เป็น โมเดลขนาดเบาที่เพิ่มสมดุลระหว่างความเร็ว·ต้นทุน·ประสิทธิภาพได้สูงสุด เหมาะกับแอปพลิเคชันเรียลไทม์ขนาดใหญ่
  • mini สามารถมีบทบาทสำคัญใน สถาปัตยกรรมซับเอเจนต์หรือระบบมัลติโหมด ส่วน nano มีประสิทธิภาพสำหรับ งานที่เรียบง่าย·ประมวลผลปริมาณมาก
  • OpenAI มอบ พื้นฐานสำหรับการออกแบบระบบ AI หลายขนาดได้อย่างยืดหยุ่น ผ่านสองโมเดลนี้

1 ความคิดเห็น

 
GN⁺ 2026-03-18
ความคิดเห็นจาก Hacker News
  • ลองเช็กความเร็วปัจจุบันผ่าน API แล้ว ค่อนข้างน่าประทับใจ
    GPT-5 Mini ได้ประมาณ 55~60 tokens/s โดยทั่วไป และในโหมด priority ได้ราว 115~120 t/s, ส่วน GPT-5.4 Mini เฉลี่ย 180~190 t/s และ GPT-5.4 Nano อยู่ที่ประมาณ 200 t/s
    ถ้าเทียบกัน Gemini 3 Flash อยู่ที่ราว 130 t/s (Gemini API) และบน Vertex อยู่ราว 120 t/s
    ถ้าดูราคาควบคู่กัน Claude Opus 4.6 อยู่ที่ $5/$25, GPT-5.4 อยู่ที่ $2.5/$15, Gemini 3.1 Pro อยู่ที่ $2/$12 เป็นต้น

    • ดูแค่ token/s อย่างเดียวไม่พอ ต้องดู TTFT (เวลารอ token แรก) และ latency โดยรวมด้วย ถึงจะรู้ประสิทธิภาพการใช้งาน API จริง
    • ต่อให้เร็ว ถ้า ขั้นตอนการคิด (reasoning) ยาว ก็อาจช้ากว่าได้ ในทางกลับกัน token/s ต่ำแต่คิดได้กระชับก็อาจมีประสิทธิภาพกว่า
    • ทั้งที่ Google น่าจะได้เปรียบด้านทรัพยากรหรือค่าใช้จ่าย แต่ก็ยังสงสัยว่าทำไมคนถึงเลือก GPT หรือ Claude
    • อยากให้มีการวัด ความเร็วการประมวลผลพรอมป์ต์ ของผู้ให้บริการหลักแต่ละรายด้วย ไม่ใช่แค่ความเร็วตอนสร้างผลลัพธ์
    • ราคาของโมเดลราคาถูกขึ้นมาค่อนข้างมาก แต่ก่อนใช้ง่ายกว่านี้ ตอนนี้เริ่มรู้สึกเป็นภาระ
  • มีการแชร์กริด เปรียบเทียบภาพนกกระทุงจากหลายโมเดล

    • ตอนนี้งานแบบนี้น่าจะถูกรวมอยู่ใน ข้อมูลฝึก (training data) แล้ว
    • บางภาพให้ความรู้สึกเหมือน ฝันร้าย แต่เพราะแบบนั้นเลยยิ่งชอบ
    • ส่วนตัวชอบนกกระทุงเวอร์ชัน nano xhigh มากที่สุด
    • nano medium ดูเหมือนถูกสร้างขึ้นตอนเซิร์ฟเวอร์กำลังไหม้
  • โมเดล GPT ดีสำหรับการสนทนา แต่ประสบการณ์ในงานแบบ agentic work ไม่ค่อยดี
    ทั้งช้าและเข้าใจคำสั่งไม่ดี ขณะที่โมเดลอื่นใช้พรอมป์ต์เดียวกันกลับทำงานได้ดี

    • 5.4 Mini เร็วพอสำหรับ แอปพลิเคชันเสียง แต่ความสามารถในการทำตามคำสั่งยังไม่พอ เลยคิดจะลอง fine-tune Qwen 3.5 9B
    • Gemini 3.1 กับ Claude Opus 4.6 ผ่านเกณฑ์ได้ แต่สาย ChatGPT ยังเน้นการสนทนาเกินไป การรักษาบริบทยังอ่อน เลยต้องมี การตรวจสอบผลลัพธ์
    • GPT 5.2 Codex มักหลุดบริบทบ่อย ส่วน Claude ทำงานใน GitHub Copilot ได้เป็นธรรมชาติกว่ามาก GPT ใช้เวลา 20 นาทีแม้แต่กับการรีแฟกเตอร์ง่าย ๆ
    • เคยใช้ 5.4 Pro วิเคราะห์ข้อมูล แล้วช้ามาก Sonnet 4.6 เร็วกว่ามาก สำหรับงานส่วนใหญ่ Haiku ก็เพียงพอแล้ว
    • ในทางกลับกัน ฉันรู้สึกว่า Codex เก่งที่สุด เพียงแต่มี สไตล์ที่เย็นชา เกินไป บทสนทนาสั้นและแทรกแซงได้ยาก ซึ่งน่าเสียดาย
      Opus ทำงานร่วมกันได้ดี แต่บางครั้งก็เสนออะไรแปลก ๆ พรอมป์ต์ของ Codex อยู่ในคลัง OpenCode
  • ฉันคิดว่าการปล่อย โมเดลขนาดเล็ก (mini) มีความหมายมากกว่า SOTA เสียอีก
    โมเดลใหญ่ดีมากอยู่แล้วจนแยกความต่างได้ยาก แต่โมเดลเล็กพอเปลี่ยนเวอร์ชันแล้วมักมี การกระโดดของคุณภาพ ชัดเจน
    แถมยังถูกกว่ามาก เลยเอาไปใช้ในบริการจริงได้ง่าย

    • เว็บแอป Gemini จะสลับไปใช้ Flash อัตโนมัติ พอคำตอบแปลกหรือตรรกะเพี้ยนก็สังเกตได้ทันที สำหรับใช้งานประจำวันยังไม่พอ แต่กับงานอัตโนมัติง่าย ๆ ถือว่าดีพอ
    • GPT 5.4 อ่อนเรื่องงาน Svelte UI, Gemini มีแนวโน้มจะรีบลงมือทำมากกว่าถกเถียง และ Claude ชอบใช้ type any มากเกินไปใน TypeScript
    • จากผลเปรียบเทียบ ความต่างระหว่าง 5 mini กับ 5.4 mini มีไม่มาก แต่ 5.4 mini ไม่นิ่งแต่มีอัตราตอบถูกสูงกว่า
    • ในความเป็นจริงราคากำลังขึ้น GPT 5.4 mini แพงกว่า 5.0 mini ราว 3 เท่า และ Gemini 3.1 Flash Lite ก็แพงกว่าก่อนหน้า
    • เมื่อเทียบกับโมเดลเปิดก็ไม่ได้ถูกขนาดนั้น และความฉลาดก็ต่ำกว่า ถ้าไม่ใช่กรณีที่ต้องลด latency ให้ต่ำที่สุด ก็มีเหตุผลน้อยที่จะใช้
  • สงสัยว่าทำไมการประเมิน LLM ถึงยังทำกันด้วย ความรู้สึก ("vibe check")
    การเปรียบเทียบส่วนใหญ่ไม่ได้อิงการทดลองอย่างเป็นระบบ แต่เป็นการทดสอบแบบฉับพลัน

    • มันไม่ใช่แค่ปัญหาทางวิศวกรรม เพราะแม้แต่ นิยามของความฉลาดและความสามารถ เองก็ยังไม่สมบูรณ์ benchmark เดิม ๆ ก็มีข้อบกพร่องมาก
    • พอสร้าง benchmark ขึ้นมาก็จะมีคนบ่นว่า “ไร้ความหมาย” แต่การประเมินด้วยความรู้สึกแย่กว่านั้นมาก
    • ชุดประเมินที่เปิดเผยสู่สาธารณะจะถูกทำให้ไร้ประโยชน์อย่างรวดเร็วด้วย ปัญหา dark forest แถมพลังการทำนายก็ต่ำ ดังนั้นอาจจะดีกว่าถ้าจัดการวิธีไม่เป็นทางการให้เป็นวิทยาศาสตร์แทน
    • ถึงขั้นมีมุกว่า “ประเมินด้วยความรู้สึก และเขียนโค้ดด้วยความรู้สึก”
  • ตาม benchmark แล้ว GPT 5.4 Nano เหนือกว่า GPT-5 Mini ในเกือบทุกด้าน แต่ ราคากลับสูงขึ้น
    GPT 5 mini: อินพุต $0.25 / เอาต์พุต $2.00 → GPT 5.4 mini: อินพุต $0.75 / เอาต์พุต $4.50

    • โมเดลแพงขึ้นก็จริง แต่ ความคุ้มค่าต่อประสิทธิภาพ ดีขึ้น อาจไม่มีเหตุผลมากนักที่จะคงโมเดลประสิทธิภาพต่ำไว้
    • เพราะเป็นโมเดลที่ใหญ่ขึ้น ต้นทุนเสิร์ฟจึงไม่มีทางต่ำกว่าอยู่แล้ว ถ้าประสิทธิภาพดีขึ้นก็เป็นธรรมดาที่จะแพงขึ้น
  • คะแนน OSWorld น่าสนใจ Mini ได้ 72.1% ส่วนเกณฑ์มนุษย์คือ 72.4% ถือว่าแทบจะเท่ากัน
    เพราะงั้นถ้าไม่ใช่เคสล้มเหลวเฉพาะทาง ก็ใช้ Mini เป็นค่ามาตรฐานได้เลย
    แต่ใน pipeline แบบหลายโมเดล ถ้า nano sub-agent ส่งต่อประวัติข้อความทั้งหมดแบบเดิม ขั้นตอน “ราคาถูก” ก็จะหมดความหมาย
    เลยสงสัยว่ามีใครเคยวัดไหมว่าเมื่อความยาวคอนเท็กซ์ถึงระดับไหน nano จะไม่เร็วกว่าอีกต่อไป

    • (อันนี้ดูเหมือนบอต)
  • ใน benchmark ของฉันเอง Nano ก็ให้ผลดีกว่า Mini
    5.4 mini มี ปัญหาเรื่องความสม่ำเสมอ และแม้จะตั้ง temperature 0 ก็ยังออกมาปะปนกันทั้งคำตอบถูกและผิด
    ดูลิงก์เปรียบเทียบ

  • คะแนน OSWorld ของ 5.4 Mini น่าทึ่งมาก แต่ก่อนโมเดลทั้งช้าและไม่แม่นพอจนใช้กับเอเจนต์แบบเรียลไทม์ไม่ได้ แต่ตอนนี้เริ่มเห็นความเป็นไปได้แล้ว

    • บางคนมองข้าม OSWorld โดยเรียกว่า “OpenClaw” แต่ในฐานะ การประเมินการโต้ตอบครบวงจรที่ปลอดภัย มันทรงพลังมาก
      เช่น สามารถเทียบพฤติกรรมของแอป Win32 กับเวอร์ชันเว็บเพื่อสร้างการทดสอบอัตโนมัติได้ และยังคุ้มค่าด้านต้นทุนเมื่อขยายในระดับใหญ่
  • ถ้าดูตาม SWE-Bench, 5.4 mini high มีความแม่นยำและราคาใกล้กับ GPT 5.4 low แต่ เวลาแฝง (latency) นานกว่า (254 วินาที vs 171 วินาที)
    สำหรับงานง่าย การรันที่ effort level ต่ำจะช่วยประหยัดต้นทุนได้มากกว่า แต่ ประสิทธิภาพในการจัดการคอนเท็กซ์ยาว ก็ยังอ่อนอยู่