- เป็น โมเดล frontier รุ่นล่าสุดที่นำไปใช้กับ ChatGPT, API และ Codex โดยรวมประสิทธิภาพด้านการให้เหตุผล การเขียนโค้ด และเวิร์กโฟลว์แบบเอเจนต์ไว้ในโมเดลเดียว
- มาพร้อมความสามารถ computer-use แบบเนทีฟ ทำให้เอเจนต์สามารถควบคุมเว็บไซต์และซอฟต์แวร์โดยตรงเพื่อทำเวิร์กโฟลว์ที่ซับซ้อนได้
- รองรับ context window สูงสุด 1M โทเค็น และช่วย ลดต้นทุนและเพิ่มความเร็ว ด้วยการค้นหาเครื่องมือและการใช้โทเค็นอย่างมีประสิทธิภาพ
- ใน Thinking mode ของ ChatGPT สามารถปรับทิศทางกระบวนการคิดระหว่างการตอบได้ พร้อมปรับปรุง deep web research และ ความสามารถในการคงบริบท
- รวมความสามารถด้านโค้ดของ GPT-5.3-Codex พร้อมยกระดับ ความแม่นยำและประสิทธิภาพในงานสเปรดชีต งานพรีเซนเทชัน และงานเอกสาร อย่างมาก
ภาพรวมของ GPT‑5.4
- GPT‑5.4 คือ โมเดลที่ทรงพลังและมีประสิทธิภาพที่สุด ที่เปิดใช้งานพร้อมกันใน ChatGPT (Thinking mode), API และ Codex
- รุ่น GPT‑5.4 Pro ให้ประสิทธิภาพสูงสุดสำหรับงานที่ซับซ้อน
- รวม ความสามารถด้านการเขียนโค้ด ของ GPT‑5.3‑Codex และเสริมความแม่นยำกับประสิทธิภาพสำหรับสภาพแวดล้อมการทำงานระดับมืออาชีพ เช่น งานสเปรดชีต งานพรีเซนเทชัน และงานเอกสาร
- ปรับปรุง การเชื่อมต่อระหว่างเครื่องมือและสภาพแวดล้อมซอฟต์แวร์ ทำให้การทำงานจริงต้องโต้ตอบไปมาน้อยลง
การปรับปรุง Thinking mode ของ ChatGPT
- GPT-5.4 Thinking จะแสดง preamble หรือแผนการคิดล่วงหน้าเมื่อเริ่มงาน ทำให้ผู้ใช้ปรับทิศทางได้ระหว่างที่กำลังสร้างคำตอบ
- ออกแบบมาให้ผลลัพธ์สุดท้ายสอดคล้องกับเจตนาของผู้ใช้ได้แม่นยำขึ้นโดยไม่ต้องมีเทิร์นเพิ่มเติม
- ปรับปรุงประสิทธิภาพ deep web research โดยเฉพาะกับคำค้นที่เฉพาะเจาะจงมาก
- ในคำถามที่ต้องใช้การคิดยาว ๆ ได้ปรับปรุง ความสามารถในการคงบริบทก่อนหน้า ทำให้ตอบได้คุณภาพสูงขึ้นและเร็วขึ้น
- ใช้งานได้ทันทีบน chatgpt.com และแอป Android ส่วนแอป iOS จะรองรับในภายหลัง
ความสามารถด้านการใช้คอมพิวเตอร์และวิชัน
- GPT-5.4 เป็นโมเดลอเนกประสงค์ตัวแรกที่มาพร้อม ความสามารถ computer-use แบบเนทีฟ
- รองรับทั้งการควบคุมคอมพิวเตอร์ผ่านโค้ดด้วยไลบรารีอย่าง Playwright และการสั่งเมาส์/คีย์บอร์ดจากภาพหน้าจอ
- ปรับพฤติกรรมได้ผ่าน developer message และกำหนดระดับการยอมรับความเสี่ยงได้รายกรณีด้วย custom confirmation policy
- ทำได้ 75.0% บน OSWorld-Verified สูงกว่าระดับมนุษย์ที่ 72.4% และดีขึ้นมากจาก 47.3% ของ GPT-5.2
- ทำได้ 67.3% บน WebArena-Verified ด้วยการโต้ตอบแบบ DOM + screenshot (GPT-5.2: 65.4%)
- ทำได้ 92.8% บน Online-Mind2Web โดยอาศัยการสังเกตจาก screenshot เพียงอย่างเดียว (ChatGPT Atlas Agent Mode: 70.9%)
การปรับปรุงการรับรู้ภาพและการแยกข้อมูลจากเอกสาร
- ความสามารถด้าน การรับรู้ภาพแบบอเนกประสงค์ ที่ดีขึ้นเป็นรากฐานของความสามารถ computer-use
- บน MMMU-Pro ได้ 81.2% เมื่อไม่ใช้เครื่องมือ (GPT-5.2: 79.5%) และ 82.1% เมื่อใช้เครื่องมือ (GPT-5.2: 80.4%)
- บน OmniDocBench ได้ค่าเฉลี่ยข้อผิดพลาด (normalized edit distance) 0.109 โดยไม่ต้องใช้การให้เหตุผล (GPT-5.2: 0.140)
- เพิ่มระดับรายละเอียดของอินพุตภาพแบบ
original ใหม่: รองรับการรับรู้แบบเต็มความละเอียดได้สูงสุด 10.24M พิกเซล หรือขนาดด้านสูงสุด 6000px
- ระดับ
high ขยายได้ถึง 2.56M พิกเซล หรือขนาดด้านสูงสุด 2048px
- ในการทดสอบเบื้องต้นกับผู้ใช้ API พบว่าความสามารถด้านการระบุตำแหน่ง ความเข้าใจภาพ และความแม่นยำในการคลิกดีขึ้นอย่างชัดเจน
ประสิทธิภาพด้านโค้ด
- ผสานจุดแข็งด้านการเขียนโค้ดของ GPT-5.3-Codex เข้ากับความสามารถด้านงานวิชาชีพและ computer-use
- ทำได้ 57.7% บน SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
- ให้ latency ต่ำกว่า GPT-5.3-Codex ในทุกระดับการให้เหตุผล
- เมื่อเปิด โหมด /fast ใน Codex จะได้ความเร็วโทเค็นสูงขึ้นสูงสุด 1.5 เท่า โดยยังใช้โมเดลเดียวกันและระดับสติปัญญาเท่าเดิม
- ใน API สามารถเข้าถึงประสิทธิภาพความเร็วระดับเดียวกันได้ผ่าน Priority Processing
- สำหรับงานฟรอนต์เอนด์ที่ซับซ้อน สามารถสร้างผลงานที่ทั้งสวยงามและใช้งานได้จริงกว่ารุ่นก่อนอย่างชัดเจน
- เปิดตัวทักษะ Codex แบบทดลอง "Playwright (Interactive)": รองรับการดีบักเชิงภาพสำหรับเว็บและแอป Electron และทดสอบแอปที่กำลังพัฒนาได้แบบเรียลไทม์
ความสามารถ Tool Search
- เดิมต้องใส่คำจำกัดความของเครื่องมือทั้งหมดไว้ล่วงหน้าในพรอมป์ต์ ทำให้ใช้โทเค็นตั้งแต่หลักพันถึงหลักหมื่น แต่ Tool Search จะให้เพียงรายการเครื่องมือแบบเบา ๆ และดึงคำจำกัดความจริงแบบไดนามิกเมื่อจำเป็น
- ช่วย ลดการใช้โทเค็นอย่างมาก ในเวิร์กโฟลว์ที่พึ่งพาเครื่องมือจำนวนมาก และรักษาแคชไว้ได้ จึงช่วยทั้งความเร็วและต้นทุน
- มีประสิทธิภาพเด่นชัดโดยเฉพาะกับคำจำกัดความเครื่องมือของ MCP server ที่มีขนาดหลายหมื่นโทเค็น
- จากเกณฑ์ทดสอบ MCP Atlas ของ Scale จำนวน 250 งาน เมื่่อเปลี่ยน MCP server ทั้ง 36 ตัวมาใช้ Tool Search ปริมาณโทเค็นรวม ลดลง 47% โดยยังคงความแม่นยำเท่าเดิม
การเรียกใช้เครื่องมือและประสิทธิภาพของเอเจนต์
- GPT-5.4 ปรับปรุง ความแม่นยำและประสิทธิภาพ ของการเลือกว่าจะใช้เครื่องมือเมื่อใดและอย่างไรระหว่างการให้เหตุผล
- ทำได้ 54.6% บน Toolathlon (GPT-5.2: 45.7%) ด้วยความแม่นยำที่สูงกว่าและใช้จำนวนน้อยเทิร์นกว่า
- ประเมินงานใช้งานเครื่องมือจริงแบบหลายขั้นตอน เช่น อ่านอีเมล ดึงไฟล์แนบการบ้าน อัปโหลด ให้คะแนน และบันทึกผลลงสเปรดชีต
- แม้ในสถานการณ์ latency ต่ำที่ไม่มีการให้เหตุผล ก็ยังทำได้ 64.3% บน τ2-bench Telecom (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
- ทำได้ 82.7% บน BrowseComp และ GPT-5.4 Pro ทำได้ 89.3% สร้างสถิติสูงสุดใหม่ (GPT-5.2: 65.8%)
- ปรับปรุงความสามารถในการ ค้นหาอย่างต่อเนื่อง หลายรอบสำหรับงานค้นหาข้อมูลยากแบบ “หาเข็มในกองฟาง”
ประสิทธิภาพในงานวิชาชีพและงานความรู้
- บน GDPval มีการประเมินผลงานจริงจาก 9 อุตสาหกรรมใหญ่ของ GDP สหรัฐและ 44 อาชีพ เช่น พรีเซนเทชันการขาย สเปรดชีตบัญชี ตารางเวรห้องฉุกเฉิน ไดอะแกรมการผลิต และวิดีโอสั้น
- GPT-5.4: 83.0% เทียบเท่าหรือดีกว่าระดับผู้เชี่ยวชาญ (GPT-5.2: 70.9%)
- ในเกณฑ์ทดสอบภายในด้าน การทำโมเดลสเปรดชีตสำหรับวาณิชธนกิจ ได้ค่าเฉลี่ย 87.3% (GPT-5.2: 68.4%)
- ในการประเมินงานพรีเซนเทชัน ผู้ประเมินที่เป็นมนุษย์เลือกผลงานของ GPT-5.4 68.0% ของกรณี (โดดเด่นด้านความสวยงาม ความหลากหลายของภาพ และการใช้การสร้างภาพ)
- ลดการหลอนและข้อผิดพลาด: จากพรอมป์ต์ที่ผู้ใช้รายงานว่ามีข้อผิดพลาดด้านข้อเท็จจริง ความเป็นไปได้ที่แต่ละข้ออ้างจะเป็นเท็จ ลดลง 33% และความเป็นไปได้ที่คำตอบทั้งหมดจะมีข้อผิดพลาด ลดลง 18% (เทียบกับ GPT-5.2)
context window ขนาด 1M และประสิทธิภาพกับบริบทยาว
- รองรับ context สูงสุด 1M โทเค็น ทำให้เอเจนต์สามารถวางแผน ดำเนินการ และตรวจสอบงานที่มีขอบเขตกว้างได้
- Codex รองรับ context window 1M แบบทดลอง โดยตั้งค่าได้ผ่าน
model_context_window และ model_auto_compact_token_limit
- คำขอที่เกิน context window มาตรฐาน 272K จะถูกคิดค่าบริการที่ 2 เท่า
- Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
- OpenAI MRCR v2 8-needle: 97.3% ที่ 4K–8K, 79.3% ที่ 128K–256K, 36.6% ที่ 512K–1M
การให้เหตุผลเชิงนามธรรมและเกณฑ์ทดสอบเชิงวิชาการ
- ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
- GPT-5.4 Pro ทำได้ 83.3% บน ARC-AGI-2
- Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
- FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro ทำได้ 38.0%
- GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
- Humanity's Last Exam: ไม่ใช้เครื่องมือ 39.8%, ใช้เครื่องมือ 52.1% (GPT-5.2: 34.5% และ 45.5% ตามลำดับ)
- GPT-5.4 Pro ทำได้ 58.7% เมื่อใช้เครื่องมือ
ความปลอดภัยและความมั่นคง
- พัฒนากลไกป้องกันที่นำมาใช้ตั้งแต่ GPT-5.3-Codex อย่างต่อเนื่อง และถูกจัดอยู่ในระดับ High cyber capability ตาม Preparedness Framework
- ขยาย cyber safety stack: รวมระบบมอนิเตอร์ การควบคุมสิทธิ์เข้าถึงตามความเชื่อถือ และการบล็อกแบบอะซิงก์บนพื้นผิว Zero Data Retention (ZDR)
- ใช้แนวทางการปล่อยใช้งานเชิงป้องกันโดยคำนึงถึง ลักษณะการใช้งานสองทาง ของความสามารถด้านไซเบอร์ และกำลังปรับปรุงความแม่นยำของตัวจำแนกอยู่ จึงอาจยังมี false positive บางส่วน
- ตั้งเป้ารักษาการป้องกันการใช้งานผิดวัตถุประสงค์ไว้ ขณะเดียวกันก็ลดการปฏิเสธที่ไม่จำเป็นและคำตอบแบบให้เบาะแสมากเกินไป
- เดินหน้าวิจัยการมอนิเตอร์ Chain-of-Thought (CoT) ต่อเนื่อง พร้อมเปิดตัวเครื่องมือประเมินโอเพนซอร์สใหม่ CoT controllability
- ความสามารถในการควบคุม CoT ของ GPT-5.4 Thinking อยู่ในระดับต่ำ ซึ่งเป็นผลดีด้านความปลอดภัยเพราะทำให้โมเดลซ่อนกระบวนการให้เหตุผลได้ยาก
ราคาและข้อมูลการเปิดตัว
- ชื่อโมเดลใน API:
gpt-5.4, รุ่น Pro: gpt-5.4-pro
- ราคา API (ต่อ 1M โทเค็น):
- gpt-5.4: อินพุต $2.50, แคชอินพุต $0.25, เอาต์พุต $15
- gpt-5.4-pro: อินพุต $30, เอาต์พุต $180
- gpt-5.2: อินพุต $1.75, แคชอินพุต $0.175, เอาต์พุต $14
- แม้ราคาต่อโทเค็นจะสูงกว่า GPT-5.2 แต่ด้วย ประสิทธิภาพการใช้โทเค็นที่ดีขึ้น ทำให้จำนวนโทเค็นรวมต่อหนึ่งงานลดลง
- ราคา Batch และ Flex อยู่ที่ครึ่งหนึ่งของมาตรฐาน ส่วน Priority Processing อยู่ที่ 2 เท่าของมาตรฐาน
- ใน ChatGPT, GPT-5.4 Thinking เปิดให้ผู้ใช้ Plus, Team และ Pro ใช้งานทันที และมาแทน GPT-5.2 Thinking
- GPT-5.2 Thinking จะยังอยู่ในส่วน Legacy Models สำหรับผู้ใช้แบบชำระเงินอีก 3 เดือนก่อน สิ้นสุดในวันที่ 5 มิถุนายน 2026
- แผน Enterprise และ Edu สามารถเปิดใช้การเข้าถึงล่วงหน้าได้จากการตั้งค่าผู้ดูแลระบบ
- GPT-5.4 Pro เปิดให้ใช้ในแผน Pro และ Enterprise
- GPT-5.4 เป็น โมเดล reasoning สายหลักตัวแรก ที่รวมความสามารถ frontier ด้านโค้ดจาก GPT-5.3-Codex เข้าไว้ และโมเดล Instant กับ Thinking จะพัฒนาต่อไปด้วยจังหวะที่แตกต่างกันในอนาคต
2 ความคิดเห็น
ความเห็นจาก Hacker News
กล่อง “Ask ChatGPT” ที่อยู่ท้ายบทความทำให้ขำดี
ถ้าพิมพ์ให้ช่วยสรุปเนื้อหาบทความ มันจะเปิดหน้าต่างใหม่ขึ้นมา แต่สุดท้ายตอบกลับแค่ว่า “ไม่สามารถเข้าถึง URL ภายนอกได้”
เลยสงสัยว่า OpenAI รู้ไหมว่าฟีเจอร์นี้ใช้งานจริงไม่ได้
ตอนล็อกอินมันทำงานปกติ และได้ส่ง รายงานบั๊ก ไปให้ทีมแล้ว
ดู ลิงก์ตัวอย่างที่แชร์ไว้
ฉันก็อยู่ในสถานะล็อกอินเหมือนกัน
น่าจะเป็นว่าการเข้าถึง URL ภายนอกขึ้นอยู่กับสถานะการล็อกอิน
ดูเหมือนฝั่ง Anthropic จะใส่ใจกับรายละเอียด UX แบบนี้มากกว่า
รู้สึกว่าไลน์อัปโมเดลของ OpenAI ซับซ้อนเกินไปแล้ว
มีทั้ง GPT‑5.1, 5.2, 5.4 ปนกับ Codex 5.3 และ Instant 5.3
ขณะที่ Anthropic แบ่งชัดเจนแค่สามโมเดล และ Google ก็ยังมีแต่ โมเดล Preview
ในมุมของนักพัฒนา มันเลยน่าหงุดหงิดที่ใช้เวอร์ชันเสถียรได้ยาก
เป็นสถานการณ์ที่ต้องเลือกอย่างใดอย่างหนึ่งอยู่ตลอด
ถ้าเป็นวิศวกร การเข้าใจว่า 5.4 > 5.2 > 5.1 ไม่น่าใช่เรื่องยาก
ส่วน 3.x ก็ยังเป็น Preview อยู่ เลยยิ่งสับสน
เวอร์ชันระหว่าง Opus, Sonnet, Haiku ไม่สอดคล้องกัน และ โครงสร้างราคา ก็ซับซ้อน
สุดท้ายทุกบริษัทก็เจอปัญหาคล้าย ๆ กัน
นี่คือยุคที่แค่เปลี่ยน API ก็ สลับ ได้ง่ายแล้ว
แกนสำคัญของ GPT‑5.4 คือ หน้าต่างคอนเท็กซ์ 1M โทเค็น
ตาม ตารางราคาอย่างเป็นทางการ ไม่มีค่าบริการเพิ่มหลัง 200k
มันถูกกว่า Opus 4.6 มาก แต่ก็ยังสงสัยว่า 1M คอนเท็กซ์จะให้ประโยชน์จริงแค่ไหน
ตาม เอกสารที่อัปเดตแล้ว มันเข้ามาแทน GPT‑5.3‑Codex
ถ้าเกิน 272K โทเค็น จะคิดค่าบริการอินพุต 2 เท่า และเอาต์พุต 1.5 เท่า
ยิ่งโทเค็นมาก ต้นทุนและเวลาแฝงก็ยิ่งเพิ่ม
ในการทดสอบภายในของ OpenAI คอนเท็กซ์สั้นมีประสิทธิภาพกว่ามากในกรณีส่วนใหญ่
(ความเห็นจากพนักงาน)
เลยควรเทียบกันในแง่ ต้นทุนต่องาน
ในทางปฏิบัติ ค่าใช้จ่ายของ GPT‑5.x กับ Opus ก็อยู่ระดับใกล้เคียงกัน
ผลลัพธ์งานจริงสำคัญกว่าคะแนนเบนช์มาร์ก
แต่จริง ๆ แล้ว เอกสารสำหรับนักพัฒนา แม่นยำกว่า
อัตราปกติใช้ได้ถึงแค่ 272k เท่านั้น
แต่ Anthropic มีแผนจะบรรเทาเรื่องนี้ด้วย RL สำหรับงานระยะยาว
ฉันลองใช้ GPT‑5.4 ไปไม่กี่ครั้ง แล้วรู้สึกประทับใจกับ ความชัดเจนของงานเขียนและความสามารถในการวิเคราะห์
มันใช้สำนวนที่เป็นธรรมชาติและดูเป็นมนุษย์กว่ามากเมื่อเทียบกับ 5.3‑Codex
อาจเป็นเพราะ AGENTS.md ของฉันกำหนดให้ใช้ภาษาที่เรียบง่ายด้วย
รู้สึกเหมือนเป็นแพตเทิร์นที่เกิดซ้ำอยู่เรื่อย ๆ
Claude จะให้ความรู้สึกหลวมกว่าเล็กน้อย
OpenAI เลี่ยง ความสับสนของเลขเวอร์ชัน มาได้ตั้ง 8 เดือน แต่สุดท้ายก็กลับมาซับซ้อนอีก
มีทั้ง GPT‑5.3 Instant, GPT‑5.4 Thinking และชื่อปนกันไปหมด
ต้องใช้ให้เหมาะกับงาน
เดโม เกม RPG ในบล็อกดูน่าประทับใจ
อยู่ระดับใกล้เคียง “Battle Brothers” และเป็นตัวอย่างที่ดีของวิศวกรรมแบบอัตโนมัติ
ถ้าความเร็วเป็นแบบนี้ต่อไป ตลาดเครื่องมือ low-code อาจโดนคุกคามได้
ทำให้ Codex ดีบักและทดสอบเว็บแอปแบบมองเห็นภาพได้
โมเดลนี้น่าจะถูกนำไปใช้ในสายงานทหารและความมั่นคงด้วย
GPT‑5.4 สาธิตความสามารถในการ ตีความภาพหน้าจอเบราว์เซอร์ แล้วคลิก UI ของ Gmail เพื่อส่งอีเมล
แต่ฉันยังคิดว่าการใช้ Gmail API น่าจะมีประสิทธิภาพมากกว่า
ภาพหน้าจอให้ทั้งเอกสาร API และวิธีสำรวจระบบได้พร้อมกัน
ถ้าสำเร็จก็จะมีความอเนกประสงค์สูง แต่การเข้าถึงแบบใช้ API ก็ยังใช้ได้อยู่ดี
วิธีนี้เลยช่วยอ้อมข้อจำกัดเหล่านั้นได้
แต่โมเดลที่จัดการได้แค่ API ทำแบบนั้นไม่ได้
ในแง่การกระจายตัวทางเศรษฐกิจ แบบแรกมีค่ามากกว่า
สุดท้ายแล้วความสะดวกสำคัญที่สุด
สำหรับงานเขียนโค้ดประจำวันของฉัน แค่ เอเจนต์เขียนโค้ด 3 อันดับแรกก็เพียงพอแล้ว
ตาม SWE‑bench Verified, GPT‑5.2 Codex ได้ 72.8 คะแนน และ GPT‑5.4 เพิ่มขึ้นราว 2 คะแนน
ไม่ใช่ก้าวกระโดดครั้งใหญ่ แต่ก็มีการพัฒนา
บน SWE‑bench Claude 4.6 Opus ยังนำอยู่ที่ 75.6 คะแนน
อย่างไรก็ตาม ความสามารถแบบเอเจนต์ ของ Codex CLI ดีขึ้นมากจนใกล้ระดับ Claude Code แล้ว
OpenAI รวมโมเดลเข้าด้วยกันแล้ว แต่ก็กลับมาออก เวอร์ชันแยกย่อย อีกจนชวนสับสน
มีทั้ง GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro เยอะเกินไป
ถึงอย่างนั้น การรองรับหน้าต่างคอนเท็กซ์ 1M ก็ยังเป็นเรื่องน่ายินดี
เลือกได้ตามความต้องการ และผู้ใช้ทั่วไปก็ยังใช้ โหมด Auto ได้อยู่