เปิดตัว GPT‑5.4

(openai.com)

11 คะแนน โดย GN⁺ 2026-03-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

เป็น โมเดล frontier รุ่นล่าสุดที่นำไปใช้กับ ChatGPT, API และ Codex โดยรวมประสิทธิภาพด้านการให้เหตุผล การเขียนโค้ด และเวิร์กโฟลว์แบบเอเจนต์ไว้ในโมเดลเดียว
มาพร้อมความสามารถ computer-use แบบเนทีฟ ทำให้เอเจนต์สามารถควบคุมเว็บไซต์และซอฟต์แวร์โดยตรงเพื่อทำเวิร์กโฟลว์ที่ซับซ้อนได้
รองรับ context window สูงสุด 1M โทเค็น และช่วย ลดต้นทุนและเพิ่มความเร็ว ด้วยการค้นหาเครื่องมือและการใช้โทเค็นอย่างมีประสิทธิภาพ
ใน Thinking mode ของ ChatGPT สามารถปรับทิศทางกระบวนการคิดระหว่างการตอบได้ พร้อมปรับปรุง deep web research และ ความสามารถในการคงบริบท
รวมความสามารถด้านโค้ดของ GPT-5.3-Codex พร้อมยกระดับ ความแม่นยำและประสิทธิภาพในงานสเปรดชีต งานพรีเซนเทชัน และงานเอกสาร อย่างมาก

ภาพรวมของ GPT‑5.4

GPT‑5.4 คือ โมเดลที่ทรงพลังและมีประสิทธิภาพที่สุด ที่เปิดใช้งานพร้อมกันใน ChatGPT (Thinking mode), API และ Codex
- รุ่น GPT‑5.4 Pro ให้ประสิทธิภาพสูงสุดสำหรับงานที่ซับซ้อน
รวม ความสามารถด้านการเขียนโค้ด ของ GPT‑5.3‑Codex และเสริมความแม่นยำกับประสิทธิภาพสำหรับสภาพแวดล้อมการทำงานระดับมืออาชีพ เช่น งานสเปรดชีต งานพรีเซนเทชัน และงานเอกสาร
ปรับปรุง การเชื่อมต่อระหว่างเครื่องมือและสภาพแวดล้อมซอฟต์แวร์ ทำให้การทำงานจริงต้องโต้ตอบไปมาน้อยลง

การปรับปรุง Thinking mode ของ ChatGPT

GPT-5.4 Thinking จะแสดง preamble หรือแผนการคิดล่วงหน้าเมื่อเริ่มงาน ทำให้ผู้ใช้ปรับทิศทางได้ระหว่างที่กำลังสร้างคำตอบ
ออกแบบมาให้ผลลัพธ์สุดท้ายสอดคล้องกับเจตนาของผู้ใช้ได้แม่นยำขึ้นโดยไม่ต้องมีเทิร์นเพิ่มเติม
ปรับปรุงประสิทธิภาพ deep web research โดยเฉพาะกับคำค้นที่เฉพาะเจาะจงมาก
ในคำถามที่ต้องใช้การคิดยาว ๆ ได้ปรับปรุง ความสามารถในการคงบริบทก่อนหน้า ทำให้ตอบได้คุณภาพสูงขึ้นและเร็วขึ้น
ใช้งานได้ทันทีบน chatgpt.com และแอป Android ส่วนแอป iOS จะรองรับในภายหลัง

ความสามารถด้านการใช้คอมพิวเตอร์และวิชัน

GPT-5.4 เป็นโมเดลอเนกประสงค์ตัวแรกที่มาพร้อม ความสามารถ computer-use แบบเนทีฟ
รองรับทั้งการควบคุมคอมพิวเตอร์ผ่านโค้ดด้วยไลบรารีอย่าง Playwright และการสั่งเมาส์/คีย์บอร์ดจากภาพหน้าจอ
ปรับพฤติกรรมได้ผ่าน developer message และกำหนดระดับการยอมรับความเสี่ยงได้รายกรณีด้วย custom confirmation policy
ทำได้ 75.0% บน OSWorld-Verified สูงกว่าระดับมนุษย์ที่ 72.4% และดีขึ้นมากจาก 47.3% ของ GPT-5.2
ทำได้ 67.3% บน WebArena-Verified ด้วยการโต้ตอบแบบ DOM + screenshot (GPT-5.2: 65.4%)
ทำได้ 92.8% บน Online-Mind2Web โดยอาศัยการสังเกตจาก screenshot เพียงอย่างเดียว (ChatGPT Atlas Agent Mode: 70.9%)

การปรับปรุงการรับรู้ภาพและการแยกข้อมูลจากเอกสาร

ความสามารถด้าน การรับรู้ภาพแบบอเนกประสงค์ ที่ดีขึ้นเป็นรากฐานของความสามารถ computer-use
บน MMMU-Pro ได้ 81.2% เมื่อไม่ใช้เครื่องมือ (GPT-5.2: 79.5%) และ 82.1% เมื่อใช้เครื่องมือ (GPT-5.2: 80.4%)
บน OmniDocBench ได้ค่าเฉลี่ยข้อผิดพลาด (normalized edit distance) 0.109 โดยไม่ต้องใช้การให้เหตุผล (GPT-5.2: 0.140)
เพิ่มระดับรายละเอียดของอินพุตภาพแบบ original ใหม่: รองรับการรับรู้แบบเต็มความละเอียดได้สูงสุด 10.24M พิกเซล หรือขนาดด้านสูงสุด 6000px
- ระดับ high ขยายได้ถึง 2.56M พิกเซล หรือขนาดด้านสูงสุด 2048px
- ในการทดสอบเบื้องต้นกับผู้ใช้ API พบว่าความสามารถด้านการระบุตำแหน่ง ความเข้าใจภาพ และความแม่นยำในการคลิกดีขึ้นอย่างชัดเจน

ประสิทธิภาพด้านโค้ด

ผสานจุดแข็งด้านการเขียนโค้ดของ GPT-5.3-Codex เข้ากับความสามารถด้านงานวิชาชีพและ computer-use
ทำได้ 57.7% บน SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
ให้ latency ต่ำกว่า GPT-5.3-Codex ในทุกระดับการให้เหตุผล
เมื่อเปิด โหมด /fast ใน Codex จะได้ความเร็วโทเค็นสูงขึ้นสูงสุด 1.5 เท่า โดยยังใช้โมเดลเดียวกันและระดับสติปัญญาเท่าเดิม
- ใน API สามารถเข้าถึงประสิทธิภาพความเร็วระดับเดียวกันได้ผ่าน Priority Processing
สำหรับงานฟรอนต์เอนด์ที่ซับซ้อน สามารถสร้างผลงานที่ทั้งสวยงามและใช้งานได้จริงกว่ารุ่นก่อนอย่างชัดเจน
เปิดตัวทักษะ Codex แบบทดลอง "Playwright (Interactive)": รองรับการดีบักเชิงภาพสำหรับเว็บและแอป Electron และทดสอบแอปที่กำลังพัฒนาได้แบบเรียลไทม์

ความสามารถ Tool Search

เดิมต้องใส่คำจำกัดความของเครื่องมือทั้งหมดไว้ล่วงหน้าในพรอมป์ต์ ทำให้ใช้โทเค็นตั้งแต่หลักพันถึงหลักหมื่น แต่ Tool Search จะให้เพียงรายการเครื่องมือแบบเบา ๆ และดึงคำจำกัดความจริงแบบไดนามิกเมื่อจำเป็น
ช่วย ลดการใช้โทเค็นอย่างมาก ในเวิร์กโฟลว์ที่พึ่งพาเครื่องมือจำนวนมาก และรักษาแคชไว้ได้ จึงช่วยทั้งความเร็วและต้นทุน
มีประสิทธิภาพเด่นชัดโดยเฉพาะกับคำจำกัดความเครื่องมือของ MCP server ที่มีขนาดหลายหมื่นโทเค็น
จากเกณฑ์ทดสอบ MCP Atlas ของ Scale จำนวน 250 งาน เมื่่อเปลี่ยน MCP server ทั้ง 36 ตัวมาใช้ Tool Search ปริมาณโทเค็นรวม ลดลง 47% โดยยังคงความแม่นยำเท่าเดิม

การเรียกใช้เครื่องมือและประสิทธิภาพของเอเจนต์

GPT-5.4 ปรับปรุง ความแม่นยำและประสิทธิภาพ ของการเลือกว่าจะใช้เครื่องมือเมื่อใดและอย่างไรระหว่างการให้เหตุผล
ทำได้ 54.6% บน Toolathlon (GPT-5.2: 45.7%) ด้วยความแม่นยำที่สูงกว่าและใช้จำนวนน้อยเทิร์นกว่า
- ประเมินงานใช้งานเครื่องมือจริงแบบหลายขั้นตอน เช่น อ่านอีเมล ดึงไฟล์แนบการบ้าน อัปโหลด ให้คะแนน และบันทึกผลลงสเปรดชีต
แม้ในสถานการณ์ latency ต่ำที่ไม่มีการให้เหตุผล ก็ยังทำได้ 64.3% บน τ2-bench Telecom (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
ทำได้ 82.7% บน BrowseComp และ GPT-5.4 Pro ทำได้ 89.3% สร้างสถิติสูงสุดใหม่ (GPT-5.2: 65.8%)
- ปรับปรุงความสามารถในการ ค้นหาอย่างต่อเนื่อง หลายรอบสำหรับงานค้นหาข้อมูลยากแบบ “หาเข็มในกองฟาง”

ประสิทธิภาพในงานวิชาชีพและงานความรู้

บน GDPval มีการประเมินผลงานจริงจาก 9 อุตสาหกรรมใหญ่ของ GDP สหรัฐและ 44 อาชีพ เช่น พรีเซนเทชันการขาย สเปรดชีตบัญชี ตารางเวรห้องฉุกเฉิน ไดอะแกรมการผลิต และวิดีโอสั้น
- GPT-5.4: 83.0% เทียบเท่าหรือดีกว่าระดับผู้เชี่ยวชาญ (GPT-5.2: 70.9%)
ในเกณฑ์ทดสอบภายในด้าน การทำโมเดลสเปรดชีตสำหรับวาณิชธนกิจ ได้ค่าเฉลี่ย 87.3% (GPT-5.2: 68.4%)
ในการประเมินงานพรีเซนเทชัน ผู้ประเมินที่เป็นมนุษย์เลือกผลงานของ GPT-5.4 68.0% ของกรณี (โดดเด่นด้านความสวยงาม ความหลากหลายของภาพ และการใช้การสร้างภาพ)
ลดการหลอนและข้อผิดพลาด: จากพรอมป์ต์ที่ผู้ใช้รายงานว่ามีข้อผิดพลาดด้านข้อเท็จจริง ความเป็นไปได้ที่แต่ละข้ออ้างจะเป็นเท็จ ลดลง 33% และความเป็นไปได้ที่คำตอบทั้งหมดจะมีข้อผิดพลาด ลดลง 18% (เทียบกับ GPT-5.2)

context window ขนาด 1M และประสิทธิภาพกับบริบทยาว

รองรับ context สูงสุด 1M โทเค็น ทำให้เอเจนต์สามารถวางแผน ดำเนินการ และตรวจสอบงานที่มีขอบเขตกว้างได้
Codex รองรับ context window 1M แบบทดลอง โดยตั้งค่าได้ผ่าน model_context_window และ model_auto_compact_token_limit
- คำขอที่เกิน context window มาตรฐาน 272K จะถูกคิดค่าบริการที่ 2 เท่า
Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
OpenAI MRCR v2 8-needle: 97.3% ที่ 4K–8K, 79.3% ที่ 128K–256K, 36.6% ที่ 512K–1M

การให้เหตุผลเชิงนามธรรมและเกณฑ์ทดสอบเชิงวิชาการ

ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
GPT-5.4 Pro ทำได้ 83.3% บน ARC-AGI-2
Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro ทำได้ 38.0%
GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
Humanity's Last Exam: ไม่ใช้เครื่องมือ 39.8%, ใช้เครื่องมือ 52.1% (GPT-5.2: 34.5% และ 45.5% ตามลำดับ)
- GPT-5.4 Pro ทำได้ 58.7% เมื่อใช้เครื่องมือ

ความปลอดภัยและความมั่นคง

พัฒนากลไกป้องกันที่นำมาใช้ตั้งแต่ GPT-5.3-Codex อย่างต่อเนื่อง และถูกจัดอยู่ในระดับ High cyber capability ตาม Preparedness Framework
ขยาย cyber safety stack: รวมระบบมอนิเตอร์ การควบคุมสิทธิ์เข้าถึงตามความเชื่อถือ และการบล็อกแบบอะซิงก์บนพื้นผิว Zero Data Retention (ZDR)
ใช้แนวทางการปล่อยใช้งานเชิงป้องกันโดยคำนึงถึง ลักษณะการใช้งานสองทาง ของความสามารถด้านไซเบอร์ และกำลังปรับปรุงความแม่นยำของตัวจำแนกอยู่ จึงอาจยังมี false positive บางส่วน
ตั้งเป้ารักษาการป้องกันการใช้งานผิดวัตถุประสงค์ไว้ ขณะเดียวกันก็ลดการปฏิเสธที่ไม่จำเป็นและคำตอบแบบให้เบาะแสมากเกินไป
เดินหน้าวิจัยการมอนิเตอร์ Chain-of-Thought (CoT) ต่อเนื่อง พร้อมเปิดตัวเครื่องมือประเมินโอเพนซอร์สใหม่ CoT controllability
- ความสามารถในการควบคุม CoT ของ GPT-5.4 Thinking อยู่ในระดับต่ำ ซึ่งเป็นผลดีด้านความปลอดภัยเพราะทำให้โมเดลซ่อนกระบวนการให้เหตุผลได้ยาก

ราคาและข้อมูลการเปิดตัว

ชื่อโมเดลใน API: gpt-5.4, รุ่น Pro: gpt-5.4-pro
ราคา API (ต่อ 1M โทเค็น):
- gpt-5.4: อินพุต $2.50, แคชอินพุต $0.25, เอาต์พุต $15
- gpt-5.4-pro: อินพุต $30, เอาต์พุต $180
- gpt-5.2: อินพุต $1.75, แคชอินพุต $0.175, เอาต์พุต $14
แม้ราคาต่อโทเค็นจะสูงกว่า GPT-5.2 แต่ด้วย ประสิทธิภาพการใช้โทเค็นที่ดีขึ้น ทำให้จำนวนโทเค็นรวมต่อหนึ่งงานลดลง
ราคา Batch และ Flex อยู่ที่ครึ่งหนึ่งของมาตรฐาน ส่วน Priority Processing อยู่ที่ 2 เท่าของมาตรฐาน
ใน ChatGPT, GPT-5.4 Thinking เปิดให้ผู้ใช้ Plus, Team และ Pro ใช้งานทันที และมาแทน GPT-5.2 Thinking
- GPT-5.2 Thinking จะยังอยู่ในส่วน Legacy Models สำหรับผู้ใช้แบบชำระเงินอีก 3 เดือนก่อน สิ้นสุดในวันที่ 5 มิถุนายน 2026
- แผน Enterprise และ Edu สามารถเปิดใช้การเข้าถึงล่วงหน้าได้จากการตั้งค่าผู้ดูแลระบบ
- GPT-5.4 Pro เปิดให้ใช้ในแผน Pro และ Enterprise
GPT-5.4 เป็น โมเดล reasoning สายหลักตัวแรก ที่รวมความสามารถ frontier ด้านโค้ดจาก GPT-5.3-Codex เข้าไว้ และโมเดล Instant กับ Thinking จะพัฒนาต่อไปด้วยจังหวะที่แตกต่างกันในอนาคต

2 ความคิดเห็น

helio 2026-03-06

เมื่อเปิดใช้งานโหมด /fast ใน Codex จะได้ความเร็วโทเค็นสูงสุดเร็วขึ้น 1.5 เท่า โดยยังคงใช้โมเดลเดิมและระดับสติปัญญาเดิม ใน API จะใช้ Priority Processing.
Priority Processing มีราคาเป็น 2 เท่าของแบบมาตรฐาน
คำขอที่เกินหน้าต่างบริบทมาตรฐาน 272K จะถูกคิดค่าบริการในอัตรา 2 เท่า

GN⁺ 2026-03-06

ความเห็นจาก Hacker News

กล่อง “Ask ChatGPT” ที่อยู่ท้ายบทความทำให้ขำดี
ถ้าพิมพ์ให้ช่วยสรุปเนื้อหาบทความ มันจะเปิดหน้าต่างใหม่ขึ้นมา แต่สุดท้ายตอบกลับแค่ว่า “ไม่สามารถเข้าถึง URL ภายนอกได้”
เลยสงสัยว่า OpenAI รู้ไหมว่าฟีเจอร์นี้ใช้งานจริงไม่ได้
- ดูเหมือนว่าจะใช้ไม่ได้เฉพาะกับผู้ใช้ที่ไม่ได้ล็อกอิน
  ตอนล็อกอินมันทำงานปกติ และได้ส่ง รายงานบั๊ก ไปให้ทีมแล้ว
- ตอนที่ฉันลอง มันสรุปได้ตามปกติ
  ดู ลิงก์ตัวอย่างที่แชร์ไว้
  ฉันก็อยู่ในสถานะล็อกอินเหมือนกัน
- ของฉันก็สรุปได้ดีตอนล็อกอินเหมือนกัน
  น่าจะเป็นว่าการเข้าถึง URL ภายนอกขึ้นอยู่กับสถานะการล็อกอิน
- เพิ่งกลับไปลองใช้ Claude อีกครั้งหลังจากไม่ได้ใช้นาน UX ดีขึ้นพอสมควร
  ดูเหมือนฝั่ง Anthropic จะใส่ใจกับรายละเอียด UX แบบนี้มากกว่า
- สงสัยว่าข้อความนั้นอาจเกี่ยวกับ ปัญหาลิขสิทธิ์ หรือเปล่า
รู้สึกว่าไลน์อัปโมเดลของ OpenAI ซับซ้อนเกินไปแล้ว
มีทั้ง GPT‑5.1, 5.2, 5.4 ปนกับ Codex 5.3 และ Instant 5.3
ขณะที่ Anthropic แบ่งชัดเจนแค่สามโมเดล และ Google ก็ยังมีแต่ โมเดล Preview
ในมุมของนักพัฒนา มันเลยน่าหงุดหงิดที่ใช้เวอร์ชันเสถียรได้ยาก
- ทำให้นึกถึงมีมเครื่องมือเก่าของ Google vs เครื่องมือเบต้าใหม่
  เป็นสถานการณ์ที่ต้องเลือกอย่างใดอย่างหนึ่งอยู่ตลอด
- การบ่นว่าเลขเวอร์ชันทำให้งงก็ดูเหมือน จับผิดเกินไป
  ถ้าเป็นวิศวกร การเข้าใจว่า 5.4 > 5.2 > 5.1 ไม่น่าใช่เรื่องยาก
- Google แจ้งว่าโมเดล 2.5 จะถูก ยกเลิกการรองรับ (deprecate) ในเร็ว ๆ นี้
  ส่วน 3.x ก็ยังเป็น Preview อยู่ เลยยิ่งสับสน
- Anthropic เองก็มีระบบเวอร์ชันที่เละพอกัน
  เวอร์ชันระหว่าง Opus, Sonnet, Haiku ไม่สอดคล้องกัน และ โครงสร้างราคา ก็ซับซ้อน
  สุดท้ายทุกบริษัทก็เจอปัญหาคล้าย ๆ กัน
- ทุกเดือนมีโมเดลที่ดีกว่าออกมา จะยึดติดกับโมเดลเดิมไปทำไม
  นี่คือยุคที่แค่เปลี่ยน API ก็ สลับ ได้ง่ายแล้ว
แกนสำคัญของ GPT‑5.4 คือ หน้าต่างคอนเท็กซ์ 1M โทเค็น
ตาม ตารางราคาอย่างเป็นทางการ ไม่มีค่าบริการเพิ่มหลัง 200k
มันถูกกว่า Opus 4.6 มาก แต่ก็ยังสงสัยว่า 1M คอนเท็กซ์จะให้ประโยชน์จริงแค่ไหน
ตาม เอกสารที่อัปเดตแล้ว มันเข้ามาแทน GPT‑5.3‑Codex
- ตาม เอกสารโมเดล ระบุว่า
  ถ้าเกิน 272K โทเค็น จะคิดค่าบริการอินพุต 2 เท่า และเอาต์พุต 1.5 เท่า
- เรื่อง คอนเท็กซ์ยาว vs การบีบอัด (compaction) เป็นประเด็นให้ชั่งใจเสมอ
  ยิ่งโทเค็นมาก ต้นทุนและเวลาแฝงก็ยิ่งเพิ่ม
  ในการทดสอบภายในของ OpenAI คอนเท็กซ์สั้นมีประสิทธิภาพกว่ามากในกรณีส่วนใหญ่
  (ความเห็นจากพนักงาน)
- Claude ใช้จำนวนโทเค็นน้อยกว่าสำหรับงานเดียวกัน
  เลยควรเทียบกันในแง่ ต้นทุนต่องาน
  ในทางปฏิบัติ ค่าใช้จ่ายของ GPT‑5.x กับ Opus ก็อยู่ระดับใกล้เคียงกัน
  ผลลัพธ์งานจริงสำคัญกว่าคะแนนเบนช์มาร์ก
- คนส่วนใหญ่มักดูแค่ ตารางราคาอย่างเป็นทางการ
  แต่จริง ๆ แล้ว เอกสารสำหรับนักพัฒนา แม่นยำกว่า
  อัตราปกติใช้ได้ถึงแค่ 272k เท่านั้น
- ปัญหา context rot ก็ยังมีอยู่
  แต่ Anthropic มีแผนจะบรรเทาเรื่องนี้ด้วย RL สำหรับงานระยะยาว
ฉันลองใช้ GPT‑5.4 ไปไม่กี่ครั้ง แล้วรู้สึกประทับใจกับ ความชัดเจนของงานเขียนและความสามารถในการวิเคราะห์
มันใช้สำนวนที่เป็นธรรมชาติและดูเป็นมนุษย์กว่ามากเมื่อเทียบกับ 5.3‑Codex
อาจเป็นเพราะ AGENTS.md ของฉันกำหนดให้ใช้ภาษาที่เรียบง่ายด้วย
- แต่ในโค้ดเบสของฉัน มันกลับพลาด บั๊กข้อมูลสูญหาย ที่สำคัญไป
- ทุกครั้งที่มีโมเดลใหม่ออกมา ก็มักจะมีโพสต์แนว “โมเดลก่อนหน้านี้ดูดิบมาก”
  รู้สึกเหมือนเป็นแพตเทิร์นที่เกิดซ้ำอยู่เรื่อย ๆ
- ฉันก็ย้ายจาก Opus มา Codex เหมือนกัน และพบว่า การให้เหตุผลช้าลงแต่ความแม่นยำ สูงขึ้น
  Claude จะให้ความรู้สึกหลวมกว่าเล็กน้อย
- สงสัยว่าถ้าใช้ไฟล์ AGENTS.md เดียวกันจะได้ผลลัพธ์เหมือนกันไหม
- งานวิจัยล่าสุดบอกว่าการใส่ AGENTS.md กลับทำให้ ประสิทธิภาพลดลง
OpenAI เลี่ยง ความสับสนของเลขเวอร์ชัน มาได้ตั้ง 8 เดือน แต่สุดท้ายก็กลับมาซับซ้อนอีก
มีทั้ง GPT‑5.3 Instant, GPT‑5.4 Thinking และชื่อปนกันไปหมด
- ยังงงอยู่เลยว่า GPT‑5.3 Instant ต่างจาก gpt‑5.3‑chat ยังไง
- จริง ๆ แล้วมี 5.3 Codex ด้วย
- โมเดล Instant เหมาะกับงานสรุปหรือค้นหา แต่ใน บทสนทนาที่ซับซ้อน มักหลุดบริบทได้ง่าย
  ต้องใช้ให้เหมาะกับงาน
เดโม เกม RPG ในบล็อกดูน่าประทับใจ
อยู่ระดับใกล้เคียง “Battle Brothers” และเป็นตัวอย่างที่ดีของวิศวกรรมแบบอัตโนมัติ
- น่าทึ่งที่ AI สร้าง โคลน RollerCoaster Tycoon ได้ในครั้งเดียว
  ถ้าความเร็วเป็นแบบนี้ต่อไป ตลาดเครื่องมือ low-code อาจโดนคุกคามได้
- แต่ในความเป็นจริงมันก็ดูเป็นแค่เดโมง่าย ๆ
- น่าจะเป็นเพราะ การรวม Playwright
  ทำให้ Codex ดีบักและทดสอบเว็บแอปแบบมองเห็นภาพได้
โมเดลนี้น่าจะถูกนำไปใช้ในสายงานทหารและความมั่นคงด้วย
- มีคนบอกว่าคะแนนความปลอดภัยด้าน ความรุนแรง ลดจาก 91% เหลือ 83%
- สงสัยว่าเขาเปิดเผยผลของเบนช์มาร์กทางทหาร (เช่น ArtificialSuperSoldier) ด้วยหรือไม่
- อยากรู้ว่าจะใช้แบบ แนวทางของ Anthropic ได้เหมือนโมเดล Claude หรือเปล่า
- วงการโฆษณาก็น่าจะอยากได้เทคโนโลยีนี้เหมือนกัน
- ฝั่งกองทัพยังใช้เวอร์ชัน 4.1 อยู่ เลยน่าจะต้องใช้เวลาอีกสักพักกว่าจะอัปเกรด
GPT‑5.4 สาธิตความสามารถในการ ตีความภาพหน้าจอเบราว์เซอร์ แล้วคลิก UI ของ Gmail เพื่อส่งอีเมล
แต่ฉันยังคิดว่าการใช้ Gmail API น่าจะมีประสิทธิภาพมากกว่า
- เว็บไซต์ส่วนใหญ่ ไม่มี API หรือมีเอกสารที่แย่มาก
  ภาพหน้าจอให้ทั้งเอกสาร API และวิธีสำรวจระบบได้พร้อมกัน
- มันเหมือนกำลังสร้าง หุ่นยนต์ฮิวแมนนอยด์ เพื่อไปใช้เครื่องมือที่ออกแบบมาสำหรับมือมนุษย์
  ถ้าสำเร็จก็จะมีความอเนกประสงค์สูง แต่การเข้าถึงแบบใช้ API ก็ยังใช้ได้อยู่ดี
- หลายบริการไม่มีความตั้งใจจะเปิด API
  วิธีนี้เลยช่วยอ้อมข้อจำกัดเหล่านั้นได้
- โมเดลที่ฝึก ความสามารถในการใช้คอมพิวเตอร์ จะเอาไปใช้ได้ทุกที่
  แต่โมเดลที่จัดการได้แค่ API ทำแบบนั้นไม่ได้
  ในแง่การกระจายตัวทางเศรษฐกิจ แบบแรกมีค่ามากกว่า
- คล้ายกับเหตุผลที่ Wikipedia โดน เว็บสแครป มากกว่าการใช้ API
  สุดท้ายแล้วความสะดวกสำคัญที่สุด
สำหรับงานเขียนโค้ดประจำวันของฉัน แค่ เอเจนต์เขียนโค้ด 3 อันดับแรกก็เพียงพอแล้ว
ตาม SWE‑bench Verified, GPT‑5.2 Codex ได้ 72.8 คะแนน และ GPT‑5.4 เพิ่มขึ้นราว 2 คะแนน
ไม่ใช่ก้าวกระโดดครั้งใหญ่ แต่ก็มีการพัฒนา
บน SWE‑bench Claude 4.6 Opus ยังนำอยู่ที่ 75.6 คะแนน
อย่างไรก็ตาม ความสามารถแบบเอเจนต์ ของ Codex CLI ดีขึ้นมากจนใกล้ระดับ Claude Code แล้ว
OpenAI รวมโมเดลเข้าด้วยกันแล้ว แต่ก็กลับมาออก เวอร์ชันแยกย่อย อีกจนชวนสับสน
มีทั้ง GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro เยอะเกินไป
ถึงอย่างนั้น การรองรับหน้าต่างคอนเท็กซ์ 1M ก็ยังเป็นเรื่องน่ายินดี
- ฉันชอบที่มีตัวเลือกแบบนี้
  เลือกได้ตามความต้องการ และผู้ใช้ทั่วไปก็ยังใช้ โหมด Auto ได้อยู่
- ตัวเลือก Auto ยังมีอยู่ ดังนั้นคงไม่ใช่ปัญหาใหญ่นัก
- น่าจะเป็นไปได้ว่าในแบ็กเอนด์ GPT‑5 ใช้โครงสร้าง auto routing หลายโมเดลโดยอัตโนมัติ

เปิดตัว GPT‑5.4

ภาพรวมของ GPT‑5.4

การปรับปรุง Thinking mode ของ ChatGPT

ความสามารถด้านการใช้คอมพิวเตอร์และวิชัน

การปรับปรุงการรับรู้ภาพและการแยกข้อมูลจากเอกสาร

ประสิทธิภาพด้านโค้ด

ความสามารถ Tool Search

การเรียกใช้เครื่องมือและประสิทธิภาพของเอเจนต์

ประสิทธิภาพในงานวิชาชีพและงานความรู้

context window ขนาด 1M และประสิทธิภาพกับบริบทยาว

การให้เหตุผลเชิงนามธรรมและเกณฑ์ทดสอบเชิงวิชาการ

ความปลอดภัยและความมั่นคง

ราคาและข้อมูลการเปิดตัว

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความเห็นจาก Hacker News