11 คะแนน โดย GN⁺ 2026-03-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็น โมเดล frontier รุ่นล่าสุดที่นำไปใช้กับ ChatGPT, API และ Codex โดยรวมประสิทธิภาพด้านการให้เหตุผล การเขียนโค้ด และเวิร์กโฟลว์แบบเอเจนต์ไว้ในโมเดลเดียว
  • มาพร้อมความสามารถ computer-use แบบเนทีฟ ทำให้เอเจนต์สามารถควบคุมเว็บไซต์และซอฟต์แวร์โดยตรงเพื่อทำเวิร์กโฟลว์ที่ซับซ้อนได้
  • รองรับ context window สูงสุด 1M โทเค็น และช่วย ลดต้นทุนและเพิ่มความเร็ว ด้วยการค้นหาเครื่องมือและการใช้โทเค็นอย่างมีประสิทธิภาพ
  • ใน Thinking mode ของ ChatGPT สามารถปรับทิศทางกระบวนการคิดระหว่างการตอบได้ พร้อมปรับปรุง deep web research และ ความสามารถในการคงบริบท
  • รวมความสามารถด้านโค้ดของ GPT-5.3-Codex พร้อมยกระดับ ความแม่นยำและประสิทธิภาพในงานสเปรดชีต งานพรีเซนเทชัน และงานเอกสาร อย่างมาก

ภาพรวมของ GPT‑5.4

  • GPT‑5.4 คือ โมเดลที่ทรงพลังและมีประสิทธิภาพที่สุด ที่เปิดใช้งานพร้อมกันใน ChatGPT (Thinking mode), API และ Codex
    • รุ่น GPT‑5.4 Pro ให้ประสิทธิภาพสูงสุดสำหรับงานที่ซับซ้อน
  • รวม ความสามารถด้านการเขียนโค้ด ของ GPT‑5.3‑Codex และเสริมความแม่นยำกับประสิทธิภาพสำหรับสภาพแวดล้อมการทำงานระดับมืออาชีพ เช่น งานสเปรดชีต งานพรีเซนเทชัน และงานเอกสาร
  • ปรับปรุง การเชื่อมต่อระหว่างเครื่องมือและสภาพแวดล้อมซอฟต์แวร์ ทำให้การทำงานจริงต้องโต้ตอบไปมาน้อยลง

การปรับปรุง Thinking mode ของ ChatGPT

  • GPT-5.4 Thinking จะแสดง preamble หรือแผนการคิดล่วงหน้าเมื่อเริ่มงาน ทำให้ผู้ใช้ปรับทิศทางได้ระหว่างที่กำลังสร้างคำตอบ
  • ออกแบบมาให้ผลลัพธ์สุดท้ายสอดคล้องกับเจตนาของผู้ใช้ได้แม่นยำขึ้นโดยไม่ต้องมีเทิร์นเพิ่มเติม
  • ปรับปรุงประสิทธิภาพ deep web research โดยเฉพาะกับคำค้นที่เฉพาะเจาะจงมาก
  • ในคำถามที่ต้องใช้การคิดยาว ๆ ได้ปรับปรุง ความสามารถในการคงบริบทก่อนหน้า ทำให้ตอบได้คุณภาพสูงขึ้นและเร็วขึ้น
  • ใช้งานได้ทันทีบน chatgpt.com และแอป Android ส่วนแอป iOS จะรองรับในภายหลัง

ความสามารถด้านการใช้คอมพิวเตอร์และวิชัน

  • GPT-5.4 เป็นโมเดลอเนกประสงค์ตัวแรกที่มาพร้อม ความสามารถ computer-use แบบเนทีฟ
  • รองรับทั้งการควบคุมคอมพิวเตอร์ผ่านโค้ดด้วยไลบรารีอย่าง Playwright และการสั่งเมาส์/คีย์บอร์ดจากภาพหน้าจอ
  • ปรับพฤติกรรมได้ผ่าน developer message และกำหนดระดับการยอมรับความเสี่ยงได้รายกรณีด้วย custom confirmation policy
  • ทำได้ 75.0% บน OSWorld-Verified สูงกว่าระดับมนุษย์ที่ 72.4% และดีขึ้นมากจาก 47.3% ของ GPT-5.2
  • ทำได้ 67.3% บน WebArena-Verified ด้วยการโต้ตอบแบบ DOM + screenshot (GPT-5.2: 65.4%)
  • ทำได้ 92.8% บน Online-Mind2Web โดยอาศัยการสังเกตจาก screenshot เพียงอย่างเดียว (ChatGPT Atlas Agent Mode: 70.9%)

การปรับปรุงการรับรู้ภาพและการแยกข้อมูลจากเอกสาร

  • ความสามารถด้าน การรับรู้ภาพแบบอเนกประสงค์ ที่ดีขึ้นเป็นรากฐานของความสามารถ computer-use
  • บน MMMU-Pro ได้ 81.2% เมื่อไม่ใช้เครื่องมือ (GPT-5.2: 79.5%) และ 82.1% เมื่อใช้เครื่องมือ (GPT-5.2: 80.4%)
  • บน OmniDocBench ได้ค่าเฉลี่ยข้อผิดพลาด (normalized edit distance) 0.109 โดยไม่ต้องใช้การให้เหตุผล (GPT-5.2: 0.140)
  • เพิ่มระดับรายละเอียดของอินพุตภาพแบบ original ใหม่: รองรับการรับรู้แบบเต็มความละเอียดได้สูงสุด 10.24M พิกเซล หรือขนาดด้านสูงสุด 6000px
    • ระดับ high ขยายได้ถึง 2.56M พิกเซล หรือขนาดด้านสูงสุด 2048px
    • ในการทดสอบเบื้องต้นกับผู้ใช้ API พบว่าความสามารถด้านการระบุตำแหน่ง ความเข้าใจภาพ และความแม่นยำในการคลิกดีขึ้นอย่างชัดเจน

ประสิทธิภาพด้านโค้ด

  • ผสานจุดแข็งด้านการเขียนโค้ดของ GPT-5.3-Codex เข้ากับความสามารถด้านงานวิชาชีพและ computer-use
  • ทำได้ 57.7% บน SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
  • ให้ latency ต่ำกว่า GPT-5.3-Codex ในทุกระดับการให้เหตุผล
  • เมื่อเปิด โหมด /fast ใน Codex จะได้ความเร็วโทเค็นสูงขึ้นสูงสุด 1.5 เท่า โดยยังใช้โมเดลเดียวกันและระดับสติปัญญาเท่าเดิม
    • ใน API สามารถเข้าถึงประสิทธิภาพความเร็วระดับเดียวกันได้ผ่าน Priority Processing
  • สำหรับงานฟรอนต์เอนด์ที่ซับซ้อน สามารถสร้างผลงานที่ทั้งสวยงามและใช้งานได้จริงกว่ารุ่นก่อนอย่างชัดเจน
  • เปิดตัวทักษะ Codex แบบทดลอง "Playwright (Interactive)": รองรับการดีบักเชิงภาพสำหรับเว็บและแอป Electron และทดสอบแอปที่กำลังพัฒนาได้แบบเรียลไทม์

ความสามารถ Tool Search

  • เดิมต้องใส่คำจำกัดความของเครื่องมือทั้งหมดไว้ล่วงหน้าในพรอมป์ต์ ทำให้ใช้โทเค็นตั้งแต่หลักพันถึงหลักหมื่น แต่ Tool Search จะให้เพียงรายการเครื่องมือแบบเบา ๆ และดึงคำจำกัดความจริงแบบไดนามิกเมื่อจำเป็น
  • ช่วย ลดการใช้โทเค็นอย่างมาก ในเวิร์กโฟลว์ที่พึ่งพาเครื่องมือจำนวนมาก และรักษาแคชไว้ได้ จึงช่วยทั้งความเร็วและต้นทุน
  • มีประสิทธิภาพเด่นชัดโดยเฉพาะกับคำจำกัดความเครื่องมือของ MCP server ที่มีขนาดหลายหมื่นโทเค็น
  • จากเกณฑ์ทดสอบ MCP Atlas ของ Scale จำนวน 250 งาน เมื่่อเปลี่ยน MCP server ทั้ง 36 ตัวมาใช้ Tool Search ปริมาณโทเค็นรวม ลดลง 47% โดยยังคงความแม่นยำเท่าเดิม

การเรียกใช้เครื่องมือและประสิทธิภาพของเอเจนต์

  • GPT-5.4 ปรับปรุง ความแม่นยำและประสิทธิภาพ ของการเลือกว่าจะใช้เครื่องมือเมื่อใดและอย่างไรระหว่างการให้เหตุผล
  • ทำได้ 54.6% บน Toolathlon (GPT-5.2: 45.7%) ด้วยความแม่นยำที่สูงกว่าและใช้จำนวนน้อยเทิร์นกว่า
    • ประเมินงานใช้งานเครื่องมือจริงแบบหลายขั้นตอน เช่น อ่านอีเมล ดึงไฟล์แนบการบ้าน อัปโหลด ให้คะแนน และบันทึกผลลงสเปรดชีต
  • แม้ในสถานการณ์ latency ต่ำที่ไม่มีการให้เหตุผล ก็ยังทำได้ 64.3% บน τ2-bench Telecom (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
  • ทำได้ 82.7% บน BrowseComp และ GPT-5.4 Pro ทำได้ 89.3% สร้างสถิติสูงสุดใหม่ (GPT-5.2: 65.8%)
    • ปรับปรุงความสามารถในการ ค้นหาอย่างต่อเนื่อง หลายรอบสำหรับงานค้นหาข้อมูลยากแบบ “หาเข็มในกองฟาง”

ประสิทธิภาพในงานวิชาชีพและงานความรู้

  • บน GDPval มีการประเมินผลงานจริงจาก 9 อุตสาหกรรมใหญ่ของ GDP สหรัฐและ 44 อาชีพ เช่น พรีเซนเทชันการขาย สเปรดชีตบัญชี ตารางเวรห้องฉุกเฉิน ไดอะแกรมการผลิต และวิดีโอสั้น
    • GPT-5.4: 83.0% เทียบเท่าหรือดีกว่าระดับผู้เชี่ยวชาญ (GPT-5.2: 70.9%)
  • ในเกณฑ์ทดสอบภายในด้าน การทำโมเดลสเปรดชีตสำหรับวาณิชธนกิจ ได้ค่าเฉลี่ย 87.3% (GPT-5.2: 68.4%)
  • ในการประเมินงานพรีเซนเทชัน ผู้ประเมินที่เป็นมนุษย์เลือกผลงานของ GPT-5.4 68.0% ของกรณี (โดดเด่นด้านความสวยงาม ความหลากหลายของภาพ และการใช้การสร้างภาพ)
  • ลดการหลอนและข้อผิดพลาด: จากพรอมป์ต์ที่ผู้ใช้รายงานว่ามีข้อผิดพลาดด้านข้อเท็จจริง ความเป็นไปได้ที่แต่ละข้ออ้างจะเป็นเท็จ ลดลง 33% และความเป็นไปได้ที่คำตอบทั้งหมดจะมีข้อผิดพลาด ลดลง 18% (เทียบกับ GPT-5.2)

context window ขนาด 1M และประสิทธิภาพกับบริบทยาว

  • รองรับ context สูงสุด 1M โทเค็น ทำให้เอเจนต์สามารถวางแผน ดำเนินการ และตรวจสอบงานที่มีขอบเขตกว้างได้
  • Codex รองรับ context window 1M แบบทดลอง โดยตั้งค่าได้ผ่าน model_context_window และ model_auto_compact_token_limit
    • คำขอที่เกิน context window มาตรฐาน 272K จะถูกคิดค่าบริการที่ 2 เท่า
  • Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
  • OpenAI MRCR v2 8-needle: 97.3% ที่ 4K–8K, 79.3% ที่ 128K–256K, 36.6% ที่ 512K–1M

การให้เหตุผลเชิงนามธรรมและเกณฑ์ทดสอบเชิงวิชาการ

  • ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
  • GPT-5.4 Pro ทำได้ 83.3% บน ARC-AGI-2
  • Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
  • FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro ทำได้ 38.0%
  • GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
  • Humanity's Last Exam: ไม่ใช้เครื่องมือ 39.8%, ใช้เครื่องมือ 52.1% (GPT-5.2: 34.5% และ 45.5% ตามลำดับ)
    • GPT-5.4 Pro ทำได้ 58.7% เมื่อใช้เครื่องมือ

ความปลอดภัยและความมั่นคง

  • พัฒนากลไกป้องกันที่นำมาใช้ตั้งแต่ GPT-5.3-Codex อย่างต่อเนื่อง และถูกจัดอยู่ในระดับ High cyber capability ตาม Preparedness Framework
  • ขยาย cyber safety stack: รวมระบบมอนิเตอร์ การควบคุมสิทธิ์เข้าถึงตามความเชื่อถือ และการบล็อกแบบอะซิงก์บนพื้นผิว Zero Data Retention (ZDR)
  • ใช้แนวทางการปล่อยใช้งานเชิงป้องกันโดยคำนึงถึง ลักษณะการใช้งานสองทาง ของความสามารถด้านไซเบอร์ และกำลังปรับปรุงความแม่นยำของตัวจำแนกอยู่ จึงอาจยังมี false positive บางส่วน
  • ตั้งเป้ารักษาการป้องกันการใช้งานผิดวัตถุประสงค์ไว้ ขณะเดียวกันก็ลดการปฏิเสธที่ไม่จำเป็นและคำตอบแบบให้เบาะแสมากเกินไป
  • เดินหน้าวิจัยการมอนิเตอร์ Chain-of-Thought (CoT) ต่อเนื่อง พร้อมเปิดตัวเครื่องมือประเมินโอเพนซอร์สใหม่ CoT controllability
    • ความสามารถในการควบคุม CoT ของ GPT-5.4 Thinking อยู่ในระดับต่ำ ซึ่งเป็นผลดีด้านความปลอดภัยเพราะทำให้โมเดลซ่อนกระบวนการให้เหตุผลได้ยาก

ราคาและข้อมูลการเปิดตัว

  • ชื่อโมเดลใน API: gpt-5.4, รุ่น Pro: gpt-5.4-pro
  • ราคา API (ต่อ 1M โทเค็น):
    • gpt-5.4: อินพุต $2.50, แคชอินพุต $0.25, เอาต์พุต $15
    • gpt-5.4-pro: อินพุต $30, เอาต์พุต $180
    • gpt-5.2: อินพุต $1.75, แคชอินพุต $0.175, เอาต์พุต $14
  • แม้ราคาต่อโทเค็นจะสูงกว่า GPT-5.2 แต่ด้วย ประสิทธิภาพการใช้โทเค็นที่ดีขึ้น ทำให้จำนวนโทเค็นรวมต่อหนึ่งงานลดลง
  • ราคา Batch และ Flex อยู่ที่ครึ่งหนึ่งของมาตรฐาน ส่วน Priority Processing อยู่ที่ 2 เท่าของมาตรฐาน
  • ใน ChatGPT, GPT-5.4 Thinking เปิดให้ผู้ใช้ Plus, Team และ Pro ใช้งานทันที และมาแทน GPT-5.2 Thinking
    • GPT-5.2 Thinking จะยังอยู่ในส่วน Legacy Models สำหรับผู้ใช้แบบชำระเงินอีก 3 เดือนก่อน สิ้นสุดในวันที่ 5 มิถุนายน 2026
    • แผน Enterprise และ Edu สามารถเปิดใช้การเข้าถึงล่วงหน้าได้จากการตั้งค่าผู้ดูแลระบบ
    • GPT-5.4 Pro เปิดให้ใช้ในแผน Pro และ Enterprise
  • GPT-5.4 เป็น โมเดล reasoning สายหลักตัวแรก ที่รวมความสามารถ frontier ด้านโค้ดจาก GPT-5.3-Codex เข้าไว้ และโมเดล Instant กับ Thinking จะพัฒนาต่อไปด้วยจังหวะที่แตกต่างกันในอนาคต

2 ความคิดเห็น

 
helio 2026-03-06

เมื่อเปิดใช้งานโหมด /fast ใน Codex จะได้ความเร็วโทเค็นสูงสุดเร็วขึ้น 1.5 เท่า โดยยังคงใช้โมเดลเดิมและระดับสติปัญญาเดิม ใน API จะใช้ Priority Processing.
Priority Processing มีราคาเป็น 2 เท่าของแบบมาตรฐาน
คำขอที่เกินหน้าต่างบริบทมาตรฐาน 272K จะถูกคิดค่าบริการในอัตรา 2 เท่า

 
GN⁺ 2026-03-06
ความเห็นจาก Hacker News
  • กล่อง “Ask ChatGPT” ที่อยู่ท้ายบทความทำให้ขำดี
    ถ้าพิมพ์ให้ช่วยสรุปเนื้อหาบทความ มันจะเปิดหน้าต่างใหม่ขึ้นมา แต่สุดท้ายตอบกลับแค่ว่า “ไม่สามารถเข้าถึง URL ภายนอกได้”
    เลยสงสัยว่า OpenAI รู้ไหมว่าฟีเจอร์นี้ใช้งานจริงไม่ได้

    • ดูเหมือนว่าจะใช้ไม่ได้เฉพาะกับผู้ใช้ที่ไม่ได้ล็อกอิน
      ตอนล็อกอินมันทำงานปกติ และได้ส่ง รายงานบั๊ก ไปให้ทีมแล้ว
    • ตอนที่ฉันลอง มันสรุปได้ตามปกติ
      ดู ลิงก์ตัวอย่างที่แชร์ไว้
      ฉันก็อยู่ในสถานะล็อกอินเหมือนกัน
    • ของฉันก็สรุปได้ดีตอนล็อกอินเหมือนกัน
      น่าจะเป็นว่าการเข้าถึง URL ภายนอกขึ้นอยู่กับสถานะการล็อกอิน
    • เพิ่งกลับไปลองใช้ Claude อีกครั้งหลังจากไม่ได้ใช้นาน UX ดีขึ้นพอสมควร
      ดูเหมือนฝั่ง Anthropic จะใส่ใจกับรายละเอียด UX แบบนี้มากกว่า
    • สงสัยว่าข้อความนั้นอาจเกี่ยวกับ ปัญหาลิขสิทธิ์ หรือเปล่า
  • รู้สึกว่าไลน์อัปโมเดลของ OpenAI ซับซ้อนเกินไปแล้ว
    มีทั้ง GPT‑5.1, 5.2, 5.4 ปนกับ Codex 5.3 และ Instant 5.3
    ขณะที่ Anthropic แบ่งชัดเจนแค่สามโมเดล และ Google ก็ยังมีแต่ โมเดล Preview
    ในมุมของนักพัฒนา มันเลยน่าหงุดหงิดที่ใช้เวอร์ชันเสถียรได้ยาก

    • ทำให้นึกถึงมีมเครื่องมือเก่าของ Google vs เครื่องมือเบต้าใหม่
      เป็นสถานการณ์ที่ต้องเลือกอย่างใดอย่างหนึ่งอยู่ตลอด
    • การบ่นว่าเลขเวอร์ชันทำให้งงก็ดูเหมือน จับผิดเกินไป
      ถ้าเป็นวิศวกร การเข้าใจว่า 5.4 > 5.2 > 5.1 ไม่น่าใช่เรื่องยาก
    • Google แจ้งว่าโมเดล 2.5 จะถูก ยกเลิกการรองรับ (deprecate) ในเร็ว ๆ นี้
      ส่วน 3.x ก็ยังเป็น Preview อยู่ เลยยิ่งสับสน
    • Anthropic เองก็มีระบบเวอร์ชันที่เละพอกัน
      เวอร์ชันระหว่าง Opus, Sonnet, Haiku ไม่สอดคล้องกัน และ โครงสร้างราคา ก็ซับซ้อน
      สุดท้ายทุกบริษัทก็เจอปัญหาคล้าย ๆ กัน
    • ทุกเดือนมีโมเดลที่ดีกว่าออกมา จะยึดติดกับโมเดลเดิมไปทำไม
      นี่คือยุคที่แค่เปลี่ยน API ก็ สลับ ได้ง่ายแล้ว
  • แกนสำคัญของ GPT‑5.4 คือ หน้าต่างคอนเท็กซ์ 1M โทเค็น
    ตาม ตารางราคาอย่างเป็นทางการ ไม่มีค่าบริการเพิ่มหลัง 200k
    มันถูกกว่า Opus 4.6 มาก แต่ก็ยังสงสัยว่า 1M คอนเท็กซ์จะให้ประโยชน์จริงแค่ไหน
    ตาม เอกสารที่อัปเดตแล้ว มันเข้ามาแทน GPT‑5.3‑Codex

    • ตาม เอกสารโมเดล ระบุว่า
      ถ้าเกิน 272K โทเค็น จะคิดค่าบริการอินพุต 2 เท่า และเอาต์พุต 1.5 เท่า
    • เรื่อง คอนเท็กซ์ยาว vs การบีบอัด (compaction) เป็นประเด็นให้ชั่งใจเสมอ
      ยิ่งโทเค็นมาก ต้นทุนและเวลาแฝงก็ยิ่งเพิ่ม
      ในการทดสอบภายในของ OpenAI คอนเท็กซ์สั้นมีประสิทธิภาพกว่ามากในกรณีส่วนใหญ่
      (ความเห็นจากพนักงาน)
    • Claude ใช้จำนวนโทเค็นน้อยกว่าสำหรับงานเดียวกัน
      เลยควรเทียบกันในแง่ ต้นทุนต่องาน
      ในทางปฏิบัติ ค่าใช้จ่ายของ GPT‑5.x กับ Opus ก็อยู่ระดับใกล้เคียงกัน
      ผลลัพธ์งานจริงสำคัญกว่าคะแนนเบนช์มาร์ก
    • คนส่วนใหญ่มักดูแค่ ตารางราคาอย่างเป็นทางการ
      แต่จริง ๆ แล้ว เอกสารสำหรับนักพัฒนา แม่นยำกว่า
      อัตราปกติใช้ได้ถึงแค่ 272k เท่านั้น
    • ปัญหา context rot ก็ยังมีอยู่
      แต่ Anthropic มีแผนจะบรรเทาเรื่องนี้ด้วย RL สำหรับงานระยะยาว
  • ฉันลองใช้ GPT‑5.4 ไปไม่กี่ครั้ง แล้วรู้สึกประทับใจกับ ความชัดเจนของงานเขียนและความสามารถในการวิเคราะห์
    มันใช้สำนวนที่เป็นธรรมชาติและดูเป็นมนุษย์กว่ามากเมื่อเทียบกับ 5.3‑Codex
    อาจเป็นเพราะ AGENTS.md ของฉันกำหนดให้ใช้ภาษาที่เรียบง่ายด้วย

    • แต่ในโค้ดเบสของฉัน มันกลับพลาด บั๊กข้อมูลสูญหาย ที่สำคัญไป
    • ทุกครั้งที่มีโมเดลใหม่ออกมา ก็มักจะมีโพสต์แนว “โมเดลก่อนหน้านี้ดูดิบมาก”
      รู้สึกเหมือนเป็นแพตเทิร์นที่เกิดซ้ำอยู่เรื่อย ๆ
    • ฉันก็ย้ายจาก Opus มา Codex เหมือนกัน และพบว่า การให้เหตุผลช้าลงแต่ความแม่นยำ สูงขึ้น
      Claude จะให้ความรู้สึกหลวมกว่าเล็กน้อย
    • สงสัยว่าถ้าใช้ไฟล์ AGENTS.md เดียวกันจะได้ผลลัพธ์เหมือนกันไหม
    • งานวิจัยล่าสุดบอกว่าการใส่ AGENTS.md กลับทำให้ ประสิทธิภาพลดลง
  • OpenAI เลี่ยง ความสับสนของเลขเวอร์ชัน มาได้ตั้ง 8 เดือน แต่สุดท้ายก็กลับมาซับซ้อนอีก
    มีทั้ง GPT‑5.3 Instant, GPT‑5.4 Thinking และชื่อปนกันไปหมด

    • ยังงงอยู่เลยว่า GPT‑5.3 Instant ต่างจาก gpt‑5.3‑chat ยังไง
    • จริง ๆ แล้วมี 5.3 Codex ด้วย
    • โมเดล Instant เหมาะกับงานสรุปหรือค้นหา แต่ใน บทสนทนาที่ซับซ้อน มักหลุดบริบทได้ง่าย
      ต้องใช้ให้เหมาะกับงาน
  • เดโม เกม RPG ในบล็อกดูน่าประทับใจ
    อยู่ระดับใกล้เคียง “Battle Brothers” และเป็นตัวอย่างที่ดีของวิศวกรรมแบบอัตโนมัติ

    • น่าทึ่งที่ AI สร้าง โคลน RollerCoaster Tycoon ได้ในครั้งเดียว
      ถ้าความเร็วเป็นแบบนี้ต่อไป ตลาดเครื่องมือ low-code อาจโดนคุกคามได้
    • แต่ในความเป็นจริงมันก็ดูเป็นแค่เดโมง่าย ๆ
    • น่าจะเป็นเพราะ การรวม Playwright
      ทำให้ Codex ดีบักและทดสอบเว็บแอปแบบมองเห็นภาพได้
  • โมเดลนี้น่าจะถูกนำไปใช้ในสายงานทหารและความมั่นคงด้วย

    • มีคนบอกว่าคะแนนความปลอดภัยด้าน ความรุนแรง ลดจาก 91% เหลือ 83%
    • สงสัยว่าเขาเปิดเผยผลของเบนช์มาร์กทางทหาร (เช่น ArtificialSuperSoldier) ด้วยหรือไม่
    • อยากรู้ว่าจะใช้แบบ แนวทางของ Anthropic ได้เหมือนโมเดล Claude หรือเปล่า
    • วงการโฆษณาก็น่าจะอยากได้เทคโนโลยีนี้เหมือนกัน
    • ฝั่งกองทัพยังใช้เวอร์ชัน 4.1 อยู่ เลยน่าจะต้องใช้เวลาอีกสักพักกว่าจะอัปเกรด
  • GPT‑5.4 สาธิตความสามารถในการ ตีความภาพหน้าจอเบราว์เซอร์ แล้วคลิก UI ของ Gmail เพื่อส่งอีเมล
    แต่ฉันยังคิดว่าการใช้ Gmail API น่าจะมีประสิทธิภาพมากกว่า

    • เว็บไซต์ส่วนใหญ่ ไม่มี API หรือมีเอกสารที่แย่มาก
      ภาพหน้าจอให้ทั้งเอกสาร API และวิธีสำรวจระบบได้พร้อมกัน
    • มันเหมือนกำลังสร้าง หุ่นยนต์ฮิวแมนนอยด์ เพื่อไปใช้เครื่องมือที่ออกแบบมาสำหรับมือมนุษย์
      ถ้าสำเร็จก็จะมีความอเนกประสงค์สูง แต่การเข้าถึงแบบใช้ API ก็ยังใช้ได้อยู่ดี
    • หลายบริการไม่มีความตั้งใจจะเปิด API
      วิธีนี้เลยช่วยอ้อมข้อจำกัดเหล่านั้นได้
    • โมเดลที่ฝึก ความสามารถในการใช้คอมพิวเตอร์ จะเอาไปใช้ได้ทุกที่
      แต่โมเดลที่จัดการได้แค่ API ทำแบบนั้นไม่ได้
      ในแง่การกระจายตัวทางเศรษฐกิจ แบบแรกมีค่ามากกว่า
    • คล้ายกับเหตุผลที่ Wikipedia โดน เว็บสแครป มากกว่าการใช้ API
      สุดท้ายแล้วความสะดวกสำคัญที่สุด
  • สำหรับงานเขียนโค้ดประจำวันของฉัน แค่ เอเจนต์เขียนโค้ด 3 อันดับแรกก็เพียงพอแล้ว
    ตาม SWE‑bench Verified, GPT‑5.2 Codex ได้ 72.8 คะแนน และ GPT‑5.4 เพิ่มขึ้นราว 2 คะแนน
    ไม่ใช่ก้าวกระโดดครั้งใหญ่ แต่ก็มีการพัฒนา
    บน SWE‑bench Claude 4.6 Opus ยังนำอยู่ที่ 75.6 คะแนน
    อย่างไรก็ตาม ความสามารถแบบเอเจนต์ ของ Codex CLI ดีขึ้นมากจนใกล้ระดับ Claude Code แล้ว

  • OpenAI รวมโมเดลเข้าด้วยกันแล้ว แต่ก็กลับมาออก เวอร์ชันแยกย่อย อีกจนชวนสับสน
    มีทั้ง GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro เยอะเกินไป
    ถึงอย่างนั้น การรองรับหน้าต่างคอนเท็กซ์ 1M ก็ยังเป็นเรื่องน่ายินดี

    • ฉันชอบที่มีตัวเลือกแบบนี้
      เลือกได้ตามความต้องการ และผู้ใช้ทั่วไปก็ยังใช้ โหมด Auto ได้อยู่
    • ตัวเลือก Auto ยังมีอยู่ ดังนั้นคงไม่ใช่ปัญหาใหญ่นัก
    • น่าจะเป็นไปได้ว่าในแบ็กเอนด์ GPT‑5 ใช้โครงสร้าง auto routing หลายโมเดลโดยอัตโนมัติ