เปิดตัว GPT-5.3-Codex

(openai.com)

7 คะแนน โดย GN⁺ 2026-02-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ผสานความสามารถด้านการเขียนโค้ดของ GPT-5.2-Codex และ การให้เหตุผล·ความรู้เฉพาะทาง ของ GPT-5.2 ไว้ในโมเดลเดียว พร้อมมอบ ความเร็วที่เพิ่มขึ้น 25%
ขยายขอบเขตงานแบบ agentic ของ Codex ไปสู่ งานที่รันระยะยาว และผสาน การทำงานร่วมกันแบบโต้ตอบเรียลไทม์ ที่สามารถเปลี่ยนทิศทางและสะท้อนฟีดแบ็กได้ระหว่างทำงานเข้าในแอป Codex
เป็น โมเดลที่มีส่วนร่วมพัฒนาตัวเอง รุ่นแรกที่เวอร์ชันเริ่มต้นถูกนำไปใช้โดยตรงกับการดีบัก การจัดการการดีพลอย และการวินิจฉัยการประเมินในกระบวนการฝึกของตัวเอง
ทำผลงานระดับสูงสุดของอุตสาหกรรมในเบนช์มาร์กสำคัญอย่าง SWE-Bench Pro, Terminal-Bench 2.0, OSWorld และอื่น ๆ โดยใช้โทเคนน้อยกว่าโมเดลก่อนหน้า
รองรับ งานความรู้ตลอดวงจรชีวิตซอฟต์แวร์ ตั้งแต่การเขียนโค้ดไปจนถึงงานนำเสนอ สเปรดชีต และการวิเคราะห์ข้อมูล

ภาพรวม

GPT-5.3-Codex คือ “โมเดลเขียนโค้ดแบบ agentic ที่มีความสามารถสูงที่สุด”
ผสานสมรรถนะการเขียนโค้ดระดับ frontier ของ GPT-5.2-Codex เข้ากับความสามารถด้านการให้เหตุผลและความรู้เฉพาะทางของ GPT-5.2 ในโมเดลเดียว พร้อมเพิ่มความเร็ว 25%
ออกแบบมาเพื่อ ทำงานระยะยาวที่มีการรีเสิร์ช การใช้เครื่องมือ และการรันงานที่ซับซ้อน และยังประสานงานได้โดยไม่สูญเสียบริบทระหว่างงาน
มีส่วนเกี่ยวข้องกับ การเรียนรู้ของตัวเอง·การดีพลอย·การวินิจฉัยการประเมิน โดยใช้เวอร์ชันเริ่มต้นของตัวเอง และเป็น โมเดลแรกที่ “เร่งการพัฒนาของตัวเอง”
ขยายบทบาทของ Codex จาก “การเขียน·รีวิวโค้ด” ไปสู่ “แทบทุกงานที่นักพัฒนาและผู้เชี่ยวชาญทำบนคอมพิวเตอร์”

ความสามารถ agentic ระดับ frontier

ประสิทธิภาพการเขียนโค้ด
- ทำผลงานสูงสุดใน SWE-Bench Pro (การประเมินวิศวกรรมซอฟต์แวร์จากงานจริง) โดยเบนช์มาร์กนี้ครอบคลุม 4 ภาษา ต่างจาก SWE-Bench Verified ที่ทดสอบเฉพาะ Python และมีความทนทานต่อการปนเปื้อนสูงพร้อมความเกี่ยวข้องกับอุตสาหกรรมมากกว่า
- ใน Terminal-Bench 2.0 ก็ทำผลงานสูงกว่าสถิติก่อนหน้าอย่างมาก โดยเป็นการวัดทักษะเทอร์มินัลที่จำเป็นต่อ coding agent
- สามารถทำงานเดียวกันได้ด้วย โทเคนน้อยลง เมื่อเทียบกับโมเดลก่อนหน้า
การพัฒนาเว็บ
- ด้วยการผสานความสามารถการเขียนโค้ดระดับ frontier ความสวยงามที่ดีขึ้น และเทคนิคการบีบอัด ทำให้สามารถสร้าง เกมและแอปที่ซับซ้อน จากศูนย์ได้ภายในหลายวัน
- มีการสร้างเกมสองแบบเพื่อทดสอบการพัฒนาเว็บและ ความสามารถ agentic ระยะยาว
  - เกมแข่งรถ: มีนักแข่งหลายแบบ 8 แผนที่ และไอเท็มที่ใช้ด้วยปุ่มสเปซบาร์
  - เกมดำน้ำ: สำรวจแนวปะการังหลากหลาย เก็บสารานุกรมปลา และจัดการออกซิเจน·แรงดันน้ำ·อันตราย
- ใช้สกิล "develop web game" และ พรอมป์ต์ติดตามผลแบบทั่วไปที่ตั้งไว้ล่วงหน้า อย่าง "fix the bug" และ "improve the game" เพื่อปรับปรุงซ้ำอย่างอัตโนมัติตลอดหลายล้านโทเคน
- ในการสร้างเว็บไซต์ทั่วไป เข้าใจเจตนาผู้ใช้ได้ดีกว่า GPT-5.2-Codex และแม้พรอมป์ต์จะเรียบง่ายหรือไม่เพียงพอ ก็ยังเพิ่ม ฟังก์ชันมากขึ้นและค่าเริ่มต้นที่สมเหตุสมผล ให้โดยอัตโนมัติ
- ตัวอย่างการเปรียบเทียบ landing page: GPT-5.3-Codex แสดงแพลนรายปีเป็นราคารายเดือนแบบลดราคาโดยอัตโนมัติ และสร้าง คารูเซลแนะนำการสลับใช้งานอัตโนมัติที่มีคำพูดผู้ใช้ 3 ราย ทำให้ผลลัพธ์สมบูรณ์กว่า
ความสามารถนอกเหนือจากการเขียนโค้ด
- รองรับ ทั้งวงจรชีวิตซอฟต์แวร์ เช่น การดีบัก การดีพลอย การมอนิเตอร์ การเขียน PRD การแก้ไข copy งานวิจัยผู้ใช้ การทดสอบ และการวิเคราะห์เมตริก ซึ่งเป็นงานของวิศวกรซอฟต์แวร์ นักออกแบบ ผู้จัดการผลิตภัณฑ์ และนักวิทยาศาสตร์ข้อมูล
- ขยายไปสู่ งานนอกซอฟต์แวร์ เช่น การทำสไลด์เด็คและการวิเคราะห์ข้อมูลในชีต
- ทำได้ 70.9% เทียบเท่า GPT-5.2 ใน GDPval (การประเมินงานความรู้ที่กำหนดชัดเจนใน 44 สายอาชีพ)
  - รวมผลลัพธ์งานจริง เช่น งานนำเสนอและสเปรดชีต
- แสดงตัวอย่างผลลัพธ์หลากหลาย เช่น สไลด์ที่ปรึกษาด้านการเงิน เอกสารฝึกอบรมค้าปลีก สเปรดชีตวิเคราะห์ NPV และ PDF งานนำเสนอแฟชั่น
- ทำได้ 64.7% ใน OSWorld-Verified (เบนช์มาร์กการใช้คอมพิวเตอร์แบบ agentic เพื่อทำงานด้านผลิตภาพในสภาพแวดล้อมเดสก์ท็อปแบบภาพ) เพิ่มขึ้นมากจาก GPT รุ่นก่อนหน้า (38.2%)
  - คะแนนของมนุษย์อยู่ที่ประมาณ 72%

ผู้ร่วมงานแบบโต้ตอบ

เมื่อความสามารถของโมเดลสูงขึ้น โจทย์สำคัญจึงเปลี่ยนจากสิ่งที่เอเจนต์ทำได้ ไปเป็นว่า มนุษย์สามารถสั่งการและกำกับเอเจนต์หลายตัวที่ทำงานขนานกันได้ง่ายแค่ไหน
แอป Codex ช่วยให้การจัดการและสั่งงานเอเจนต์ง่ายขึ้น และใน GPT-5.3-Codex ก็ให้ ความสามารถในการโต้ตอบที่สูงขึ้น
อัปเดตการตัดสินใจสำคัญและความคืบหน้าของงาน อย่างสม่ำเสมอ เพื่อให้ผู้ใช้ถามแบบเรียลไทม์ ถกแนวทาง และปรับทิศทางได้โดยไม่ต้องรอผลสุดท้าย
อธิบายสิ่งที่กำลังทำ ตอบสนองต่อฟีดแบ็ก และทำให้ผู้ใช้ อยู่ในลูป ตั้งแต่ต้นจนจบ
เส้นทางการตั้งค่า: Settings > General > Follow-up behavior เพื่อเปิดใช้งานการสั่งทิศทางระหว่างที่โมเดลทำงาน

การฝึกและดีพลอย GPT-5.3-Codex ด้วย Codex

การปรับปรุง Codex อย่างรวดเร็วในช่วงหลังสร้างขึ้นบนโครงการวิจัยตลอดหลายเดือนถึงหลายปีทั่วทั้ง OpenAI
นักวิจัยและวิศวกรจำนวนมากใน OpenAI ระบุว่าวิธีทำงานปัจจุบันของพวกเขา แตกต่างจากเมื่อ 2 เดือนก่อนโดยพื้นฐาน
GPT-5.3-Codex เวอร์ชันเริ่มต้นก็แสดงความสามารถสูงมากแล้ว ทำให้ทีมใช้เวอร์ชันเริ่มต้นนี้เพื่อสนับสนุนการปรับปรุงการฝึกและการดีพลอยของเวอร์ชันถัดมา
ตัวอย่างการใช้งานของทีมวิจัย
- ใช้ Codex สำหรับ มอนิเตอร์และดีบัก training run ของรีลีสนี้
- นอกเหนือจากการดีบักปัญหาโครงสร้างพื้นฐานแล้ว ยังสร้าง แอปพลิเคชันที่มีความลึกมากขึ้น เพื่อไล่ตามแพตเทิร์นตลอดกระบวนการฝึก วิเคราะห์คุณภาพการโต้ตอบเชิงลึก เสนอการแก้ไข และระบุความต่างด้านพฤติกรรมจากโมเดลก่อนหน้าอย่างแม่นยำ
ตัวอย่างการใช้งานของทีมวิศวกรรม
- ใช้ Codex เพื่อ ปรับแต่งและทำให้ harness เหมาะกับ GPT-5.3-Codex
- เมื่อเกิด edge case แปลก ๆ ที่กระทบผู้ใช้ ใช้ Codex เพื่อ ระบุบั๊กการเรนเดอร์คอนเท็กซ์ และวิเคราะห์สาเหตุรากของอัตรา cache hit ที่ต่ำ
- ระหว่างช่วงเปิดตัว ใช้งานอย่างต่อเนื่องเพื่อรองรับทราฟฟิกที่พุ่งขึ้นด้วย การสเกล GPU cluster แบบไดนามิก และการรักษาเสถียรภาพของ latency
ตัวอย่างการใช้งานในการทดสอบอัลฟา
- นักวิจัยคนหนึ่งต้องการเข้าใจว่า GPT-5.3-Codex ทำงานเพิ่มได้มากเพียงใดต่อหนึ่งเทิร์น และต่างด้านผลิตภาพอย่างไร
- GPT-5.3-Codex ออกแบบ ตัวจำแนกด้วย regex แบบง่าย หลายตัวเพื่อประมาณความถี่ของคำถามเพื่อขอความชัดเจน การตอบรับเชิงบวก·ลบ และความคืบหน้าของงาน จากนั้นรันกับล็อกทั้งเซสชันในวงกว้างแล้วสร้างรายงานสรุปผล
- ผู้ที่สร้างร่วมกับ Codex มีความพึงพอใจสูงกว่า โดยเอเจนต์เข้าใจเจตนาได้ดีกว่า แสดง ความคืบหน้าต่อเทิร์นมากขึ้น และถามเพื่อขอความชัดเจนน้อยลง
การสร้าง data pipeline
- ข้อมูลจากการทดสอบอัลฟาแตกต่างจากโมเดลก่อนหน้ามาก จึงเกิด ผลลัพธ์ผิดปกติและสวนทางสัญชาตญาณ จำนวนมาก
- นักวิทยาศาสตร์ข้อมูลสร้าง data pipeline ใหม่ร่วมกับ GPT-5.3-Codex และทำการแสดงผลข้อมูลที่ สมบูรณ์กว่ามาก เมื่อเทียบกับเครื่องมือแดชบอร์ดมาตรฐาน
- วิเคราะห์ผลลัพธ์ร่วมกับ Codex และสรุปอินไซต์สำคัญจากจุดข้อมูลหลายพันรายการได้ ภายใน 3 นาที

การรักษาระดับ frontier ด้านความปลอดภัยไซเบอร์

ในช่วงหลายเดือนที่ผ่านมา สมรรถนะของโมเดลในงานด้านความมั่นคงไซเบอร์ดีขึ้นอย่างมีนัยสำคัญ ซึ่งเป็นประโยชน์ทั้งต่อนักพัฒนาและผู้เชี่ยวชาญด้านความปลอดภัย
ควบคู่กันนั้น ได้เตรียม มาตรการความปลอดภัยไซเบอร์ที่เข้มงวดยิ่งขึ้น เพื่อรองรับการใช้งานเชิงป้องกันและความยืดหยุ่นของระบบนิเวศในวงกว้าง
ภายใต้ Preparedness Framework นี่คือโมเดลแรกที่ถูกจัดเป็นระดับ High สำหรับงานที่เกี่ยวข้องกับความมั่นคงไซเบอร์ และเป็นโมเดลแรกที่เรียนรู้การระบุช่องโหว่ซอฟต์แวร์โดยตรง
แม้ยังไม่มีหลักฐานยืนยันชัดเจนว่าสามารถทำระบบอัตโนมัติสำหรับการโจมตีไซเบอร์แบบ end-to-end ได้ แต่ก็ใช้ แนวทางเชิงป้องกันล่วงหน้า และดีพลอยสแตกความปลอดภัยไซเบอร์ที่ครอบคลุมที่สุดเท่าที่เคยมีมา
- รวมถึงการฝึกด้านความปลอดภัย การมอนิเตอร์อัตโนมัติ การเข้าถึงตามความเชื่อถือสำหรับความสามารถขั้นสูง และ pipeline การบังคับใช้งานที่มี threat intelligence
โดยคำนึงถึงลักษณะ ใช้ได้สองทาง โดยธรรมชาติของความมั่นคงไซเบอร์ จึงใช้แนวทางเชิงประจักษ์แบบวนซ้ำที่ช่วยเร่งความสามารถของฝ่ายป้องกันในการค้นหาและแก้ไขช่องโหว่ พร้อมชะลอการใช้งานในทางที่ผิด
งานวิจัยเชิงป้องกันและโครงการปกป้องระบบนิเวศ
- เปิดตัวโครงการนำร่อง Trusted Access for Cyber เพื่อเร่งงานวิจัยด้านการป้องกันไซเบอร์
- ขยาย private beta ของเอเจนต์วิจัยด้านความปลอดภัย Aardvark ซึ่งเป็นผลิตภัณฑ์แรกในกลุ่ม Codex Security
- ร่วมมือกับผู้ดูแลโอเพนซอร์สเพื่อให้บริการสแกนโค้ดเบสฟรีแก่โปรเจ็กต์ที่ใช้งานอย่างแพร่หลาย (เช่น Next.js)
  - นักวิจัยด้านความปลอดภัยใช้ Codex ค้นพบช่องโหว่ที่เปิดเผยเมื่อสัปดาห์ก่อน (CVE-2025-59471, CVE-2025-59472)
- ต่อเนื่องจากโครงการทุนสนับสนุนด้านความมั่นคงไซเบอร์มูลค่า 1 ล้านดอลลาร์ที่เปิดตัวในปี 2023 ได้ลงทุนเพิ่มเป็น API credits มูลค่า 10 ล้านดอลลาร์ เพื่อเร่งการป้องกันไซเบอร์ด้วยโมเดลที่ทรงพลังที่สุด
  - โดยเฉพาะกับซอฟต์แวร์โอเพนซอร์สและระบบโครงสร้างพื้นฐานสำคัญ
  - องค์กรที่ทำงานวิจัยด้านความปลอดภัยโดยสุจริตสามารถสมัครขอ API credits และการสนับสนุนผ่าน Cybersecurity Grant Program

การใช้งานได้และรายละเอียด

GPT-5.3-Codex ใช้งานได้ใน แพลน ChatGPT แบบชำระเงิน และใช้ได้ทุกที่ที่รองรับ Codex (แอป, CLI, IDE extension, เว็บ)
กำลังเตรียมเปิดใช้งานการเข้าถึงผ่าน API อย่างปลอดภัย
ด้วยการปรับปรุงโครงสร้างพื้นฐานและสแตกการอนุมาน จึงให้ ความเร็วเพิ่มขึ้น 25% สำหรับผู้ใช้ Codex เพื่อการโต้ตอบและผลลัพธ์ที่รวดเร็วยิ่งขึ้น
ร่วมออกแบบ ฝึก และให้บริการบน NVIDIA GB200 NVL72 system

ทิศทางในอนาคต

Codex กำลังขยับจากการเขียนโค้ด ไปสู่การใช้โค้ดเป็นเครื่องมือเพื่อ ควบคุมคอมพิวเตอร์และทำงานให้เสร็จตั้งแต่ต้นจนจบ
การขยาย frontier ของ coding agent ไม่ได้ปลดล็อกแค่การสร้างและดีพลอยซอฟต์แวร์เท่านั้น แต่ยังเปิดไปสู่งานความรู้ที่กว้างขึ้นอย่างการวิจัย การวิเคราะห์ และการทำงานที่ซับซ้อน
เริ่มจากการเป็น coding agent ที่ดีที่สุด และพัฒนาไปเป็น ผู้ร่วมงานอเนกประสงค์บนคอมพิวเตอร์ ที่ขยายทั้งสิ่งที่สร้างได้และผู้คนที่สามารถสร้างได้

Appendix: ตัวเลขเบนช์มาร์ก

การประเมินทั้งหมดรันด้วย xhigh reasoning effort
SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
GDPval(ชนะหรือเสมอ): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%

2 ความคิดเห็น

treestae 2026-02-06

เมื่อก่อนผมค่อนข้างชอบฝั่ง Claude มากกว่า แต่ช่วงหลังมานี้กลับรู้สึกว่า Codex ถูกใจกว่า หวังว่าทั้งสองจะพัฒนาไปแบบเกื้อหนุนกันเหมือน iOS กับ AOS

GN⁺ 2026-02-06

ความเห็นจาก Hacker News

น่าสนใจที่ GPT‑5.3 Codex และ Opus 4.6 กำลังพัฒนาไปในทิศทางที่ต่างกันในเชิงปรัชญา
Codex ถูกออกแบบให้เป็นผู้ร่วมงานแบบโต้ตอบที่มนุษย์เข้ามาแทรกแซงและทำงานร่วมกันระหว่างทาง ขณะที่ Opus เป็นระบบที่อัตโนมัติและมีการวางแผนมากกว่า โดยลดการแทรกแซงของมนุษย์ให้น้อยที่สุด
ดูเหมือนว่านี่สะท้อนมุมมองสองแบบที่นักพัฒนามีต่อการเขียนโค้ดด้วย LLM — การควบคุมโดยมนุษย์ vs การมอบหมายทั้งหมด —
ชวนสงสัยว่าในอนาคตโมเดลจะถูกปรับให้เหมาะกับความแตกต่างเชิงปรัชญาแบบนี้ต่อไป หรือจะมีแนวทางใหม่เกิดขึ้น
- ในมุม UX กลับรู้สึกเหมือนตรงกันข้าม
  Codex มีแนวโน้มจะคิดนานกว่าเดิมมากก่อนจะให้คำตอบ
- ฉันมั่นใจว่าแนวทางของ Codex จะไปต่อได้
  ถ้ามนุษย์ยังอยู่ในลูป ก็หลีกเลี่ยงปัญหาของ LLM ได้เกือบทั้งหมด และการรีวิวทีละหน่วยโค้ดเล็ก ๆ ก็มีประสิทธิภาพ
  ถ้า Codex จัดการงานซ้ำ ๆ ให้ นักพัฒนาก็จะโฟกัสกับลอจิกหลักได้
  แนวทางอัตโนมัติเต็มรูปแบบไม่เหมาะกับโค้ดเบสขนาดใหญ่ เพราะคุณภาพโค้ดจะลดลงในระยะยาว
- จริง ๆ แล้วตอนแรก Codex ออกมาในรูปแบบเว็บแอปและแทบไม่มีปฏิสัมพันธ์เลย
  แค่ส่งคำขอเข้าไป มันก็รันอัตโนมัติในสภาพแวดล้อมคอนเทนเนอร์ แล้วหลังจากนั้นค่อยติดตามงานต่อผ่านแชตเท่านั้น
- รู้สึกว่าโมเดลทั้งสองกำลังค่อย ๆ บรรจบกันในพื้นที่ของกันและกัน
  Codex ดูจะอัตโนมัติมากขึ้นเรื่อย ๆ ส่วน Opus ก็ดูจะร่วมงานกับคนมากขึ้น
  สุดท้ายแล้วทั้งสองแนวทางก็น่าจะมีประโยชน์ตามบริบทที่ต่างกัน
- Codex ให้ความรู้สึกว่าเป็นโมเดลที่คิดมากกว่า Opus
  เพราะงั้นเวอร์ชัน 5.2 ถึงเสถียรกว่า Opus 4.5
ดูเหมือน Anthropic จะรีบเปิดตัว Opus 4.6เพื่อหลีกเลี่ยงการถูกนำไปเทียบกับ GPT‑5.3‑Codex
คะแนน Terminal‑Bench 2.0 คือ Opus 4.6 ได้ 65.4 ส่วน GPT‑5.3‑Codex ได้ 77.3
- เบนช์มาร์ก AI มักไม่ค่อยตรงกับประสบการณ์ใช้งานจริง
  ถึงอย่างนั้น Codex 5.2 ก็โดดเด่นที่สุดกับงานซับซ้อน และฉันก็กำลังตั้งตารอ 5.3
- น่าทึ่งที่มีการเปิดตัวโมเดลเขียนโค้ดระดับท็อปสองตัวในวันเดียวกัน
- การทดสอบรันในโหมด reasoning ระดับ xhigh เลยทำให้ต้นทุนเพิ่มเป็นสองเท่า
  GPT‑5.2 Codex อยู่ที่ $3244 ส่วน Claude Opus 4.5 อยู่ราว $1485
- ดูเหมือน Codex จะoverfit กับ Terminal Bench
  ถ้าดูผล ARC AGI 2 ก็เหมือนว่ายังขาดความสามารถในการ generalize
- จากประสบการณ์ของฉัน ตระกูล GPT เก่งเรื่องagentic codingมากกว่า Claude มาก
  เลยยังสงสัยกับคำกล่าวที่ว่า Claude เหนือกว่าในการเขียนโค้ด
ประทับใจที่ GPT‑5.3‑Codex เป็นโมเดลแรกที่ถูกนำมาใช้พัฒนาตัวมันเอง
มีการบอกว่าทีม Codex ใช้เวอร์ชันแรก ๆ มาช่วยดีบัก pipeline การฝึกของตัวเอง
ฉันคิดว่าเหตุผลที่ Claude Code เติบโตได้ก็เพราะวัฒนธรรมแบบdogfoodingนี้ด้วย
- ไม่ได้ต่างจากทิศทางที่นักวิจัยของ โปรเจกต์ AI‑2027 คาดไว้มากนัก
- ดูเหมือนโมเดลกำลังเข้าสู่ระยะเริ่มต้นของการพัฒนาตัวเอง
  ทำให้ต้องกลับมาคิดอีกครั้งว่า “การพัฒนาแบบค่อยเป็นค่อยไป (soft take‑off)” จะเป็นไปได้ไหม
GPT‑5.3‑Codex ถูกจัดเป็นโมเดลที่มีขีดความสามารถสูง (high capability) สำหรับงานด้านไซเบอร์ซีเคียวริตี้
มันถูกฝึกให้ตรวจจับช่องโหว่โดยตรง แต่ยังไม่มีหลักฐานว่าทำการโจมตีแบบอัตโนมัติเต็มรูปแบบได้
แต่ฉันก็คิดว่าเฟรมเวิร์กด้านความปลอดภัยนี้ล้าสมัยแล้ว
ต่อไปโค้ดที่ Codex เขียนขึ้นเองอาจกลายเป็นพื้นผิวการโจมตีแบบใหม่ในเชิงความปลอดภัย
โดยพื้นฐานแล้ว Codex ควรถูกออกแบบให้สร้างโค้ดที่ปลอดภัย
- สงสัยว่า “high‑capability” หมายถึงเก่งกว่าทีมผู้เชี่ยวชาญระดับปริญญาเอกหรือเปล่า
  บทความที่เกี่ยวข้อง: รายงานของ NBC News
- นี่ดูเหมือนเป็นกลยุทธ์แบบเดิมของ OpenAI ที่พยายามสร้างภาพว่าตัวเองใกล้ AGI แล้วอีกครั้ง
  คล้ายกับ Anthropic ที่ใช้กรอบ “งานวิจัยด้านความปลอดภัย” เป็นฉากหน้าในการโชว์ศักยภาพทางเทคนิค
- ช่วงนี้มีมุกว่าโปรเจกต์แบบvibe-codedมักเผลอเปิด API key ทิ้งไว้บนหน้าเว็บตรง ๆ
  เลยสงสัยว่าความผิดพลาดแบบนี้จะยังเกิดขึ้นต่อไปไหม
- บอกว่า “เสริมความปลอดภัย” สุดท้ายอาจแค่เพิ่ม ACL กับอัปเดต regexก็ได้
เมื่อก่อนแล็บ AI จะประสานกันเพื่อหลีกเลี่ยงการประกาศพร้อมกัน แต่ตอนนี้กลับแข่งกันประกาศห่างกันแค่ 30 นาที
- ตอนนี้กลายเป็นการแข่งขันที่ดุเดือดเต็มตัวแล้ว
  Demis อาจไม่เก่งเกมการเมือง แต่คงสู้ด้วยประสิทธิภาพ
  ส่วน Elon, Sam, Dario นั้นเก่งเรื่องเกมการเมืองไปแล้ว
  ปี 2026 น่าจะเป็นปีที่วงการ AI ดราม่าหนักมาก
- ยังมีการปรับตารางเพื่อแข่งกับโมเดลโลคัลให้ตรงกับช่วงตรุษจีนของจีนด้วย
- การแข่งขันแบบนี้มีมาตั้งแต่ยุค GPT‑4 แล้ว
  ตอน OpenAI ประกาศตอน 10 โมง Anthropic กับ Google ก็เคยเปิดตัวชนกันเหมือนกัน
- มีคนสงสัยว่าการประสานแบบนี้อาจผิดกฎหมายในฐานะพฤติกรรมแบบคาร์เทลหรือเปล่า
รู้สึกสนใจตอนเห็นการประกาศว่า GPT‑5.3‑Codex สามารถปรับปรุงเว็บเกมได้ด้วยตัวเอง
แต่ก็น่าเสียดายที่ไม่ได้เปิดเผยจำนวนพรอมป์ต์หรือจำนวนโทเคนในงานทดลองเปรียบเทียบ
อยากลองเอาไปเทียบกับ เว็บโคลน Factorio ที่ฉันเคยทำ
- เดโมนั้นเจ๋งมากจริง ๆ
  ไม่เคยรู้มาก่อนว่าเขาใช้โมเดลในลักษณะนี้ได้ด้วย
ได้ยินคำว่า AI จะช่วยให้ผลิตภาพเพิ่มขึ้น 100 เท่ามาหลายปีแล้ว
แต่ก็ยังสงสัยว่ามีโปรแกรมไหนที่ LLM สร้างขึ้นเป็นหลักแล้วทั้งใหม่และเชื่อถือได้จริงหรือไม่
- ตอนมีเครื่องคิดเลขในยุค 1930 ก็มีคนบอกว่างานบัญชีจะหายไป แต่กลับยิ่งเฉพาะทางมากขึ้น
  LLM ก็แค่ช่วยให้แก้ปัญหาเดิมได้เร็วขึ้น ไม่ได้แก้ปัญหาใหม่แบบสิ้นเชิง
  ยกตัวอย่างเช่น ตอนมีปัญหาการจัดเรียงการ์ด UI Gemini เคยเสนอแนวทางแบบพิกัดเชิงขั้วซึ่งช่วยได้มาก
  อาจไม่ถึง 100 เท่า แต่รู้สึกว่าผลิตภาพเพิ่มขึ้น 2 เท่า
  เธรดที่เกี่ยวข้อง: ตัวอย่าง vibe coding
- นักพัฒนาส่วนใหญ่แก้ปัญหาเดิม ๆซ้ำมากกว่าจะเจอปัญหาใหม่
  เพราะงั้นคำวิจารณ์ว่าเป็น “ปัญหาที่มีคำตอบอยู่แล้ว” จึงไม่ได้มีความหมายมากนัก
- อยากให้มีโปรเจกต์เกมขนาดใหญ่แบบโอเพนซอร์สที่ปล่อยออกมา เช่น OpenGTA, OpenFIFA เป็นต้น
- Opus 4.5 ใช้ความพยายามถึงห้าครั้งกว่าจะแก้ปัญหา git ง่าย ๆ ได้
  และสามครั้งก็มโนแฟลกที่ไม่มีอยู่จริงขึ้นมา
  ChatGPT 5.2 เองก็ตั้งสคริปต์ ffmpeg ได้ไม่จบในทีเดียว ต้องแก้หลายรอบ
  วันที่มันจัดการ line ending บน Windows ได้ถูกต้อง วันนั้นอาจเรียกได้ว่าเป็น AGI
- มีโปรแกรมแบบไหนที่มนุษย์เขียนได้แต่ LLM จะไม่มีวันเขียนได้ไหม?
  การที่โค้ดเบสใหญ่ก็เป็นแค่ข้อจำกัดชั่วคราวเท่านั้น
  ฟังดูเหมือนเป็นการบ่นของคนที่ไม่ชอบความก้าวหน้า
ผลลัพธ์ Terminal Bench 2.0

โมเดล คะแนน

OpenAI Codex 5.3 77.3

Anthropic Opus 4.6 65.4
- ตอนนี้การแข่งกันเรื่องเบนช์มาร์ก (benchmaxxing) ดูจะมีความหมายน้อยลงแล้ว
  มากกว่าคะแนน สิ่งสำคัญคือ “ความรู้สึก” ของประสบการณ์เขียนโค้ดจริง
- ประสิทธิภาพในโลกจริงน่าผิดหวังกว่าเบนช์มาร์กมาก
สงสัยว่านักพัฒนารู้สึกถูกคุกคามจากการเปลี่ยนแปลงนี้หรือไม่
สำหรับฉัน บอกตรง ๆ ว่ารู้สึก
- AI ยังขาดความสามารถด้านนามธรรม
  ถ้าเป็นโปรแกรมเมอร์สายแข่งขันอาจรู้สึกถูกคุกคาม แต่สำหรับนักพัฒนาทั่วไปจะน้อยกว่า
- ถ้ายังไม่ได้เรียนรู้วิธีใช้ AI ให้เก่ง ก็คงรู้สึกเป็นภัยคุกคามได้
- ตอนนี้มนุษย์ยังต้องเป็นคนรีวิวโค้ดเอง
  คิดว่าการทำอัตโนมัติเต็มรูปแบบยังเป็นไปไม่ได้จนกว่า AGI จะมาถึง
- เหมือนกับความขัดแย้งของ Jevons ต่อให้ประสิทธิภาพเพิ่มขึ้น งานก็อาจไม่ได้หายไป
รอบตัวฉันมีคนใช้ Claude มากกว่า Codex เยอะ
แต่ Codex ใจกว้างกว่ามากในแง่ขีดจำกัดการใช้งานและแพ็กเกจราคา
ใช้แพ็กเกจ $20 มาหลายเดือนก็แทบไม่เคยชนลิมิต
รู้สึกว่าความต่างเชิงปฏิบัติแบบนี้สำคัญกว่าคุณภาพการเขียนโค้ดเสียอีก
- ช่วงหลังเปลี่ยนมาใช้terminal agentบน CLI แล้วพบว่า Codex ดีกว่ามาก
  เมื่อก่อนใน GH Copilot นั้น Claude ดีกว่า แต่
  Codex มีความเป็นอัตโนมัติสูงกว่า เลยเหมาะกับ vibe‑coding มากกว่า
  และดูเหมือนฐานผู้ใช้จะโตขึ้นจากแรงส่งด้านการโปรโมตบน Twitter และ LinkedIn
- ฉันก็รู้สึกว่าสิทธิประโยชน์ของแพ็กเกจ Codex ดีกว่า
  ถ้าดูไม่ออกว่าคุณภาพต่างกัน ก็แน่นอนว่าต้องเลือกตัวที่ถูกกว่า
- ต่อให้รันเซสชันแบบมัลติเอเจนต์ทั้งวันก็แทบไม่ติดลิมิต
  เปลี่ยนแพ็กเกจก็ยืดหยุ่น เลยรู้สึกว่าประสบการณ์ใช้งานดีมาก

โมเดล	คะแนน
OpenAI Codex 5.3	77.3
Anthropic Opus 4.6	65.4

เปิดตัว GPT-5.3-Codex

ภาพรวม

ความสามารถ agentic ระดับ frontier

ประสิทธิภาพการเขียนโค้ด

การพัฒนาเว็บ

ความสามารถนอกเหนือจากการเขียนโค้ด

ผู้ร่วมงานแบบโต้ตอบ

การฝึกและดีพลอย GPT-5.3-Codex ด้วย Codex

ตัวอย่างการใช้งานของทีมวิจัย

ตัวอย่างการใช้งานของทีมวิศวกรรม

ตัวอย่างการใช้งานในการทดสอบอัลฟา

การสร้าง data pipeline