- ผสานความสามารถด้านการเขียนโค้ดของ GPT-5.2-Codex และ การให้เหตุผล·ความรู้เฉพาะทาง ของ GPT-5.2 ไว้ในโมเดลเดียว พร้อมมอบ ความเร็วที่เพิ่มขึ้น 25%
- ขยายขอบเขตงานแบบ agentic ของ Codex ไปสู่ งานที่รันระยะยาว และผสาน การทำงานร่วมกันแบบโต้ตอบเรียลไทม์ ที่สามารถเปลี่ยนทิศทางและสะท้อนฟีดแบ็กได้ระหว่างทำงานเข้าในแอป Codex
- เป็น โมเดลที่มีส่วนร่วมพัฒนาตัวเอง รุ่นแรกที่เวอร์ชันเริ่มต้นถูกนำไปใช้โดยตรงกับการดีบัก การจัดการการดีพลอย และการวินิจฉัยการประเมินในกระบวนการฝึกของตัวเอง
- ทำผลงานระดับสูงสุดของอุตสาหกรรมในเบนช์มาร์กสำคัญอย่าง SWE-Bench Pro, Terminal-Bench 2.0, OSWorld และอื่น ๆ โดยใช้โทเคนน้อยกว่าโมเดลก่อนหน้า
- รองรับ งานความรู้ตลอดวงจรชีวิตซอฟต์แวร์ ตั้งแต่การเขียนโค้ดไปจนถึงงานนำเสนอ สเปรดชีต และการวิเคราะห์ข้อมูล
ภาพรวม
- GPT-5.3-Codex คือ “โมเดลเขียนโค้ดแบบ agentic ที่มีความสามารถสูงที่สุด”
- ผสานสมรรถนะการเขียนโค้ดระดับ frontier ของ GPT-5.2-Codex เข้ากับความสามารถด้านการให้เหตุผลและความรู้เฉพาะทางของ GPT-5.2 ในโมเดลเดียว พร้อมเพิ่มความเร็ว 25%
- ออกแบบมาเพื่อ ทำงานระยะยาวที่มีการรีเสิร์ช การใช้เครื่องมือ และการรันงานที่ซับซ้อน และยังประสานงานได้โดยไม่สูญเสียบริบทระหว่างงาน
- มีส่วนเกี่ยวข้องกับ การเรียนรู้ของตัวเอง·การดีพลอย·การวินิจฉัยการประเมิน โดยใช้เวอร์ชันเริ่มต้นของตัวเอง และเป็น โมเดลแรกที่ “เร่งการพัฒนาของตัวเอง”
- ขยายบทบาทของ Codex จาก “การเขียน·รีวิวโค้ด” ไปสู่ “แทบทุกงานที่นักพัฒนาและผู้เชี่ยวชาญทำบนคอมพิวเตอร์”
ความสามารถ agentic ระดับ frontier
-
ประสิทธิภาพการเขียนโค้ด
- ทำผลงานสูงสุดใน SWE-Bench Pro (การประเมินวิศวกรรมซอฟต์แวร์จากงานจริง) โดยเบนช์มาร์กนี้ครอบคลุม 4 ภาษา ต่างจาก SWE-Bench Verified ที่ทดสอบเฉพาะ Python และมีความทนทานต่อการปนเปื้อนสูงพร้อมความเกี่ยวข้องกับอุตสาหกรรมมากกว่า
- ใน Terminal-Bench 2.0 ก็ทำผลงานสูงกว่าสถิติก่อนหน้าอย่างมาก โดยเป็นการวัดทักษะเทอร์มินัลที่จำเป็นต่อ coding agent
- สามารถทำงานเดียวกันได้ด้วย โทเคนน้อยลง เมื่อเทียบกับโมเดลก่อนหน้า
-
การพัฒนาเว็บ
- ด้วยการผสานความสามารถการเขียนโค้ดระดับ frontier ความสวยงามที่ดีขึ้น และเทคนิคการบีบอัด ทำให้สามารถสร้าง เกมและแอปที่ซับซ้อน จากศูนย์ได้ภายในหลายวัน
- มีการสร้างเกมสองแบบเพื่อทดสอบการพัฒนาเว็บและ ความสามารถ agentic ระยะยาว
- เกมแข่งรถ: มีนักแข่งหลายแบบ 8 แผนที่ และไอเท็มที่ใช้ด้วยปุ่มสเปซบาร์
- เกมดำน้ำ: สำรวจแนวปะการังหลากหลาย เก็บสารานุกรมปลา และจัดการออกซิเจน·แรงดันน้ำ·อันตราย
- ใช้สกิล "develop web game" และ พรอมป์ต์ติดตามผลแบบทั่วไปที่ตั้งไว้ล่วงหน้า อย่าง "fix the bug" และ "improve the game" เพื่อปรับปรุงซ้ำอย่างอัตโนมัติตลอดหลายล้านโทเคน
- ในการสร้างเว็บไซต์ทั่วไป เข้าใจเจตนาผู้ใช้ได้ดีกว่า GPT-5.2-Codex และแม้พรอมป์ต์จะเรียบง่ายหรือไม่เพียงพอ ก็ยังเพิ่ม ฟังก์ชันมากขึ้นและค่าเริ่มต้นที่สมเหตุสมผล ให้โดยอัตโนมัติ
- ตัวอย่างการเปรียบเทียบ landing page: GPT-5.3-Codex แสดงแพลนรายปีเป็นราคารายเดือนแบบลดราคาโดยอัตโนมัติ และสร้าง คารูเซลแนะนำการสลับใช้งานอัตโนมัติที่มีคำพูดผู้ใช้ 3 ราย ทำให้ผลลัพธ์สมบูรณ์กว่า
-
ความสามารถนอกเหนือจากการเขียนโค้ด
- รองรับ ทั้งวงจรชีวิตซอฟต์แวร์ เช่น การดีบัก การดีพลอย การมอนิเตอร์ การเขียน PRD การแก้ไข copy งานวิจัยผู้ใช้ การทดสอบ และการวิเคราะห์เมตริก ซึ่งเป็นงานของวิศวกรซอฟต์แวร์ นักออกแบบ ผู้จัดการผลิตภัณฑ์ และนักวิทยาศาสตร์ข้อมูล
- ขยายไปสู่ งานนอกซอฟต์แวร์ เช่น การทำสไลด์เด็คและการวิเคราะห์ข้อมูลในชีต
- ทำได้ 70.9% เทียบเท่า GPT-5.2 ใน GDPval (การประเมินงานความรู้ที่กำหนดชัดเจนใน 44 สายอาชีพ)
- รวมผลลัพธ์งานจริง เช่น งานนำเสนอและสเปรดชีต
- แสดงตัวอย่างผลลัพธ์หลากหลาย เช่น สไลด์ที่ปรึกษาด้านการเงิน เอกสารฝึกอบรมค้าปลีก สเปรดชีตวิเคราะห์ NPV และ PDF งานนำเสนอแฟชั่น
- ทำได้ 64.7% ใน OSWorld-Verified (เบนช์มาร์กการใช้คอมพิวเตอร์แบบ agentic เพื่อทำงานด้านผลิตภาพในสภาพแวดล้อมเดสก์ท็อปแบบภาพ) เพิ่มขึ้นมากจาก GPT รุ่นก่อนหน้า (38.2%)
- คะแนนของมนุษย์อยู่ที่ประมาณ 72%
ผู้ร่วมงานแบบโต้ตอบ
- เมื่อความสามารถของโมเดลสูงขึ้น โจทย์สำคัญจึงเปลี่ยนจากสิ่งที่เอเจนต์ทำได้ ไปเป็นว่า มนุษย์สามารถสั่งการและกำกับเอเจนต์หลายตัวที่ทำงานขนานกันได้ง่ายแค่ไหน
- แอป Codex ช่วยให้การจัดการและสั่งงานเอเจนต์ง่ายขึ้น และใน GPT-5.3-Codex ก็ให้ ความสามารถในการโต้ตอบที่สูงขึ้น
- อัปเดตการตัดสินใจสำคัญและความคืบหน้าของงาน อย่างสม่ำเสมอ เพื่อให้ผู้ใช้ถามแบบเรียลไทม์ ถกแนวทาง และปรับทิศทางได้โดยไม่ต้องรอผลสุดท้าย
- อธิบายสิ่งที่กำลังทำ ตอบสนองต่อฟีดแบ็ก และทำให้ผู้ใช้ อยู่ในลูป ตั้งแต่ต้นจนจบ
- เส้นทางการตั้งค่า: Settings > General > Follow-up behavior เพื่อเปิดใช้งานการสั่งทิศทางระหว่างที่โมเดลทำงาน
การฝึกและดีพลอย GPT-5.3-Codex ด้วย Codex
- การปรับปรุง Codex อย่างรวดเร็วในช่วงหลังสร้างขึ้นบนโครงการวิจัยตลอดหลายเดือนถึงหลายปีทั่วทั้ง OpenAI
- นักวิจัยและวิศวกรจำนวนมากใน OpenAI ระบุว่าวิธีทำงานปัจจุบันของพวกเขา แตกต่างจากเมื่อ 2 เดือนก่อนโดยพื้นฐาน
- GPT-5.3-Codex เวอร์ชันเริ่มต้นก็แสดงความสามารถสูงมากแล้ว ทำให้ทีมใช้เวอร์ชันเริ่มต้นนี้เพื่อสนับสนุนการปรับปรุงการฝึกและการดีพลอยของเวอร์ชันถัดมา
-
ตัวอย่างการใช้งานของทีมวิจัย
- ใช้ Codex สำหรับ มอนิเตอร์และดีบัก training run ของรีลีสนี้
- นอกเหนือจากการดีบักปัญหาโครงสร้างพื้นฐานแล้ว ยังสร้าง แอปพลิเคชันที่มีความลึกมากขึ้น เพื่อไล่ตามแพตเทิร์นตลอดกระบวนการฝึก วิเคราะห์คุณภาพการโต้ตอบเชิงลึก เสนอการแก้ไข และระบุความต่างด้านพฤติกรรมจากโมเดลก่อนหน้าอย่างแม่นยำ
-
ตัวอย่างการใช้งานของทีมวิศวกรรม
- ใช้ Codex เพื่อ ปรับแต่งและทำให้ harness เหมาะกับ GPT-5.3-Codex
- เมื่อเกิด edge case แปลก ๆ ที่กระทบผู้ใช้ ใช้ Codex เพื่อ ระบุบั๊กการเรนเดอร์คอนเท็กซ์ และวิเคราะห์สาเหตุรากของอัตรา cache hit ที่ต่ำ
- ระหว่างช่วงเปิดตัว ใช้งานอย่างต่อเนื่องเพื่อรองรับทราฟฟิกที่พุ่งขึ้นด้วย การสเกล GPU cluster แบบไดนามิก และการรักษาเสถียรภาพของ latency
-
ตัวอย่างการใช้งานในการทดสอบอัลฟา
- นักวิจัยคนหนึ่งต้องการเข้าใจว่า GPT-5.3-Codex ทำงานเพิ่มได้มากเพียงใดต่อหนึ่งเทิร์น และต่างด้านผลิตภาพอย่างไร
- GPT-5.3-Codex ออกแบบ ตัวจำแนกด้วย regex แบบง่าย หลายตัวเพื่อประมาณความถี่ของคำถามเพื่อขอความชัดเจน การตอบรับเชิงบวก·ลบ และความคืบหน้าของงาน จากนั้นรันกับล็อกทั้งเซสชันในวงกว้างแล้วสร้างรายงานสรุปผล
- ผู้ที่สร้างร่วมกับ Codex มีความพึงพอใจสูงกว่า โดยเอเจนต์เข้าใจเจตนาได้ดีกว่า แสดง ความคืบหน้าต่อเทิร์นมากขึ้น และถามเพื่อขอความชัดเจนน้อยลง
-
การสร้าง data pipeline
- ข้อมูลจากการทดสอบอัลฟาแตกต่างจากโมเดลก่อนหน้ามาก จึงเกิด ผลลัพธ์ผิดปกติและสวนทางสัญชาตญาณ จำนวนมาก
- นักวิทยาศาสตร์ข้อมูลสร้าง data pipeline ใหม่ร่วมกับ GPT-5.3-Codex และทำการแสดงผลข้อมูลที่ สมบูรณ์กว่ามาก เมื่อเทียบกับเครื่องมือแดชบอร์ดมาตรฐาน
- วิเคราะห์ผลลัพธ์ร่วมกับ Codex และสรุปอินไซต์สำคัญจากจุดข้อมูลหลายพันรายการได้ ภายใน 3 นาที
การรักษาระดับ frontier ด้านความปลอดภัยไซเบอร์
- ในช่วงหลายเดือนที่ผ่านมา สมรรถนะของโมเดลในงานด้านความมั่นคงไซเบอร์ดีขึ้นอย่างมีนัยสำคัญ ซึ่งเป็นประโยชน์ทั้งต่อนักพัฒนาและผู้เชี่ยวชาญด้านความปลอดภัย
- ควบคู่กันนั้น ได้เตรียม มาตรการความปลอดภัยไซเบอร์ที่เข้มงวดยิ่งขึ้น เพื่อรองรับการใช้งานเชิงป้องกันและความยืดหยุ่นของระบบนิเวศในวงกว้าง
- ภายใต้ Preparedness Framework นี่คือโมเดลแรกที่ถูกจัดเป็นระดับ High สำหรับงานที่เกี่ยวข้องกับความมั่นคงไซเบอร์ และเป็นโมเดลแรกที่เรียนรู้การระบุช่องโหว่ซอฟต์แวร์โดยตรง
- แม้ยังไม่มีหลักฐานยืนยันชัดเจนว่าสามารถทำระบบอัตโนมัติสำหรับการโจมตีไซเบอร์แบบ end-to-end ได้ แต่ก็ใช้ แนวทางเชิงป้องกันล่วงหน้า และดีพลอยสแตกความปลอดภัยไซเบอร์ที่ครอบคลุมที่สุดเท่าที่เคยมีมา
- รวมถึงการฝึกด้านความปลอดภัย การมอนิเตอร์อัตโนมัติ การเข้าถึงตามความเชื่อถือสำหรับความสามารถขั้นสูง และ pipeline การบังคับใช้งานที่มี threat intelligence
- โดยคำนึงถึงลักษณะ ใช้ได้สองทาง โดยธรรมชาติของความมั่นคงไซเบอร์ จึงใช้แนวทางเชิงประจักษ์แบบวนซ้ำที่ช่วยเร่งความสามารถของฝ่ายป้องกันในการค้นหาและแก้ไขช่องโหว่ พร้อมชะลอการใช้งานในทางที่ผิด
-
งานวิจัยเชิงป้องกันและโครงการปกป้องระบบนิเวศ
- เปิดตัวโครงการนำร่อง Trusted Access for Cyber เพื่อเร่งงานวิจัยด้านการป้องกันไซเบอร์
- ขยาย private beta ของเอเจนต์วิจัยด้านความปลอดภัย Aardvark ซึ่งเป็นผลิตภัณฑ์แรกในกลุ่ม Codex Security
- ร่วมมือกับผู้ดูแลโอเพนซอร์สเพื่อให้บริการสแกนโค้ดเบสฟรีแก่โปรเจ็กต์ที่ใช้งานอย่างแพร่หลาย (เช่น Next.js)
- นักวิจัยด้านความปลอดภัยใช้ Codex ค้นพบช่องโหว่ที่เปิดเผยเมื่อสัปดาห์ก่อน (CVE-2025-59471, CVE-2025-59472)
- ต่อเนื่องจากโครงการทุนสนับสนุนด้านความมั่นคงไซเบอร์มูลค่า 1 ล้านดอลลาร์ที่เปิดตัวในปี 2023 ได้ลงทุนเพิ่มเป็น API credits มูลค่า 10 ล้านดอลลาร์ เพื่อเร่งการป้องกันไซเบอร์ด้วยโมเดลที่ทรงพลังที่สุด
- โดยเฉพาะกับซอฟต์แวร์โอเพนซอร์สและระบบโครงสร้างพื้นฐานสำคัญ
- องค์กรที่ทำงานวิจัยด้านความปลอดภัยโดยสุจริตสามารถสมัครขอ API credits และการสนับสนุนผ่าน Cybersecurity Grant Program
การใช้งานได้และรายละเอียด
- GPT-5.3-Codex ใช้งานได้ใน แพลน ChatGPT แบบชำระเงิน และใช้ได้ทุกที่ที่รองรับ Codex (แอป, CLI, IDE extension, เว็บ)
- กำลังเตรียมเปิดใช้งานการเข้าถึงผ่าน API อย่างปลอดภัย
- ด้วยการปรับปรุงโครงสร้างพื้นฐานและสแตกการอนุมาน จึงให้ ความเร็วเพิ่มขึ้น 25% สำหรับผู้ใช้ Codex เพื่อการโต้ตอบและผลลัพธ์ที่รวดเร็วยิ่งขึ้น
- ร่วมออกแบบ ฝึก และให้บริการบน NVIDIA GB200 NVL72 system
ทิศทางในอนาคต
- Codex กำลังขยับจากการเขียนโค้ด ไปสู่การใช้โค้ดเป็นเครื่องมือเพื่อ ควบคุมคอมพิวเตอร์และทำงานให้เสร็จตั้งแต่ต้นจนจบ
- การขยาย frontier ของ coding agent ไม่ได้ปลดล็อกแค่การสร้างและดีพลอยซอฟต์แวร์เท่านั้น แต่ยังเปิดไปสู่งานความรู้ที่กว้างขึ้นอย่างการวิจัย การวิเคราะห์ และการทำงานที่ซับซ้อน
- เริ่มจากการเป็น coding agent ที่ดีที่สุด และพัฒนาไปเป็น ผู้ร่วมงานอเนกประสงค์บนคอมพิวเตอร์ ที่ขยายทั้งสิ่งที่สร้างได้และผู้คนที่สามารถสร้างได้
Appendix: ตัวเลขเบนช์มาร์ก
- การประเมินทั้งหมดรันด้วย xhigh reasoning effort
- SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
- Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
- OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
- GDPval(ชนะหรือเสมอ): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
- Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
- SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%
2 ความคิดเห็น
เมื่อก่อนผมค่อนข้างชอบฝั่ง Claude มากกว่า แต่ช่วงหลังมานี้กลับรู้สึกว่า Codex ถูกใจกว่า หวังว่าทั้งสองจะพัฒนาไปแบบเกื้อหนุนกันเหมือน iOS กับ AOS
ความเห็นจาก Hacker News
น่าสนใจที่ GPT‑5.3 Codex และ Opus 4.6 กำลังพัฒนาไปในทิศทางที่ต่างกันในเชิงปรัชญา
Codex ถูกออกแบบให้เป็นผู้ร่วมงานแบบโต้ตอบที่มนุษย์เข้ามาแทรกแซงและทำงานร่วมกันระหว่างทาง ขณะที่ Opus เป็นระบบที่อัตโนมัติและมีการวางแผนมากกว่า โดยลดการแทรกแซงของมนุษย์ให้น้อยที่สุด
ดูเหมือนว่านี่สะท้อนมุมมองสองแบบที่นักพัฒนามีต่อการเขียนโค้ดด้วย LLM — การควบคุมโดยมนุษย์ vs การมอบหมายทั้งหมด —
ชวนสงสัยว่าในอนาคตโมเดลจะถูกปรับให้เหมาะกับความแตกต่างเชิงปรัชญาแบบนี้ต่อไป หรือจะมีแนวทางใหม่เกิดขึ้น
Codex มีแนวโน้มจะคิดนานกว่าเดิมมากก่อนจะให้คำตอบ
ถ้ามนุษย์ยังอยู่ในลูป ก็หลีกเลี่ยงปัญหาของ LLM ได้เกือบทั้งหมด และการรีวิวทีละหน่วยโค้ดเล็ก ๆ ก็มีประสิทธิภาพ
ถ้า Codex จัดการงานซ้ำ ๆ ให้ นักพัฒนาก็จะโฟกัสกับลอจิกหลักได้
แนวทางอัตโนมัติเต็มรูปแบบไม่เหมาะกับโค้ดเบสขนาดใหญ่ เพราะคุณภาพโค้ดจะลดลงในระยะยาว
แค่ส่งคำขอเข้าไป มันก็รันอัตโนมัติในสภาพแวดล้อมคอนเทนเนอร์ แล้วหลังจากนั้นค่อยติดตามงานต่อผ่านแชตเท่านั้น
Codex ดูจะอัตโนมัติมากขึ้นเรื่อย ๆ ส่วน Opus ก็ดูจะร่วมงานกับคนมากขึ้น
สุดท้ายแล้วทั้งสองแนวทางก็น่าจะมีประโยชน์ตามบริบทที่ต่างกัน
เพราะงั้นเวอร์ชัน 5.2 ถึงเสถียรกว่า Opus 4.5
ดูเหมือน Anthropic จะรีบเปิดตัว Opus 4.6เพื่อหลีกเลี่ยงการถูกนำไปเทียบกับ GPT‑5.3‑Codex
คะแนน Terminal‑Bench 2.0 คือ Opus 4.6 ได้ 65.4 ส่วน GPT‑5.3‑Codex ได้ 77.3
ถึงอย่างนั้น Codex 5.2 ก็โดดเด่นที่สุดกับงานซับซ้อน และฉันก็กำลังตั้งตารอ 5.3
GPT‑5.2 Codex อยู่ที่ $3244 ส่วน Claude Opus 4.5 อยู่ราว $1485
ถ้าดูผล ARC AGI 2 ก็เหมือนว่ายังขาดความสามารถในการ generalize
เลยยังสงสัยกับคำกล่าวที่ว่า Claude เหนือกว่าในการเขียนโค้ด
ประทับใจที่ GPT‑5.3‑Codex เป็นโมเดลแรกที่ถูกนำมาใช้พัฒนาตัวมันเอง
มีการบอกว่าทีม Codex ใช้เวอร์ชันแรก ๆ มาช่วยดีบัก pipeline การฝึกของตัวเอง
ฉันคิดว่าเหตุผลที่ Claude Code เติบโตได้ก็เพราะวัฒนธรรมแบบdogfoodingนี้ด้วย
ทำให้ต้องกลับมาคิดอีกครั้งว่า “การพัฒนาแบบค่อยเป็นค่อยไป (soft take‑off)” จะเป็นไปได้ไหม
GPT‑5.3‑Codex ถูกจัดเป็นโมเดลที่มีขีดความสามารถสูง (high capability) สำหรับงานด้านไซเบอร์ซีเคียวริตี้
มันถูกฝึกให้ตรวจจับช่องโหว่โดยตรง แต่ยังไม่มีหลักฐานว่าทำการโจมตีแบบอัตโนมัติเต็มรูปแบบได้
แต่ฉันก็คิดว่าเฟรมเวิร์กด้านความปลอดภัยนี้ล้าสมัยแล้ว
ต่อไปโค้ดที่ Codex เขียนขึ้นเองอาจกลายเป็นพื้นผิวการโจมตีแบบใหม่ในเชิงความปลอดภัย
โดยพื้นฐานแล้ว Codex ควรถูกออกแบบให้สร้างโค้ดที่ปลอดภัย
บทความที่เกี่ยวข้อง: รายงานของ NBC News
คล้ายกับ Anthropic ที่ใช้กรอบ “งานวิจัยด้านความปลอดภัย” เป็นฉากหน้าในการโชว์ศักยภาพทางเทคนิค
เลยสงสัยว่าความผิดพลาดแบบนี้จะยังเกิดขึ้นต่อไปไหม
เมื่อก่อนแล็บ AI จะประสานกันเพื่อหลีกเลี่ยงการประกาศพร้อมกัน แต่ตอนนี้กลับแข่งกันประกาศห่างกันแค่ 30 นาที
Demis อาจไม่เก่งเกมการเมือง แต่คงสู้ด้วยประสิทธิภาพ
ส่วน Elon, Sam, Dario นั้นเก่งเรื่องเกมการเมืองไปแล้ว
ปี 2026 น่าจะเป็นปีที่วงการ AI ดราม่าหนักมาก
ตอน OpenAI ประกาศตอน 10 โมง Anthropic กับ Google ก็เคยเปิดตัวชนกันเหมือนกัน
รู้สึกสนใจตอนเห็นการประกาศว่า GPT‑5.3‑Codex สามารถปรับปรุงเว็บเกมได้ด้วยตัวเอง
แต่ก็น่าเสียดายที่ไม่ได้เปิดเผยจำนวนพรอมป์ต์หรือจำนวนโทเคนในงานทดลองเปรียบเทียบ
อยากลองเอาไปเทียบกับ เว็บโคลน Factorio ที่ฉันเคยทำ
ไม่เคยรู้มาก่อนว่าเขาใช้โมเดลในลักษณะนี้ได้ด้วย
ได้ยินคำว่า AI จะช่วยให้ผลิตภาพเพิ่มขึ้น 100 เท่ามาหลายปีแล้ว
แต่ก็ยังสงสัยว่ามีโปรแกรมไหนที่ LLM สร้างขึ้นเป็นหลักแล้วทั้งใหม่และเชื่อถือได้จริงหรือไม่
LLM ก็แค่ช่วยให้แก้ปัญหาเดิมได้เร็วขึ้น ไม่ได้แก้ปัญหาใหม่แบบสิ้นเชิง
ยกตัวอย่างเช่น ตอนมีปัญหาการจัดเรียงการ์ด UI Gemini เคยเสนอแนวทางแบบพิกัดเชิงขั้วซึ่งช่วยได้มาก
อาจไม่ถึง 100 เท่า แต่รู้สึกว่าผลิตภาพเพิ่มขึ้น 2 เท่า
เธรดที่เกี่ยวข้อง: ตัวอย่าง vibe coding
เพราะงั้นคำวิจารณ์ว่าเป็น “ปัญหาที่มีคำตอบอยู่แล้ว” จึงไม่ได้มีความหมายมากนัก
และสามครั้งก็มโนแฟลกที่ไม่มีอยู่จริงขึ้นมา
ChatGPT 5.2 เองก็ตั้งสคริปต์ ffmpeg ได้ไม่จบในทีเดียว ต้องแก้หลายรอบ
วันที่มันจัดการ line ending บน Windows ได้ถูกต้อง วันนั้นอาจเรียกได้ว่าเป็น AGI
การที่โค้ดเบสใหญ่ก็เป็นแค่ข้อจำกัดชั่วคราวเท่านั้น
ฟังดูเหมือนเป็นการบ่นของคนที่ไม่ชอบความก้าวหน้า
ผลลัพธ์ Terminal Bench 2.0
มากกว่าคะแนน สิ่งสำคัญคือ “ความรู้สึก” ของประสบการณ์เขียนโค้ดจริง
สงสัยว่านักพัฒนารู้สึกถูกคุกคามจากการเปลี่ยนแปลงนี้หรือไม่
สำหรับฉัน บอกตรง ๆ ว่ารู้สึก
ถ้าเป็นโปรแกรมเมอร์สายแข่งขันอาจรู้สึกถูกคุกคาม แต่สำหรับนักพัฒนาทั่วไปจะน้อยกว่า
คิดว่าการทำอัตโนมัติเต็มรูปแบบยังเป็นไปไม่ได้จนกว่า AGI จะมาถึง
รอบตัวฉันมีคนใช้ Claude มากกว่า Codex เยอะ
แต่ Codex ใจกว้างกว่ามากในแง่ขีดจำกัดการใช้งานและแพ็กเกจราคา
ใช้แพ็กเกจ $20 มาหลายเดือนก็แทบไม่เคยชนลิมิต
รู้สึกว่าความต่างเชิงปฏิบัติแบบนี้สำคัญกว่าคุณภาพการเขียนโค้ดเสียอีก
เมื่อก่อนใน GH Copilot นั้น Claude ดีกว่า แต่
Codex มีความเป็นอัตโนมัติสูงกว่า เลยเหมาะกับ vibe‑coding มากกว่า
และดูเหมือนฐานผู้ใช้จะโตขึ้นจากแรงส่งด้านการโปรโมตบน Twitter และ LinkedIn
ถ้าดูไม่ออกว่าคุณภาพต่างกัน ก็แน่นอนว่าต้องเลือกตัวที่ถูกกว่า
เปลี่ยนแพ็กเกจก็ยืดหยุ่น เลยรู้สึกว่าประสบการณ์ใช้งานดีมาก