- GPT‑5.1‑Codex‑Max ที่ OpenAI เปิดตัวใหม่ คือ โมเดลโค้ดดิ้งแบบเอเจนต์รุ่นล่าสุด ที่ออกแบบมาเพื่อทำงานพัฒนาระยะยาวและซับซ้อน และพร้อมใช้งานในสภาพแวดล้อม Codex
- ด้วยเทคโนโลยี ‘compaction’ แบบใหม่ จึงสามารถจัดการโปรเจ็กต์ระดับหลายล้านโทเค็นได้อย่างต่อเนื่อง โดยข้ามไปมาระหว่างหลาย context window
- ประสิทธิภาพการใช้โทเค็น ดีขึ้น ทำให้ได้ประสิทธิภาพที่ดีกว่าด้วยจำนวนโทเค็นน้อยลง 30% ในระดับการให้เหตุผลเท่าเดิม และคาดว่าจะช่วยลดต้นทุน
- สามารถทำงานได้อย่างอิสระเป็นเวลานาน และทำ refactoring และ debugging ที่ต่อเนื่องเกิน 24 ชั่วโมง ได้
- มีการเสริมความแข็งแกร่งให้กับ security sandbox และ ระบบมอนิเตอร์ด้านความปลอดภัยไซเบอร์ เพื่อพัฒนาไปเป็นพาร์ตเนอร์ AI สำหรับการเขียนโค้ดที่ปลอดภัย
แนะนำ GPT‑5.1‑Codex‑Max
- GPT‑5.1‑Codex‑Max คือ โมเดลโค้ดดิ้งแบบเอเจนต์ ตัวใหม่ของ OpenAI เป็น เวอร์ชันอัปเดตของโมเดลที่อิงการให้เหตุผล ซึ่งฝึกกับงานในหลากหลายสาขา เช่น วิศวกรรมซอฟต์แวร์ คณิตศาสตร์ และงานวิจัย
- ใช้งานได้ทันทีใน Codex CLI, ส่วนขยาย IDE, คลาวด์ และสภาพแวดล้อมรีวิวโค้ด
- การเข้าถึงผ่าน API จะเปิดให้ใช้งานในเร็ว ๆ นี้
- โมเดลนี้ปรับปรุงทั้ง ความเร็ว ความฉลาด และประสิทธิภาพการใช้โทเค็น ทำให้ทำหน้าที่เป็นพาร์ตเนอร์การเขียนโค้ดที่เชื่อถือได้มากขึ้นตลอดวงจรการพัฒนา
- ผ่านกระบวนการ Compaction จึงสามารถจัดการงานระดับหลายล้านโทเค็นได้อย่างสม่ำเสมอ แม้ต้องข้ามไปมาระหว่างหลาย context window
ประสิทธิภาพการเขียนโค้ดระดับ frontier
- ฝึกด้วย งานวิศวกรรมซอฟต์แวร์จริง (การสร้าง PR, code review, frontend coding, Q&A) จึงทำผลงานได้ดีกว่าโมเดลก่อนหน้าในการประเมินหลายชุด
- เป็นโมเดล Codex ตัวแรกที่ทำงานใน สภาพแวดล้อม Windows ได้ และยังรวมงานที่ช่วยเพิ่มประสิทธิภาพการทำงานร่วมกันของ Codex CLI
- ไม่ได้ดีขึ้นแค่ด้าน benchmark แต่ยังยืนยันผลลัพธ์ที่ดีขึ้นในด้านการใช้งานจริงด้วย
ความเร็วและความคุ้มค่าด้านต้นทุน
- ตามเกณฑ์ SWE‑bench Verified สามารถทำผลงานได้ดีกว่า GPT‑5.1‑Codex โดยใช้ โทเค็นน้อยลง 30% ที่ระดับการให้เหตุผลเท่าเดิม
- โหมดการให้เหตุผล ‘xhigh’ ให้คุณภาพที่ดีขึ้นผ่านเวลาคิดที่นานขึ้น ส่วนงานทั่วไปแนะนำให้ใช้โหมด ‘medium’
- การเพิ่มประสิทธิภาพการใช้โทเค็นคาดว่าจะนำไปสู่ การลดต้นทุนสำหรับนักพัฒนา
- ตัวอย่าง: GPT‑5.1‑Codex‑Max สามารถสร้างงานออกแบบ frontend ที่มีฟังก์ชันและความสวยงามใกล้เคียงกันได้ด้วยต้นทุนที่ต่ำกว่ามาก
งานที่รันระยะยาว
- ด้วย ความสามารถ Compaction จึงรองรับทั้งการทำ refactoring ที่ซับซ้อนซึ่งเกินข้อจำกัดของ context และการทำ agent loop ระยะยาว
- เมื่อเซสชันถึงขีดจำกัด ระบบจะย่อ (compact) โดยอัตโนมัติเพื่อรักษางานที่กำลังดำเนินอยู่และเปิดพื้นที่ context ใหม่
- ในการประเมินภายใน พบตัวอย่างของการทำงานต่อเนื่อง นานเกิน 24 ชั่วโมง
- ผ่านการแก้ไข test failure และการทำซ้ำเพื่อพัฒนา implementation จนได้ผลลัพธ์ที่สำเร็จในท้ายที่สุด
- ความสามารถในการรักษาความสม่ำเสมอในระยะยาวคือรากฐานสำคัญสู่ ระบบ AI ทั่วไปที่เชื่อถือได้
การสร้าง AI agent ที่ปลอดภัยและเชื่อถือได้
- ประสิทธิภาพใน การประเมินการให้เหตุผลระยะยาว ดีขึ้นอย่างมาก ทำให้ได้ผลลัพธ์ที่ดีขึ้นใน งานด้านความปลอดภัยไซเบอร์และงานโค้ดดิ้งระยะยาว
- แม้ยังไม่ถึงระดับ ‘High’ ตามเกณฑ์ Cybersecurity Preparedness Framework แต่ถือว่ามี สมรรถนะด้านความปลอดภัยไซเบอร์ที่แข็งแกร่งที่สุด ในบรรดาโมเดลที่ปล่อยใช้งานมาจนถึงตอนนี้
- มีการเสริมการใช้งานเชิงป้องกันผ่าน โปรแกรม Aardvark เป็นต้น
- มี ระบบมอนิเตอร์เฉพาะด้านความปลอดภัยไซเบอร์ เพื่อรวจจับและบล็อกความพยายามใช้งานในทางที่ผิด และจะส่งกิจกรรมที่น่าสงสัยเข้าสู่ระบบตรวจทานตามนโยบาย
- โดยพื้นฐานแล้ว Codex รันอยู่ภายใน security sandbox และมีข้อจำกัดด้านการเข้าถึงไฟล์และการใช้งานเครือข่าย
- เมื่อเข้าถึงอินเทอร์เน็ต จะมี ความเสี่ยงจาก prompt injection
- นักพัฒนาจำเป็นต้อง ตรวจทานงานของ agent ก่อนนำไปใช้งานจริง
- Codex จะบันทึก terminal log, การเรียกใช้เครื่องมือ และผลการทดสอบ โดยทำหน้าที่ ช่วยเสริม ไม่ใช่แทนที่การรีวิวโดยมนุษย์
- เนื่องจากความสามารถด้านความปลอดภัยไซเบอร์สามารถใช้ได้ทั้งเชิงป้องกันและเชิงโจมตี จึงดำเนิน การเปิดใช้งานแบบค่อยเป็นค่อยไปควบคู่กับการเสริมมาตรการป้องกัน
การให้บริการและการเปิดใช้งาน
- GPT‑5.1‑Codex‑Max ใช้งานได้ใน Codex ของแพ็กเกจ ChatGPT Plus, Pro, Business, Edu, Enterprise
- จะเปิดให้กับนักพัฒนาที่ใช้ Codex CLI ผ่าน API key ในเร็ว ๆ นี้ด้วย
- ตั้งแต่วันนี้เป็นต้นไป GPT‑5.1‑Codex‑Max จะมาแทน GPT‑5.1‑Codex ในฐานะโมเดลเริ่มต้น ภายใน Codex
- GPT‑5.1 เป็นโมเดลอเนกประสงค์ ขณะที่ Codex‑Max แนะนำสำหรับ งานโค้ดดิ้งแบบเอเจนต์โดยเฉพาะ
บทสรุป
- GPT‑5.1‑Codex‑Max คือความก้าวหน้าครั้งใหญ่ในด้าน ความต่อเนื่องของงานโค้ดดิ้งระยะยาว การจัดการเวิร์กโฟลว์ที่ซับซ้อน และ implementation คุณภาพสูง
- เมื่อรวมกับการปรับปรุงใน CLI, ส่วนขยาย IDE, การผสานกับคลาวด์ และเครื่องมือรีวิวโค้ดแล้ว ทำให้ ผลิตภาพด้านวิศวกรรมเพิ่มขึ้น 70%
- 95% ของวิศวกรภายใน OpenAI ใช้ Codex เป็นรายสัปดาห์
- พร้อมกับการขยายความสามารถของ agent นี่คือการก้าวเข้าสู่ ขั้นใหม่ของผลิตภาพการพัฒนา
ภาคผนวก: ผลการประเมินโมเดล
- SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
- SWE‑Lancer IC SWE: 66.3% → 79.9%
- Terminal‑Bench 2.0: 52.8% → 58.1%
2 ความคิดเห็น
Codex เจอกันที่ MS AOIA นะ 😊
ความคิดเห็นบน Hacker News
ช่วงนี้ได้ลองใช้ทั้ง Claude และ Codex เยอะมาก
Claude แทบจะเมินคำสั่งพวกไฟล์กำกับ (เช่น CLAUDE.md) ขณะที่ Codex ทำตามแบบ เคร่งสุดขีด ราวกับไม่อยากพลาดแม้แต่ตัวอักษรเดียว
ยกตัวอย่างเช่น ถ้าโค้ดทดสอบมีคำสะกดผิด Claude จะบอกว่า “อันนี้น่าจะพิมพ์ผิดแน่ ๆ” แล้วแก้ให้ แต่ Codex จะสุดโต่งถึงขั้น เขียนเอนจิน V8 ใหม่จนทำให้เลขคณิตพัง
เลยรู้สึกว่า Claude เหมาะกับงานวนซ้ำเร็ว ๆ ส่วน Codex เหมาะกับงานระยะยาวที่ความแม่นยำสำคัญ
แค่ให้คำสั่งยาวประมาณหนึ่งย่อหน้า มันก็ทำได้เกือบสมบูรณ์ใน 45 นาที พอลองให้สรุปรายงานดู ก็พบว่ามันทำตามทุกคำสั่ง ครบทุกตัวอักษรจริง ๆ
ท่าทีแบบนี้ดีสำหรับคนที่มองมันเป็นกล่องดำ แต่ฉันอยากได้ ผู้ร่วมงานที่มีสามัญสำนึก มากกว่า
มันเหมือนสะท้อนความต่างของ OpenAI กับ Anthropic ว่ามองอนาคตของ AI ไว้อย่างไร
โมเดล GPT อาจไม่เด่นกับการโค้ดสดแบบเฉพาะหน้า แต่ยอดเยี่ยมมากกับ งานที่ข้อกำหนดชัดเจน
ทั้งใน Python และ TypeScript มีโค้ดป้องกันอย่าง
.getattr(),typeofเยอะเกินไปเราฝึกโมเดลเก่ง แต่ ตั้งชื่อไม่เก่งเลย 😄
เวอร์ชันใหม่นี้ทำ SOTA ได้ที่ SWE-Bench-Verified 77.9%, SWE-Lancer 79.9%, และ TerminalBench 2.0 ที่ 58.1%
มันบีบอัดหลายคอนเท็กซ์วินโดว์ (compaction) เพื่อทำงานระยะยาวได้ และ ประสิทธิภาพการใช้โทเคนดีขึ้น 30%
อยากฟังความเห็นคนอื่น
ถ้า “ประหยัดโทเคน” ก็น่าจะถูกลง แต่ชื่อ “Max” ฟังดูน่าจะแพง
ตอน 5.1 มันกินโทเคนเยอะเกินไปจนฉันต้องย้อนกลับไปใช้ 5.0
ลองดู ตัวอย่างเอเจนต์ มาแล้ว และอยากให้ Codex CLI มีความสามารถแบบนี้ด้วย
วันนี้ลองเทียบ GPT‑5.1‑Codex‑Max กับ Gemini 3 Pro บน CLI
Gemini รับมือยากในฐานะผู้ร่วมงาน เพราะพอถามคำถาม มันจะเดาเจตนาแล้วลงมือเขียนโค้ดก่อนเลย
ในทางกลับกัน Codex ตอบคำถามตรง ๆ ทันที
คุณภาพโค้ดของ Gemini ดู อ่านง่ายในแบบที่มนุษย์คุ้นเคยกว่า แต่เรื่องการวางแผนและความแม่นยำของการลงมือทำ Codex เหนือกว่ามาก
Gemini ยังมีปัญหาอย่าง หลอนชื่อคอลัมน์ DB, ฟีเจอร์ตกหล่น, และ การบูรณาการไม่แน่น
โดยรวมแล้ว Codex ชนะชัดเจน
ดู เอกสารทางการ
OpenAI มักจะเปิดตัวโมเดลของตัวเอง ก่อนที่คู่แข่งจะประกาศอะไรสำคัญ
GPT‑4o ก็เปิดตัวหนึ่งวันก่อน Google I/O และ Codex รอบนี้ก็น่าจะเป็นแค่ อัปเดตแบบค่อยเป็นค่อยไป
ถ้าดู ตัวอย่างการเรนเดอร์ SVG จะเห็นว่า
ระดับ medium สมดุลดี และมีความต่างด้านสไตล์ที่ตั้งใจไว้ระหว่าง high/low
การเปรียบเทียบแบบนี้ช่วยให้จับ ความสม่ำเสมอเชิงสร้างสรรค์ ของโมเดลได้
อยากให้แต่ละบริษัทเอาความพยายามที่ทุ่มให้การฝึกโมเดลสัก 1% ไปใช้กับ การปรับปรุงประสบการณ์จ่ายเงินและล็อกอิน บ้าง
Claude แทบไม่มีระบบล็อกอิน ส่วน OpenAI ก็ควรแก้ บั๊กของ Codex CLI (#2798)
ด้าน Google นั้นทั้งผลิตภัณฑ์และโครงสร้างการจ่ายเงินซับซ้อนเกินไป ควรรวมเป็น หน้าราคาเดียว
แม้แต่บัญชี Workspace ก็ไม่ได้ปลอดภัย ต้อง อ่าน ToS ให้ละเอียด
ตอนนี้รู้สึกว่า OpenAI มอบ ประสบการณ์ลูกค้าที่น่าเชื่อถือกว่า มาก
ใน issue #12121 ก็มีประเด็นถกเถียงเกี่ยวกับเรื่องนี้
ประโยคที่ว่า “ก้าวใหม่สู่การเป็นพาร์ตเนอร์การเขียนโค้ดที่เชื่อถือได้” กับ “โมเดลที่ปรับให้เหมาะกับงานระยะยาว” ฟังดู ขัดกันเอง
ถ้าเป็นพาร์ตเนอร์ ก็ควรทำงานร่วมกันแบบสั้น ๆ วนซ้ำไปมา ไม่ใช่ปล่อยให้ทำงานคนเดียวเป็นเวลานาน
ดูจากกราฟโทเคนใน บล็อกทางการ ก็พอเห็นทิศทางนั้นได้
ฉันทึ่งกับความเร็วของ โหมด plan ใน Codex คุณภาพโค้ดก็ดีใช้ได้
แต่พอบอกว่า “npm run build แล้วแก้ทุกปัญหา” มันกลับ หลุดไปติดตั้งแพ็กเกจเกี่ยวกับ eslint แบบไม่หยุด
Claude Code ทำงานเดียวกันเสร็จในเวลาไม่ถึง 1 นาที Codex ดูยังไม่นิ่ง
Codex แข็งแกร่งกับ งานแบ็กเอนด์หรืองานที่เน้นข้อมูล แต่กับงาน UI ง่าย ๆ มักให้ผลลัพธ์แปลก ๆ
สุดสัปดาห์ที่ผ่านมาได้ลองใช้ Claude กับ Codex ควบคู่กัน และพบว่า Codex ทำโค้ดฟิสิกส์/กราฟิกใน TypeScript ได้ดีกว่ามาก
จากหลายพันบรรทัด ฉันเป็นคนเขียนเองแค่ไม่กี่ร้อยบรรทัด
ต่อไปคงให้ Codex รุ่นใหม่ รีวิวงานที่ Codex รุ่นก่อนทำไว้