สร้างสิ่งต่าง ๆ ได้มากขึ้นด้วย GPT‑5.1‑Codex‑Max

(openai.com)

5 คะแนน โดย GN⁺ 2025-11-20 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

GPT‑5.1‑Codex‑Max ที่ OpenAI เปิดตัวใหม่ คือ โมเดลโค้ดดิ้งแบบเอเจนต์รุ่นล่าสุด ที่ออกแบบมาเพื่อทำงานพัฒนาระยะยาวและซับซ้อน และพร้อมใช้งานในสภาพแวดล้อม Codex
ด้วยเทคโนโลยี ‘compaction’ แบบใหม่ จึงสามารถจัดการโปรเจ็กต์ระดับหลายล้านโทเค็นได้อย่างต่อเนื่อง โดยข้ามไปมาระหว่างหลาย context window
ประสิทธิภาพการใช้โทเค็น ดีขึ้น ทำให้ได้ประสิทธิภาพที่ดีกว่าด้วยจำนวนโทเค็นน้อยลง 30% ในระดับการให้เหตุผลเท่าเดิม และคาดว่าจะช่วยลดต้นทุน
สามารถทำงานได้อย่างอิสระเป็นเวลานาน และทำ refactoring และ debugging ที่ต่อเนื่องเกิน 24 ชั่วโมง ได้
มีการเสริมความแข็งแกร่งให้กับ security sandbox และ ระบบมอนิเตอร์ด้านความปลอดภัยไซเบอร์ เพื่อพัฒนาไปเป็นพาร์ตเนอร์ AI สำหรับการเขียนโค้ดที่ปลอดภัย

แนะนำ GPT‑5.1‑Codex‑Max

GPT‑5.1‑Codex‑Max คือ โมเดลโค้ดดิ้งแบบเอเจนต์ ตัวใหม่ของ OpenAI เป็น เวอร์ชันอัปเดตของโมเดลที่อิงการให้เหตุผล ซึ่งฝึกกับงานในหลากหลายสาขา เช่น วิศวกรรมซอฟต์แวร์ คณิตศาสตร์ และงานวิจัย
- ใช้งานได้ทันทีใน Codex CLI, ส่วนขยาย IDE, คลาวด์ และสภาพแวดล้อมรีวิวโค้ด
- การเข้าถึงผ่าน API จะเปิดให้ใช้งานในเร็ว ๆ นี้
โมเดลนี้ปรับปรุงทั้ง ความเร็ว ความฉลาด และประสิทธิภาพการใช้โทเค็น ทำให้ทำหน้าที่เป็นพาร์ตเนอร์การเขียนโค้ดที่เชื่อถือได้มากขึ้นตลอดวงจรการพัฒนา
ผ่านกระบวนการ Compaction จึงสามารถจัดการงานระดับหลายล้านโทเค็นได้อย่างสม่ำเสมอ แม้ต้องข้ามไปมาระหว่างหลาย context window

ประสิทธิภาพการเขียนโค้ดระดับ frontier

ฝึกด้วย งานวิศวกรรมซอฟต์แวร์จริง (การสร้าง PR, code review, frontend coding, Q&A) จึงทำผลงานได้ดีกว่าโมเดลก่อนหน้าในการประเมินหลายชุด
เป็นโมเดล Codex ตัวแรกที่ทำงานใน สภาพแวดล้อม Windows ได้ และยังรวมงานที่ช่วยเพิ่มประสิทธิภาพการทำงานร่วมกันของ Codex CLI
ไม่ได้ดีขึ้นแค่ด้าน benchmark แต่ยังยืนยันผลลัพธ์ที่ดีขึ้นในด้านการใช้งานจริงด้วย

ความเร็วและความคุ้มค่าด้านต้นทุน

ตามเกณฑ์ SWE‑bench Verified สามารถทำผลงานได้ดีกว่า GPT‑5.1‑Codex โดยใช้ โทเค็นน้อยลง 30% ที่ระดับการให้เหตุผลเท่าเดิม
โหมดการให้เหตุผล ‘xhigh’ ให้คุณภาพที่ดีขึ้นผ่านเวลาคิดที่นานขึ้น ส่วนงานทั่วไปแนะนำให้ใช้โหมด ‘medium’
การเพิ่มประสิทธิภาพการใช้โทเค็นคาดว่าจะนำไปสู่ การลดต้นทุนสำหรับนักพัฒนา
- ตัวอย่าง: GPT‑5.1‑Codex‑Max สามารถสร้างงานออกแบบ frontend ที่มีฟังก์ชันและความสวยงามใกล้เคียงกันได้ด้วยต้นทุนที่ต่ำกว่ามาก

งานที่รันระยะยาว

ด้วย ความสามารถ Compaction จึงรองรับทั้งการทำ refactoring ที่ซับซ้อนซึ่งเกินข้อจำกัดของ context และการทำ agent loop ระยะยาว
- เมื่อเซสชันถึงขีดจำกัด ระบบจะย่อ (compact) โดยอัตโนมัติเพื่อรักษางานที่กำลังดำเนินอยู่และเปิดพื้นที่ context ใหม่
ในการประเมินภายใน พบตัวอย่างของการทำงานต่อเนื่อง นานเกิน 24 ชั่วโมง
- ผ่านการแก้ไข test failure และการทำซ้ำเพื่อพัฒนา implementation จนได้ผลลัพธ์ที่สำเร็จในท้ายที่สุด
ความสามารถในการรักษาความสม่ำเสมอในระยะยาวคือรากฐานสำคัญสู่ ระบบ AI ทั่วไปที่เชื่อถือได้

การสร้าง AI agent ที่ปลอดภัยและเชื่อถือได้

ประสิทธิภาพใน การประเมินการให้เหตุผลระยะยาว ดีขึ้นอย่างมาก ทำให้ได้ผลลัพธ์ที่ดีขึ้นใน งานด้านความปลอดภัยไซเบอร์และงานโค้ดดิ้งระยะยาว
แม้ยังไม่ถึงระดับ ‘High’ ตามเกณฑ์ Cybersecurity Preparedness Framework แต่ถือว่ามี สมรรถนะด้านความปลอดภัยไซเบอร์ที่แข็งแกร่งที่สุด ในบรรดาโมเดลที่ปล่อยใช้งานมาจนถึงตอนนี้
- มีการเสริมการใช้งานเชิงป้องกันผ่าน โปรแกรม Aardvark เป็นต้น
มี ระบบมอนิเตอร์เฉพาะด้านความปลอดภัยไซเบอร์ เพื่อรวจจับและบล็อกความพยายามใช้งานในทางที่ผิด และจะส่งกิจกรรมที่น่าสงสัยเข้าสู่ระบบตรวจทานตามนโยบาย
โดยพื้นฐานแล้ว Codex รันอยู่ภายใน security sandbox และมีข้อจำกัดด้านการเข้าถึงไฟล์และการใช้งานเครือข่าย
- เมื่อเข้าถึงอินเทอร์เน็ต จะมี ความเสี่ยงจาก prompt injection
นักพัฒนาจำเป็นต้อง ตรวจทานงานของ agent ก่อนนำไปใช้งานจริง
- Codex จะบันทึก terminal log, การเรียกใช้เครื่องมือ และผลการทดสอบ โดยทำหน้าที่ ช่วยเสริม ไม่ใช่แทนที่การรีวิวโดยมนุษย์
เนื่องจากความสามารถด้านความปลอดภัยไซเบอร์สามารถใช้ได้ทั้งเชิงป้องกันและเชิงโจมตี จึงดำเนิน การเปิดใช้งานแบบค่อยเป็นค่อยไปควบคู่กับการเสริมมาตรการป้องกัน

การให้บริการและการเปิดใช้งาน

GPT‑5.1‑Codex‑Max ใช้งานได้ใน Codex ของแพ็กเกจ ChatGPT Plus, Pro, Business, Edu, Enterprise
จะเปิดให้กับนักพัฒนาที่ใช้ Codex CLI ผ่าน API key ในเร็ว ๆ นี้ด้วย
ตั้งแต่วันนี้เป็นต้นไป GPT‑5.1‑Codex‑Max จะมาแทน GPT‑5.1‑Codex ในฐานะโมเดลเริ่มต้น ภายใน Codex
- GPT‑5.1 เป็นโมเดลอเนกประสงค์ ขณะที่ Codex‑Max แนะนำสำหรับ งานโค้ดดิ้งแบบเอเจนต์โดยเฉพาะ

บทสรุป

GPT‑5.1‑Codex‑Max คือความก้าวหน้าครั้งใหญ่ในด้าน ความต่อเนื่องของงานโค้ดดิ้งระยะยาว การจัดการเวิร์กโฟลว์ที่ซับซ้อน และ implementation คุณภาพสูง
เมื่อรวมกับการปรับปรุงใน CLI, ส่วนขยาย IDE, การผสานกับคลาวด์ และเครื่องมือรีวิวโค้ดแล้ว ทำให้ ผลิตภาพด้านวิศวกรรมเพิ่มขึ้น 70%
- 95% ของวิศวกรภายใน OpenAI ใช้ Codex เป็นรายสัปดาห์
พร้อมกับการขยายความสามารถของ agent นี่คือการก้าวเข้าสู่ ขั้นใหม่ของผลิตภาพการพัฒนา

ภาคผนวก: ผลการประเมินโมเดล

SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
SWE‑Lancer IC SWE: 66.3% → 79.9%
Terminal‑Bench 2.0: 52.8% → 58.1%

2 ความคิดเห็น

kaydash 2025-11-27

Codex เจอกันที่ MS AOIA นะ 😊

GN⁺ 2025-11-20

ความคิดเห็นบน Hacker News

ช่วงนี้ได้ลองใช้ทั้ง Claude และ Codex เยอะมาก
Claude แทบจะเมินคำสั่งพวกไฟล์กำกับ (เช่น CLAUDE.md) ขณะที่ Codex ทำตามแบบ เคร่งสุดขีด ราวกับไม่อยากพลาดแม้แต่ตัวอักษรเดียว
ยกตัวอย่างเช่น ถ้าโค้ดทดสอบมีคำสะกดผิด Claude จะบอกว่า “อันนี้น่าจะพิมพ์ผิดแน่ ๆ” แล้วแก้ให้ แต่ Codex จะสุดโต่งถึงขั้น เขียนเอนจิน V8 ใหม่จนทำให้เลขคณิตพัง
เลยรู้สึกว่า Claude เหมาะกับงานวนซ้ำเร็ว ๆ ส่วน Codex เหมาะกับงานระยะยาวที่ความแม่นยำสำคัญ
- ฉันก็ประทับใจ Codex มากเหมือนกัน ใน โปรเจ็กต์เครื่องจำลองการบิน ที่ทำมา 6 เดือน จำเป็นต้องเปลี่ยนระบบพิกัดเป็น ECEF ซึ่งทำให้ต้องเขียนทั้งฟิสิกส์เอนจินและระบบกราฟิกใหม่ทั้งหมด
  แค่ให้คำสั่งยาวประมาณหนึ่งย่อหน้า มันก็ทำได้เกือบสมบูรณ์ใน 45 นาที พอลองให้สรุปรายงานดู ก็พบว่ามันทำตามทุกคำสั่ง ครบทุกตัวอักษรจริง ๆ
- มีคนบอกว่าเพื่อนของเขาสั่ง Claude ไว้เสมอให้เรียกตัวเองว่า “Mr Tinkleberry” แล้วถ้า Claude ลืมเมื่อไร ก็ใช้เป็นตัวจับได้ว่า มันกำลังละเลยคำสั่ง
- Codex ทำตัวเหมือน “โปรแกรมเมอร์คนสุดท้ายบนโลก” ต่อให้เกิดอะไรขึ้นก็จะพยายามทำเป้าหมายให้สำเร็จ
  ท่าทีแบบนี้ดีสำหรับคนที่มองมันเป็นกล่องดำ แต่ฉันอยากได้ ผู้ร่วมงานที่มีสามัญสำนึก มากกว่า
  มันเหมือนสะท้อนความต่างของ OpenAI กับ Anthropic ว่ามองอนาคตของ AI ไว้อย่างไร
- อุปมาเรื่อง “แก้เทสต์ 1+1===3” นี่เฉียบมาก ประโยคเดียวก็อธิบาย ความต่างเชิงรากฐาน ระหว่างสาย GPT กับสาย Claude ได้เลย
  โมเดล GPT อาจไม่เด่นกับการโค้ดสดแบบเฉพาะหน้า แต่ยอดเยี่ยมมากกับ งานที่ข้อกำหนดชัดเจน
- สิ่งที่ฉันหงุดหงิดคือ Codex ลบโค้ดแทบไม่เป็นเลย และมักทำให้โค้ดเบสบวมโดยไม่จำเป็น
  ทั้งใน Python และ TypeScript มีโค้ดป้องกันอย่าง .getattr(), typeof เยอะเกินไป
เราฝึกโมเดลเก่ง แต่ ตั้งชื่อไม่เก่งเลย 😄
เวอร์ชันใหม่นี้ทำ SOTA ได้ที่ SWE-Bench-Verified 77.9%, SWE-Lancer 79.9%, และ TerminalBench 2.0 ที่ 58.1%
มันบีบอัดหลายคอนเท็กซ์วินโดว์ (compaction) เพื่อทำงานระยะยาวได้ และ ประสิทธิภาพการใช้โทเคนดีขึ้น 30%
อยากฟังความเห็นคนอื่น
- ตอนนี้ฉันใช้ GPT‑5.1‑Codex‑High อยู่ เลยสงสัยว่าเวอร์ชัน Max ต่างกันอย่างไรในแง่ ค่าใช้จ่ายและโควตาเครดิต
  ถ้า “ประหยัดโทเคน” ก็น่าจะถูกลง แต่ชื่อ “Max” ฟังดูน่าจะแพง
- Codex เป็นผลิตภัณฑ์ที่ยอดเยี่ยมอยู่แล้ว ก็เลยยินดีกับ การอัปเกรดแบบค่อยเป็นค่อยไป แบบนี้ เดี๋ยวคงลองใช้เร็ว ๆ นี้
- สงสัยว่าแก้ issue #6426 แล้วหรือยัง
  ตอน 5.1 มันกินโทเคนเยอะเกินไปจนฉันต้องย้อนกลับไปใช้ 5.0
- อยากให้ใช้โมเดลนี้ได้ใน อินเทอร์เฟซแชต ด้วย
- ฉันชอบ ฟีเจอร์ subagent ของ Claude Code มาก มีประโยชน์กับการจัดการคอนเท็กซ์ในโค้ดเบสที่ซับซ้อน
  ลองดู ตัวอย่างเอเจนต์ มาแล้ว และอยากให้ Codex CLI มีความสามารถแบบนี้ด้วย
วันนี้ลองเทียบ GPT‑5.1‑Codex‑Max กับ Gemini 3 Pro บน CLI
Gemini รับมือยากในฐานะผู้ร่วมงาน เพราะพอถามคำถาม มันจะเดาเจตนาแล้วลงมือเขียนโค้ดก่อนเลย
ในทางกลับกัน Codex ตอบคำถามตรง ๆ ทันที
คุณภาพโค้ดของ Gemini ดู อ่านง่ายในแบบที่มนุษย์คุ้นเคยกว่า แต่เรื่องการวางแผนและความแม่นยำของการลงมือทำ Codex เหนือกว่ามาก
Gemini ยังมีปัญหาอย่าง หลอนชื่อคอลัมน์ DB, ฟีเจอร์ตกหล่น, และ การบูรณาการไม่แน่น
โดยรวมแล้ว Codex ชนะชัดเจน
- Google เคยคุยว่า Gemini 3 เก่งสุดทุกเบนช์มาร์ก แต่สิ่งนี้แสดงให้เห็นว่าในทางปฏิบัติไม่ได้เป็นแบบนั้น
- เวลาใช้ Gemini ควรคงค่า temperature ไว้ที่ค่าเริ่มต้น 1.0 ถ้าลดลงจะเกิดอาการวนลูปหรือประสิทธิภาพตก
  ดู เอกสารทางการ
- ฉันก็เจอเหมือนกัน ต่อให้บอก Gemini ว่า “อย่าเขียนโค้ด” มันก็ยังเขียนใหม่อยู่ดี
OpenAI มักจะเปิดตัวโมเดลของตัวเอง ก่อนที่คู่แข่งจะประกาศอะไรสำคัญ
GPT‑4o ก็เปิดตัวหนึ่งวันก่อน Google I/O และ Codex รอบนี้ก็น่าจะเป็นแค่ อัปเดตแบบค่อยเป็นค่อยไป
- GPT‑5.1 / Codex เองก็ เหนือกว่า Gemini 3 ในเบนช์มาร์ก อยู่แล้ว และอัปเดตรอบนี้ยิ่งทิ้งห่างขึ้นไปอีก
- Anthropic ก็ปล่อย Opus 4.1 มาให้ตรงกับช่วงเปิดตัว GPT‑5 เช่นกัน ตอนนี้การแข่งขันดุเดือดขึ้นมาก
- การแข่งขันแบบนี้ทำให้พัฒนาเร็วขึ้น เราควรขอบคุณ การแข่งขันที่ดีต่อระบบนิเวศ
- Gemini กำลังกินส่วนแบ่งตลาด และ OpenAI ก็รู้เรื่องนั้นดี
- การชิงจังหวะประกาศแบบนี้ ตอนนี้เริ่มชินกันแล้ว
ถ้าดู ตัวอย่างการเรนเดอร์ SVG จะเห็นว่า
ระดับ medium สมดุลดี และมีความต่างด้านสไตล์ที่ตั้งใจไว้ระหว่าง high/low
การเปรียบเทียบแบบนี้ช่วยให้จับ ความสม่ำเสมอเชิงสร้างสรรค์ ของโมเดลได้
- แต่ดูเหมือนว่าเบนช์มาร์กแบบ เอาต์พุต SVG นี้จะมีความหมายน้อยลงแล้ว อาจเป็นผลจากการฝึกเฉพาะทางด้วย RLHF
อยากให้แต่ละบริษัทเอาความพยายามที่ทุ่มให้การฝึกโมเดลสัก 1% ไปใช้กับ การปรับปรุงประสบการณ์จ่ายเงินและล็อกอิน บ้าง
Claude แทบไม่มีระบบล็อกอิน ส่วน OpenAI ก็ควรแก้ บั๊กของ Codex CLI (#2798)
ด้าน Google นั้นทั้งผลิตภัณฑ์และโครงสร้างการจ่ายเงินซับซ้อนเกินไป ควรรวมเป็น หน้าราคาเดียว
- ฉันเองก็ถอดใจเพราะระบบจ่ายเงินของ Google ไม่รู้ด้วยซ้ำว่า Google Payments คืออะไร และบัญชีบริษัทอายุ 18 ปีก็โดนระงับเพราะข้อผิดพลาดในการยืนยันตัวตน
- ไลน์ผลิตภัณฑ์ ของ Google รกมาก ทั้ง Vertex AI, AI Studio, Maker Studio, Gemini เอกสารก็ซ้ำซ้อนและไม่ชัดเจน
- ตัวเลือก ไม่ให้เอาข้อมูลไปฝึก ของ Gemini หายไปแล้ว และก็ไม่โปร่งใสด้วยว่าบัญชีแบบไหนถูกนำไปฝึกบ้าง
  แม้แต่บัญชี Workspace ก็ไม่ได้ปลอดภัย ต้อง อ่าน ToS ให้ละเอียด
  ตอนนี้รู้สึกว่า OpenAI มอบ ประสบการณ์ลูกค้าที่น่าเชื่อถือกว่า มาก
- สงสัยว่า Gemini 3 Pro อาจถูก ฝึกต่อด้วยข้อมูลที่ไม่ได้รับอนุญาต
  ใน issue #12121 ก็มีประเด็นถกเถียงเกี่ยวกับเรื่องนี้
- ตอนล็อกอิน Claude ไม่มีทั้ง รหัสผ่านหรือ passkey ให้เลือก ใช้งานไม่สะดวก
ประโยคที่ว่า “ก้าวใหม่สู่การเป็นพาร์ตเนอร์การเขียนโค้ดที่เชื่อถือได้” กับ “โมเดลที่ปรับให้เหมาะกับงานระยะยาว” ฟังดู ขัดกันเอง
ถ้าเป็นพาร์ตเนอร์ ก็ควรทำงานร่วมกันแบบสั้น ๆ วนซ้ำไปมา ไม่ใช่ปล่อยให้ทำงานคนเดียวเป็นเวลานาน
- Codex เวลาทำงานยาว ๆ จะ ตัดสินใจเองมากเกินไป ถึงขั้นใช้วิธีเสี่ยงอย่างเขียนไลบรารี TLS ใหม่
- (ทีมงาน Codex) เป้าหมายของเราคือโมเดลแบบเพื่อนร่วมงานที่ทำได้ ทั้งงานวนซ้ำสั้น ๆ และงานที่มอบหมายระยะยาว
  ดูจากกราฟโทเคนใน บล็อกทางการ ก็พอเห็นทิศทางนั้นได้
- ขอแนะนำ โมเดล Composer ของ Cursor ด้วย เร็วมาก และถึงผลลัพธ์จะยังไม่ดี ก็ลองใหม่ได้ภายใน 30 วินาที
ฉันทึ่งกับความเร็วของ โหมด plan ใน Codex คุณภาพโค้ดก็ดีใช้ได้
แต่พอบอกว่า “npm run build แล้วแก้ทุกปัญหา” มันกลับ หลุดไปติดตั้งแพ็กเกจเกี่ยวกับ eslint แบบไม่หยุด
Claude Code ทำงานเดียวกันเสร็จในเวลาไม่ถึง 1 นาที Codex ดูยังไม่นิ่ง
- สงสัยว่าโหมด plan คืออะไร
Codex แข็งแกร่งกับ งานแบ็กเอนด์หรืองานที่เน้นข้อมูล แต่กับงาน UI ง่าย ๆ มักให้ผลลัพธ์แปลก ๆ
สุดสัปดาห์ที่ผ่านมาได้ลองใช้ Claude กับ Codex ควบคู่กัน และพบว่า Codex ทำโค้ดฟิสิกส์/กราฟิกใน TypeScript ได้ดีกว่ามาก
จากหลายพันบรรทัด ฉันเป็นคนเขียนเองแค่ไม่กี่ร้อยบรรทัด
ต่อไปคงให้ Codex รุ่นใหม่ รีวิวงานที่ Codex รุ่นก่อนทำไว้

สร้างสิ่งต่าง ๆ ได้มากขึ้นด้วย GPT‑5.1‑Codex‑Max

แนะนำ GPT‑5.1‑Codex‑Max

ประสิทธิภาพการเขียนโค้ดระดับ frontier

ความเร็วและความคุ้มค่าด้านต้นทุน

งานที่รันระยะยาว

การสร้าง AI agent ที่ปลอดภัยและเชื่อถือได้

การให้บริการและการเปิดใช้งาน

บทสรุป

ภาคผนวก: ผลการประเมินโมเดล

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นบน Hacker News