5 คะแนน โดย GN⁺ 2025-11-20 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • GPT‑5.1‑Codex‑Max ที่ OpenAI เปิดตัวใหม่ คือ โมเดลโค้ดดิ้งแบบเอเจนต์รุ่นล่าสุด ที่ออกแบบมาเพื่อทำงานพัฒนาระยะยาวและซับซ้อน และพร้อมใช้งานในสภาพแวดล้อม Codex
  • ด้วยเทคโนโลยี ‘compaction’ แบบใหม่ จึงสามารถจัดการโปรเจ็กต์ระดับหลายล้านโทเค็นได้อย่างต่อเนื่อง โดยข้ามไปมาระหว่างหลาย context window
  • ประสิทธิภาพการใช้โทเค็น ดีขึ้น ทำให้ได้ประสิทธิภาพที่ดีกว่าด้วยจำนวนโทเค็นน้อยลง 30% ในระดับการให้เหตุผลเท่าเดิม และคาดว่าจะช่วยลดต้นทุน
  • สามารถทำงานได้อย่างอิสระเป็นเวลานาน และทำ refactoring และ debugging ที่ต่อเนื่องเกิน 24 ชั่วโมง ได้
  • มีการเสริมความแข็งแกร่งให้กับ security sandbox และ ระบบมอนิเตอร์ด้านความปลอดภัยไซเบอร์ เพื่อพัฒนาไปเป็นพาร์ตเนอร์ AI สำหรับการเขียนโค้ดที่ปลอดภัย

แนะนำ GPT‑5.1‑Codex‑Max

  • GPT‑5.1‑Codex‑Max คือ โมเดลโค้ดดิ้งแบบเอเจนต์ ตัวใหม่ของ OpenAI เป็น เวอร์ชันอัปเดตของโมเดลที่อิงการให้เหตุผล ซึ่งฝึกกับงานในหลากหลายสาขา เช่น วิศวกรรมซอฟต์แวร์ คณิตศาสตร์ และงานวิจัย
    • ใช้งานได้ทันทีใน Codex CLI, ส่วนขยาย IDE, คลาวด์ และสภาพแวดล้อมรีวิวโค้ด
    • การเข้าถึงผ่าน API จะเปิดให้ใช้งานในเร็ว ๆ นี้
  • โมเดลนี้ปรับปรุงทั้ง ความเร็ว ความฉลาด และประสิทธิภาพการใช้โทเค็น ทำให้ทำหน้าที่เป็นพาร์ตเนอร์การเขียนโค้ดที่เชื่อถือได้มากขึ้นตลอดวงจรการพัฒนา
  • ผ่านกระบวนการ Compaction จึงสามารถจัดการงานระดับหลายล้านโทเค็นได้อย่างสม่ำเสมอ แม้ต้องข้ามไปมาระหว่างหลาย context window

ประสิทธิภาพการเขียนโค้ดระดับ frontier

  • ฝึกด้วย งานวิศวกรรมซอฟต์แวร์จริง (การสร้าง PR, code review, frontend coding, Q&A) จึงทำผลงานได้ดีกว่าโมเดลก่อนหน้าในการประเมินหลายชุด
  • เป็นโมเดล Codex ตัวแรกที่ทำงานใน สภาพแวดล้อม Windows ได้ และยังรวมงานที่ช่วยเพิ่มประสิทธิภาพการทำงานร่วมกันของ Codex CLI
  • ไม่ได้ดีขึ้นแค่ด้าน benchmark แต่ยังยืนยันผลลัพธ์ที่ดีขึ้นในด้านการใช้งานจริงด้วย

ความเร็วและความคุ้มค่าด้านต้นทุน

  • ตามเกณฑ์ SWE‑bench Verified สามารถทำผลงานได้ดีกว่า GPT‑5.1‑Codex โดยใช้ โทเค็นน้อยลง 30% ที่ระดับการให้เหตุผลเท่าเดิม
  • โหมดการให้เหตุผล ‘xhigh’ ให้คุณภาพที่ดีขึ้นผ่านเวลาคิดที่นานขึ้น ส่วนงานทั่วไปแนะนำให้ใช้โหมด ‘medium’
  • การเพิ่มประสิทธิภาพการใช้โทเค็นคาดว่าจะนำไปสู่ การลดต้นทุนสำหรับนักพัฒนา
    • ตัวอย่าง: GPT‑5.1‑Codex‑Max สามารถสร้างงานออกแบบ frontend ที่มีฟังก์ชันและความสวยงามใกล้เคียงกันได้ด้วยต้นทุนที่ต่ำกว่ามาก

งานที่รันระยะยาว

  • ด้วย ความสามารถ Compaction จึงรองรับทั้งการทำ refactoring ที่ซับซ้อนซึ่งเกินข้อจำกัดของ context และการทำ agent loop ระยะยาว
    • เมื่อเซสชันถึงขีดจำกัด ระบบจะย่อ (compact) โดยอัตโนมัติเพื่อรักษางานที่กำลังดำเนินอยู่และเปิดพื้นที่ context ใหม่
  • ในการประเมินภายใน พบตัวอย่างของการทำงานต่อเนื่อง นานเกิน 24 ชั่วโมง
    • ผ่านการแก้ไข test failure และการทำซ้ำเพื่อพัฒนา implementation จนได้ผลลัพธ์ที่สำเร็จในท้ายที่สุด
  • ความสามารถในการรักษาความสม่ำเสมอในระยะยาวคือรากฐานสำคัญสู่ ระบบ AI ทั่วไปที่เชื่อถือได้

การสร้าง AI agent ที่ปลอดภัยและเชื่อถือได้

  • ประสิทธิภาพใน การประเมินการให้เหตุผลระยะยาว ดีขึ้นอย่างมาก ทำให้ได้ผลลัพธ์ที่ดีขึ้นใน งานด้านความปลอดภัยไซเบอร์และงานโค้ดดิ้งระยะยาว
  • แม้ยังไม่ถึงระดับ ‘High’ ตามเกณฑ์ Cybersecurity Preparedness Framework แต่ถือว่ามี สมรรถนะด้านความปลอดภัยไซเบอร์ที่แข็งแกร่งที่สุด ในบรรดาโมเดลที่ปล่อยใช้งานมาจนถึงตอนนี้
    • มีการเสริมการใช้งานเชิงป้องกันผ่าน โปรแกรม Aardvark เป็นต้น
  • มี ระบบมอนิเตอร์เฉพาะด้านความปลอดภัยไซเบอร์ เพื่อรวจจับและบล็อกความพยายามใช้งานในทางที่ผิด และจะส่งกิจกรรมที่น่าสงสัยเข้าสู่ระบบตรวจทานตามนโยบาย
  • โดยพื้นฐานแล้ว Codex รันอยู่ภายใน security sandbox และมีข้อจำกัดด้านการเข้าถึงไฟล์และการใช้งานเครือข่าย
    • เมื่อเข้าถึงอินเทอร์เน็ต จะมี ความเสี่ยงจาก prompt injection
  • นักพัฒนาจำเป็นต้อง ตรวจทานงานของ agent ก่อนนำไปใช้งานจริง
    • Codex จะบันทึก terminal log, การเรียกใช้เครื่องมือ และผลการทดสอบ โดยทำหน้าที่ ช่วยเสริม ไม่ใช่แทนที่การรีวิวโดยมนุษย์
  • เนื่องจากความสามารถด้านความปลอดภัยไซเบอร์สามารถใช้ได้ทั้งเชิงป้องกันและเชิงโจมตี จึงดำเนิน การเปิดใช้งานแบบค่อยเป็นค่อยไปควบคู่กับการเสริมมาตรการป้องกัน

การให้บริการและการเปิดใช้งาน

  • GPT‑5.1‑Codex‑Max ใช้งานได้ใน Codex ของแพ็กเกจ ChatGPT Plus, Pro, Business, Edu, Enterprise
  • จะเปิดให้กับนักพัฒนาที่ใช้ Codex CLI ผ่าน API key ในเร็ว ๆ นี้ด้วย
  • ตั้งแต่วันนี้เป็นต้นไป GPT‑5.1‑Codex‑Max จะมาแทน GPT‑5.1‑Codex ในฐานะโมเดลเริ่มต้น ภายใน Codex
    • GPT‑5.1 เป็นโมเดลอเนกประสงค์ ขณะที่ Codex‑Max แนะนำสำหรับ งานโค้ดดิ้งแบบเอเจนต์โดยเฉพาะ

บทสรุป

  • GPT‑5.1‑Codex‑Max คือความก้าวหน้าครั้งใหญ่ในด้าน ความต่อเนื่องของงานโค้ดดิ้งระยะยาว การจัดการเวิร์กโฟลว์ที่ซับซ้อน และ implementation คุณภาพสูง
  • เมื่อรวมกับการปรับปรุงใน CLI, ส่วนขยาย IDE, การผสานกับคลาวด์ และเครื่องมือรีวิวโค้ดแล้ว ทำให้ ผลิตภาพด้านวิศวกรรมเพิ่มขึ้น 70%
    • 95% ของวิศวกรภายใน OpenAI ใช้ Codex เป็นรายสัปดาห์
  • พร้อมกับการขยายความสามารถของ agent นี่คือการก้าวเข้าสู่ ขั้นใหม่ของผลิตภาพการพัฒนา

ภาคผนวก: ผลการประเมินโมเดล

  • SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
  • SWE‑Lancer IC SWE: 66.3% → 79.9%
  • Terminal‑Bench 2.0: 52.8% → 58.1%

2 ความคิดเห็น

 
kaydash 2025-11-27

Codex เจอกันที่ MS AOIA นะ 😊

 
GN⁺ 2025-11-20
ความคิดเห็นบน Hacker News
  • ช่วงนี้ได้ลองใช้ทั้ง Claude และ Codex เยอะมาก
    Claude แทบจะเมินคำสั่งพวกไฟล์กำกับ (เช่น CLAUDE.md) ขณะที่ Codex ทำตามแบบ เคร่งสุดขีด ราวกับไม่อยากพลาดแม้แต่ตัวอักษรเดียว
    ยกตัวอย่างเช่น ถ้าโค้ดทดสอบมีคำสะกดผิด Claude จะบอกว่า “อันนี้น่าจะพิมพ์ผิดแน่ ๆ” แล้วแก้ให้ แต่ Codex จะสุดโต่งถึงขั้น เขียนเอนจิน V8 ใหม่จนทำให้เลขคณิตพัง
    เลยรู้สึกว่า Claude เหมาะกับงานวนซ้ำเร็ว ๆ ส่วน Codex เหมาะกับงานระยะยาวที่ความแม่นยำสำคัญ

    • ฉันก็ประทับใจ Codex มากเหมือนกัน ใน โปรเจ็กต์เครื่องจำลองการบิน ที่ทำมา 6 เดือน จำเป็นต้องเปลี่ยนระบบพิกัดเป็น ECEF ซึ่งทำให้ต้องเขียนทั้งฟิสิกส์เอนจินและระบบกราฟิกใหม่ทั้งหมด
      แค่ให้คำสั่งยาวประมาณหนึ่งย่อหน้า มันก็ทำได้เกือบสมบูรณ์ใน 45 นาที พอลองให้สรุปรายงานดู ก็พบว่ามันทำตามทุกคำสั่ง ครบทุกตัวอักษรจริง ๆ
    • มีคนบอกว่าเพื่อนของเขาสั่ง Claude ไว้เสมอให้เรียกตัวเองว่า “Mr Tinkleberry” แล้วถ้า Claude ลืมเมื่อไร ก็ใช้เป็นตัวจับได้ว่า มันกำลังละเลยคำสั่ง
    • Codex ทำตัวเหมือน “โปรแกรมเมอร์คนสุดท้ายบนโลก” ต่อให้เกิดอะไรขึ้นก็จะพยายามทำเป้าหมายให้สำเร็จ
      ท่าทีแบบนี้ดีสำหรับคนที่มองมันเป็นกล่องดำ แต่ฉันอยากได้ ผู้ร่วมงานที่มีสามัญสำนึก มากกว่า
      มันเหมือนสะท้อนความต่างของ OpenAI กับ Anthropic ว่ามองอนาคตของ AI ไว้อย่างไร
    • อุปมาเรื่อง “แก้เทสต์ 1+1===3” นี่เฉียบมาก ประโยคเดียวก็อธิบาย ความต่างเชิงรากฐาน ระหว่างสาย GPT กับสาย Claude ได้เลย
      โมเดล GPT อาจไม่เด่นกับการโค้ดสดแบบเฉพาะหน้า แต่ยอดเยี่ยมมากกับ งานที่ข้อกำหนดชัดเจน
    • สิ่งที่ฉันหงุดหงิดคือ Codex ลบโค้ดแทบไม่เป็นเลย และมักทำให้โค้ดเบสบวมโดยไม่จำเป็น
      ทั้งใน Python และ TypeScript มีโค้ดป้องกันอย่าง .getattr(), typeof เยอะเกินไป
  • เราฝึกโมเดลเก่ง แต่ ตั้งชื่อไม่เก่งเลย 😄
    เวอร์ชันใหม่นี้ทำ SOTA ได้ที่ SWE-Bench-Verified 77.9%, SWE-Lancer 79.9%, และ TerminalBench 2.0 ที่ 58.1%
    มันบีบอัดหลายคอนเท็กซ์วินโดว์ (compaction) เพื่อทำงานระยะยาวได้ และ ประสิทธิภาพการใช้โทเคนดีขึ้น 30%
    อยากฟังความเห็นคนอื่น

    • ตอนนี้ฉันใช้ GPT‑5.1‑Codex‑High อยู่ เลยสงสัยว่าเวอร์ชัน Max ต่างกันอย่างไรในแง่ ค่าใช้จ่ายและโควตาเครดิต
      ถ้า “ประหยัดโทเคน” ก็น่าจะถูกลง แต่ชื่อ “Max” ฟังดูน่าจะแพง
    • Codex เป็นผลิตภัณฑ์ที่ยอดเยี่ยมอยู่แล้ว ก็เลยยินดีกับ การอัปเกรดแบบค่อยเป็นค่อยไป แบบนี้ เดี๋ยวคงลองใช้เร็ว ๆ นี้
    • สงสัยว่าแก้ issue #6426 แล้วหรือยัง
      ตอน 5.1 มันกินโทเคนเยอะเกินไปจนฉันต้องย้อนกลับไปใช้ 5.0
    • อยากให้ใช้โมเดลนี้ได้ใน อินเทอร์เฟซแชต ด้วย
    • ฉันชอบ ฟีเจอร์ subagent ของ Claude Code มาก มีประโยชน์กับการจัดการคอนเท็กซ์ในโค้ดเบสที่ซับซ้อน
      ลองดู ตัวอย่างเอเจนต์ มาแล้ว และอยากให้ Codex CLI มีความสามารถแบบนี้ด้วย
  • วันนี้ลองเทียบ GPT‑5.1‑Codex‑Max กับ Gemini 3 Pro บน CLI
    Gemini รับมือยากในฐานะผู้ร่วมงาน เพราะพอถามคำถาม มันจะเดาเจตนาแล้วลงมือเขียนโค้ดก่อนเลย
    ในทางกลับกัน Codex ตอบคำถามตรง ๆ ทันที
    คุณภาพโค้ดของ Gemini ดู อ่านง่ายในแบบที่มนุษย์คุ้นเคยกว่า แต่เรื่องการวางแผนและความแม่นยำของการลงมือทำ Codex เหนือกว่ามาก
    Gemini ยังมีปัญหาอย่าง หลอนชื่อคอลัมน์ DB, ฟีเจอร์ตกหล่น, และ การบูรณาการไม่แน่น
    โดยรวมแล้ว Codex ชนะชัดเจน

    • Google เคยคุยว่า Gemini 3 เก่งสุดทุกเบนช์มาร์ก แต่สิ่งนี้แสดงให้เห็นว่าในทางปฏิบัติไม่ได้เป็นแบบนั้น
    • เวลาใช้ Gemini ควรคงค่า temperature ไว้ที่ค่าเริ่มต้น 1.0 ถ้าลดลงจะเกิดอาการวนลูปหรือประสิทธิภาพตก
      ดู เอกสารทางการ
    • ฉันก็เจอเหมือนกัน ต่อให้บอก Gemini ว่า “อย่าเขียนโค้ด” มันก็ยังเขียนใหม่อยู่ดี
  • OpenAI มักจะเปิดตัวโมเดลของตัวเอง ก่อนที่คู่แข่งจะประกาศอะไรสำคัญ
    GPT‑4o ก็เปิดตัวหนึ่งวันก่อน Google I/O และ Codex รอบนี้ก็น่าจะเป็นแค่ อัปเดตแบบค่อยเป็นค่อยไป

    • GPT‑5.1 / Codex เองก็ เหนือกว่า Gemini 3 ในเบนช์มาร์ก อยู่แล้ว และอัปเดตรอบนี้ยิ่งทิ้งห่างขึ้นไปอีก
    • Anthropic ก็ปล่อย Opus 4.1 มาให้ตรงกับช่วงเปิดตัว GPT‑5 เช่นกัน ตอนนี้การแข่งขันดุเดือดขึ้นมาก
    • การแข่งขันแบบนี้ทำให้พัฒนาเร็วขึ้น เราควรขอบคุณ การแข่งขันที่ดีต่อระบบนิเวศ
    • Gemini กำลังกินส่วนแบ่งตลาด และ OpenAI ก็รู้เรื่องนั้นดี
    • การชิงจังหวะประกาศแบบนี้ ตอนนี้เริ่มชินกันแล้ว
  • ถ้าดู ตัวอย่างการเรนเดอร์ SVG จะเห็นว่า
    ระดับ medium สมดุลดี และมีความต่างด้านสไตล์ที่ตั้งใจไว้ระหว่าง high/low
    การเปรียบเทียบแบบนี้ช่วยให้จับ ความสม่ำเสมอเชิงสร้างสรรค์ ของโมเดลได้

    • แต่ดูเหมือนว่าเบนช์มาร์กแบบ เอาต์พุต SVG นี้จะมีความหมายน้อยลงแล้ว อาจเป็นผลจากการฝึกเฉพาะทางด้วย RLHF
  • อยากให้แต่ละบริษัทเอาความพยายามที่ทุ่มให้การฝึกโมเดลสัก 1% ไปใช้กับ การปรับปรุงประสบการณ์จ่ายเงินและล็อกอิน บ้าง
    Claude แทบไม่มีระบบล็อกอิน ส่วน OpenAI ก็ควรแก้ บั๊กของ Codex CLI (#2798)
    ด้าน Google นั้นทั้งผลิตภัณฑ์และโครงสร้างการจ่ายเงินซับซ้อนเกินไป ควรรวมเป็น หน้าราคาเดียว

    • ฉันเองก็ถอดใจเพราะระบบจ่ายเงินของ Google ไม่รู้ด้วยซ้ำว่า Google Payments คืออะไร และบัญชีบริษัทอายุ 18 ปีก็โดนระงับเพราะข้อผิดพลาดในการยืนยันตัวตน
    • ไลน์ผลิตภัณฑ์ ของ Google รกมาก ทั้ง Vertex AI, AI Studio, Maker Studio, Gemini เอกสารก็ซ้ำซ้อนและไม่ชัดเจน
    • ตัวเลือก ไม่ให้เอาข้อมูลไปฝึก ของ Gemini หายไปแล้ว และก็ไม่โปร่งใสด้วยว่าบัญชีแบบไหนถูกนำไปฝึกบ้าง
      แม้แต่บัญชี Workspace ก็ไม่ได้ปลอดภัย ต้อง อ่าน ToS ให้ละเอียด
      ตอนนี้รู้สึกว่า OpenAI มอบ ประสบการณ์ลูกค้าที่น่าเชื่อถือกว่า มาก
    • สงสัยว่า Gemini 3 Pro อาจถูก ฝึกต่อด้วยข้อมูลที่ไม่ได้รับอนุญาต
      ใน issue #12121 ก็มีประเด็นถกเถียงเกี่ยวกับเรื่องนี้
    • ตอนล็อกอิน Claude ไม่มีทั้ง รหัสผ่านหรือ passkey ให้เลือก ใช้งานไม่สะดวก
  • ประโยคที่ว่า “ก้าวใหม่สู่การเป็นพาร์ตเนอร์การเขียนโค้ดที่เชื่อถือได้” กับ “โมเดลที่ปรับให้เหมาะกับงานระยะยาว” ฟังดู ขัดกันเอง
    ถ้าเป็นพาร์ตเนอร์ ก็ควรทำงานร่วมกันแบบสั้น ๆ วนซ้ำไปมา ไม่ใช่ปล่อยให้ทำงานคนเดียวเป็นเวลานาน

    • Codex เวลาทำงานยาว ๆ จะ ตัดสินใจเองมากเกินไป ถึงขั้นใช้วิธีเสี่ยงอย่างเขียนไลบรารี TLS ใหม่
    • (ทีมงาน Codex) เป้าหมายของเราคือโมเดลแบบเพื่อนร่วมงานที่ทำได้ ทั้งงานวนซ้ำสั้น ๆ และงานที่มอบหมายระยะยาว
      ดูจากกราฟโทเคนใน บล็อกทางการ ก็พอเห็นทิศทางนั้นได้
    • ขอแนะนำ โมเดล Composer ของ Cursor ด้วย เร็วมาก และถึงผลลัพธ์จะยังไม่ดี ก็ลองใหม่ได้ภายใน 30 วินาที
  • ฉันทึ่งกับความเร็วของ โหมด plan ใน Codex คุณภาพโค้ดก็ดีใช้ได้
    แต่พอบอกว่า “npm run build แล้วแก้ทุกปัญหา” มันกลับ หลุดไปติดตั้งแพ็กเกจเกี่ยวกับ eslint แบบไม่หยุด
    Claude Code ทำงานเดียวกันเสร็จในเวลาไม่ถึง 1 นาที Codex ดูยังไม่นิ่ง

    • สงสัยว่าโหมด plan คืออะไร
  • Codex แข็งแกร่งกับ งานแบ็กเอนด์หรืองานที่เน้นข้อมูล แต่กับงาน UI ง่าย ๆ มักให้ผลลัพธ์แปลก ๆ

  • สุดสัปดาห์ที่ผ่านมาได้ลองใช้ Claude กับ Codex ควบคู่กัน และพบว่า Codex ทำโค้ดฟิสิกส์/กราฟิกใน TypeScript ได้ดีกว่ามาก
    จากหลายพันบรรทัด ฉันเป็นคนเขียนเองแค่ไม่กี่ร้อยบรรทัด
    ต่อไปคงให้ Codex รุ่นใหม่ รีวิวงานที่ Codex รุ่นก่อนทำไว้