7 คะแนน โดย GN⁺ 2026-02-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • ผสานความสามารถด้านการเขียนโค้ดของ GPT-5.2-Codex และ การให้เหตุผล·ความรู้เฉพาะทาง ของ GPT-5.2 ไว้ในโมเดลเดียว พร้อมมอบ ความเร็วที่เพิ่มขึ้น 25%
  • ขยายขอบเขตงานแบบ agentic ของ Codex ไปสู่ งานที่รันระยะยาว และผสาน การทำงานร่วมกันแบบโต้ตอบเรียลไทม์ ที่สามารถเปลี่ยนทิศทางและสะท้อนฟีดแบ็กได้ระหว่างทำงานเข้าในแอป Codex
  • เป็น โมเดลที่มีส่วนร่วมพัฒนาตัวเอง รุ่นแรกที่เวอร์ชันเริ่มต้นถูกนำไปใช้โดยตรงกับการดีบัก การจัดการการดีพลอย และการวินิจฉัยการประเมินในกระบวนการฝึกของตัวเอง
  • ทำผลงานระดับสูงสุดของอุตสาหกรรมในเบนช์มาร์กสำคัญอย่าง SWE-Bench Pro, Terminal-Bench 2.0, OSWorld และอื่น ๆ โดยใช้โทเคนน้อยกว่าโมเดลก่อนหน้า
  • รองรับ งานความรู้ตลอดวงจรชีวิตซอฟต์แวร์ ตั้งแต่การเขียนโค้ดไปจนถึงงานนำเสนอ สเปรดชีต และการวิเคราะห์ข้อมูล

ภาพรวม

  • GPT-5.3-Codex คือ “โมเดลเขียนโค้ดแบบ agentic ที่มีความสามารถสูงที่สุด”
  • ผสานสมรรถนะการเขียนโค้ดระดับ frontier ของ GPT-5.2-Codex เข้ากับความสามารถด้านการให้เหตุผลและความรู้เฉพาะทางของ GPT-5.2 ในโมเดลเดียว พร้อมเพิ่มความเร็ว 25%
  • ออกแบบมาเพื่อ ทำงานระยะยาวที่มีการรีเสิร์ช การใช้เครื่องมือ และการรันงานที่ซับซ้อน และยังประสานงานได้โดยไม่สูญเสียบริบทระหว่างงาน
  • มีส่วนเกี่ยวข้องกับ การเรียนรู้ของตัวเอง·การดีพลอย·การวินิจฉัยการประเมิน โดยใช้เวอร์ชันเริ่มต้นของตัวเอง และเป็น โมเดลแรกที่ “เร่งการพัฒนาของตัวเอง”
  • ขยายบทบาทของ Codex จาก “การเขียน·รีวิวโค้ด” ไปสู่ “แทบทุกงานที่นักพัฒนาและผู้เชี่ยวชาญทำบนคอมพิวเตอร์”

ความสามารถ agentic ระดับ frontier

  • ประสิทธิภาพการเขียนโค้ด

    • ทำผลงานสูงสุดใน SWE-Bench Pro (การประเมินวิศวกรรมซอฟต์แวร์จากงานจริง) โดยเบนช์มาร์กนี้ครอบคลุม 4 ภาษา ต่างจาก SWE-Bench Verified ที่ทดสอบเฉพาะ Python และมีความทนทานต่อการปนเปื้อนสูงพร้อมความเกี่ยวข้องกับอุตสาหกรรมมากกว่า
    • ใน Terminal-Bench 2.0 ก็ทำผลงานสูงกว่าสถิติก่อนหน้าอย่างมาก โดยเป็นการวัดทักษะเทอร์มินัลที่จำเป็นต่อ coding agent
    • สามารถทำงานเดียวกันได้ด้วย โทเคนน้อยลง เมื่อเทียบกับโมเดลก่อนหน้า
  • การพัฒนาเว็บ

    • ด้วยการผสานความสามารถการเขียนโค้ดระดับ frontier ความสวยงามที่ดีขึ้น และเทคนิคการบีบอัด ทำให้สามารถสร้าง เกมและแอปที่ซับซ้อน จากศูนย์ได้ภายในหลายวัน
    • มีการสร้างเกมสองแบบเพื่อทดสอบการพัฒนาเว็บและ ความสามารถ agentic ระยะยาว
      • เกมแข่งรถ: มีนักแข่งหลายแบบ 8 แผนที่ และไอเท็มที่ใช้ด้วยปุ่มสเปซบาร์
      • เกมดำน้ำ: สำรวจแนวปะการังหลากหลาย เก็บสารานุกรมปลา และจัดการออกซิเจน·แรงดันน้ำ·อันตราย
    • ใช้สกิล "develop web game" และ พรอมป์ต์ติดตามผลแบบทั่วไปที่ตั้งไว้ล่วงหน้า อย่าง "fix the bug" และ "improve the game" เพื่อปรับปรุงซ้ำอย่างอัตโนมัติตลอดหลายล้านโทเคน
    • ในการสร้างเว็บไซต์ทั่วไป เข้าใจเจตนาผู้ใช้ได้ดีกว่า GPT-5.2-Codex และแม้พรอมป์ต์จะเรียบง่ายหรือไม่เพียงพอ ก็ยังเพิ่ม ฟังก์ชันมากขึ้นและค่าเริ่มต้นที่สมเหตุสมผล ให้โดยอัตโนมัติ
    • ตัวอย่างการเปรียบเทียบ landing page: GPT-5.3-Codex แสดงแพลนรายปีเป็นราคารายเดือนแบบลดราคาโดยอัตโนมัติ และสร้าง คารูเซลแนะนำการสลับใช้งานอัตโนมัติที่มีคำพูดผู้ใช้ 3 ราย ทำให้ผลลัพธ์สมบูรณ์กว่า
  • ความสามารถนอกเหนือจากการเขียนโค้ด

    • รองรับ ทั้งวงจรชีวิตซอฟต์แวร์ เช่น การดีบัก การดีพลอย การมอนิเตอร์ การเขียน PRD การแก้ไข copy งานวิจัยผู้ใช้ การทดสอบ และการวิเคราะห์เมตริก ซึ่งเป็นงานของวิศวกรซอฟต์แวร์ นักออกแบบ ผู้จัดการผลิตภัณฑ์ และนักวิทยาศาสตร์ข้อมูล
    • ขยายไปสู่ งานนอกซอฟต์แวร์ เช่น การทำสไลด์เด็คและการวิเคราะห์ข้อมูลในชีต
    • ทำได้ 70.9% เทียบเท่า GPT-5.2 ใน GDPval (การประเมินงานความรู้ที่กำหนดชัดเจนใน 44 สายอาชีพ)
      • รวมผลลัพธ์งานจริง เช่น งานนำเสนอและสเปรดชีต
    • แสดงตัวอย่างผลลัพธ์หลากหลาย เช่น สไลด์ที่ปรึกษาด้านการเงิน เอกสารฝึกอบรมค้าปลีก สเปรดชีตวิเคราะห์ NPV และ PDF งานนำเสนอแฟชั่น
    • ทำได้ 64.7% ใน OSWorld-Verified (เบนช์มาร์กการใช้คอมพิวเตอร์แบบ agentic เพื่อทำงานด้านผลิตภาพในสภาพแวดล้อมเดสก์ท็อปแบบภาพ) เพิ่มขึ้นมากจาก GPT รุ่นก่อนหน้า (38.2%)
      • คะแนนของมนุษย์อยู่ที่ประมาณ 72%

ผู้ร่วมงานแบบโต้ตอบ

  • เมื่อความสามารถของโมเดลสูงขึ้น โจทย์สำคัญจึงเปลี่ยนจากสิ่งที่เอเจนต์ทำได้ ไปเป็นว่า มนุษย์สามารถสั่งการและกำกับเอเจนต์หลายตัวที่ทำงานขนานกันได้ง่ายแค่ไหน
  • แอป Codex ช่วยให้การจัดการและสั่งงานเอเจนต์ง่ายขึ้น และใน GPT-5.3-Codex ก็ให้ ความสามารถในการโต้ตอบที่สูงขึ้น
  • อัปเดตการตัดสินใจสำคัญและความคืบหน้าของงาน อย่างสม่ำเสมอ เพื่อให้ผู้ใช้ถามแบบเรียลไทม์ ถกแนวทาง และปรับทิศทางได้โดยไม่ต้องรอผลสุดท้าย
  • อธิบายสิ่งที่กำลังทำ ตอบสนองต่อฟีดแบ็ก และทำให้ผู้ใช้ อยู่ในลูป ตั้งแต่ต้นจนจบ
  • เส้นทางการตั้งค่า: Settings > General > Follow-up behavior เพื่อเปิดใช้งานการสั่งทิศทางระหว่างที่โมเดลทำงาน

การฝึกและดีพลอย GPT-5.3-Codex ด้วย Codex

  • การปรับปรุง Codex อย่างรวดเร็วในช่วงหลังสร้างขึ้นบนโครงการวิจัยตลอดหลายเดือนถึงหลายปีทั่วทั้ง OpenAI
  • นักวิจัยและวิศวกรจำนวนมากใน OpenAI ระบุว่าวิธีทำงานปัจจุบันของพวกเขา แตกต่างจากเมื่อ 2 เดือนก่อนโดยพื้นฐาน
  • GPT-5.3-Codex เวอร์ชันเริ่มต้นก็แสดงความสามารถสูงมากแล้ว ทำให้ทีมใช้เวอร์ชันเริ่มต้นนี้เพื่อสนับสนุนการปรับปรุงการฝึกและการดีพลอยของเวอร์ชันถัดมา
  • ตัวอย่างการใช้งานของทีมวิจัย

    • ใช้ Codex สำหรับ มอนิเตอร์และดีบัก training run ของรีลีสนี้
    • นอกเหนือจากการดีบักปัญหาโครงสร้างพื้นฐานแล้ว ยังสร้าง แอปพลิเคชันที่มีความลึกมากขึ้น เพื่อไล่ตามแพตเทิร์นตลอดกระบวนการฝึก วิเคราะห์คุณภาพการโต้ตอบเชิงลึก เสนอการแก้ไข และระบุความต่างด้านพฤติกรรมจากโมเดลก่อนหน้าอย่างแม่นยำ
  • ตัวอย่างการใช้งานของทีมวิศวกรรม

    • ใช้ Codex เพื่อ ปรับแต่งและทำให้ harness เหมาะกับ GPT-5.3-Codex
    • เมื่อเกิด edge case แปลก ๆ ที่กระทบผู้ใช้ ใช้ Codex เพื่อ ระบุบั๊กการเรนเดอร์คอนเท็กซ์ และวิเคราะห์สาเหตุรากของอัตรา cache hit ที่ต่ำ
    • ระหว่างช่วงเปิดตัว ใช้งานอย่างต่อเนื่องเพื่อรองรับทราฟฟิกที่พุ่งขึ้นด้วย การสเกล GPU cluster แบบไดนามิก และการรักษาเสถียรภาพของ latency
  • ตัวอย่างการใช้งานในการทดสอบอัลฟา

    • นักวิจัยคนหนึ่งต้องการเข้าใจว่า GPT-5.3-Codex ทำงานเพิ่มได้มากเพียงใดต่อหนึ่งเทิร์น และต่างด้านผลิตภาพอย่างไร
    • GPT-5.3-Codex ออกแบบ ตัวจำแนกด้วย regex แบบง่าย หลายตัวเพื่อประมาณความถี่ของคำถามเพื่อขอความชัดเจน การตอบรับเชิงบวก·ลบ และความคืบหน้าของงาน จากนั้นรันกับล็อกทั้งเซสชันในวงกว้างแล้วสร้างรายงานสรุปผล
    • ผู้ที่สร้างร่วมกับ Codex มีความพึงพอใจสูงกว่า โดยเอเจนต์เข้าใจเจตนาได้ดีกว่า แสดง ความคืบหน้าต่อเทิร์นมากขึ้น และถามเพื่อขอความชัดเจนน้อยลง
  • การสร้าง data pipeline

    • ข้อมูลจากการทดสอบอัลฟาแตกต่างจากโมเดลก่อนหน้ามาก จึงเกิด ผลลัพธ์ผิดปกติและสวนทางสัญชาตญาณ จำนวนมาก
    • นักวิทยาศาสตร์ข้อมูลสร้าง data pipeline ใหม่ร่วมกับ GPT-5.3-Codex และทำการแสดงผลข้อมูลที่ สมบูรณ์กว่ามาก เมื่อเทียบกับเครื่องมือแดชบอร์ดมาตรฐาน
    • วิเคราะห์ผลลัพธ์ร่วมกับ Codex และสรุปอินไซต์สำคัญจากจุดข้อมูลหลายพันรายการได้ ภายใน 3 นาที

การรักษาระดับ frontier ด้านความปลอดภัยไซเบอร์

  • ในช่วงหลายเดือนที่ผ่านมา สมรรถนะของโมเดลในงานด้านความมั่นคงไซเบอร์ดีขึ้นอย่างมีนัยสำคัญ ซึ่งเป็นประโยชน์ทั้งต่อนักพัฒนาและผู้เชี่ยวชาญด้านความปลอดภัย
  • ควบคู่กันนั้น ได้เตรียม มาตรการความปลอดภัยไซเบอร์ที่เข้มงวดยิ่งขึ้น เพื่อรองรับการใช้งานเชิงป้องกันและความยืดหยุ่นของระบบนิเวศในวงกว้าง
  • ภายใต้ Preparedness Framework นี่คือโมเดลแรกที่ถูกจัดเป็นระดับ High สำหรับงานที่เกี่ยวข้องกับความมั่นคงไซเบอร์ และเป็นโมเดลแรกที่เรียนรู้การระบุช่องโหว่ซอฟต์แวร์โดยตรง
  • แม้ยังไม่มีหลักฐานยืนยันชัดเจนว่าสามารถทำระบบอัตโนมัติสำหรับการโจมตีไซเบอร์แบบ end-to-end ได้ แต่ก็ใช้ แนวทางเชิงป้องกันล่วงหน้า และดีพลอยสแตกความปลอดภัยไซเบอร์ที่ครอบคลุมที่สุดเท่าที่เคยมีมา
    • รวมถึงการฝึกด้านความปลอดภัย การมอนิเตอร์อัตโนมัติ การเข้าถึงตามความเชื่อถือสำหรับความสามารถขั้นสูง และ pipeline การบังคับใช้งานที่มี threat intelligence
  • โดยคำนึงถึงลักษณะ ใช้ได้สองทาง โดยธรรมชาติของความมั่นคงไซเบอร์ จึงใช้แนวทางเชิงประจักษ์แบบวนซ้ำที่ช่วยเร่งความสามารถของฝ่ายป้องกันในการค้นหาและแก้ไขช่องโหว่ พร้อมชะลอการใช้งานในทางที่ผิด
  • งานวิจัยเชิงป้องกันและโครงการปกป้องระบบนิเวศ

    • เปิดตัวโครงการนำร่อง Trusted Access for Cyber เพื่อเร่งงานวิจัยด้านการป้องกันไซเบอร์
    • ขยาย private beta ของเอเจนต์วิจัยด้านความปลอดภัย Aardvark ซึ่งเป็นผลิตภัณฑ์แรกในกลุ่ม Codex Security
    • ร่วมมือกับผู้ดูแลโอเพนซอร์สเพื่อให้บริการสแกนโค้ดเบสฟรีแก่โปรเจ็กต์ที่ใช้งานอย่างแพร่หลาย (เช่น Next.js)
      • นักวิจัยด้านความปลอดภัยใช้ Codex ค้นพบช่องโหว่ที่เปิดเผยเมื่อสัปดาห์ก่อน (CVE-2025-59471, CVE-2025-59472)
    • ต่อเนื่องจากโครงการทุนสนับสนุนด้านความมั่นคงไซเบอร์มูลค่า 1 ล้านดอลลาร์ที่เปิดตัวในปี 2023 ได้ลงทุนเพิ่มเป็น API credits มูลค่า 10 ล้านดอลลาร์ เพื่อเร่งการป้องกันไซเบอร์ด้วยโมเดลที่ทรงพลังที่สุด
      • โดยเฉพาะกับซอฟต์แวร์โอเพนซอร์สและระบบโครงสร้างพื้นฐานสำคัญ
      • องค์กรที่ทำงานวิจัยด้านความปลอดภัยโดยสุจริตสามารถสมัครขอ API credits และการสนับสนุนผ่าน Cybersecurity Grant Program

การใช้งานได้และรายละเอียด

  • GPT-5.3-Codex ใช้งานได้ใน แพลน ChatGPT แบบชำระเงิน และใช้ได้ทุกที่ที่รองรับ Codex (แอป, CLI, IDE extension, เว็บ)
  • กำลังเตรียมเปิดใช้งานการเข้าถึงผ่าน API อย่างปลอดภัย
  • ด้วยการปรับปรุงโครงสร้างพื้นฐานและสแตกการอนุมาน จึงให้ ความเร็วเพิ่มขึ้น 25% สำหรับผู้ใช้ Codex เพื่อการโต้ตอบและผลลัพธ์ที่รวดเร็วยิ่งขึ้น
  • ร่วมออกแบบ ฝึก และให้บริการบน NVIDIA GB200 NVL72 system

ทิศทางในอนาคต

  • Codex กำลังขยับจากการเขียนโค้ด ไปสู่การใช้โค้ดเป็นเครื่องมือเพื่อ ควบคุมคอมพิวเตอร์และทำงานให้เสร็จตั้งแต่ต้นจนจบ
  • การขยาย frontier ของ coding agent ไม่ได้ปลดล็อกแค่การสร้างและดีพลอยซอฟต์แวร์เท่านั้น แต่ยังเปิดไปสู่งานความรู้ที่กว้างขึ้นอย่างการวิจัย การวิเคราะห์ และการทำงานที่ซับซ้อน
  • เริ่มจากการเป็น coding agent ที่ดีที่สุด และพัฒนาไปเป็น ผู้ร่วมงานอเนกประสงค์บนคอมพิวเตอร์ ที่ขยายทั้งสิ่งที่สร้างได้และผู้คนที่สามารถสร้างได้

Appendix: ตัวเลขเบนช์มาร์ก

  • การประเมินทั้งหมดรันด้วย xhigh reasoning effort
  • SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
  • Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
  • OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
  • GDPval(ชนะหรือเสมอ): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
  • Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
  • SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%

2 ความคิดเห็น

 
treestae 2026-02-06

เมื่อก่อนผมค่อนข้างชอบฝั่ง Claude มากกว่า แต่ช่วงหลังมานี้กลับรู้สึกว่า Codex ถูกใจกว่า หวังว่าทั้งสองจะพัฒนาไปแบบเกื้อหนุนกันเหมือน iOS กับ AOS

 
GN⁺ 2026-02-06
ความเห็นจาก Hacker News
  • น่าสนใจที่ GPT‑5.3 Codex และ Opus 4.6 กำลังพัฒนาไปในทิศทางที่ต่างกันในเชิงปรัชญา
    Codex ถูกออกแบบให้เป็นผู้ร่วมงานแบบโต้ตอบที่มนุษย์เข้ามาแทรกแซงและทำงานร่วมกันระหว่างทาง ขณะที่ Opus เป็นระบบที่อัตโนมัติและมีการวางแผนมากกว่า โดยลดการแทรกแซงของมนุษย์ให้น้อยที่สุด
    ดูเหมือนว่านี่สะท้อนมุมมองสองแบบที่นักพัฒนามีต่อการเขียนโค้ดด้วย LLM — การควบคุมโดยมนุษย์ vs การมอบหมายทั้งหมด —
    ชวนสงสัยว่าในอนาคตโมเดลจะถูกปรับให้เหมาะกับความแตกต่างเชิงปรัชญาแบบนี้ต่อไป หรือจะมีแนวทางใหม่เกิดขึ้น

    • ในมุม UX กลับรู้สึกเหมือนตรงกันข้าม
      Codex มีแนวโน้มจะคิดนานกว่าเดิมมากก่อนจะให้คำตอบ
    • ฉันมั่นใจว่าแนวทางของ Codex จะไปต่อได้
      ถ้ามนุษย์ยังอยู่ในลูป ก็หลีกเลี่ยงปัญหาของ LLM ได้เกือบทั้งหมด และการรีวิวทีละหน่วยโค้ดเล็ก ๆ ก็มีประสิทธิภาพ
      ถ้า Codex จัดการงานซ้ำ ๆ ให้ นักพัฒนาก็จะโฟกัสกับลอจิกหลักได้
      แนวทางอัตโนมัติเต็มรูปแบบไม่เหมาะกับโค้ดเบสขนาดใหญ่ เพราะคุณภาพโค้ดจะลดลงในระยะยาว
    • จริง ๆ แล้วตอนแรก Codex ออกมาในรูปแบบเว็บแอปและแทบไม่มีปฏิสัมพันธ์เลย
      แค่ส่งคำขอเข้าไป มันก็รันอัตโนมัติในสภาพแวดล้อมคอนเทนเนอร์ แล้วหลังจากนั้นค่อยติดตามงานต่อผ่านแชตเท่านั้น
    • รู้สึกว่าโมเดลทั้งสองกำลังค่อย ๆ บรรจบกันในพื้นที่ของกันและกัน
      Codex ดูจะอัตโนมัติมากขึ้นเรื่อย ๆ ส่วน Opus ก็ดูจะร่วมงานกับคนมากขึ้น
      สุดท้ายแล้วทั้งสองแนวทางก็น่าจะมีประโยชน์ตามบริบทที่ต่างกัน
    • Codex ให้ความรู้สึกว่าเป็นโมเดลที่คิดมากกว่า Opus
      เพราะงั้นเวอร์ชัน 5.2 ถึงเสถียรกว่า Opus 4.5
  • ดูเหมือน Anthropic จะรีบเปิดตัว Opus 4.6เพื่อหลีกเลี่ยงการถูกนำไปเทียบกับ GPT‑5.3‑Codex
    คะแนน Terminal‑Bench 2.0 คือ Opus 4.6 ได้ 65.4 ส่วน GPT‑5.3‑Codex ได้ 77.3

    • เบนช์มาร์ก AI มักไม่ค่อยตรงกับประสบการณ์ใช้งานจริง
      ถึงอย่างนั้น Codex 5.2 ก็โดดเด่นที่สุดกับงานซับซ้อน และฉันก็กำลังตั้งตารอ 5.3
    • น่าทึ่งที่มีการเปิดตัวโมเดลเขียนโค้ดระดับท็อปสองตัวในวันเดียวกัน
    • การทดสอบรันในโหมด reasoning ระดับ xhigh เลยทำให้ต้นทุนเพิ่มเป็นสองเท่า
      GPT‑5.2 Codex อยู่ที่ $3244 ส่วน Claude Opus 4.5 อยู่ราว $1485
    • ดูเหมือน Codex จะoverfit กับ Terminal Bench
      ถ้าดูผล ARC AGI 2 ก็เหมือนว่ายังขาดความสามารถในการ generalize
    • จากประสบการณ์ของฉัน ตระกูล GPT เก่งเรื่องagentic codingมากกว่า Claude มาก
      เลยยังสงสัยกับคำกล่าวที่ว่า Claude เหนือกว่าในการเขียนโค้ด
  • ประทับใจที่ GPT‑5.3‑Codex เป็นโมเดลแรกที่ถูกนำมาใช้พัฒนาตัวมันเอง
    มีการบอกว่าทีม Codex ใช้เวอร์ชันแรก ๆ มาช่วยดีบัก pipeline การฝึกของตัวเอง
    ฉันคิดว่าเหตุผลที่ Claude Code เติบโตได้ก็เพราะวัฒนธรรมแบบdogfoodingนี้ด้วย

    • ไม่ได้ต่างจากทิศทางที่นักวิจัยของ โปรเจกต์ AI‑2027 คาดไว้มากนัก
    • ดูเหมือนโมเดลกำลังเข้าสู่ระยะเริ่มต้นของการพัฒนาตัวเอง
      ทำให้ต้องกลับมาคิดอีกครั้งว่า “การพัฒนาแบบค่อยเป็นค่อยไป (soft take‑off)” จะเป็นไปได้ไหม
  • GPT‑5.3‑Codex ถูกจัดเป็นโมเดลที่มีขีดความสามารถสูง (high capability) สำหรับงานด้านไซเบอร์ซีเคียวริตี้
    มันถูกฝึกให้ตรวจจับช่องโหว่โดยตรง แต่ยังไม่มีหลักฐานว่าทำการโจมตีแบบอัตโนมัติเต็มรูปแบบได้
    แต่ฉันก็คิดว่าเฟรมเวิร์กด้านความปลอดภัยนี้ล้าสมัยแล้ว
    ต่อไปโค้ดที่ Codex เขียนขึ้นเองอาจกลายเป็นพื้นผิวการโจมตีแบบใหม่ในเชิงความปลอดภัย
    โดยพื้นฐานแล้ว Codex ควรถูกออกแบบให้สร้างโค้ดที่ปลอดภัย

    • สงสัยว่า “high‑capability” หมายถึงเก่งกว่าทีมผู้เชี่ยวชาญระดับปริญญาเอกหรือเปล่า
      บทความที่เกี่ยวข้อง: รายงานของ NBC News
    • นี่ดูเหมือนเป็นกลยุทธ์แบบเดิมของ OpenAI ที่พยายามสร้างภาพว่าตัวเองใกล้ AGI แล้วอีกครั้ง
      คล้ายกับ Anthropic ที่ใช้กรอบ “งานวิจัยด้านความปลอดภัย” เป็นฉากหน้าในการโชว์ศักยภาพทางเทคนิค
    • ช่วงนี้มีมุกว่าโปรเจกต์แบบvibe-codedมักเผลอเปิด API key ทิ้งไว้บนหน้าเว็บตรง ๆ
      เลยสงสัยว่าความผิดพลาดแบบนี้จะยังเกิดขึ้นต่อไปไหม
    • บอกว่า “เสริมความปลอดภัย” สุดท้ายอาจแค่เพิ่ม ACL กับอัปเดต regexก็ได้
  • เมื่อก่อนแล็บ AI จะประสานกันเพื่อหลีกเลี่ยงการประกาศพร้อมกัน แต่ตอนนี้กลับแข่งกันประกาศห่างกันแค่ 30 นาที

    • ตอนนี้กลายเป็นการแข่งขันที่ดุเดือดเต็มตัวแล้ว
      Demis อาจไม่เก่งเกมการเมือง แต่คงสู้ด้วยประสิทธิภาพ
      ส่วน Elon, Sam, Dario นั้นเก่งเรื่องเกมการเมืองไปแล้ว
      ปี 2026 น่าจะเป็นปีที่วงการ AI ดราม่าหนักมาก
    • ยังมีการปรับตารางเพื่อแข่งกับโมเดลโลคัลให้ตรงกับช่วงตรุษจีนของจีนด้วย
    • การแข่งขันแบบนี้มีมาตั้งแต่ยุค GPT‑4 แล้ว
      ตอน OpenAI ประกาศตอน 10 โมง Anthropic กับ Google ก็เคยเปิดตัวชนกันเหมือนกัน
    • มีคนสงสัยว่าการประสานแบบนี้อาจผิดกฎหมายในฐานะพฤติกรรมแบบคาร์เทลหรือเปล่า
  • รู้สึกสนใจตอนเห็นการประกาศว่า GPT‑5.3‑Codex สามารถปรับปรุงเว็บเกมได้ด้วยตัวเอง
    แต่ก็น่าเสียดายที่ไม่ได้เปิดเผยจำนวนพรอมป์ต์หรือจำนวนโทเคนในงานทดลองเปรียบเทียบ
    อยากลองเอาไปเทียบกับ เว็บโคลน Factorio ที่ฉันเคยทำ

    • เดโมนั้นเจ๋งมากจริง ๆ
      ไม่เคยรู้มาก่อนว่าเขาใช้โมเดลในลักษณะนี้ได้ด้วย
  • ได้ยินคำว่า AI จะช่วยให้ผลิตภาพเพิ่มขึ้น 100 เท่ามาหลายปีแล้ว
    แต่ก็ยังสงสัยว่ามีโปรแกรมไหนที่ LLM สร้างขึ้นเป็นหลักแล้วทั้งใหม่และเชื่อถือได้จริงหรือไม่

    • ตอนมีเครื่องคิดเลขในยุค 1930 ก็มีคนบอกว่างานบัญชีจะหายไป แต่กลับยิ่งเฉพาะทางมากขึ้น
      LLM ก็แค่ช่วยให้แก้ปัญหาเดิมได้เร็วขึ้น ไม่ได้แก้ปัญหาใหม่แบบสิ้นเชิง
      ยกตัวอย่างเช่น ตอนมีปัญหาการจัดเรียงการ์ด UI Gemini เคยเสนอแนวทางแบบพิกัดเชิงขั้วซึ่งช่วยได้มาก
      อาจไม่ถึง 100 เท่า แต่รู้สึกว่าผลิตภาพเพิ่มขึ้น 2 เท่า
      เธรดที่เกี่ยวข้อง: ตัวอย่าง vibe coding
    • นักพัฒนาส่วนใหญ่แก้ปัญหาเดิม ๆซ้ำมากกว่าจะเจอปัญหาใหม่
      เพราะงั้นคำวิจารณ์ว่าเป็น “ปัญหาที่มีคำตอบอยู่แล้ว” จึงไม่ได้มีความหมายมากนัก
    • อยากให้มีโปรเจกต์เกมขนาดใหญ่แบบโอเพนซอร์สที่ปล่อยออกมา เช่น OpenGTA, OpenFIFA เป็นต้น
    • Opus 4.5 ใช้ความพยายามถึงห้าครั้งกว่าจะแก้ปัญหา git ง่าย ๆ ได้
      และสามครั้งก็มโนแฟลกที่ไม่มีอยู่จริงขึ้นมา
      ChatGPT 5.2 เองก็ตั้งสคริปต์ ffmpeg ได้ไม่จบในทีเดียว ต้องแก้หลายรอบ
      วันที่มันจัดการ line ending บน Windows ได้ถูกต้อง วันนั้นอาจเรียกได้ว่าเป็น AGI
    • มีโปรแกรมแบบไหนที่มนุษย์เขียนได้แต่ LLM จะไม่มีวันเขียนได้ไหม?
      การที่โค้ดเบสใหญ่ก็เป็นแค่ข้อจำกัดชั่วคราวเท่านั้น
      ฟังดูเหมือนเป็นการบ่นของคนที่ไม่ชอบความก้าวหน้า
  • ผลลัพธ์ Terminal Bench 2.0

    โมเดล คะแนน
    OpenAI Codex 5.3 77.3
    Anthropic Opus 4.6 65.4
    • ตอนนี้การแข่งกันเรื่องเบนช์มาร์ก (benchmaxxing) ดูจะมีความหมายน้อยลงแล้ว
      มากกว่าคะแนน สิ่งสำคัญคือ “ความรู้สึก” ของประสบการณ์เขียนโค้ดจริง
    • ประสิทธิภาพในโลกจริงน่าผิดหวังกว่าเบนช์มาร์กมาก
  • สงสัยว่านักพัฒนารู้สึกถูกคุกคามจากการเปลี่ยนแปลงนี้หรือไม่
    สำหรับฉัน บอกตรง ๆ ว่ารู้สึก

    • AI ยังขาดความสามารถด้านนามธรรม
      ถ้าเป็นโปรแกรมเมอร์สายแข่งขันอาจรู้สึกถูกคุกคาม แต่สำหรับนักพัฒนาทั่วไปจะน้อยกว่า
    • ถ้ายังไม่ได้เรียนรู้วิธีใช้ AI ให้เก่ง ก็คงรู้สึกเป็นภัยคุกคามได้
    • ตอนนี้มนุษย์ยังต้องเป็นคนรีวิวโค้ดเอง
      คิดว่าการทำอัตโนมัติเต็มรูปแบบยังเป็นไปไม่ได้จนกว่า AGI จะมาถึง
    • เหมือนกับความขัดแย้งของ Jevons ต่อให้ประสิทธิภาพเพิ่มขึ้น งานก็อาจไม่ได้หายไป
  • รอบตัวฉันมีคนใช้ Claude มากกว่า Codex เยอะ
    แต่ Codex ใจกว้างกว่ามากในแง่ขีดจำกัดการใช้งานและแพ็กเกจราคา
    ใช้แพ็กเกจ $20 มาหลายเดือนก็แทบไม่เคยชนลิมิต
    รู้สึกว่าความต่างเชิงปฏิบัติแบบนี้สำคัญกว่าคุณภาพการเขียนโค้ดเสียอีก

    • ช่วงหลังเปลี่ยนมาใช้terminal agentบน CLI แล้วพบว่า Codex ดีกว่ามาก
      เมื่อก่อนใน GH Copilot นั้น Claude ดีกว่า แต่
      Codex มีความเป็นอัตโนมัติสูงกว่า เลยเหมาะกับ vibe‑coding มากกว่า
      และดูเหมือนฐานผู้ใช้จะโตขึ้นจากแรงส่งด้านการโปรโมตบน Twitter และ LinkedIn
    • ฉันก็รู้สึกว่าสิทธิประโยชน์ของแพ็กเกจ Codex ดีกว่า
      ถ้าดูไม่ออกว่าคุณภาพต่างกัน ก็แน่นอนว่าต้องเลือกตัวที่ถูกกว่า
    • ต่อให้รันเซสชันแบบมัลติเอเจนต์ทั้งวันก็แทบไม่ติดลิมิต
      เปลี่ยนแพ็กเกจก็ยืดหยุ่น เลยรู้สึกว่าประสบการณ์ใช้งานดีมาก