OpenAI เปิดตัว Codex รีเสิร์ชพรีวิว เอเจนต์เขียนโค้ดบนคลาวด์

(openai.com)

8 คะแนน โดย GN⁺ 2025-05-17 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI เปิดตัว Codex เอเจนต์สำหรับวิศวกรรมซอฟต์แวร์โดยเฉพาะ ที่ช่วยทำงานซ้ำ ๆ เขียนโค้ด และเสนอ PR ได้โดยอัตโนมัติ
Codex ทำงานใน สภาพแวดล้อม sandbox บนคลาวด์ที่แยกออกจากกัน และสามารถตรวจสอบผลลัพธ์ได้อย่างโปร่งใสผ่านการทดสอบและบันทึกล็อก
ผ่านไฟล์ AGENTS.md ผู้ใช้สามารถระบุแนวปฏิบัติและวิธีทดสอบของแต่ละโปรเจกต์ให้ Codex ทำตามได้ และปรับให้เหมาะกับ codebase ของตนเองได้
มี Codex CLI เวอร์ชันบรรทัดคำสั่ง ให้ใช้งานด้วย ทำให้ใช้เอเจนต์ในสภาพแวดล้อมพัฒนาแบบโลคัลได้
การเปิดให้ใช้งานระยะแรกมีสำหรับ ChatGPT Pro, Team และ Enterprise และมีแผนขยายไปยังผู้ใช้ Plus และ Edu ในภายหลัง

Introducing Codex

Codex คืออะไร?

Codex คือ เอเจนต์วิศวกรรมซอฟต์แวร์ ที่ทำงานบนคลาวด์ สามารถอ่าน codebase ของผู้ใช้และจัดการงานหลากหลายแบบอัตโนมัติได้
สามารถทำงานแบบขนานได้ทั้งการเพิ่มฟีเจอร์ให้โค้ด ตอบคำถาม แก้บั๊ก และเสนอ PR
แต่ละงานจะทำงานแยกกันอย่างอิสระใน สภาพแวดล้อม sandbox ที่แยกออกจากกัน โดยมีการโหลดรีโพซิทอรีของผู้ใช้ไว้ล่วงหน้า

วิธีการทำงาน

เริ่มงานได้จากคำสั่ง “Code” หรือ “Ask” ผ่านฟีเจอร์ Codex ในแถบด้านข้างของ ChatGPT
สามารถอ่านและแก้ไขไฟล์ รวมถึงรันคำสั่งอย่างการทดสอบ linter และ type checker ได้
โดยทั่วไปงานจะเสร็จภายใน 1~30 นาที และดูความคืบหน้าแบบเรียลไทม์ได้
หลังจบงาน Codex จะสร้างคอมมิตและอธิบายการเปลี่ยนแปลงอย่างโปร่งใสด้วยการอ้างอิง ล็อกเทอร์มินัลและผลลัพธ์การทดสอบ
หลังตรวจสอบผลลัพธ์แล้ว สามารถ สร้าง GitHub PR หรือรวมเข้ากับโค้ดโดยตรง ได้

ไฟล์ AGENTS.md

AGENTS.md ที่อยู่ในโปรเจกต์จะบอกวิธีให้ Codex สำรวจ codebase และรันการทดสอบ
เป็นเอกสารรูปแบบคล้าย README ที่สามารถระบุสไตล์โค้ด คำสั่งที่ใช้รัน และรูปแบบข้อความ PR ได้
ไฟล์ที่อยู่ในไดเรกทอรีลึกกว่าจะมีลำดับความสำคัญสูงกว่า และต้องรันการทดสอบที่ระบุไว้ทั้งหมด
Codex ยังยึดกฎที่ว่า explicit prompt มีลำดับความสำคัญสูงกว่า AGENTS.md

ประสิทธิภาพจากเบนช์มาร์กภายใน

ใน SWE benchmark ภายในของ OpenAI นั้น codex-1 รองรับได้ สูงสุด 192k โทเคน และทำความแม่นยำได้ดีในระดับความยากปานกลาง
แม้ไม่มี AGENTS.md ก็ยังให้ประสิทธิภาพสูง และสามารถสร้างผลลัพธ์ที่ สอดคล้องใกล้เคียงกับสไตล์โค้ดที่มนุษย์เขียน ได้

ความปลอดภัยและความน่าเชื่อถือ

Codex ถูกออกแบบมาโดยเน้น ความโปร่งใสที่สูงขึ้นและความปลอดภัยเป็นศูนย์กลาง และสามารถตรวจสอบความถูกต้องของผลลัพธ์ได้
ระหว่างทำงานจะมีการตัดการเชื่อมต่ออินเทอร์เน็ต และ เข้าถึงได้เฉพาะรีโพซิทอรีและ dependency ที่กำหนดไว้เท่านั้น
มีการฝึกให้แยกแยะเพื่อ ป้องกันการพัฒนาโค้ดอันตราย ขณะเดียวกันก็อนุญาตงานที่ชอบด้วยเหตุผลในระดับเคอร์เนล

กรณีใช้งานระยะแรก

ภายใน OpenAI มีการใช้งานกับงานอย่างการรีแฟกเตอร์ซ้ำ ๆ การเขียนเทสต์ และการทำเอกสาร
ตัวอย่างพาร์ตเนอร์ภายนอก:
- Cisco: ใช้ทดสอบกับผลิตภัณฑ์จริงในวงกว้างและให้ฟีดแบ็ก
- Temporal: ใช้กับการดีบัก รันเทสต์ และรีแฟกเตอร์ใน codebase ขนาดใหญ่
- Superhuman: ช่วย QA และแก้ปัญหาความล้มเหลวของการรวมระบบ รวมถึงช่วยให้ PM ปรับโค้ดเล็กน้อยได้
- Kodiak: สนับสนุนการวิเคราะห์โค้ดและการพัฒนาเครื่องมือสำหรับเทคโนโลยีขับเคลื่อนอัตโนมัติ

อัปเดต Codex CLI

Codex CLI เป็นเอเจนต์เขียนโค้ดแบบน้ำหนักเบาที่ทำงานผ่านเทอร์มินัล และใช้ร่วมกับโมเดล o3, o4-mini ในเครื่องโลคัลได้
อัปเดตครั้งนี้เปิดตัว โมเดล codex-mini ที่อิง o4-mini ซึ่งปรับให้เหมาะกับ CLI และตอบสนองได้หน่วงต่ำ
เมื่อล็อกอินด้วยบัญชี ChatGPT จะมีการ ตั้งค่า API key อัตโนมัติ และ มอบเครดิตฟรีให้ผู้ใช้ Plus/Pro

ราคาและขอบเขตการให้บริการ

ตอนนี้ Codex เปิดให้ใช้งานกับผู้ใช้ Pro, Enterprise และ Team แล้ว โดย Plus และ Edu จะตามมาในเร็ว ๆ นี้
ในช่วงแรก ใช้งานได้โดยไม่มีค่าใช้จ่ายเพิ่มเติม และภายหลังจะมีการใช้โมเดลราคาตามปริมาณการใช้งาน
codex-mini-latest มีราคา $1.50 ต่อ 1M โทเคนอินพุต และ $6 ต่อโทเคนเอาต์พุต พร้อมส่วนลด prompt cache 75%

แผนในอนาคต

ในระยะยาว Codex จะพัฒนาไปเป็น เอเจนต์ทำงานร่วมกันแบบอะซิงโครนัส
มีแผนทำ การผสานรวมที่ลึกขึ้น กับ Codex CLI, ChatGPT Desktop, issue tracker และเครื่องมือ CI
จะมีการเพิ่มฟีเจอร์อย่างฟีดแบ็กระหว่างทาง การพูดคุยเรื่องกลยุทธ์การพัฒนา และการรายงานความคืบหน้าเชิงรุก
OpenAI คาดหวังถึงอนาคตที่นักพัฒนาจะเขียนโค้ดได้เร็วขึ้นและมีสมาธิมากขึ้นผ่าน AI

ภาคผนวก: สรุประบบข้อความของ codex-1

ตรวจสอบสถานะ Git ก่อนและหลังงาน และต้อง คงสถานะที่คอมมิตเรียบร้อยไว้เสมอ
ขั้นตอนการตรวจสอบในไฟล์ AGENTS.md ต้องรันทั้งหมด แม้เป็นการเปลี่ยนแปลงเล็กน้อย
เมื่อต้องสร้าง PR จะมีกฎการอ้างอิง จากไฟล์/เทอร์มินัล (เช่น 【F:main.py†L12】)
ห้ามอ้างอิง PR หรือคอมเมนต์ก่อนหน้า ให้ใช้เฉพาะ ไฟล์และผลลัพธ์จากเทอร์มินัลเท่านั้น

ข้อความระบบนี้มีไว้เพื่อช่วยทำความเข้าใจพฤติกรรมพื้นฐานของโมเดลสำหรับการปรับแต่ง Codex โดยผู้ใช้

2 ความคิดเห็น

fortune 2025-05-18

ในที่สุดก็มีเอเจนต์ยุคถัดไปที่แยกความแตกต่างจากกลุ่มอย่าง cursor, cline และอื่น ๆ ได้แล้วนะครับ น่าตื่นเต้นว่าความเร็วของการเปลี่ยนแปลงด้านซอฟต์แวร์ของโลกจะยิ่งเร็วขึ้นได้อีกแค่ไหน รวมถึงการมาถึงของเอเจนต์ยุคถัดไปหลังจากนี้ด้วย

GN⁺ 2025-05-17

ความคิดเห็นจาก Hacker News

แชร์ประสบการณ์เข้าร่วมทดสอบ Codex alpha ที่ Assembled กับวิศวกรบางคนในทีม เดิมใช้เอเจนต์แบบโลคัลอย่าง Cursor และ Claude Code มานานจึงไม่ได้คาดหวังมากนัก แต่ประทับใจความสามารถของ Codex ในการรันงานแบบขนาน สามารถจับงานรีแฟกเตอร์ งานทดสอบ และงาน boilerplate หลายอย่างมารันพร้อมกันได้โดยไม่ต้องสลับคอนเท็กซ์ ซึ่งโซลูชันเดิมทำได้ยาก แต่ Codex ถ้าระบุงานให้กับไฟล์หรือฟังก์ชันแล้ว ส่วนใหญ่จะจัดการ PR scaffolding ให้เองอัตโนมัติ ให้ความรู้สึกเหมือนมีวิศวกรจูเนียร์ไม่จำกัดจำนวน อย่างไรก็ตาม กว่าจะนำเข้าระบบโปรดักชันจริงยังต้องมีงานเก็บรายละเอียดอีกมาก คุณภาพโมเดลถือว่าใช้ได้ แต่เมื่อเทียบข้างกันกับ Cursor, Gemini 2.5-pro ฯลฯ ก็ยังไม่เห็นความเหนือกว่าอย่างชัดเจนในด้านสไตล์ ลอจิก หรือการตั้งชื่อ โดยรวมคือทำได้ “ถึงความคาดหวัง”
- มีการตั้งคำถามว่า ถ้าเราไม่จ้างวิศวกรจูเนียร์มาทำงานลักษณะนี้ แล้ววิศวกรซีเนียร์ในอนาคตจะมาจากไหน เล่าถึงความเป็นจริงของตลาดงานว่าลูกสาวเพิ่งจบวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยดี ๆ แต่ตลาดต้องการวิศวกรซีเนียร์มากกว่าตำแหน่งนักพัฒนาเริ่มต้นมาก ช่วงหลังบริษัทเพิ่งเปิดรับตำแหน่งระดับเริ่มต้นแล้วมีใบสมัครหลั่งไหลเข้ามามหาศาลจนประเมินอย่างเป็นธรรมได้ยาก สุดท้ายเพื่อนของลูกที่ได้งานส่วนใหญ่ก็เพราะคอนเน็กชัน
- ตอนนี้มีวิศวกรนับล้านคนร่วม contribute ให้โอเพนซอร์สบน GitHub แล้วคนเก่ง ๆ ก็เอาโค้ดเหล่านั้นไปพัฒนาโมเดล AI เพื่อกลับมาแทนที่วิศวกรเหล่านั้นเอง เป็นวงจรที่น่าสนใจ มีการพูดถึงภาวะกลืนไม่เข้าคายไม่ออกโดยเนื้อแท้ว่า ยิ่งมีการ contribute โอเพนซอร์สมาก การแทนที่งานที่เกี่ยวข้องก็ยิ่งง่ายขึ้น จึงตั้งคำถามว่าเมื่อเวลาผ่านไป แรงจูงใจในการ contribute โอเพนซอร์สจะอ่อนลงหรือไม่ เราเคยคิดว่างานของเราสร้างสรรค์ แต่จริง ๆ แล้วกลับใช้เวลาส่วนใหญ่กับการผสมผสานความรู้แบบซ้ำ ๆ และคาดเดาได้ ซึ่ง AI ทดแทนงานประเภทนี้ได้ดี มุมมองแบบ optimistic คือระยะยาวเราต้องสร้างงานที่น่าสนใจกว่านี้ แต่ในอนาคตอันใกล้อาจต้องเจ็บปวดกันอีกหลายปีจากภาวะวิศวกรซอฟต์แวร์ล้นตลาดแต่ความต้องการไม่พอ
- ตั้งคำถามว่าทำไมความสามารถในการรันงานแบบขนานของ Codex จึงสำคัญ ในทางปฏิบัติ LLM ใช้เวลาไม่กี่วินาทีในการเขียนโค้ด แต่สิ่งที่กินเวลาจริงคือการกำหนดสเปกงานกับขั้นตอนการรีวิว/แก้ไข จึงสงสัยว่าการทำส่วนที่เร็วที่สุดให้ขนานกันจะให้ประโยชน์อะไร
- เพราะนักพัฒนาจูเนียร์ไม่มีความเป็นอิสระเต็มที่ สุดท้ายก็ต้องใช้เวลาไม่น้อยในการจัดการและรีวิวโค้ดให้พวกเขา ต่อให้มีจูเนียร์จำนวนมาก ต้นทุนการจัดการก็มักกลายเป็นคอขวด เลยสงสัยว่าการดูแลนักพัฒนาเสมือนจำนวนมากแบบ Codex จะกลายเป็นภาระหรือไม่ หรือว่ามีความอิสระสูงพอ อยากรู้ประสบการณ์ใช้งานจริง
- ในฐานะคนที่ใช้ Cursor และ Claude Code มานาน อยากรู้ทั้งข้อดีและข้อจำกัดของ Claude Code และเมื่อเทียบกับ Codex แล้ว การรันงานแบบขนานสร้างความต่างมากจริงหรือไม่ เพราะ Codex CLI ที่ออกมาก่อนหน้านี้ก็ยังต่ำกว่าความคาดหวัง จึงอยากฟังประสบการณ์และข้อสังเกตจากทีมที่ใช้ Claude Code
เห็นด้วยกับความเห็นของ Katy Shi ในวิดีโอพรีวิว Codex ของ OpenAI ที่บอกว่า “งานวิศวกรรมกำลังขยับจากการเขียนโค้ดไปสู่การรีวิวโค้ด” สังเกตว่าในยุคที่ AI ถูกนำมาใช้อย่างจริงจัง นักพัฒนายังวนอยู่กับการอ่านโค้ดและเทสต์เป็นหลัก หากมีการนำแนวคิดที่ค่อนข้างใหม่อย่าง simulation เข้ามา โดยเฉพาะฝั่งฟรอนต์เอนด์ ก็อาจคาดการณ์ผลลัพธ์ได้หลากหลายกว่าการดูแค่โค้ด/เทสต์ ช่วงนี้กำลังสำรวจเรื่องนี้ด้วยตัวเองอยู่ และยิ่งเห็นภาพเมื่อดูสื่อเปิดตัว Codex
- คล้ายกับประเด็นที่ฉันเคยพูดเกี่ยวกับ Graphite ว่าเมื่อเข้าสู่ยุคที่โค้ดจำนวนมากถูกสร้างด้วย AI การรีวิว การทดสอบ และการรวมเข้าระบบจะกลายเป็นหัวใจสำคัญ แม้กำลังสร้างระบบรีวิวโค้ดด้วย AI อยู่เช่นกัน แต่การรีวิวโดยมนุษย์ก็ยังจำเป็นถาวร เพราะท้ายที่สุดเกี่ยวข้องกับความรับผิดชอบโดยตรง คอมพิวเตอร์ไม่อาจรับผิดชอบแทนได้
- ถามว่าคำว่า “ดู simulation” หมายถึงการใช้งาน automated test suite หรือไม่
ในฐานะผู้ร่วมสร้าง SWE-bench มองว่าน่าสนใจที่แม้ผลของ o3 จะแข็งแกร่งอยู่แล้ว Codex ก็ยังปรับดีขึ้นได้เล็กน้อย เลยสงสัยว่าการดันคะแนน Verified จาก 75% ไป 85% จะต้องใช้เวลายาวนานพอ ๆ กับตอนยกระดับจาก 20% ไป 75% หรือไม่
- คิดว่ามีปรากฏการณ์ over-optimization กับเบนช์มาร์กที่เกี่ยวกับ swe-bench มากเกินไป และแชร์ผลการวัดหลากหลายแบบ เช่น multi-swe-bench, swe polybench, kotlin bench
- ตั้งคำถามว่าใช้เวลานานแค่ไหนกว่าจะไปถึงจาก 20% เป็น 75%
สมัคร Pro version อยู่ แต่ทุกครั้งที่พยายามลองใช้ Codex จะถูกพาไปหน้าชำระเงินของแพ็กเกจทีม เลยสงสัยว่ายังไม่เปิดใช้อย่างเป็นทางการหรือพลาดอะไรไป ทั้งที่ใช้ผลิตภัณฑ์ OpenAI มาต่อเนื่องและอยากลอง Codex มากจริง ๆ
- เรื่องคล้ายกันนี้เกิดขึ้นทุกครั้งที่มีอัปเดตใหญ่ ๆ ทำให้รู้สึกเข้าใจยาก
- ฉันก็เจอสถานการณ์คล้ายกัน ดูเหมือนเมื่อไม่กี่นาทีก่อนเพิ่งเริ่มเข้าใช้งานได้ จึงคิดว่ากำลังทยอยปล่อยบริการ
- ยังมีการแจ้งอยู่ว่ากำลังทยอยเปิดใช้งาน
ในไลฟ์สตรีมมีการพูดถึง "microVM" ว่าไม่สามารถเข้าถึงเบราว์เซอร์/อินเทอร์เน็ตได้ และไมโครเคอร์เนลอย่าง Firecracker/Unikraft สามารถสเกลได้เร็วและต้นทุนต่ำในระดับใหญ่ แต่คาดว่ายังมีอุปสรรคทางเทคนิคอีกมากกว่าจะไปถึงสภาพแวดล้อมคอมพิวเตอร์เต็มรูปแบบที่แยกต่อเอเจนต์แต่ละตัว ปัจจุบัน ChatGPT Operator รองรับการเข้าถึงเบราว์เซอร์ จึงน่าจะทำได้ในทางเทคนิค แต่ขนาดของดีมานด์อาจต่างกันมาก ยังมีพื้นที่มากพอให้เกิดบริษัทโครงสร้างพื้นฐานที่ให้สภาพแวดล้อมพีซีเต็มรูปแบบสำหรับ AI โดยรองรับ fork/snapshot/screen/human-in-the-loop ฯลฯ ตอนนี้ยังอยู่ในระดับทำฟังก์ชันบางส่วน เช่น การใช้เบราว์เซอร์
- E2B Desktop ให้ฟีเจอร์นี้อยู่แล้ว พร้อมแชร์ลิงก์เดโมและ SDK
ตอนทำงานที่ธนาคาร ทีมกฎหมายมักขอแก้ไขเล็ก ๆ น้อย ๆ กับแอปอยู่บ่อย ๆ ต่อไปนี้อาจแก้เองได้แล้ว คิดว่าทีมกฎหมายคงภูมิใจมาก
- ถ้าไม่มีการรันโค้ด/ทดสอบและรีวิวโค้ด ก็อันตรายที่จะให้ทีมกฎหมายมีสิทธิ์แก้โค้ด คาดว่าคงไม่มีใครทำแบบนั้นจริง
- อนาคตระบบติดตามบั๊กน่าจะเปลี่ยนไปอย่างมาก ใครก็ตามในองค์กรจะเปิด issue หรือขอฟีเจอร์ได้ แล้วโมเดลจะตอบสนองให้อัตโนมัติ ถ้าทำไม่ได้ค่อยให้คนเข้ามาแทรกแซง สุดท้ายบทบาทสำคัญของผู้ตรวจทานที่ไม่ใช่สายเทคนิคจะค่อย ๆ กลายเป็นการตัดสินและรีวิวว่า “การเปลี่ยนโค้ดแบบไหนถูกต้องตามกฎหมายและสอดคล้องกับมาตรฐานบริษัท”
- ขอให้สบายใจได้ว่าในโลกจริงทีมกฎหมายคงไม่ลงมือแก้โค้ดเอง
กังวลเรื่องความเป็นส่วนตัว การ opt-out จากข้อมูลฝึก และความเสี่ยงที่อาจเกิดขึ้นเมื่อแข่งกับโมเดลที่สร้างผ่านแพลตฟอร์ม ตั้งคำถามว่านโยบายลักษณะ “ห้ามเอาสิ่งที่คุณสร้างไปใช้แข่งกับเรา” ยุติธรรมหรือไม่ และก็ไม่แน่ใจว่าตัวเองมองแย่เกินไปหรือเปล่า ตั้งข้อกังขาเมื่อ OpenAI พยายามกันไม่ให้เราใช้ข้อมูลที่เราสร้างไปแข่งขันกับพวกเขา
- ในวิดีโอมีตัวเลือกแบบชัดเจนให้เลือกเองได้ว่าจะอนุญาตให้นำ repo ไปใช้ฝึกหรือไม่
แชร์ว่าพบปัญหาระหว่างใช้ฟีเจอร์ "secrets" โดยมันถูก inject ได้ปกติในขั้นตอนตั้งค่าสภาพแวดล้อม แต่ไม่ทำงานในงานจริง และเป็นปัญหาที่เกิดซ้ำได้ทุกครั้งแม้จะรีเซ็ต environment แล้ว
กังวลว่าถ้า Codex ทำงานได้แค่บนคลาวด์แล้วโค้ดถูก commit-push อัตโนมัติ ก็จะไม่มีเวลาตรวจภายในก่อน สำหรับ aider ตนชอบ workflow แบบ commit แล้วค่อย git reset HEAD^, git diff เพื่อตรวจความเปลี่ยนแปลงและแก้เฉพาะจุดที่ต้องการ ก่อนจะ commit-push จริง
- ถ้ายังไงก็ rollback commit ทันทีอยู่แล้ว แนะนำให้ใช้ตัวเลือก --no-auto-commits ของ Aider
- อธิบายแบบง่าย ๆ ว่า Codex คือ managed cloud version ของ Codex CLI เดิม โดยหัวใจสำคัญคือโมเดลตัวใหม่เอง และคาดว่าอีกไม่นานจะเปิดผ่าน API ด้วย
- ในไลฟ์สตรีมมีการอธิบายว่าเมื่อทำงานเสร็จจะเห็น diff ทันที และจะตัดสินใจสร้าง github pr ได้ก็ต่อเมื่อดู diff แล้วเท่านั้น
สงสัยว่าบริษัทต่าง ๆ คิดอย่างไรกับการแชร์โค้ดเบสให้ผู้ให้บริการ AI หรือว่าใช้กันเฉพาะแบบติดตั้งในเครื่องเท่านั้น
- องค์กรมักแชร์โค้ดกับ SaaS กันเป็นเรื่องปกติมาก และโดยทั่วไปจะป้องกันการนำไปใช้ตามอำเภอใจผ่านสัญญาแยกต่างหาก
- มองว่าโค้ดของบริษัทส่วนใหญ่มีคุณค่าเฉพาะภายในบริษัทตัวเองเท่านั้น
- คิดว่าบริษัทอย่าง OpenAI คงไม่ยอมเสี่ยงเพียงเพื่อมาดูโค้ดของฉัน เพราะไม่คุ้มกับความเสี่ยงทางกฎหมาย
- ท้ายที่สุดทั้งหมดนี้ก็เป็นการแลกเปลี่ยนระหว่างต้นทุนกับประโยชน์ ถ้าผลตอบแทนมากพอ ก็มีคุณค่าพอที่จะยอมแชร์
- Cursor มีฟีเจอร์บังคับใช้นโยบาย data privacy ใน enterprise mode