- วิศวกรอาวุโสที่มีประสบการณ์ 14 ปี เล่าประสบการณ์เปรียบเทียบการใช้งานจริงระหว่าง Claude Code (Opus 4.6) และ Codex (GPT-5.4) บนโปรเจ็กต์ Python/TypeScript ขนาด 80,000 บรรทัด
- Claude Code เร็วและโต้ตอบได้ดี แต่มีแนวโน้มจะไม่ทำตามคำสั่ง ทำงานไม่เสร็จ และเพิ่มฟังก์ชันลงในไฟล์เดิมแบบไม่ยั้ง จึงต้องคอยกำกับอย่างใกล้ชิด
- Codex ช้ากว่า 3~4 เท่าแต่รอบคอบและเป็นระบบมากกว่า เขียนโค้ดอย่างมีแบบแผน รีแฟกเตอร์ด้วยตัวเอง และปฏิบัติตามไฟล์คำสั่ง (AGENTS.md) อย่างเคร่งครัด
- ผู้เขียนมองว่า Claude Code เหมาะกับการทำต้นแบบอย่างรวดเร็ว ส่วน Codex เหมาะกับการพัฒนาซอฟต์แวร์ระดับองค์กร
- สรุปคือทั้งสองเครื่องมือต่างก็มีจุดร่วมว่าหากไม่มีทักษะวิศวกรรมซอฟต์แวร์ ก็ยากจะได้ผลลัพธ์ที่ดี
ภูมิหลังผู้เขียนและสภาพแวดล้อมการพัฒนา
- เป็นวิศวกระดับ Principal/Staff Eng Manager ที่ทำงานมา 14 ปีใน MAG7 (บิ๊กเทค 7 แห่งของสหรัฐฯ) และบริษัทเทคชั้นนำอีกแห่ง
- เชี่ยวชาญงานพัฒนาระดับแพลตฟอร์ม และมีประสบการณ์ด้านระบบกระจายศูนย์อย่างมาก
- โปรเจ็กต์เป็นโค้ด Python/TypeScript 80,000 บรรทัด ในรูปแบบส่วนขยาย VSCode พร้อมเทสต์ราว 2,800 รายการ
- เป็นแอปวิเคราะห์ข้อมูลที่ให้ผู้ใช้อัปโหลดไฟล์ PDF/CSV/XML แล้วแยกข้อมูลก่อนปรับให้อยู่ในรูปแบบ โมเดลข้อมูลแบบมีโครงสร้างบน Postgres
- เชื่อมต่อกับผู้ให้บริการข้อมูลเรียลไทม์ฝั่งแบ็กเอนด์ผ่าน WebSocket เพื่อสตรีมข้อมูลปัจจุบันเข้าสู่โมเดลข้อมูล
- ฝั่งเซิร์ฟเวอร์จะอัปเดตการวิเคราะห์จากสตรีมข้อมูลและส่งต่อไปยังเว็บ UI ผ่าน SSE(Server-Sent Events)
- ไม่ใช่การเขียนโค้ดแบบ vibe coding แต่เป็นการพัฒนาบนพื้นฐานสถาปัตยกรรมที่เป็นระบบ
เวิร์กโฟลว์เอเจนต์ที่ใช้ร่วมกัน
- เริ่มจาก Plan mode ด้วยพรอมป์ต์ที่กำหนดขอบเขตไว้ชัดเจนพอสมควร จากนั้นใช้ทักษะ plan-review เพื่อรัน ซับเอเจนต์ 8 ตัว (สถาปัตยกรรม มาตรฐานการเขียนโค้ด UI design ประสิทธิภาพ ฯลฯ)
- แต่ละซับเอเจนต์มี พรอมป์ต์เฉพาะทาง พร้อมเอกสารอ้างอิงที่สร้างจากเซสชันรีเสิร์ชก่อนหน้า (เช่น
postgres_performance.md,python_threading.md,software_architecture.md)- พรอมป์ต์ของผู้เชี่ยวชาญด้านรีวิวสถาปัตยกรรมถูกออกแบบให้รีวิวโดยอ้างอิงแนวคิดอย่าง SOLID, DRY, KISS, YAGNI เป็นต้น
- หลังเขียนโค้ด จะทำ คอมมิตแยกในแต่ละขั้นของแผน แล้วใช้ทักษะ code-review (นำ plan ซับเอเจนต์กลับมาใช้) เพื่อตรวจแต่ละคอมมิต ก่อนตรวจฟีดแบ็กและปรับแก้ด้วยตนเอง
- CLAUDE.md มีความยาวราว 100 บรรทัด บรรจุแนวทาง TDD, Git workflow, คอนเวนชัน DevEx หลัก ๆ, คำสั่ง Docker และวิธีใช้เครื่องมือของโปรเจ็กต์
ประสบการณ์กับ Claude Code (Opus 4.6)
- ให้ความรู้สึกเหมือนวิศวกรที่กำลังโดนเดดไลน์ไล่บี้ คือมักโฟกัสแค่ทำฟีเจอร์ให้เสร็จด้วยการใช้ hack, patch และ helper function จำนวนมาก มากกว่าจะทบทวนสถาปัตยกรรมหลัก
- โต้ตอบได้ดี แต่ก็ต้องคอยกำกับดูแล (babysitting) มากตามไปด้วย
- ทำโค้ดที่ใช้งานได้เร็ว แต่ ไม่ได้คิดให้รอบคอบพอก่อนลงมือ
- แม้จะจัดการคอนเท็กซ์ด้วยมืออย่างจริงจัง (ผู้เขียนเห็นว่า 1M context เป็นกับดักสำหรับมือใหม่ และควร คงไว้ไม่เกิน 1/4) ก็ยังพบว่าแทบทุกเซสชันมีการ เมิน CLAUDE.md แบบชัดเจน
- มักมีกรณีที่ ปล่อยงานไว้แค่ครึ่งเดียว
- เช่น ตอนย้ายแพตเทิร์น async ของเทสต์ 8 ชุด แม้จะจัดการไปเกือบหมด แต่บางส่วนก็ยังถูกทิ้งไว้ในแพตเทิร์นเก่า
- แทบจะ ไม่สร้างไฟล์ใหม่ สำหรับฟีเจอร์ใหม่ และมีแนวโน้มจะเพิ่มฟังก์ชันเข้าไฟล์เดิมต่อไปเรื่อย ๆ
- ขัดกับแนวทางที่ผู้เขียนชอบ ซึ่งคือยึดหลัก OO อย่างเข้มงวดและจำกัดไฟล์ละไม่เกิน 600 บรรทัด
- เมื่อเทสต์พัง มักมีแนวโน้มจะ แก้เองตามใจโดยไม่มีพรอมป์ต์ จึงต้องเพิ่มคำสั่งประเภท “ถ้าเทสต์พังให้หยุดแล้วถามฉันก่อน” บ่อยมาก
- เทสต์ที่เขียน 95% มีประโยชน์ แต่ อีก 5% กลับตรึงพฤติกรรมที่ผิดไว้ และจะสะสมมากขึ้นเรื่อย ๆ ตามเวลา
ประสบการณ์กับ Codex (GPT-5.4)
- ให้ความรู้สึกเหมือนวิศวกรระดับกลางถึงอาวุโสที่มีประสบการณ์ 5~6 ปี ซึ่งสามารถหยุดเองแล้ว ปรับโค้ดให้สะอาดขึ้น ได้โดยไม่ต้องสั่งเพิ่มเติม
- ช้ากว่า Claude 3~4 เท่า (สำหรับงานเดียวกัน)
- ทำงานอย่าง รอบคอบและมีเจตนา มากกว่า และจะจัดโค้ดให้กระชับขึ้นเอง แทนที่จะขยาย 'god class' แบบที่ Claude ทำ
- ระหว่างทำงานจะกลับมาทบทวนสมมติฐานของตัวเองและ รีเวิร์กระหว่างทาง เพื่อจัดระเบียบใหม่
- บางครั้งยังทำ งานเสริมที่มีมูลค่าเพิ่ม ที่ไม่ได้คาดไว้ด้วยตัวเอง
- ไม่เคยเห็นว่ามองข้าม AGENTS.md เลยแม้แต่ครั้งเดียว และถึงจะพยายาม override คำสั่งกลางเซสชันก็ไม่ยอม
- เพราะพิสูจน์ความสามารถได้มากพอ จึงสามารถเปลี่ยนไปใช้วิธี ปล่อยให้ทำงานแล้วค่อยมารีวิวตอนเสร็จ ได้ โดยไม่ต้องเฝ้าแบบเรียลไทม์
เปรียบเทียบภาพรวม
- เพดานการใช้งานของ Codex Pro x5 อยู่ในระดับใกล้เคียงกับ Claude x20
- Codex ช้ากว่าและโต้ตอบน้อยกว่าอย่างเห็นได้ชัด แต่รอบคอบกว่า ส่วน Claude เร็วและโต้ตอบได้ดี แต่ต้องคอยกำกับ (babysitting)
- ในหนึ่งเซสชัน Claude อาจ ทำปริมาณงานได้มากกว่า แต่ คุณภาพของงานจาก Codex สูงกว่า
- Claude ทำต้นแบบและประกอบระบบได้เร็วมาก แต่ต้องคอยชี้นำให้รีแฟกเตอร์ทุก ๆ ไม่กี่วัน
- Codex เองก็ต้องรีแฟกเตอร์เมื่อแอปใหญ่ขึ้น แต่เป็นในระดับ “ถึงเวลาที่แอปโตพอจะต้องรีแฟกเตอร์” ไม่ใช่ “มีปัญหาอะไรที่ต้องตามเก็บบ้าง”
- สำหรับ vibe coding ในโปรเจ็กต์ความซับซ้อนต่ำถึงกลาง Claude สามารถพาไปถึงจุดเสร็จได้เร็วกว่า
- สำหรับการสร้าง ซอฟต์แวร์ระดับองค์กร Codex เหมาะกว่า
- ทั้งสองเครื่องมือล้วนมีประโยชน์ แต่ Claude ต้องการ ผู้ขับที่มีทักษะและสมาธิมากกว่า เมื่อเทียบกับ Codex
- หากไม่รู้วิศวกรรมซอฟต์แวร์เลย ทั้งสองเครื่องมือก็จะให้ผลลัพธ์ที่ไม่ดี
📋 สรุปประเด็นสำคัญจากคอมเมนต์ใน Reddit
กลยุทธ์ใช้งานสองเครื่องมือร่วมกัน (ถูกพูดถึงมากที่สุด)
- รูปแบบที่ได้รับความนิยมที่สุดคือ เวิร์กโฟลว์ตรวจไขว้: ใช้ Claude ทำร่าง/งานเร็ว → ใช้ Codex รีวิวโค้ด
- “เอาโค้ดที่ Claude เขียนไปให้ Codex รีวิว แล้วลองทำกลับกันด้วย” — ทั้งสองโมเดล แทบไม่ hallucinate ในรูปแบบเดียวกัน
- บางคนใช้ กลยุทธ์ baton-pass โดยสลับไป Codex หลัง Claude ใช้โทเคนหมด
- โครงสร้างคือเก็บสถานะไว้ใน
save-state.mdและnext-task.mdเพื่อให้ Codex รับช่วงต่อ โดยคุณภาพการ handoff ดีขึ้นทุกครั้งที่สลับ
- โครงสร้างคือเก็บสถานะไว้ใน
- ยังมีกรณีที่นำ Codex CLI ไป ห่อเป็น MCP server เพื่อทำงานร่วมกับ Codex อัตโนมัติภายใน Claude Code
- หลัง Claude ทำงานเสร็จ Codex จะส่งข้อเสนอแนะกลับมา แล้ว Claude ค่อยนำไปทำต่อ ทำให้ คุณภาพโค้ดดีขึ้นอย่างมาก
- อีกเวิร์กโฟลว์ที่ใช้ได้ผลคือทำงานกับ Codex ทั้งวัน แล้ว ใช้ Claude เก็บรายละเอียดช่วงท้าย ก่อนกลับไปหา Codex อีกครั้ง
ความเห็นที่เห็นด้วยกับข้อดีของ Codex
- มีผู้ใช้ที่ลดแผน Claude Code จาก 20x($200) ลงมาเป็น 5x($100) แล้วใช้งานคู่กับแพลน Codex $100
- ไม่รู้สึกว่ามี ช่องว่างด้านคุณภาพรุนแรง ระหว่าง GPT-5.4 กับ Opus 4.6 โดยขึ้นอยู่กับปัญหาและออกได้ราว 50:50
- “แค่โยนงานไว้ แล้วไปชงกาแฟกลับมาก็เสร็จแล้ว” — Codex เหนือกว่า Opus ในด้าน การทำงานอัตโนมัติแบบ fire-and-forget
- Codex ปฏิบัติตามคำสั่งใน AGENTS.md เข้มงวดถึงขั้นปฏิเสธการเปลี่ยนแปลง และจะไม่เมินเว้นแต่จะสั่ง override อย่างชัดเจน
- มีรายงานว่าหลังเปลี่ยนไปใช้ระบบ วางแผน + ลงมือทำ + ใช้ Codex อีกอินสแตนซ์มารีวิว ด้วย Codex ล้วน ๆ แล้วได้ผลลัพธ์ดีกว่าเดิม
ข้อเสียของ Codex
- ข้อร้องเรียนใหญ่ที่สุดคือ สไตล์การสื่อสารที่เหมือนหุ่นยนต์
- เช่น ค่าใน Python dict อย่าง
[0.1, 0.3, 0.5, 0.7, 0.9]ไม่เขียนในบรรทัดเดียว แต่ แยกค่าละบรรทัด - มีคนคาดเดาว่าการฝึก RL อาจให้รางวัลกับแนวทางที่ “ยิ่งใช้ bullet point เยอะยิ่งดี”
- ต่อให้ปรับการตั้งค่าการสื่อสาร ก็ยัง แกว่งไปมาระหว่างสองสุดขั้ว (น้อยไป vs มากไป) จนหาจุดพอดียาก
- เช่น ค่าใน Python dict อย่าง
- มีแนวโน้มจะ เถียงผู้ใช้อยู่เรื่อย ๆ — แม้นักพัฒนาที่มีประสบการณ์ 10 ปีขึ้นไปจะสั่งชัดเจน ก็ยังคัดค้านต่อเนื่อง สุดท้ายก็ไม่ได้เสนอทางเลือกที่ดีกว่าจริง
- มีปัญหา คุยยืดไม่จบ — สมาธิหลุดจากงานง่าย
- เวลาทำฟีเจอร์ใหญ่ ๆ อาจ ตกหล่นหลายส่วน และไม่เข้าใจโค้ดเบสเดิมได้ดีพอ
- เช่น ทั้งที่มีฟอร์แมตเตอร์อยู่แล้วกลับ สร้างฟอร์แมตเตอร์ใหม่เอง หรือใส่ สตริงฮาร์ดโค้ด ลงใน ViewModel
- ด้านฟีเจอร์ยัง ตามหลัง Claude Code ในเรื่อง hooks, การรองรับ MCP, ปลั๊กอิน ฯลฯ ทำให้รู้สึกเหมือนถอยหลังเมื่อย้ายไปใช้
ความเห็นที่เห็นด้วยกับปัญหาเรื้อรังของ Claude Code
- มีคนเห็นด้วยอย่างกว้างขวางกับแพตเทิร์นที่ Claude ไม่ทำตามคำสั่งผู้ใช้และทำในสิ่งที่ตัวเองอยากทำ
- “Claude พยายามทำสิ่งที่มัน จินตนาการว่าคุณต้องการ” — ความน่าเชื่อถือในการทำตามคำสั่งต่ำ
- มีคนเจอกรณีที่มัน ฮาร์ดโค้ดอ็อบเจ็กต์ 100 รายการ แล้วอ้างว่าสำเร็จ แถมยัง หลบเลี่ยง hooks ที่มีไว้ป้องกันเรื่องนี้ด้วย
- ช่วงไม่กี่เดือนที่ผ่านมา มีความเห็นว่าความสามารถของ Claude ในการ หาเหตุปัญหาจริงในโค้ดที่ซับซ้อน แย่ลง
- มักแพตช์แค่ อาการ ไม่ใช่ต้นตอ แต่กลับพูดอย่างมั่นใจว่า “เจอปัญหาแล้ว”
- บางครั้ง Codex ก็ถูก ชักนำผิดทาง จากการวิเคราะห์ที่มั่นใจแต่ผิดของ Claude
- ยังมีผู้ใช้ที่ยกเลิกสมาชิกเพราะ Claude ใช้เครดิตเร็วเกินไป จนแทบไม่มีเวลาศึกษาการใช้งาน
ความเห็นอีกด้าน: ยังมองว่า Claude เหนือกว่า
- มีประสบการณ์ว่า Opus 4.6 คิดอย่างรอบคอบและลึกกว่า และให้คุณภาพการวิเคราะห์ในขั้นออกแบบ/สถาปัตยกรรมสูงกว่า GPT-5.4
- มีกรณีที่ Opus พบปัญหาเพิ่มในการรีวิว ซึ่ง GPT-5.4 หาไม่เจอ
- อย่างไรก็ตาม อาจเกี่ยวข้องกับข่าวลือที่ว่า Claude รุ่นหลัง ๆ ถูกปรับให้ “ใช้ความพยายามน้อยลง”
- หากกำหนดให้ใช้ Clean Architecture Claude ก็สามารถ สร้างไฟล์ใหม่อย่างกระตือรือร้น และไม่เกิดปัญหา god class
- หากทั้งสองเครื่องมือยึดตามสถาปัตยกรรม คุณภาพโค้ดจะ แทบไม่ต่างกัน โดยความต่างจริงอยู่ที่ความเร็วและความสะดวกในการใช้งาน
- หากสร้างเวิร์กโฟลว์ที่เป็นระบบ (plan mode + custom skill + ฟีดแบ็กจาก coderabbit/sonarqube) ก็ยังสามารถผลิตโค้ดดี ๆ ได้ แม้ในช่วงที่ผู้ใช้อื่นจำนวนมากกำลังบ่น และยังไม่ชนลิมิตการใช้งาน
ความเห็นน่าสนใจอื่น ๆ
- “น่าประทับใจที่ทีม Anthropic ออกฟีเจอร์ได้มากขนาดนั้น ทั้งที่ โค้ด 100% เขียนโดย Claude” (เชิงเสียดสี)
- “โค้ดด้วย Codex → รีวิวใน Claude → ให้ Gemini มาช่วยรีวิวอีก” — กลยุทธ์ รีวิวไขว้ 3 โมเดล และบางครั้ง Sonnet ก็จับสิ่งที่ Opus พลาดได้
- มีความคาดหวังว่าเมื่อ Mythos (โมเดลรุ่นถัดไป) ออกมา ปัญหาการต้องคอยจัดการแบบนี้น่าจะลดลง
18 ความคิดเห็น
ไม่ว่าจะเป็นตัวไหนก็ต้องมี HITL อยู่ดี (อย่างน้อยก็จนถึงวันนี้)
ได้โปรดอย่าพูดอะไรทำนอง Ralph Loop แบบนั้นเลย
ผมใช้แค่ Codex อยู่ และมันตรงกับสิ่งที่ผมรู้สึกเป๊ะเลยครับ.
มันก็เข้ากับสไตล์ผมด้วย เลยใช้งานได้ดีอยู่ครับ.
เดิมทีคิดว่าเดี๋ยวพอโปร ChatGPT ใน KakaoTalk หมดแล้วจะย้ายไป Claude
แต่ดูเหมือนว่าจุดอ่อนของ Claude จะไม่ค่อยเข้ากับสไตล์ผมเท่าไหร่นะครับ..
มีความแตกต่างกันไหมในด้านภาษาหลักที่ผู้ใช้ Claude กับ Codex ใช้งานกันเป็นหลัก
> มีแนวโน้มชอบโต้แย้งกับผู้ใช้อย่างไม่หยุดหย่อน — ต่อให้เป็นนักพัฒนาที่มีประสบการณ์เกิน 10 ปีสั่งงานอย่างชัดเจน ก็ยังคอยคัดค้านอยู่เรื่อย ๆ สุดท้ายก็ไม่ได้เสนอทางเลือกที่ดีกว่าด้วยตัวเองอยู่ดี
555
ดูเหมือนว่าวิธีการใช้งานก็น่าจะมีความแตกต่างกันด้วยนะครับ เหมือนกับที่วิธีควบคุมและความชอบของนักพัฒนาแตกต่างกันไปตามแต่ละคน พอใช้งานบ่อย ๆ ก็อาจคุ้นเคยกับโฟลว์การทำงานกับโมเดลหนึ่งเป็นพิเศษ จนเวลาเปลี่ยนไปใช้โมเดลอื่นแล้วรู้สึกแปลก ๆ ได้เหมือนกันครับ
ดูเหมือนไม่มีเหตุผลอะไรที่จะต้องยึดติดกับโมเดลใดโมเดลหนึ่งนะ~
มันก็ขึ้นอยู่กับว่านำไปใช้กับโดเมนแบบไหนไม่ใช่หรือครับ?
อย่างงานที่ผมทำอยู่ตอนนี้อย่าง rhwp ถ้าเป็นงานที่ต้องเก็บความต่างของการเรนเดอร์ระดับ 1 มม. แล้วจัดการมัน ถ้าใช้ Codex ก็พังครับ ตอนนี้งานยากมาก ๆ ยังเป็น Claude Code ที่นำหน้าอยู่ แต่ถ้าเป็นการพัฒนาเว็บแอปที่แค่มี workflow และ framework แล้วทำตามขั้นตอนไปเพื่อจัดการงานในระดับหนึ่งก็พอ ผมรู้สึกว่าการใช้ Codex ดีต่อสุขภาพจิตมากกว่าครับ
ใช้งานอยู่ครับ
บน Mac โหลดได้เร็วกว่าตัว viewer อีก ยอดเยี่ยมที่สุดเลย!
ขอบคุณมากอย่างล้นหลาม
โอ้ กำลังใช้งานอยู่เลยครับ ขอบคุณสำหรับโปรเจกต์ที่ยอดเยี่ยมมากครับ
จะใช้งาน rhwp ให้ดีครับ
เห็นด้วยว่า Codex ละเอียดรอบคอบ แนะนำให้เขียนด้วย Claude แล้วใช้ Codex รีวิว แม้จะใช้เวลามาก แต่ถ้าปล่อยรันไว้ก่อนไปเข้าห้องน้ำหรือก่อนเข้าประชุม อัตราที่งานเสร็จก็สูงเหมือนกันครับ
ผมก็ทำแบบนี้เหมือนกันครับ ถ้าลงรายละเอียดเพิ่มอีกหน่อยคือ ผมตั้ง Claude ไว้ที่แพ็กเกจ 100 ดอลลาร์ และ Codex ที่ 200 ดอลลาร์ แล้วให้ Claude Code Opus วางแผน -> Sonnet ลงมือทำ -> Codex รีวิว -> Opus ตรวจยืนยันผลรีวิว -> Sonnet ลงมือทำอีกครั้ง -> Codex รีวิว (วนซ้ำแบบนี้ไปเรื่อย ๆ) ผมถึงขั้นทำเป็นสกิลไว้ให้มันรันต่อเนื่องแบบนี้เลย และก็พอใจกับผลลัพธ์ครับ
ผมก็ใช้อยู่แบบนี้เหมือนกันครับ เพียงแต่แทนที่จะยึดบทบาทไว้กับโมเดลตัวเดียว ผมจะจัดสรรให้โมเดลที่โควตาเหลือเยอะที่สุดแต่ยังทรงพลังเป็นตัวรับงานก่อน
ผมลองใช้ทั้งสองตัวแล้ว และคิดว่าตรงกันข้ามนะ แต่ดูเหมือนจะไม่ใช่อย่างนั้นแฮะ
ตอนที่ผมใช้ Codex มักมีหลายครั้งที่มันไม่ทำตามคำสั่ง
ช่วงหลังมานี้ก็เหมือน Anthropic จะลดประสิทธิภาพของ 4.6 opus ลง เลยอาจจะเปลี่ยนไปก็ได้
ไม่ใช่กลับกันเหรอ? ดูเหมือนว่าซีเนียร์จะขาดไปมากกว่าที่คิดนะ
ปัญหาเรื้อรังของ Claude Codeนี่คุณคงยังไม่เคยเจอสินะ บน Reddit ก็เป็นประเด็นกันตลอดเลยสำหรับผม codex เป็นประสบการณ์ที่ดีกว่าครับ