- เป็น GPT‑5.3‑Codex เวอร์ชันขนาดเล็กที่ออกแบบมาสำหรับ การเขียนโค้ดแบบเรียลไทม์ โดยให้ความเร็ว มากกว่า 1000 โทเคน/วินาที
- เป็น โมเดลแบบข้อความล้วน ที่ใช้หน้าต่างคอนเท็กซ์ 128k และเชี่ยวชาญด้านการแก้โค้ดทันทีและงานวนซ้ำ
- มีการนำเส้นทางตอบสนองแบบ WebSocket มาใช้ ทำให้ ลดความหน่วงของการตอบสนองลง 80%, ลดโอเวอร์เฮดต่อโทเคนลง 30%, และ ลดเวลาแสดงผลโทเคนแรกลง 50%
- พัฒนาร่วมกับ Cerebras และทำงานบนสภาพแวดล้อมอนุมานความเร็วสูงที่ใช้ Wafer Scale Engine 3
- เป็นโมเดลระยะแรกของ กลยุทธ์ Codex แบบสองโหมด ที่รวม งานอัตโนมัติระยะยาวกับการทำงานร่วมกันแบบเรียลไทม์
ภาพรวม GPT‑5.3‑Codex‑Spark
- GPT‑5.3‑Codex‑Spark เป็น GPT‑5.3‑Codex เวอร์ชันขนาดเล็ก และเป็นโมเดลตัวแรกที่ออกแบบมาสำหรับ งานเขียนโค้ดแบบเรียลไทม์
- ทำความเร็วในการสร้างได้ มากกว่า 1000 โทเคน/วินาที บนฮาร์ดแวร์ความหน่วงต่ำมาก
- มอบการตอบสนองแบบฉับไวในงานเขียนโค้ดจริง
- เป็นโมเดลแรกที่พัฒนาผ่าน ความร่วมมือกับ Cerebras และถือเป็น ก้าวสำคัญแรก ของความร่วมมือระหว่าง OpenAI กับ Cerebras
- เปิดให้ ผู้ใช้ ChatGPT Pro ใช้งานในรูปแบบรีเสิร์ชพรีวิว โดยมีเป้าหมายเพื่อการทดลองช่วงแรกและการเก็บรวบรวมฟีดแบ็ก
ฟีเจอร์หลักและประสิทธิภาพ
- รองรับ หน้าต่างคอนเท็กซ์ 128k และปัจจุบันให้บริการเป็น โมเดลแบบข้อความล้วน
- ในเบนช์มาร์ก SWE‑Bench Pro และ Terminal‑Bench 2.0 แสดงให้เห็นว่าให้ ประสิทธิภาพสูงกว่าในเวลาที่สั้นกว่า เมื่อเทียบกับ GPT‑5.3‑Codex
- ด้วยการปรับแต่งที่เน้น ความเร็วเป็นหลัก รูปแบบการทำงานตั้งต้นจึงเบาและมุ่งเป้าหมาย และจะไม่รันการทดสอบอัตโนมัติหากผู้ใช้ไม่ได้ร้องขอ
- รองรับ การทำงานร่วมกันแบบเรียลไทม์ ทำให้ผู้ใช้สามารถ หยุดและสั่งใหม่ ระหว่างที่โมเดลกำลังทำงาน พร้อมดูผลลัพธ์ได้ทันที
การปรับแต่งความหน่วงและโครงสร้างพื้นฐาน
- นอกจากความเร็วของโมเดลแล้ว ยังมีการปรับปรุงเพื่อลด ความหน่วงของทั้งไปป์ไลน์คำขอ-คำตอบ
- ลดโอเวอร์เฮดจากการรับส่งไปกลับระหว่างไคลเอนต์กับเซิร์ฟเวอร์ลง 80%
- ลดโอเวอร์เฮดต่อโทเคนลง 30% และ ลดเวลาแสดงผลโทเคนแรกลง 50%
- เพื่อให้ทำได้เช่นนี้ จึงมีการใช้ การเชื่อมต่อถาวรบน WebSocket และ การปรับแต่งภายในของ Responses API
- การปรับปรุงเหล่านี้มีแผนจะนำไปใช้ไม่เฉพาะกับ Codex‑Spark แต่รวมถึง ทุกโมเดล ด้วย
การผสานรวมฮาร์ดแวร์ Cerebras
- Codex‑Spark ทำงานบน Cerebras Wafer Scale Engine 3 เพื่อมอบ เลเยอร์อนุมานที่เน้นความหน่วงต่ำ
- OpenAI ร่วมมือกับ Cerebras เพื่อนำเส้นทางนี้ ผสานเข้ากับสแตกการเสิร์ฟโปรดักชันเดิม และทำให้เกิด สภาพแวดล้อมการทำงานที่สอดคล้องกัน ทั่วทั้ง Codex
- โครงสร้างพื้นฐาน GPU ยังคงเป็นฐานหลักของการฝึกและการอนุมาน ขณะที่ Cerebras เชี่ยวชาญด้านเวิร์กโหลดความหน่วงต่ำมาก จึงทำหน้าที่เสริมกัน
- สามารถรวม GPU และ Cerebras ภายในเวิร์กโหลดเดียวกัน เพื่อให้ได้ประสิทธิภาพที่เหมาะสมที่สุด
การเปิดใช้งานและการเข้าถึง
- Codex‑Spark เริ่มเปิดให้ใช้งานในรูปแบบรีเสิร์ชพรีวิวบน แอป Codex, CLI และส่วนขยาย VS Code สำหรับ ผู้ใช้ ChatGPT Pro
- มีการใช้ ขีดจำกัดการใช้งานเฉพาะ (rate limit) และอาจปรับเปลี่ยนตามความต้องการใช้งาน
- มีการให้สิทธิ์เข้าถึง API แก่ ดีไซน์พาร์ตเนอร์บางราย เพื่อเก็บฟีดแบ็กเกี่ยวกับวิธีการผสานรวมเข้ากับผลิตภัณฑ์
- ในช่วงไม่กี่สัปดาห์ข้างหน้า มีแผนจะ ขยายขอบเขตการเข้าถึง และปรับการผสานรวมตามเวิร์กโหลดจริง
ความปลอดภัยและทิศทางในอนาคต
- Codex‑Spark มี การฝึกด้านความปลอดภัยเช่นเดียวกับโมเดลเมนไลน์เดิม และผ่าน การประเมินที่เกี่ยวข้องกับไซเบอร์
- ผลการประเมินยืนยันว่า ยังไม่ถึงเกณฑ์ความสามารถความเสี่ยงสูงในด้านไซเบอร์ซีเคียวริตี้และชีววิทยา
- Codex กำลังพัฒนาไปในทิศทางที่ผสานสองโหมดเข้าด้วยกัน คือการให้เหตุผลแบบทำงานยาวต่อเนื่อง และ งานวนซ้ำแบบทำงานร่วมกันเรียลไทม์
- ในอนาคตมีแผนขยายความสามารถ เช่น อินพุตแบบมัลติโมดัล, โมเดลขนาดใหญ่ขึ้น และ คอนเท็กซ์ที่ยาวขึ้น
- การอนุมานความเร็วสูงมากช่วยเร่งกระบวนการ เปลี่ยนไอเดียให้เป็นซอฟต์แวร์ที่ใช้งานได้ทันที และมอบ ประสบการณ์การโต้ตอบที่เป็นธรรมชาติ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
น่าจะดีถ้าอัปโหลดรูปลง HN ได้ ชิป WSE-3 ใหญ่มหึมาจริงๆ
ชิปนี้มีขนาด 46,255mm² มีทรานซิสเตอร์ 4 ล้านล้านตัว และให้พลังประมวลผล 125 petaflops ด้วยคอร์ที่ปรับแต่งสำหรับ AI จำนวน 900,000 คอร์ ซึ่งมากกว่า NVIDIA B200 ถึง 19 เท่าในแง่จำนวนทรานซิสเตอร์ และ 28 เท่าในแง่พลังประมวลผล
ดูรายละเอียดเพิ่มเติมได้ที่หน้าอย่างเป็นทางการของ Cerebras, ภาพ1, ภาพ2
ฉันใช้ coding agent สร้างเว็บสไลด์เด็คอัตโนมัติ โดยนิยาม “master slide” เป็นคอมโพเนนต์ แล้วใส่กฎแบรนด์ดิ้งและแอสเซ็ตของบริษัทลงไป แค่ใส่คอนเทนต์กับพรอมป์ต์ ก็ได้งานพรีเซนเทชันที่ดูเรียบร้อย
สิ่งที่อยากได้จริงๆ คือ โหมดด้นสด (improv mode) ระหว่างพรีเซนต์ ถ้ามีคำถามจากผู้ฟังหรือไอเดียสดๆ ก็อยากให้ระบบเสนอ 3 สไลด์ถัดไปที่เป็นไปได้ ให้เลือก แล้วค่อยกลับเข้าสู่ลำดับหลัก
เช่น ถ้ามีการพูดถึงข่าวหรือเปเปอร์ ระบบก็สร้างสไลด์ที่มีสกรีนช็อตกับ QR code ให้อัตโนมัติ แล้วกลับเข้าสู่โฟลว์การนำเสนอต่อ ถ้ารวมเสียงแบบเรียลไทม์เข้ากับการสร้างโค้ดได้ เครื่องมือพรีเซนต์ก็น่าจะมีประโยชน์ขึ้นมาก
ลองใช้ gpt-5.3-codex-spark ใน Codex CLI แล้ว รู้สึกว่าเร็วมากๆ แต่เหมือนเป็นโมเดลขนาดเล็ก
ฉันวัดประสิทธิภาพด้วยเทสต์ที่ทำเองชื่อ ‘bluey bench’ (ไฟล์ซิสเต็มเบนช์มาร์ก) แล้วพบว่ายิ่งโมเดลเล็ก ประสิทธิภาพด้านคอนเท็กซ์ยิ่งลดลง และเกิดการบีบอัด (compaction) บ่อย
ถึงอย่างนั้น ในด้านความเร็วก็ยังเร็วกว่าเจเนอเรชันก่อนมาก
ฉันคิดว่า Cerebras ยังเป็นบริษัทที่ถูกประเมินค่าต่ำเกินไป ชิปขนาดเท่าจานที่ใช้งานได้จริง และในงานใช้งานจริงก็เร็วกว่าสิ่งอื่นทั้งหมด เป็นเทคโนโลยีที่น่าทึ่ง
โครงสร้างพื้นฐานด้านไฟฟ้ากลายเป็นคอขวด และในสหรัฐฯ ก็สร้างโรงไฟฟ้าขนาดใหญ่ได้ในเวลาอันสั้นไม่ได้ สุดท้ายหลัง TPUv8 ไป Google น่าจะเป็นผู้นำตลาด
Pelican benchmark ของฉันแสดงให้เห็นความต่างด้านคุณภาพระหว่าง GPT-5.3-Codex-Spark กับ GPT-5.3-Codex แบบเต็มได้อย่างชัดเจนในเชิงภาพ
ดูรายละเอียดเพิ่มเติมได้ในบล็อกโพสต์
ไอเดียเรื่อง priority queue / tiered workload offload โดยใช้ coding agent น่าสนใจมาก
ถ้า 60% ของงานเป็นแค่การแก้ไขหรือรีแฟกเตอร์ธรรมดาๆ สิ่งสำคัญก็คือ latency ต่ำและรองรับโทเค็นสูง
ช่วงนี้มี Batch API plugin สำหรับ Claude ออกมาแล้ว และทั้ง Nvidia กับ Google ก็กำลังเตรียม custom silicon สำหรับงาน inference (บทความ)
เพิ่งผ่านมาแค่ 20 นาทีตั้งแต่มันกลายเป็นมาตรฐานอุตสาหกรรม แต่ก็ยังน่าตกใจที่ยังมีคนใช้ GPT-5.3-Codex อยู่
มีความเป็นไปได้ว่า OpenAI กำลังทดสอบสิ่งนี้บน Openrouter ในชื่อ Aurora Alpha
ฉันลองรันโปรเจกต์เล็กๆ ด้วย Aider แล้วมันประมวลผล 10,000 input tokens กับ 1,000 output tokens ได้ที่ความเร็ว 500 โทเค็นต่อวินาที
เห็นข้อความว่า “โมเดลล่าสุดสามารถทำงานอัตโนมัติได้เป็นเวลาหลายชั่วโมงถึงหลายวัน” แต่จนถึงตอนนี้ฉันยังไม่เห็นผลลัพธ์ที่มีประโยชน์จริง
ในที่สุดก็ได้เห็นว่า หนึ่งในบิ๊ก 3 ใช้ Cerebras รอวันนี้มานานมาก