เปิดตัว GPT‑5.3‑Codex‑Spark

(openai.com)

3 คะแนน โดย GN⁺ 2026-02-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เป็น GPT‑5.3‑Codex เวอร์ชันขนาดเล็กที่ออกแบบมาสำหรับ การเขียนโค้ดแบบเรียลไทม์ โดยให้ความเร็ว มากกว่า 1000 โทเคน/วินาที
เป็น โมเดลแบบข้อความล้วน ที่ใช้หน้าต่างคอนเท็กซ์ 128k และเชี่ยวชาญด้านการแก้โค้ดทันทีและงานวนซ้ำ
มีการนำเส้นทางตอบสนองแบบ WebSocket มาใช้ ทำให้ ลดความหน่วงของการตอบสนองลง 80%, ลดโอเวอร์เฮดต่อโทเคนลง 30%, และ ลดเวลาแสดงผลโทเคนแรกลง 50%
พัฒนาร่วมกับ Cerebras และทำงานบนสภาพแวดล้อมอนุมานความเร็วสูงที่ใช้ Wafer Scale Engine 3
เป็นโมเดลระยะแรกของ กลยุทธ์ Codex แบบสองโหมด ที่รวม งานอัตโนมัติระยะยาวกับการทำงานร่วมกันแบบเรียลไทม์

ภาพรวม GPT‑5.3‑Codex‑Spark

GPT‑5.3‑Codex‑Spark เป็น GPT‑5.3‑Codex เวอร์ชันขนาดเล็ก และเป็นโมเดลตัวแรกที่ออกแบบมาสำหรับ งานเขียนโค้ดแบบเรียลไทม์
- ทำความเร็วในการสร้างได้ มากกว่า 1000 โทเคน/วินาที บนฮาร์ดแวร์ความหน่วงต่ำมาก
- มอบการตอบสนองแบบฉับไวในงานเขียนโค้ดจริง
เป็นโมเดลแรกที่พัฒนาผ่าน ความร่วมมือกับ Cerebras และถือเป็น ก้าวสำคัญแรก ของความร่วมมือระหว่าง OpenAI กับ Cerebras
เปิดให้ ผู้ใช้ ChatGPT Pro ใช้งานในรูปแบบรีเสิร์ชพรีวิว โดยมีเป้าหมายเพื่อการทดลองช่วงแรกและการเก็บรวบรวมฟีดแบ็ก

ฟีเจอร์หลักและประสิทธิภาพ

รองรับ หน้าต่างคอนเท็กซ์ 128k และปัจจุบันให้บริการเป็น โมเดลแบบข้อความล้วน
ในเบนช์มาร์ก SWE‑Bench Pro และ Terminal‑Bench 2.0 แสดงให้เห็นว่าให้ ประสิทธิภาพสูงกว่าในเวลาที่สั้นกว่า เมื่อเทียบกับ GPT‑5.3‑Codex
ด้วยการปรับแต่งที่เน้น ความเร็วเป็นหลัก รูปแบบการทำงานตั้งต้นจึงเบาและมุ่งเป้าหมาย และจะไม่รันการทดสอบอัตโนมัติหากผู้ใช้ไม่ได้ร้องขอ
รองรับ การทำงานร่วมกันแบบเรียลไทม์ ทำให้ผู้ใช้สามารถ หยุดและสั่งใหม่ ระหว่างที่โมเดลกำลังทำงาน พร้อมดูผลลัพธ์ได้ทันที

การปรับแต่งความหน่วงและโครงสร้างพื้นฐาน

นอกจากความเร็วของโมเดลแล้ว ยังมีการปรับปรุงเพื่อลด ความหน่วงของทั้งไปป์ไลน์คำขอ-คำตอบ
- ลดโอเวอร์เฮดจากการรับส่งไปกลับระหว่างไคลเอนต์กับเซิร์ฟเวอร์ลง 80%
- ลดโอเวอร์เฮดต่อโทเคนลง 30% และ ลดเวลาแสดงผลโทเคนแรกลง 50%
เพื่อให้ทำได้เช่นนี้ จึงมีการใช้ การเชื่อมต่อถาวรบน WebSocket และ การปรับแต่งภายในของ Responses API
การปรับปรุงเหล่านี้มีแผนจะนำไปใช้ไม่เฉพาะกับ Codex‑Spark แต่รวมถึง ทุกโมเดล ด้วย

การผสานรวมฮาร์ดแวร์ Cerebras

Codex‑Spark ทำงานบน Cerebras Wafer Scale Engine 3 เพื่อมอบ เลเยอร์อนุมานที่เน้นความหน่วงต่ำ
OpenAI ร่วมมือกับ Cerebras เพื่อนำเส้นทางนี้ ผสานเข้ากับสแตกการเสิร์ฟโปรดักชันเดิม และทำให้เกิด สภาพแวดล้อมการทำงานที่สอดคล้องกัน ทั่วทั้ง Codex
โครงสร้างพื้นฐาน GPU ยังคงเป็นฐานหลักของการฝึกและการอนุมาน ขณะที่ Cerebras เชี่ยวชาญด้านเวิร์กโหลดความหน่วงต่ำมาก จึงทำหน้าที่เสริมกัน
สามารถรวม GPU และ Cerebras ภายในเวิร์กโหลดเดียวกัน เพื่อให้ได้ประสิทธิภาพที่เหมาะสมที่สุด

การเปิดใช้งานและการเข้าถึง

Codex‑Spark เริ่มเปิดให้ใช้งานในรูปแบบรีเสิร์ชพรีวิวบน แอป Codex, CLI และส่วนขยาย VS Code สำหรับ ผู้ใช้ ChatGPT Pro
มีการใช้ ขีดจำกัดการใช้งานเฉพาะ (rate limit) และอาจปรับเปลี่ยนตามความต้องการใช้งาน
มีการให้สิทธิ์เข้าถึง API แก่ ดีไซน์พาร์ตเนอร์บางราย เพื่อเก็บฟีดแบ็กเกี่ยวกับวิธีการผสานรวมเข้ากับผลิตภัณฑ์
ในช่วงไม่กี่สัปดาห์ข้างหน้า มีแผนจะ ขยายขอบเขตการเข้าถึง และปรับการผสานรวมตามเวิร์กโหลดจริง

ความปลอดภัยและทิศทางในอนาคต

Codex‑Spark มี การฝึกด้านความปลอดภัยเช่นเดียวกับโมเดลเมนไลน์เดิม และผ่าน การประเมินที่เกี่ยวข้องกับไซเบอร์
ผลการประเมินยืนยันว่า ยังไม่ถึงเกณฑ์ความสามารถความเสี่ยงสูงในด้านไซเบอร์ซีเคียวริตี้และชีววิทยา
Codex กำลังพัฒนาไปในทิศทางที่ผสานสองโหมดเข้าด้วยกัน คือการให้เหตุผลแบบทำงานยาวต่อเนื่อง และ งานวนซ้ำแบบทำงานร่วมกันเรียลไทม์
- ในอนาคตมีแผนขยายความสามารถ เช่น อินพุตแบบมัลติโมดัล, โมเดลขนาดใหญ่ขึ้น และ คอนเท็กซ์ที่ยาวขึ้น
การอนุมานความเร็วสูงมากช่วยเร่งกระบวนการ เปลี่ยนไอเดียให้เป็นซอฟต์แวร์ที่ใช้งานได้ทันที และมอบ ประสบการณ์การโต้ตอบที่เป็นธรรมชาติ

1 ความคิดเห็น

GN⁺ 2026-02-13

ความคิดเห็นจาก Hacker News

น่าจะดีถ้าอัปโหลดรูปลง HN ได้ ชิป WSE-3 ใหญ่มหึมาจริงๆ
ชิปนี้มีขนาด 46,255mm² มีทรานซิสเตอร์ 4 ล้านล้านตัว และให้พลังประมวลผล 125 petaflops ด้วยคอร์ที่ปรับแต่งสำหรับ AI จำนวน 900,000 คอร์ ซึ่งมากกว่า NVIDIA B200 ถึง 19 เท่าในแง่จำนวนทรานซิสเตอร์ และ 28 เท่าในแง่พลังประมวลผล
ดูรายละเอียดเพิ่มเติมได้ที่หน้าอย่างเป็นทางการของ Cerebras, ภาพ1, ภาพ2
- ดูเหมือนว่าจะร้อนมหาศาล เลยคิดว่าระบบระบายความร้อนจะสำคัญมาก หวังว่าจะใช้พลังงานจากพลังงานหมุนเวียน
ฉันใช้ coding agent สร้างเว็บสไลด์เด็คอัตโนมัติ โดยนิยาม “master slide” เป็นคอมโพเนนต์ แล้วใส่กฎแบรนด์ดิ้งและแอสเซ็ตของบริษัทลงไป แค่ใส่คอนเทนต์กับพรอมป์ต์ ก็ได้งานพรีเซนเทชันที่ดูเรียบร้อย
สิ่งที่อยากได้จริงๆ คือ โหมดด้นสด (improv mode) ระหว่างพรีเซนต์ ถ้ามีคำถามจากผู้ฟังหรือไอเดียสดๆ ก็อยากให้ระบบเสนอ 3 สไลด์ถัดไปที่เป็นไปได้ ให้เลือก แล้วค่อยกลับเข้าสู่ลำดับหลัก
เช่น ถ้ามีการพูดถึงข่าวหรือเปเปอร์ ระบบก็สร้างสไลด์ที่มีสกรีนช็อตกับ QR code ให้อัตโนมัติ แล้วกลับเข้าสู่โฟลว์การนำเสนอต่อ ถ้ารวมเสียงแบบเรียลไทม์เข้ากับการสร้างโค้ดได้ เครื่องมือพรีเซนต์ก็น่าจะมีประโยชน์ขึ้นมาก
- ฉันว่าพวก พรีเซนเทชันเชิงความน่าจะเป็น แบบนี้เจ๋งดี ผลลัพธ์อาจน่าทึ่งหรือไม่ก็ตลกมากก็ได้
- เรากำลังทำอะไรเกือบแบบเดียวกันอยู่ที่ Octigen สามารถให้ดูเดโมหรือให้สิทธิ์เข้าใช้อัลฟาเวอร์ชันได้
- เคยทำอะไรคล้ายๆ กันในแฮ็กกาธอน เป็นระบบที่ปรับความเร็ว teleprompter ตามโทนเสียงและความเร็วการพูดของผู้นำเสนอ ถ้าขยายเป็นโหมดด้นสดก็น่าจะน่าสนใจมาก
- ในฐานะอาจารย์ที่ใช้เวลาเตรียมการสอนมากเกินไป ฉันอยากลองเอาระบบแบบนี้มาใช้ในคลาส
- อยากรู้ว่าจะมีตัวอย่างจริงให้ดูไหม
ลองใช้ gpt-5.3-codex-spark ใน Codex CLI แล้ว รู้สึกว่าเร็วมากๆ แต่เหมือนเป็นโมเดลขนาดเล็ก
ฉันวัดประสิทธิภาพด้วยเทสต์ที่ทำเองชื่อ ‘bluey bench’ (ไฟล์ซิสเต็มเบนช์มาร์ก) แล้วพบว่ายิ่งโมเดลเล็ก ประสิทธิภาพด้านคอนเท็กซ์ยิ่งลดลง และเกิดการบีบอัด (compaction) บ่อย
ถึงอย่างนั้น ในด้านความเร็วก็ยังเร็วกว่าเจเนอเรชันก่อนมาก
- อยากให้ bluey bench กลายเป็นเบนช์มาร์กมาตรฐานของทุกโมเดลต่อไป
- อยากรู้ว่าเทียบกับ Opus 4.6 (ปิดฟีเจอร์ thinking) แล้วเป็นอย่างไร โมเดลนั้นก็เร็วพอสมควร
- ชื่อมันคล้าย Codex รุ่นเดิม แต่ประสิทธิภาพกลับต่ำกว่ามากจนน่าแปลกใจ
ฉันคิดว่า Cerebras ยังเป็นบริษัทที่ถูกประเมินค่าต่ำเกินไป ชิปขนาดเท่าจานที่ใช้งานได้จริง และในงานใช้งานจริงก็เร็วกว่าสิ่งอื่นทั้งหมด เป็นเทคโนโลยีที่น่าทึ่ง
- ตอนนี้ดูเหมือนว่ายุคของ Nvidia กำลังจะจบแล้ว Google เตรียมเพิ่มประสิทธิภาพ inference 4 เท่าด้วย TPUv9 และ Cerebras ก็เร็วกว่าอย่างมากในเวิร์กโหลดแบบ agent ด้านประสิทธิภาพพลังงานและต้นทุน Google ก็เหนือกว่า
  โครงสร้างพื้นฐานด้านไฟฟ้ากลายเป็นคอขวด และในสหรัฐฯ ก็สร้างโรงไฟฟ้าขนาดใหญ่ได้ในเวลาอันสั้นไม่ได้ สุดท้ายหลัง TPUv8 ไป Google น่าจะเป็นผู้นำตลาด
- จริงๆ แล้วเหตุผลที่ชิปนี้ ‘ขนาดเท่าจาน’ ก็เพราะใช้ทั้งเวเฟอร์เป็นชิปเดียว การรวมระดับเวเฟอร์เป็นเทคโนโลยีที่มีการวิจัยมาหลายสิบปีแล้ว
- ข้อเสียคือแพงเกินไป
- ถึงอย่างนั้น นักลงทุนก็ยังคงเอาเงินไปลงกับ Nvidia
- แต่ชิปนี้ราคามากกว่า 1 ล้านดอลลาร์ต่อชิ้น และใส่ได้แค่ 1 ชิ้นต่อแร็ก ความหนาแน่นและความจุหน่วยความจำยังไม่พอ สุดท้าย Nvidia ก็ใช้เงิน 2 หมื่นล้านดอลลาร์เพื่อซื้อ Groq ไปแล้ว ดังนั้น Cerebras ก็น่าจะยากที่จะถูกซื้อกิจการ
Pelican benchmark ของฉันแสดงให้เห็นความต่างด้านคุณภาพระหว่าง GPT-5.3-Codex-Spark กับ GPT-5.3-Codex แบบเต็มได้อย่างชัดเจนในเชิงภาพ
ดูรายละเอียดเพิ่มเติมได้ในบล็อกโพสต์
- ฉันรอเบนช์มาร์กแบบนี้ทุกครั้งที่มีโมเดลใหม่ออกมา เพราะมันแสดงหลายปัจจัยพร้อมกันได้ เลยมีประโยชน์มาก บล็อกก็ดีเยี่ยมด้วย
ไอเดียเรื่อง priority queue / tiered workload offload โดยใช้ coding agent น่าสนใจมาก
ถ้า 60% ของงานเป็นแค่การแก้ไขหรือรีแฟกเตอร์ธรรมดาๆ สิ่งสำคัญก็คือ latency ต่ำและรองรับโทเค็นสูง
ช่วงนี้มี Batch API plugin สำหรับ Claude ออกมาแล้ว และทั้ง Nvidia กับ Google ก็กำลังเตรียม custom silicon สำหรับงาน inference (บทความ)
- แต่ Batch API นั้นมี latency สูงกว่ามาก เหมาะกับงานจำนวนมากก็จริง แต่หนึ่งรอบการรับส่งอาจใช้เวลาสูงสุด 24 ชั่วโมง แถม Codex กับโมเดล Pro ก็ยังไม่รองรับใน Batch API
- ฉันสร้าง MCP ที่ให้ Claude จ้าง GLM 4.7 on Cerebras ทำงานพัฒนาเหมือนเอาต์ซอร์ส ได้ โดยให้ Claude ระบุ system prompt, ไฟล์เอาต์พุต และไฟล์คอนเท็กซ์ได้ ทำให้ความเร็วในการพัฒนาเพิ่มขึ้นมาก
เพิ่งผ่านมาแค่ 20 นาทีตั้งแต่มันกลายเป็นมาตรฐานอุตสาหกรรม แต่ก็ยังน่าตกใจที่ยังมีคนใช้ GPT-5.3-Codex อยู่
- ฉันก็เห็นชื่อหัวข้อแล้วคิดว่า “ถ้า GPT ประกาศอะไร งั้น Google หรือ Anthropic ก็น่าจะออกอะไรสักอย่างเหมือนกัน” แล้วก็ใช่เลย มี Gemini จริงๆ
มีความเป็นไปได้ว่า OpenAI กำลังทดสอบสิ่งนี้บน Openrouter ในชื่อ Aurora Alpha
ฉันลองรันโปรเจกต์เล็กๆ ด้วย Aider แล้วมันประมวลผล 10,000 input tokens กับ 1,000 output tokens ได้ที่ความเร็ว 500 โทเค็นต่อวินาที
เห็นข้อความว่า “โมเดลล่าสุดสามารถทำงานอัตโนมัติได้เป็นเวลาหลายชั่วโมงถึงหลายวัน” แต่จนถึงตอนนี้ฉันยังไม่เห็นผลลัพธ์ที่มีประโยชน์จริง
- อยากถามว่าคุณลองไปมากแค่ไหนแล้ว Opus 4.6 กับ GPT-5.3 ดีขึ้นชัดเจนในงานระยะยาว ตัวอย่างเช่นโปรเจกต์นี้กับหน้าเดโมถูกทำเสร็จด้วยพรอมป์ต์เพียงครั้งเดียว (ลิงก์พรอมป์ต์)
- ฉันมักปล่อย Codex รันข้ามคืนเพื่อให้มันหา bug มันเหมาะกับการทำดีบักอัตโนมัติจริงๆ
- ความสามารถของโมเดลในการไม่หยุดและเผาโทเค็นต่อไปเรื่อยๆนั้นน่าประทับใจ
- ประโยคแนว “โมเดลของเราช้าเกินไป งานเลยใช้เวลาหลายชั่วโมง” ฟังแล้วตลก มันไม่น่าใช่เรื่องให้อวด
- เมื่อไม่กี่วันก่อน Codex จัดการ อัปเกรด Vite 8 ให้เว็บไซต์บริษัทของฉันอยู่คนเดียวเกิน 3 ชั่วโมง ตอนนี้ถูกนำไปใช้ใน production จริงแล้ว
ในที่สุดก็ได้เห็นว่า หนึ่งในบิ๊ก 3 ใช้ Cerebras รอวันนี้มานานมาก
- ตอนแรกคนยังลังเลเพราะเป็นเทคโนโลยีที่ยังไม่ผ่านการพิสูจน์ แต่ตอนนี้ดูเหมือนว่าจะก้าวกระโดดครั้งใหญ่ในด้านความเร็วแล้ว

เปิดตัว GPT‑5.3‑Codex‑Spark

ภาพรวม GPT‑5.3‑Codex‑Spark

ฟีเจอร์หลักและประสิทธิภาพ

การปรับแต่งความหน่วงและโครงสร้างพื้นฐาน

การผสานรวมฮาร์ดแวร์ Cerebras

การเปิดใช้งานและการเข้าถึง

ความปลอดภัยและทิศทางในอนาคต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News