3 คะแนน โดย GN⁺ 2026-02-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็น GPT‑5.3‑Codex เวอร์ชันขนาดเล็กที่ออกแบบมาสำหรับ การเขียนโค้ดแบบเรียลไทม์ โดยให้ความเร็ว มากกว่า 1000 โทเคน/วินาที
  • เป็น โมเดลแบบข้อความล้วน ที่ใช้หน้าต่างคอนเท็กซ์ 128k และเชี่ยวชาญด้านการแก้โค้ดทันทีและงานวนซ้ำ
  • มีการนำเส้นทางตอบสนองแบบ WebSocket มาใช้ ทำให้ ลดความหน่วงของการตอบสนองลง 80%, ลดโอเวอร์เฮดต่อโทเคนลง 30%, และ ลดเวลาแสดงผลโทเคนแรกลง 50%
  • พัฒนาร่วมกับ Cerebras และทำงานบนสภาพแวดล้อมอนุมานความเร็วสูงที่ใช้ Wafer Scale Engine 3
  • เป็นโมเดลระยะแรกของ กลยุทธ์ Codex แบบสองโหมด ที่รวม งานอัตโนมัติระยะยาวกับการทำงานร่วมกันแบบเรียลไทม์

ภาพรวม GPT‑5.3‑Codex‑Spark

  • GPT‑5.3‑Codex‑Spark เป็น GPT‑5.3‑Codex เวอร์ชันขนาดเล็ก และเป็นโมเดลตัวแรกที่ออกแบบมาสำหรับ งานเขียนโค้ดแบบเรียลไทม์
    • ทำความเร็วในการสร้างได้ มากกว่า 1000 โทเคน/วินาที บนฮาร์ดแวร์ความหน่วงต่ำมาก
    • มอบการตอบสนองแบบฉับไวในงานเขียนโค้ดจริง
  • เป็นโมเดลแรกที่พัฒนาผ่าน ความร่วมมือกับ Cerebras และถือเป็น ก้าวสำคัญแรก ของความร่วมมือระหว่าง OpenAI กับ Cerebras
  • เปิดให้ ผู้ใช้ ChatGPT Pro ใช้งานในรูปแบบรีเสิร์ชพรีวิว โดยมีเป้าหมายเพื่อการทดลองช่วงแรกและการเก็บรวบรวมฟีดแบ็ก

ฟีเจอร์หลักและประสิทธิภาพ

  • รองรับ หน้าต่างคอนเท็กซ์ 128k และปัจจุบันให้บริการเป็น โมเดลแบบข้อความล้วน
  • ในเบนช์มาร์ก SWE‑Bench Pro และ Terminal‑Bench 2.0 แสดงให้เห็นว่าให้ ประสิทธิภาพสูงกว่าในเวลาที่สั้นกว่า เมื่อเทียบกับ GPT‑5.3‑Codex
  • ด้วยการปรับแต่งที่เน้น ความเร็วเป็นหลัก รูปแบบการทำงานตั้งต้นจึงเบาและมุ่งเป้าหมาย และจะไม่รันการทดสอบอัตโนมัติหากผู้ใช้ไม่ได้ร้องขอ
  • รองรับ การทำงานร่วมกันแบบเรียลไทม์ ทำให้ผู้ใช้สามารถ หยุดและสั่งใหม่ ระหว่างที่โมเดลกำลังทำงาน พร้อมดูผลลัพธ์ได้ทันที

การปรับแต่งความหน่วงและโครงสร้างพื้นฐาน

  • นอกจากความเร็วของโมเดลแล้ว ยังมีการปรับปรุงเพื่อลด ความหน่วงของทั้งไปป์ไลน์คำขอ-คำตอบ
    • ลดโอเวอร์เฮดจากการรับส่งไปกลับระหว่างไคลเอนต์กับเซิร์ฟเวอร์ลง 80%
    • ลดโอเวอร์เฮดต่อโทเคนลง 30% และ ลดเวลาแสดงผลโทเคนแรกลง 50%
  • เพื่อให้ทำได้เช่นนี้ จึงมีการใช้ การเชื่อมต่อถาวรบน WebSocket และ การปรับแต่งภายในของ Responses API
  • การปรับปรุงเหล่านี้มีแผนจะนำไปใช้ไม่เฉพาะกับ Codex‑Spark แต่รวมถึง ทุกโมเดล ด้วย

การผสานรวมฮาร์ดแวร์ Cerebras

  • Codex‑Spark ทำงานบน Cerebras Wafer Scale Engine 3 เพื่อมอบ เลเยอร์อนุมานที่เน้นความหน่วงต่ำ
  • OpenAI ร่วมมือกับ Cerebras เพื่อนำเส้นทางนี้ ผสานเข้ากับสแตกการเสิร์ฟโปรดักชันเดิม และทำให้เกิด สภาพแวดล้อมการทำงานที่สอดคล้องกัน ทั่วทั้ง Codex
  • โครงสร้างพื้นฐาน GPU ยังคงเป็นฐานหลักของการฝึกและการอนุมาน ขณะที่ Cerebras เชี่ยวชาญด้านเวิร์กโหลดความหน่วงต่ำมาก จึงทำหน้าที่เสริมกัน
  • สามารถรวม GPU และ Cerebras ภายในเวิร์กโหลดเดียวกัน เพื่อให้ได้ประสิทธิภาพที่เหมาะสมที่สุด

การเปิดใช้งานและการเข้าถึง

  • Codex‑Spark เริ่มเปิดให้ใช้งานในรูปแบบรีเสิร์ชพรีวิวบน แอป Codex, CLI และส่วนขยาย VS Code สำหรับ ผู้ใช้ ChatGPT Pro
  • มีการใช้ ขีดจำกัดการใช้งานเฉพาะ (rate limit) และอาจปรับเปลี่ยนตามความต้องการใช้งาน
  • มีการให้สิทธิ์เข้าถึง API แก่ ดีไซน์พาร์ตเนอร์บางราย เพื่อเก็บฟีดแบ็กเกี่ยวกับวิธีการผสานรวมเข้ากับผลิตภัณฑ์
  • ในช่วงไม่กี่สัปดาห์ข้างหน้า มีแผนจะ ขยายขอบเขตการเข้าถึง และปรับการผสานรวมตามเวิร์กโหลดจริง

ความปลอดภัยและทิศทางในอนาคต

  • Codex‑Spark มี การฝึกด้านความปลอดภัยเช่นเดียวกับโมเดลเมนไลน์เดิม และผ่าน การประเมินที่เกี่ยวข้องกับไซเบอร์
  • ผลการประเมินยืนยันว่า ยังไม่ถึงเกณฑ์ความสามารถความเสี่ยงสูงในด้านไซเบอร์ซีเคียวริตี้และชีววิทยา
  • Codex กำลังพัฒนาไปในทิศทางที่ผสานสองโหมดเข้าด้วยกัน คือการให้เหตุผลแบบทำงานยาวต่อเนื่อง และ งานวนซ้ำแบบทำงานร่วมกันเรียลไทม์
    • ในอนาคตมีแผนขยายความสามารถ เช่น อินพุตแบบมัลติโมดัล, โมเดลขนาดใหญ่ขึ้น และ คอนเท็กซ์ที่ยาวขึ้น
  • การอนุมานความเร็วสูงมากช่วยเร่งกระบวนการ เปลี่ยนไอเดียให้เป็นซอฟต์แวร์ที่ใช้งานได้ทันที และมอบ ประสบการณ์การโต้ตอบที่เป็นธรรมชาติ

1 ความคิดเห็น

 
GN⁺ 2026-02-13
ความคิดเห็นจาก Hacker News
  • น่าจะดีถ้าอัปโหลดรูปลง HN ได้ ชิป WSE-3 ใหญ่มหึมาจริงๆ
    ชิปนี้มีขนาด 46,255mm² มีทรานซิสเตอร์ 4 ล้านล้านตัว และให้พลังประมวลผล 125 petaflops ด้วยคอร์ที่ปรับแต่งสำหรับ AI จำนวน 900,000 คอร์ ซึ่งมากกว่า NVIDIA B200 ถึง 19 เท่าในแง่จำนวนทรานซิสเตอร์ และ 28 เท่าในแง่พลังประมวลผล
    ดูรายละเอียดเพิ่มเติมได้ที่หน้าอย่างเป็นทางการของ Cerebras, ภาพ1, ภาพ2

    • ดูเหมือนว่าจะร้อนมหาศาล เลยคิดว่าระบบระบายความร้อนจะสำคัญมาก หวังว่าจะใช้พลังงานจากพลังงานหมุนเวียน
  • ฉันใช้ coding agent สร้างเว็บสไลด์เด็คอัตโนมัติ โดยนิยาม “master slide” เป็นคอมโพเนนต์ แล้วใส่กฎแบรนด์ดิ้งและแอสเซ็ตของบริษัทลงไป แค่ใส่คอนเทนต์กับพรอมป์ต์ ก็ได้งานพรีเซนเทชันที่ดูเรียบร้อย
    สิ่งที่อยากได้จริงๆ คือ โหมดด้นสด (improv mode) ระหว่างพรีเซนต์ ถ้ามีคำถามจากผู้ฟังหรือไอเดียสดๆ ก็อยากให้ระบบเสนอ 3 สไลด์ถัดไปที่เป็นไปได้ ให้เลือก แล้วค่อยกลับเข้าสู่ลำดับหลัก
    เช่น ถ้ามีการพูดถึงข่าวหรือเปเปอร์ ระบบก็สร้างสไลด์ที่มีสกรีนช็อตกับ QR code ให้อัตโนมัติ แล้วกลับเข้าสู่โฟลว์การนำเสนอต่อ ถ้ารวมเสียงแบบเรียลไทม์เข้ากับการสร้างโค้ดได้ เครื่องมือพรีเซนต์ก็น่าจะมีประโยชน์ขึ้นมาก

    • ฉันว่าพวก พรีเซนเทชันเชิงความน่าจะเป็น แบบนี้เจ๋งดี ผลลัพธ์อาจน่าทึ่งหรือไม่ก็ตลกมากก็ได้
    • เรากำลังทำอะไรเกือบแบบเดียวกันอยู่ที่ Octigen สามารถให้ดูเดโมหรือให้สิทธิ์เข้าใช้อัลฟาเวอร์ชันได้
    • เคยทำอะไรคล้ายๆ กันในแฮ็กกาธอน เป็นระบบที่ปรับความเร็ว teleprompter ตามโทนเสียงและความเร็วการพูดของผู้นำเสนอ ถ้าขยายเป็นโหมดด้นสดก็น่าจะน่าสนใจมาก
    • ในฐานะอาจารย์ที่ใช้เวลาเตรียมการสอนมากเกินไป ฉันอยากลองเอาระบบแบบนี้มาใช้ในคลาส
    • อยากรู้ว่าจะมีตัวอย่างจริงให้ดูไหม
  • ลองใช้ gpt-5.3-codex-spark ใน Codex CLI แล้ว รู้สึกว่าเร็วมากๆ แต่เหมือนเป็นโมเดลขนาดเล็ก
    ฉันวัดประสิทธิภาพด้วยเทสต์ที่ทำเองชื่อ ‘bluey bench’ (ไฟล์ซิสเต็มเบนช์มาร์ก) แล้วพบว่ายิ่งโมเดลเล็ก ประสิทธิภาพด้านคอนเท็กซ์ยิ่งลดลง และเกิดการบีบอัด (compaction) บ่อย
    ถึงอย่างนั้น ในด้านความเร็วก็ยังเร็วกว่าเจเนอเรชันก่อนมาก

    • อยากให้ bluey bench กลายเป็นเบนช์มาร์กมาตรฐานของทุกโมเดลต่อไป
    • อยากรู้ว่าเทียบกับ Opus 4.6 (ปิดฟีเจอร์ thinking) แล้วเป็นอย่างไร โมเดลนั้นก็เร็วพอสมควร
    • ชื่อมันคล้าย Codex รุ่นเดิม แต่ประสิทธิภาพกลับต่ำกว่ามากจนน่าแปลกใจ
  • ฉันคิดว่า Cerebras ยังเป็นบริษัทที่ถูกประเมินค่าต่ำเกินไป ชิปขนาดเท่าจานที่ใช้งานได้จริง และในงานใช้งานจริงก็เร็วกว่าสิ่งอื่นทั้งหมด เป็นเทคโนโลยีที่น่าทึ่ง

    • ตอนนี้ดูเหมือนว่ายุคของ Nvidia กำลังจะจบแล้ว Google เตรียมเพิ่มประสิทธิภาพ inference 4 เท่าด้วย TPUv9 และ Cerebras ก็เร็วกว่าอย่างมากในเวิร์กโหลดแบบ agent ด้านประสิทธิภาพพลังงานและต้นทุน Google ก็เหนือกว่า
      โครงสร้างพื้นฐานด้านไฟฟ้ากลายเป็นคอขวด และในสหรัฐฯ ก็สร้างโรงไฟฟ้าขนาดใหญ่ได้ในเวลาอันสั้นไม่ได้ สุดท้ายหลัง TPUv8 ไป Google น่าจะเป็นผู้นำตลาด
    • จริงๆ แล้วเหตุผลที่ชิปนี้ ‘ขนาดเท่าจาน’ ก็เพราะใช้ทั้งเวเฟอร์เป็นชิปเดียว การรวมระดับเวเฟอร์เป็นเทคโนโลยีที่มีการวิจัยมาหลายสิบปีแล้ว
    • ข้อเสียคือแพงเกินไป
    • ถึงอย่างนั้น นักลงทุนก็ยังคงเอาเงินไปลงกับ Nvidia
    • แต่ชิปนี้ราคามากกว่า 1 ล้านดอลลาร์ต่อชิ้น และใส่ได้แค่ 1 ชิ้นต่อแร็ก ความหนาแน่นและความจุหน่วยความจำยังไม่พอ สุดท้าย Nvidia ก็ใช้เงิน 2 หมื่นล้านดอลลาร์เพื่อซื้อ Groq ไปแล้ว ดังนั้น Cerebras ก็น่าจะยากที่จะถูกซื้อกิจการ
  • Pelican benchmark ของฉันแสดงให้เห็นความต่างด้านคุณภาพระหว่าง GPT-5.3-Codex-Spark กับ GPT-5.3-Codex แบบเต็มได้อย่างชัดเจนในเชิงภาพ
    ดูรายละเอียดเพิ่มเติมได้ในบล็อกโพสต์

    • ฉันรอเบนช์มาร์กแบบนี้ทุกครั้งที่มีโมเดลใหม่ออกมา เพราะมันแสดงหลายปัจจัยพร้อมกันได้ เลยมีประโยชน์มาก บล็อกก็ดีเยี่ยมด้วย
  • ไอเดียเรื่อง priority queue / tiered workload offload โดยใช้ coding agent น่าสนใจมาก
    ถ้า 60% ของงานเป็นแค่การแก้ไขหรือรีแฟกเตอร์ธรรมดาๆ สิ่งสำคัญก็คือ latency ต่ำและรองรับโทเค็นสูง
    ช่วงนี้มี Batch API plugin สำหรับ Claude ออกมาแล้ว และทั้ง Nvidia กับ Google ก็กำลังเตรียม custom silicon สำหรับงาน inference (บทความ)

    • แต่ Batch API นั้นมี latency สูงกว่ามาก เหมาะกับงานจำนวนมากก็จริง แต่หนึ่งรอบการรับส่งอาจใช้เวลาสูงสุด 24 ชั่วโมง แถม Codex กับโมเดล Pro ก็ยังไม่รองรับใน Batch API
    • ฉันสร้าง MCP ที่ให้ Claude จ้าง GLM 4.7 on Cerebras ทำงานพัฒนาเหมือนเอาต์ซอร์ส ได้ โดยให้ Claude ระบุ system prompt, ไฟล์เอาต์พุต และไฟล์คอนเท็กซ์ได้ ทำให้ความเร็วในการพัฒนาเพิ่มขึ้นมาก
  • เพิ่งผ่านมาแค่ 20 นาทีตั้งแต่มันกลายเป็นมาตรฐานอุตสาหกรรม แต่ก็ยังน่าตกใจที่ยังมีคนใช้ GPT-5.3-Codex อยู่

    • ฉันก็เห็นชื่อหัวข้อแล้วคิดว่า “ถ้า GPT ประกาศอะไร งั้น Google หรือ Anthropic ก็น่าจะออกอะไรสักอย่างเหมือนกัน” แล้วก็ใช่เลย มี Gemini จริงๆ
  • มีความเป็นไปได้ว่า OpenAI กำลังทดสอบสิ่งนี้บน Openrouter ในชื่อ Aurora Alpha
    ฉันลองรันโปรเจกต์เล็กๆ ด้วย Aider แล้วมันประมวลผล 10,000 input tokens กับ 1,000 output tokens ได้ที่ความเร็ว 500 โทเค็นต่อวินาที

  • เห็นข้อความว่า “โมเดลล่าสุดสามารถทำงานอัตโนมัติได้เป็นเวลาหลายชั่วโมงถึงหลายวัน” แต่จนถึงตอนนี้ฉันยังไม่เห็นผลลัพธ์ที่มีประโยชน์จริง

    • อยากถามว่าคุณลองไปมากแค่ไหนแล้ว Opus 4.6 กับ GPT-5.3 ดีขึ้นชัดเจนในงานระยะยาว ตัวอย่างเช่นโปรเจกต์นี้กับหน้าเดโมถูกทำเสร็จด้วยพรอมป์ต์เพียงครั้งเดียว (ลิงก์พรอมป์ต์)
    • ฉันมักปล่อย Codex รันข้ามคืนเพื่อให้มันหา bug มันเหมาะกับการทำดีบักอัตโนมัติจริงๆ
    • ความสามารถของโมเดลในการไม่หยุดและเผาโทเค็นต่อไปเรื่อยๆนั้นน่าประทับใจ
    • ประโยคแนว “โมเดลของเราช้าเกินไป งานเลยใช้เวลาหลายชั่วโมง” ฟังแล้วตลก มันไม่น่าใช่เรื่องให้อวด
    • เมื่อไม่กี่วันก่อน Codex จัดการ อัปเกรด Vite 8 ให้เว็บไซต์บริษัทของฉันอยู่คนเดียวเกิน 3 ชั่วโมง ตอนนี้ถูกนำไปใช้ใน production จริงแล้ว
  • ในที่สุดก็ได้เห็นว่า หนึ่งในบิ๊ก 3 ใช้ Cerebras รอวันนี้มานานมาก

    • ตอนแรกคนยังลังเลเพราะเป็นเทคโนโลยีที่ยังไม่ผ่านการพิสูจน์ แต่ตอนนี้ดูเหมือนว่าจะก้าวกระโดดครั้งใหญ่ในด้านความเร็วแล้ว