• หลังจากที่ OpenAI เปิดเผยโมเดล gpt-oss-20b/120b แบบ open weight ทำให้ได้เห็น LLM แบบเปิดเผยน้ำหนักขนาดใหญ่จาก OpenAI เป็นครั้งแรกนับตั้งแต่ GPT-2 ในปี 2019
  • โมเดล gpt-oss พัฒนาจาก GPT-2 โดยแทนที่ Dropout, Absolute Position Embedding, GELU ฯลฯ ด้วยเทคนิคสมัยใหม่ที่มีประสิทธิภาพกว่า เช่น RoPE, SwiGLU, RMSNorm
  • ด้วยการใช้ Mixture-of-Experts(โครงสร้างผู้เชี่ยวชาญแบบโมดูลาร์), Sliding Window Attention, การทำ quantization แบบ MXFP4 จึงปรับปรุงทั้งประสิทธิภาพและการรันบน GPU เดี่ยวได้อย่างมาก
  • จาก การเปรียบเทียบกับ Qwen3 พบความแตกต่างหลายด้าน เช่น ความลึก/ความกว้างของสถาปัตยกรรม จำนวนผู้เชี่ยวชาญ attention bias และไลเซนส์โอเพนซอร์ส
  • gpt-oss-20b ถูกทำให้เบาเพื่อให้เหมาะกับฮาร์ดแวร์รุ่นใหม่ และมีฟังก์ชันปรับ reasoning effort จึงได้ทั้งความพร้อมใช้งานจริงและความยืดหยุ่นต่อการวิจัยต่อยอด

ภาพรวมและนวัตกรรมสำคัญ

  • OpenAI เปิดเผย gpt-oss-20b/120b แบบ open weight เป็นครั้งแรกนับตั้งแต่ GPT-2 ในปี 2019
    • ทำให้สามารถรัน 20B บน GPU ผู้ใช้ทั่วไป (RAM สูงสุด 16GB) และ 120B บน H100 80GB ได้
    • การปรับให้เหมาะสมด้วย MXFP4 ช่วยให้รันบน GPU เดี่ยวได้ และขยายการเข้าถึงสำหรับผู้ใช้ทั่วไป

การเปลี่ยนแปลงสถาปัตยกรรมหลักจาก GPT-2 → gpt-oss

การถอด Dropout ออก

  • GPT-2 มีการใช้ Dropout แต่ในสภาพแวดล้อมการฝึกด้วยข้อมูลปริมาณมากเพียง epoch เดียว พบว่ากลับทำให้ประสิทธิภาพลดลง
  • งานวิจัยล่าสุดก็แสดงเช่นกันว่า การไม่ใช้ Dropout ให้ผลลัพธ์ที่ดีกว่าในงาน downstream ของ LLM

การนำ RoPE(Rotary Position Embedding) มาใช้

  • แทนที่ absolute position embedding แบบเดิมด้วย RoPE(Rotary Position Embedding) ซึ่งกลายเป็นแนวทางหลัก
  • RoPE หมุนมุมของเวกเตอร์ query/key ตามตำแหน่ง เพื่อให้ ข้อมูลตำแหน่งมีความยืดหยุ่นและทั่วไปมากขึ้น

ฟังก์ชันกระตุ้นแบบ SwiGLU และการใช้ GLU

  • การนำแนวทาง GLU เช่น GEGLU/SwiGLU มาใช้ ทำให้ได้ความสามารถในการแทนค่าที่ดีกว่า 2-layer FFN เดิมด้วยจำนวนพารามิเตอร์ที่น้อยกว่า
  • ในเชิงคำนวณ Swish ก็มีประสิทธิภาพกว่า GELU ด้วย

การใช้ Mixture-of-Experts(MoE)

  • ใช้ เครือข่ายผู้เชี่ยวชาญ(Expert) หลายชุดแทน FFN เดี่ยว โดยจะเปิดใช้งานเพียงบางผู้เชี่ยวชาญในแต่ละการสร้างโทเคน
  • เพิ่มจำนวนพารามิเตอร์ของโมเดลได้อย่างมากโดยยังคงประสิทธิภาพการอนุมานไว้ได้จากความ sparse และเพิ่มความจุในการฝึก

การนำ Grouped Query Attention(GQA) มาใช้

  • ช่วยลดหน่วยความจำและปริมาณการคำนวณด้วยการแชร์ key/value เมื่อเทียบกับ Multi-Head Attention แบบเดิม
  • เพิ่มประสิทธิภาพโดยแทบไม่เสียสมรรถนะ และกำลังกลายเป็นมาตรฐานใน LLM ขนาดใหญ่

การใช้ Sliding Window Attention

  • ในบางเลเยอร์จะคำนวณ local attention ด้วย Sliding Window ที่จำกัดเพียง 128 โทเคนล่าสุด แทนการดูบริบททั้งหมด เพื่อลดการใช้หน่วยความจำให้ต่ำที่สุด
  • ช่วยให้อนุมานได้เร็วขึ้นโดยไม่ลดประสิทธิภาพ และรองรับคอนเท็กซ์ขนาดใหญ่

การใช้ RMSNorm

  • ใช้ RMSNorm แทน LayerNorm เพื่อเพิ่มประสิทธิภาพการคำนวณ
  • ใช้ RMS(root mean square) แทนการคำนวณค่าเฉลี่ย/ความแปรปรวนของ LayerNorm จึงลดภาระการคำนวณบน GPU

เปรียบเทียบ gpt-oss กับ Qwen3

ความแตกต่างด้านขนาด/โครงสร้าง

  • Qwen3 มี โครงสร้างที่ลึกกว่า (Transformer 48 บล็อก) ขณะที่ gpt-oss มี โครงสร้างที่กว้างกว่า (เพิ่ม emb dimension และจำนวน head)
  • โมเดลลึกยืดหยุ่นกว่าแต่ฝึกยากกว่า ส่วนโมเดลกว้างได้เปรียบด้านการทำ inference แบบขนาน (อ้างอิงจากงาน Gemma 2 ในโมเดล 9B ฝั่งกว้างเหนือกว่าเล็กน้อย)

ความแตกต่างของโครงสร้าง MoE

  • gpt-oss-20b: ผู้เชี่ยวชาญขนาดใหญ่ 32 คน เปิดใช้งาน 4 คนเท่านั้น
  • Qwen3: ผู้เชี่ยวชาญขนาดเล็กจำนวนมาก เปิดใช้งาน 8 คน
  • แนวโน้มล่าสุดชี้ว่า การจัดผู้เชี่ยวชาญขนาดเล็กจำนวนมากมีประสิทธิภาพกว่า แต่ gpt-oss ยังคงยึดโครงแบบใหญ่-จำนวนน้อย (ใน 20B และ 120B ปรับเพียงจำนวนผู้เชี่ยวชาญและจำนวนบล็อก)

Attention Bias และ Sinks

  • gpt-oss ใช้ หน่วย bias ใน attention (เป็นแนวทางที่พบไม่บ่อยหลังยุค GPT-2)
    • อย่างไรก็ตาม งานวิจัยล่าสุดพบว่าใน key-proj ผลที่ได้มีน้อยมาก
  • attention sink คือแนวคิดของโทเคนพิเศษที่มักถูก attend เสมอที่ตำแหน่งต้นลำดับ แต่ใน gpt-oss จะเพิ่มให้แต่ละ head ในรูปแบบ learned bias logit โดยไม่แก้ไขโทเคนอินพุต

ไลเซนส์และขอบเขตการเปิดเผย

  • ใช้ ไลเซนส์โอเพนซอร์ส Apache 2.0 จึงนำไปใช้เชิงพาณิชย์และสร้างโมเดลต่อยอดได้อย่างอิสระ
  • อย่างไรก็ตาม ยังไม่ใช่โอเพนซอร์สอย่างสมบูรณ์ในความหมายแท้จริง (ไม่มีการเปิดโค้ดฝึกหรือชุดข้อมูล และเป็นโมเดลแบบ ‘open weight’)

รายละเอียดอื่น ๆ และการใช้งานจริง

การฝึก/การปรับให้เหมาะสม

  • gpt-oss ฝึกด้วยทรัพยากรคอมพิวต์ 2.1M H100-hours
  • เน้นภาษาอังกฤษเป็นหลัก และโฟกัสที่ STEM, การเขียนโค้ด และข้อความความรู้ทั่วไป
  • ใช้เทคนิคล่าสุด เช่น pretraining + supervised fine-tuning แบบ instruction และขั้นตอน reasoning บนพื้นฐาน RL

การปรับ Reasoning Effort

  • สามารถตั้งค่า reasoning effort (ต่ำ/กลาง/สูง) ผ่าน system prompt เพื่อปรับความยาวและความแม่นยำของคำตอบโดยอัตโนมัติ
  • งานง่ายตั้งค่าให้ใช้ effort ต่ำเพื่อความเร็วได้ และหากต้องการ reasoning ที่ซับซ้อนก็เพิ่มให้สูงได้

รองรับ GPU เดี่ยวด้วย MXFP4 quantization

  • ด้วยการใช้ฟอร์แมต MXFP4 ทำให้แม้แต่ 20B ก็สามารถรันได้บน VRAM 16GB (ต้องเป็น GPU รุ่นใหม่)
  • สำหรับ 120B หากอิง H100 ใช้หน่วยความจำ 80GB ก็สามารถทำได้บน GPU เดี่ยว โดยไม่ต้องประมวลผลแบบกระจายและใช้งานได้ง่าย

Benchmark และความพร้อมใช้งานจริง

  • gpt-oss มีจุดเน้นการฝึกไปทาง reasoning จึงมีแนวโน้มเกิด hallucination ในคำถามความรู้ทั่วไปบางประเภท
  • ในแง่การใช้งานจริงถือว่าอยู่ระดับแนวหน้าของโมเดลเปิดที่มีอยู่ และคาดว่าจะใช้งานได้จริงยิ่งขึ้นเมื่อผสานกับ tool integration
  • ในการใช้งานจริงยังต้องพิจารณาสมดุลระหว่างความแม่นยำกับ reasoning และควรมีการเปรียบเทียบกับโมเดลเปิดอื่นเพิ่มเติมในอนาคต

เปรียบเทียบกับ GPT-5

  • gpt-oss-120b แสดงสมรรถนะใกล้เคียงกับโมเดลเชิงพาณิชย์ของ OpenAI (GPT-5) ตามเกณฑ์ benchmark
  • แม้ยังต้องรอดูความได้เปรียบในสภาพแวดล้อมจริง แต่ก็เป็นทางเลือกที่ทรงพลังในบรรดา LLM รุ่นใหม่ที่เปิดเผยน้ำหนักโมเดล
  • benchmark เพียงอย่างเดียวยังมีข้อจำกัดในการอธิบายความสามารถในการแข่งขันจริงทั้งหมด แต่ก็เปิดโอกาสอย่างมากต่อการเปรียบเทียบภายนอกและงานวิจัยในอนาคต

สรุป

  • การมาของซีรีส์ gpt-oss ได้สร้างมาตรฐานใหม่ให้กับวงการ LLM แบบ open weight ขนาดใหญ่ พร้อมการเปรียบเทียบและวิเคราะห์อย่างละเอียดว่านวัตกรรมสถาปัตยกรรมของ LLM ยุคใหม่ถูกนำไปใช้จริงอย่างไร
  • ช่วยให้เห็นความแตกต่างและแนวโน้มเมื่อเทียบกับโมเดลล่าสุดอื่น ๆ เช่น Qwen3, GPT-5 จึงมีประโยชน์ต่อทั้งการประยุกต์ใช้จริงและการติดตามทิศทางงานวิจัยล่าสุด

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น