- หลังจากที่ OpenAI เปิดเผยโมเดล gpt-oss-20b/120b แบบ open weight ทำให้ได้เห็น LLM แบบเปิดเผยน้ำหนักขนาดใหญ่จาก OpenAI เป็นครั้งแรกนับตั้งแต่ GPT-2 ในปี 2019
- โมเดล gpt-oss พัฒนาจาก GPT-2 โดยแทนที่ Dropout, Absolute Position Embedding, GELU ฯลฯ ด้วยเทคนิคสมัยใหม่ที่มีประสิทธิภาพกว่า เช่น RoPE, SwiGLU, RMSNorm
- ด้วยการใช้ Mixture-of-Experts(โครงสร้างผู้เชี่ยวชาญแบบโมดูลาร์), Sliding Window Attention, การทำ quantization แบบ MXFP4 จึงปรับปรุงทั้งประสิทธิภาพและการรันบน GPU เดี่ยวได้อย่างมาก
- จาก การเปรียบเทียบกับ Qwen3 พบความแตกต่างหลายด้าน เช่น ความลึก/ความกว้างของสถาปัตยกรรม จำนวนผู้เชี่ยวชาญ attention bias และไลเซนส์โอเพนซอร์ส
- gpt-oss-20b ถูกทำให้เบาเพื่อให้เหมาะกับฮาร์ดแวร์รุ่นใหม่ และมีฟังก์ชันปรับ reasoning effort จึงได้ทั้งความพร้อมใช้งานจริงและความยืดหยุ่นต่อการวิจัยต่อยอด
ภาพรวมและนวัตกรรมสำคัญ
- OpenAI เปิดเผย gpt-oss-20b/120b แบบ open weight เป็นครั้งแรกนับตั้งแต่ GPT-2 ในปี 2019
- ทำให้สามารถรัน 20B บน GPU ผู้ใช้ทั่วไป (RAM สูงสุด 16GB) และ 120B บน H100 80GB ได้
- การปรับให้เหมาะสมด้วย MXFP4 ช่วยให้รันบน GPU เดี่ยวได้ และขยายการเข้าถึงสำหรับผู้ใช้ทั่วไป
การเปลี่ยนแปลงสถาปัตยกรรมหลักจาก GPT-2 → gpt-oss
การถอด Dropout ออก
- GPT-2 มีการใช้ Dropout แต่ในสภาพแวดล้อมการฝึกด้วยข้อมูลปริมาณมากเพียง epoch เดียว พบว่ากลับทำให้ประสิทธิภาพลดลง
- งานวิจัยล่าสุดก็แสดงเช่นกันว่า การไม่ใช้ Dropout ให้ผลลัพธ์ที่ดีกว่าในงาน downstream ของ LLM
การนำ RoPE(Rotary Position Embedding) มาใช้
- แทนที่ absolute position embedding แบบเดิมด้วย RoPE(Rotary Position Embedding) ซึ่งกลายเป็นแนวทางหลัก
- RoPE หมุนมุมของเวกเตอร์ query/key ตามตำแหน่ง เพื่อให้ ข้อมูลตำแหน่งมีความยืดหยุ่นและทั่วไปมากขึ้น
ฟังก์ชันกระตุ้นแบบ SwiGLU และการใช้ GLU
- การนำแนวทาง GLU เช่น GEGLU/SwiGLU มาใช้ ทำให้ได้ความสามารถในการแทนค่าที่ดีกว่า 2-layer FFN เดิมด้วยจำนวนพารามิเตอร์ที่น้อยกว่า
- ในเชิงคำนวณ Swish ก็มีประสิทธิภาพกว่า GELU ด้วย
การใช้ Mixture-of-Experts(MoE)
- ใช้ เครือข่ายผู้เชี่ยวชาญ(Expert) หลายชุดแทน FFN เดี่ยว โดยจะเปิดใช้งานเพียงบางผู้เชี่ยวชาญในแต่ละการสร้างโทเคน
- เพิ่มจำนวนพารามิเตอร์ของโมเดลได้อย่างมากโดยยังคงประสิทธิภาพการอนุมานไว้ได้จากความ sparse และเพิ่มความจุในการฝึก
การนำ Grouped Query Attention(GQA) มาใช้
- ช่วยลดหน่วยความจำและปริมาณการคำนวณด้วยการแชร์ key/value เมื่อเทียบกับ Multi-Head Attention แบบเดิม
- เพิ่มประสิทธิภาพโดยแทบไม่เสียสมรรถนะ และกำลังกลายเป็นมาตรฐานใน LLM ขนาดใหญ่
การใช้ Sliding Window Attention
- ในบางเลเยอร์จะคำนวณ local attention ด้วย Sliding Window ที่จำกัดเพียง 128 โทเคนล่าสุด แทนการดูบริบททั้งหมด เพื่อลดการใช้หน่วยความจำให้ต่ำที่สุด
- ช่วยให้อนุมานได้เร็วขึ้นโดยไม่ลดประสิทธิภาพ และรองรับคอนเท็กซ์ขนาดใหญ่
การใช้ RMSNorm
- ใช้ RMSNorm แทน LayerNorm เพื่อเพิ่มประสิทธิภาพการคำนวณ
- ใช้ RMS(root mean square) แทนการคำนวณค่าเฉลี่ย/ความแปรปรวนของ LayerNorm จึงลดภาระการคำนวณบน GPU
เปรียบเทียบ gpt-oss กับ Qwen3
ความแตกต่างด้านขนาด/โครงสร้าง
- Qwen3 มี โครงสร้างที่ลึกกว่า (Transformer 48 บล็อก) ขณะที่ gpt-oss มี โครงสร้างที่กว้างกว่า (เพิ่ม emb dimension และจำนวน head)
- โมเดลลึกยืดหยุ่นกว่าแต่ฝึกยากกว่า ส่วนโมเดลกว้างได้เปรียบด้านการทำ inference แบบขนาน (อ้างอิงจากงาน Gemma 2 ในโมเดล 9B ฝั่งกว้างเหนือกว่าเล็กน้อย)
ความแตกต่างของโครงสร้าง MoE
- gpt-oss-20b: ผู้เชี่ยวชาญขนาดใหญ่ 32 คน เปิดใช้งาน 4 คนเท่านั้น
- Qwen3: ผู้เชี่ยวชาญขนาดเล็กจำนวนมาก เปิดใช้งาน 8 คน
- แนวโน้มล่าสุดชี้ว่า การจัดผู้เชี่ยวชาญขนาดเล็กจำนวนมากมีประสิทธิภาพกว่า แต่ gpt-oss ยังคงยึดโครงแบบใหญ่-จำนวนน้อย (ใน 20B และ 120B ปรับเพียงจำนวนผู้เชี่ยวชาญและจำนวนบล็อก)
Attention Bias และ Sinks
- gpt-oss ใช้ หน่วย bias ใน attention (เป็นแนวทางที่พบไม่บ่อยหลังยุค GPT-2)
- อย่างไรก็ตาม งานวิจัยล่าสุดพบว่าใน key-proj ผลที่ได้มีน้อยมาก
- attention sink คือแนวคิดของโทเคนพิเศษที่มักถูก attend เสมอที่ตำแหน่งต้นลำดับ แต่ใน gpt-oss จะเพิ่มให้แต่ละ head ในรูปแบบ learned bias logit โดยไม่แก้ไขโทเคนอินพุต
ไลเซนส์และขอบเขตการเปิดเผย
- ใช้ ไลเซนส์โอเพนซอร์ส Apache 2.0 จึงนำไปใช้เชิงพาณิชย์และสร้างโมเดลต่อยอดได้อย่างอิสระ
- อย่างไรก็ตาม ยังไม่ใช่โอเพนซอร์สอย่างสมบูรณ์ในความหมายแท้จริง (ไม่มีการเปิดโค้ดฝึกหรือชุดข้อมูล และเป็นโมเดลแบบ ‘open weight’)
รายละเอียดอื่น ๆ และการใช้งานจริง
การฝึก/การปรับให้เหมาะสม
- gpt-oss ฝึกด้วยทรัพยากรคอมพิวต์ 2.1M H100-hours
- เน้นภาษาอังกฤษเป็นหลัก และโฟกัสที่ STEM, การเขียนโค้ด และข้อความความรู้ทั่วไป
- ใช้เทคนิคล่าสุด เช่น pretraining + supervised fine-tuning แบบ instruction และขั้นตอน reasoning บนพื้นฐาน RL
การปรับ Reasoning Effort
- สามารถตั้งค่า reasoning effort (ต่ำ/กลาง/สูง) ผ่าน system prompt เพื่อปรับความยาวและความแม่นยำของคำตอบโดยอัตโนมัติ
- งานง่ายตั้งค่าให้ใช้ effort ต่ำเพื่อความเร็วได้ และหากต้องการ reasoning ที่ซับซ้อนก็เพิ่มให้สูงได้
รองรับ GPU เดี่ยวด้วย MXFP4 quantization
- ด้วยการใช้ฟอร์แมต MXFP4 ทำให้แม้แต่ 20B ก็สามารถรันได้บน VRAM 16GB (ต้องเป็น GPU รุ่นใหม่)
- สำหรับ 120B หากอิง H100 ใช้หน่วยความจำ 80GB ก็สามารถทำได้บน GPU เดี่ยว โดยไม่ต้องประมวลผลแบบกระจายและใช้งานได้ง่าย
Benchmark และความพร้อมใช้งานจริง
- gpt-oss มีจุดเน้นการฝึกไปทาง reasoning จึงมีแนวโน้มเกิด hallucination ในคำถามความรู้ทั่วไปบางประเภท
- ในแง่การใช้งานจริงถือว่าอยู่ระดับแนวหน้าของโมเดลเปิดที่มีอยู่ และคาดว่าจะใช้งานได้จริงยิ่งขึ้นเมื่อผสานกับ tool integration
- ในการใช้งานจริงยังต้องพิจารณาสมดุลระหว่างความแม่นยำกับ reasoning และควรมีการเปรียบเทียบกับโมเดลเปิดอื่นเพิ่มเติมในอนาคต
เปรียบเทียบกับ GPT-5
- gpt-oss-120b แสดงสมรรถนะใกล้เคียงกับโมเดลเชิงพาณิชย์ของ OpenAI (GPT-5) ตามเกณฑ์ benchmark
- แม้ยังต้องรอดูความได้เปรียบในสภาพแวดล้อมจริง แต่ก็เป็นทางเลือกที่ทรงพลังในบรรดา LLM รุ่นใหม่ที่เปิดเผยน้ำหนักโมเดล
- benchmark เพียงอย่างเดียวยังมีข้อจำกัดในการอธิบายความสามารถในการแข่งขันจริงทั้งหมด แต่ก็เปิดโอกาสอย่างมากต่อการเปรียบเทียบภายนอกและงานวิจัยในอนาคต
สรุป
- การมาของซีรีส์ gpt-oss ได้สร้างมาตรฐานใหม่ให้กับวงการ LLM แบบ open weight ขนาดใหญ่ พร้อมการเปรียบเทียบและวิเคราะห์อย่างละเอียดว่านวัตกรรมสถาปัตยกรรมของ LLM ยุคใหม่ถูกนำไปใช้จริงอย่างไร
- ช่วยให้เห็นความแตกต่างและแนวโน้มเมื่อเทียบกับโมเดลล่าสุดอื่น ๆ เช่น Qwen3, GPT-5 จึงมีประโยชน์ต่อทั้งการประยุกต์ใช้จริงและการติดตามทิศทางงานวิจัยล่าสุด
ยังไม่มีความคิดเห็น