เปรียบเทียบอย่างละเอียดวิวัฒนาการสถาปัตยกรรม LLM หลัง GPT-2: GPT-OSS vs. Qwen3

(magazine.sebastianraschka.com)

27 คะแนน โดย GN⁺ 2025-08-11 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

หลังจากที่ OpenAI เปิดเผยโมเดล gpt-oss-20b/120b แบบ open weight ทำให้ได้เห็น LLM แบบเปิดเผยน้ำหนักขนาดใหญ่จาก OpenAI เป็นครั้งแรกนับตั้งแต่ GPT-2 ในปี 2019
โมเดล gpt-oss พัฒนาจาก GPT-2 โดยแทนที่ Dropout, Absolute Position Embedding, GELU ฯลฯ ด้วยเทคนิคสมัยใหม่ที่มีประสิทธิภาพกว่า เช่น RoPE, SwiGLU, RMSNorm
ด้วยการใช้ Mixture-of-Experts(โครงสร้างผู้เชี่ยวชาญแบบโมดูลาร์), Sliding Window Attention, การทำ quantization แบบ MXFP4 จึงปรับปรุงทั้งประสิทธิภาพและการรันบน GPU เดี่ยวได้อย่างมาก
จาก การเปรียบเทียบกับ Qwen3 พบความแตกต่างหลายด้าน เช่น ความลึก/ความกว้างของสถาปัตยกรรม จำนวนผู้เชี่ยวชาญ attention bias และไลเซนส์โอเพนซอร์ส
gpt-oss-20b ถูกทำให้เบาเพื่อให้เหมาะกับฮาร์ดแวร์รุ่นใหม่ และมีฟังก์ชันปรับ reasoning effort จึงได้ทั้งความพร้อมใช้งานจริงและความยืดหยุ่นต่อการวิจัยต่อยอด

ภาพรวมและนวัตกรรมสำคัญ

OpenAI เปิดเผย gpt-oss-20b/120b แบบ open weight เป็นครั้งแรกนับตั้งแต่ GPT-2 ในปี 2019
- ทำให้สามารถรัน 20B บน GPU ผู้ใช้ทั่วไป (RAM สูงสุด 16GB) และ 120B บน H100 80GB ได้
- การปรับให้เหมาะสมด้วย MXFP4 ช่วยให้รันบน GPU เดี่ยวได้ และขยายการเข้าถึงสำหรับผู้ใช้ทั่วไป

การเปลี่ยนแปลงสถาปัตยกรรมหลักจาก GPT-2 → gpt-oss

การถอด Dropout ออก

GPT-2 มีการใช้ Dropout แต่ในสภาพแวดล้อมการฝึกด้วยข้อมูลปริมาณมากเพียง epoch เดียว พบว่ากลับทำให้ประสิทธิภาพลดลง
งานวิจัยล่าสุดก็แสดงเช่นกันว่า การไม่ใช้ Dropout ให้ผลลัพธ์ที่ดีกว่าในงาน downstream ของ LLM

การนำ RoPE(Rotary Position Embedding) มาใช้

แทนที่ absolute position embedding แบบเดิมด้วย RoPE(Rotary Position Embedding) ซึ่งกลายเป็นแนวทางหลัก
RoPE หมุนมุมของเวกเตอร์ query/key ตามตำแหน่ง เพื่อให้ ข้อมูลตำแหน่งมีความยืดหยุ่นและทั่วไปมากขึ้น

ฟังก์ชันกระตุ้นแบบ SwiGLU และการใช้ GLU

การนำแนวทาง GLU เช่น GEGLU/SwiGLU มาใช้ ทำให้ได้ความสามารถในการแทนค่าที่ดีกว่า 2-layer FFN เดิมด้วยจำนวนพารามิเตอร์ที่น้อยกว่า
ในเชิงคำนวณ Swish ก็มีประสิทธิภาพกว่า GELU ด้วย

การใช้ Mixture-of-Experts(MoE)

ใช้ เครือข่ายผู้เชี่ยวชาญ(Expert) หลายชุดแทน FFN เดี่ยว โดยจะเปิดใช้งานเพียงบางผู้เชี่ยวชาญในแต่ละการสร้างโทเคน
เพิ่มจำนวนพารามิเตอร์ของโมเดลได้อย่างมากโดยยังคงประสิทธิภาพการอนุมานไว้ได้จากความ sparse และเพิ่มความจุในการฝึก

การนำ Grouped Query Attention(GQA) มาใช้

ช่วยลดหน่วยความจำและปริมาณการคำนวณด้วยการแชร์ key/value เมื่อเทียบกับ Multi-Head Attention แบบเดิม
เพิ่มประสิทธิภาพโดยแทบไม่เสียสมรรถนะ และกำลังกลายเป็นมาตรฐานใน LLM ขนาดใหญ่

การใช้ Sliding Window Attention

ในบางเลเยอร์จะคำนวณ local attention ด้วย Sliding Window ที่จำกัดเพียง 128 โทเคนล่าสุด แทนการดูบริบททั้งหมด เพื่อลดการใช้หน่วยความจำให้ต่ำที่สุด
ช่วยให้อนุมานได้เร็วขึ้นโดยไม่ลดประสิทธิภาพ และรองรับคอนเท็กซ์ขนาดใหญ่

การใช้ RMSNorm

ใช้ RMSNorm แทน LayerNorm เพื่อเพิ่มประสิทธิภาพการคำนวณ
ใช้ RMS(root mean square) แทนการคำนวณค่าเฉลี่ย/ความแปรปรวนของ LayerNorm จึงลดภาระการคำนวณบน GPU

เปรียบเทียบ gpt-oss กับ Qwen3

ความแตกต่างด้านขนาด/โครงสร้าง

Qwen3 มี โครงสร้างที่ลึกกว่า (Transformer 48 บล็อก) ขณะที่ gpt-oss มี โครงสร้างที่กว้างกว่า (เพิ่ม emb dimension และจำนวน head)
โมเดลลึกยืดหยุ่นกว่าแต่ฝึกยากกว่า ส่วนโมเดลกว้างได้เปรียบด้านการทำ inference แบบขนาน (อ้างอิงจากงาน Gemma 2 ในโมเดล 9B ฝั่งกว้างเหนือกว่าเล็กน้อย)

ความแตกต่างของโครงสร้าง MoE

gpt-oss-20b: ผู้เชี่ยวชาญขนาดใหญ่ 32 คน เปิดใช้งาน 4 คนเท่านั้น
Qwen3: ผู้เชี่ยวชาญขนาดเล็กจำนวนมาก เปิดใช้งาน 8 คน
แนวโน้มล่าสุดชี้ว่า การจัดผู้เชี่ยวชาญขนาดเล็กจำนวนมากมีประสิทธิภาพกว่า แต่ gpt-oss ยังคงยึดโครงแบบใหญ่-จำนวนน้อย (ใน 20B และ 120B ปรับเพียงจำนวนผู้เชี่ยวชาญและจำนวนบล็อก)

Attention Bias และ Sinks

gpt-oss ใช้ หน่วย bias ใน attention (เป็นแนวทางที่พบไม่บ่อยหลังยุค GPT-2)
- อย่างไรก็ตาม งานวิจัยล่าสุดพบว่าใน key-proj ผลที่ได้มีน้อยมาก
attention sink คือแนวคิดของโทเคนพิเศษที่มักถูก attend เสมอที่ตำแหน่งต้นลำดับ แต่ใน gpt-oss จะเพิ่มให้แต่ละ head ในรูปแบบ learned bias logit โดยไม่แก้ไขโทเคนอินพุต

ไลเซนส์และขอบเขตการเปิดเผย

ใช้ ไลเซนส์โอเพนซอร์ส Apache 2.0 จึงนำไปใช้เชิงพาณิชย์และสร้างโมเดลต่อยอดได้อย่างอิสระ
อย่างไรก็ตาม ยังไม่ใช่โอเพนซอร์สอย่างสมบูรณ์ในความหมายแท้จริง (ไม่มีการเปิดโค้ดฝึกหรือชุดข้อมูล และเป็นโมเดลแบบ ‘open weight’)

รายละเอียดอื่น ๆ และการใช้งานจริง

การฝึก/การปรับให้เหมาะสม

gpt-oss ฝึกด้วยทรัพยากรคอมพิวต์ 2.1M H100-hours
เน้นภาษาอังกฤษเป็นหลัก และโฟกัสที่ STEM, การเขียนโค้ด และข้อความความรู้ทั่วไป
ใช้เทคนิคล่าสุด เช่น pretraining + supervised fine-tuning แบบ instruction และขั้นตอน reasoning บนพื้นฐาน RL

การปรับ Reasoning Effort

สามารถตั้งค่า reasoning effort (ต่ำ/กลาง/สูง) ผ่าน system prompt เพื่อปรับความยาวและความแม่นยำของคำตอบโดยอัตโนมัติ
งานง่ายตั้งค่าให้ใช้ effort ต่ำเพื่อความเร็วได้ และหากต้องการ reasoning ที่ซับซ้อนก็เพิ่มให้สูงได้

รองรับ GPU เดี่ยวด้วย MXFP4 quantization

ด้วยการใช้ฟอร์แมต MXFP4 ทำให้แม้แต่ 20B ก็สามารถรันได้บน VRAM 16GB (ต้องเป็น GPU รุ่นใหม่)
สำหรับ 120B หากอิง H100 ใช้หน่วยความจำ 80GB ก็สามารถทำได้บน GPU เดี่ยว โดยไม่ต้องประมวลผลแบบกระจายและใช้งานได้ง่าย

Benchmark และความพร้อมใช้งานจริง

gpt-oss มีจุดเน้นการฝึกไปทาง reasoning จึงมีแนวโน้มเกิด hallucination ในคำถามความรู้ทั่วไปบางประเภท
ในแง่การใช้งานจริงถือว่าอยู่ระดับแนวหน้าของโมเดลเปิดที่มีอยู่ และคาดว่าจะใช้งานได้จริงยิ่งขึ้นเมื่อผสานกับ tool integration
ในการใช้งานจริงยังต้องพิจารณาสมดุลระหว่างความแม่นยำกับ reasoning และควรมีการเปรียบเทียบกับโมเดลเปิดอื่นเพิ่มเติมในอนาคต

เปรียบเทียบกับ GPT-5

gpt-oss-120b แสดงสมรรถนะใกล้เคียงกับโมเดลเชิงพาณิชย์ของ OpenAI (GPT-5) ตามเกณฑ์ benchmark
แม้ยังต้องรอดูความได้เปรียบในสภาพแวดล้อมจริง แต่ก็เป็นทางเลือกที่ทรงพลังในบรรดา LLM รุ่นใหม่ที่เปิดเผยน้ำหนักโมเดล
benchmark เพียงอย่างเดียวยังมีข้อจำกัดในการอธิบายความสามารถในการแข่งขันจริงทั้งหมด แต่ก็เปิดโอกาสอย่างมากต่อการเปรียบเทียบภายนอกและงานวิจัยในอนาคต

สรุป

การมาของซีรีส์ gpt-oss ได้สร้างมาตรฐานใหม่ให้กับวงการ LLM แบบ open weight ขนาดใหญ่ พร้อมการเปรียบเทียบและวิเคราะห์อย่างละเอียดว่านวัตกรรมสถาปัตยกรรมของ LLM ยุคใหม่ถูกนำไปใช้จริงอย่างไร
ช่วยให้เห็นความแตกต่างและแนวโน้มเมื่อเทียบกับโมเดลล่าสุดอื่น ๆ เช่น Qwen3, GPT-5 จึงมีประโยชน์ต่อทั้งการประยุกต์ใช้จริงและการติดตามทิศทางงานวิจัยล่าสุด

เปรียบเทียบอย่างละเอียดวิวัฒนาการสถาปัตยกรรม LLM หลัง GPT-2: GPT-OSS vs. Qwen3

ภาพรวมและนวัตกรรมสำคัญ

การเปลี่ยนแปลงสถาปัตยกรรมหลักจาก GPT-2 → gpt-oss

การถอด Dropout ออก

การนำ RoPE(Rotary Position Embedding) มาใช้

ฟังก์ชันกระตุ้นแบบ SwiGLU และการใช้ GLU

การใช้ Mixture-of-Experts(MoE)

การนำ Grouped Query Attention(GQA) มาใช้

การใช้ Sliding Window Attention

การใช้ RMSNorm

เปรียบเทียบ gpt-oss กับ Qwen3

ความแตกต่างด้านขนาด/โครงสร้าง

ความแตกต่างของโครงสร้าง MoE

Attention Bias และ Sinks

ไลเซนส์และขอบเขตการเปิดเผย

รายละเอียดอื่น ๆ และการใช้งานจริง

การฝึก/การปรับให้เหมาะสม

การปรับ Reasoning Effort

รองรับ GPU เดี่ยวด้วย MXFP4 quantization

Benchmark และความพร้อมใช้งานจริง

เปรียบเทียบกับ GPT-5

สรุป

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น