เปรียบเทียบอย่างละเอียดวิวัฒนาการสถาปัตยกรรม LLM หลัง GPT-2: GPT-OSS vs. Qwen3
(magazine.sebastianraschka.com)- หลังจากที่ OpenAI เปิดเผยโมเดล gpt-oss-20b/120b แบบ open weight ทำให้ได้เห็น LLM แบบเปิดเผยน้ำหนักขนาดใหญ่จาก OpenAI เป็นครั้งแรกนับตั้งแต่ GPT-2 ในปี 2019
- โมเดล gpt-oss พัฒนาจาก GPT-2 โดยแทนที่ Dropout, Absolute Position Embedding, GELU ฯลฯ ด้วยเทคนิคสมัยใหม่ที่มีประสิทธิภาพกว่า เช่น RoPE, SwiGLU, RMSNorm
- ด้วยการใช้ Mixture-of-Experts(โครงสร้างผู้เชี่ยวชาญแบบโมดูลาร์), Sliding Window Attention, การทำ quantization แบบ MXFP4 จึงปรับปรุงทั้งประสิทธิภาพและการรันบน GPU เดี่ยวได้อย่างมาก
- จาก การเปรียบเทียบกับ Qwen3 พบความแตกต่างหลายด้าน เช่น ความลึก/ความกว้างของสถาปัตยกรรม จำนวนผู้เชี่ยวชาญ attention bias และไลเซนส์โอเพนซอร์ส
- gpt-oss-20b ถูกทำให้เบาเพื่อให้เหมาะกับฮาร์ดแวร์รุ่นใหม่ และมีฟังก์ชันปรับ reasoning effort จึงได้ทั้งความพร้อมใช้งานจริงและความยืดหยุ่นต่อการวิจัยต่อยอด
ภาพรวมและนวัตกรรมสำคัญ
- OpenAI เปิดเผย gpt-oss-20b/120b แบบ open weight เป็นครั้งแรกนับตั้งแต่ GPT-2 ในปี 2019
- ทำให้สามารถรัน 20B บน GPU ผู้ใช้ทั่วไป (RAM สูงสุด 16GB) และ 120B บน H100 80GB ได้
- การปรับให้เหมาะสมด้วย MXFP4 ช่วยให้รันบน GPU เดี่ยวได้ และขยายการเข้าถึงสำหรับผู้ใช้ทั่วไป
การเปลี่ยนแปลงสถาปัตยกรรมหลักจาก GPT-2 → gpt-oss
การถอด Dropout ออก
- GPT-2 มีการใช้ Dropout แต่ในสภาพแวดล้อมการฝึกด้วยข้อมูลปริมาณมากเพียง epoch เดียว พบว่ากลับทำให้ประสิทธิภาพลดลง
- งานวิจัยล่าสุดก็แสดงเช่นกันว่า การไม่ใช้ Dropout ให้ผลลัพธ์ที่ดีกว่าในงาน downstream ของ LLM
การนำ RoPE(Rotary Position Embedding) มาใช้
- แทนที่ absolute position embedding แบบเดิมด้วย RoPE(Rotary Position Embedding) ซึ่งกลายเป็นแนวทางหลัก
- RoPE หมุนมุมของเวกเตอร์ query/key ตามตำแหน่ง เพื่อให้ ข้อมูลตำแหน่งมีความยืดหยุ่นและทั่วไปมากขึ้น
ฟังก์ชันกระตุ้นแบบ SwiGLU และการใช้ GLU
- การนำแนวทาง GLU เช่น GEGLU/SwiGLU มาใช้ ทำให้ได้ความสามารถในการแทนค่าที่ดีกว่า 2-layer FFN เดิมด้วยจำนวนพารามิเตอร์ที่น้อยกว่า
- ในเชิงคำนวณ Swish ก็มีประสิทธิภาพกว่า GELU ด้วย
การใช้ Mixture-of-Experts(MoE)
- ใช้ เครือข่ายผู้เชี่ยวชาญ(Expert) หลายชุดแทน FFN เดี่ยว โดยจะเปิดใช้งานเพียงบางผู้เชี่ยวชาญในแต่ละการสร้างโทเคน
- เพิ่มจำนวนพารามิเตอร์ของโมเดลได้อย่างมากโดยยังคงประสิทธิภาพการอนุมานไว้ได้จากความ sparse และเพิ่มความจุในการฝึก
การนำ Grouped Query Attention(GQA) มาใช้
- ช่วยลดหน่วยความจำและปริมาณการคำนวณด้วยการแชร์ key/value เมื่อเทียบกับ Multi-Head Attention แบบเดิม
- เพิ่มประสิทธิภาพโดยแทบไม่เสียสมรรถนะ และกำลังกลายเป็นมาตรฐานใน LLM ขนาดใหญ่
การใช้ Sliding Window Attention
- ในบางเลเยอร์จะคำนวณ local attention ด้วย Sliding Window ที่จำกัดเพียง 128 โทเคนล่าสุด แทนการดูบริบททั้งหมด เพื่อลดการใช้หน่วยความจำให้ต่ำที่สุด
- ช่วยให้อนุมานได้เร็วขึ้นโดยไม่ลดประสิทธิภาพ และรองรับคอนเท็กซ์ขนาดใหญ่
การใช้ RMSNorm
- ใช้ RMSNorm แทน LayerNorm เพื่อเพิ่มประสิทธิภาพการคำนวณ
- ใช้ RMS(root mean square) แทนการคำนวณค่าเฉลี่ย/ความแปรปรวนของ LayerNorm จึงลดภาระการคำนวณบน GPU
เปรียบเทียบ gpt-oss กับ Qwen3
ความแตกต่างด้านขนาด/โครงสร้าง
- Qwen3 มี โครงสร้างที่ลึกกว่า (Transformer 48 บล็อก) ขณะที่ gpt-oss มี โครงสร้างที่กว้างกว่า (เพิ่ม emb dimension และจำนวน head)
- โมเดลลึกยืดหยุ่นกว่าแต่ฝึกยากกว่า ส่วนโมเดลกว้างได้เปรียบด้านการทำ inference แบบขนาน (อ้างอิงจากงาน Gemma 2 ในโมเดล 9B ฝั่งกว้างเหนือกว่าเล็กน้อย)
ความแตกต่างของโครงสร้าง MoE
- gpt-oss-20b: ผู้เชี่ยวชาญขนาดใหญ่ 32 คน เปิดใช้งาน 4 คนเท่านั้น
- Qwen3: ผู้เชี่ยวชาญขนาดเล็กจำนวนมาก เปิดใช้งาน 8 คน
- แนวโน้มล่าสุดชี้ว่า การจัดผู้เชี่ยวชาญขนาดเล็กจำนวนมากมีประสิทธิภาพกว่า แต่ gpt-oss ยังคงยึดโครงแบบใหญ่-จำนวนน้อย (ใน 20B และ 120B ปรับเพียงจำนวนผู้เชี่ยวชาญและจำนวนบล็อก)
Attention Bias และ Sinks
- gpt-oss ใช้ หน่วย bias ใน attention (เป็นแนวทางที่พบไม่บ่อยหลังยุค GPT-2)
- อย่างไรก็ตาม งานวิจัยล่าสุดพบว่าใน key-proj ผลที่ได้มีน้อยมาก
- attention sink คือแนวคิดของโทเคนพิเศษที่มักถูก attend เสมอที่ตำแหน่งต้นลำดับ แต่ใน gpt-oss จะเพิ่มให้แต่ละ head ในรูปแบบ learned bias logit โดยไม่แก้ไขโทเคนอินพุต
ไลเซนส์และขอบเขตการเปิดเผย
- ใช้ ไลเซนส์โอเพนซอร์ส Apache 2.0 จึงนำไปใช้เชิงพาณิชย์และสร้างโมเดลต่อยอดได้อย่างอิสระ
- อย่างไรก็ตาม ยังไม่ใช่โอเพนซอร์สอย่างสมบูรณ์ในความหมายแท้จริง (ไม่มีการเปิดโค้ดฝึกหรือชุดข้อมูล และเป็นโมเดลแบบ ‘open weight’)
รายละเอียดอื่น ๆ และการใช้งานจริง
การฝึก/การปรับให้เหมาะสม
- gpt-oss ฝึกด้วยทรัพยากรคอมพิวต์ 2.1M H100-hours
- เน้นภาษาอังกฤษเป็นหลัก และโฟกัสที่ STEM, การเขียนโค้ด และข้อความความรู้ทั่วไป
- ใช้เทคนิคล่าสุด เช่น pretraining + supervised fine-tuning แบบ instruction และขั้นตอน reasoning บนพื้นฐาน RL
การปรับ Reasoning Effort
- สามารถตั้งค่า reasoning effort (ต่ำ/กลาง/สูง) ผ่าน system prompt เพื่อปรับความยาวและความแม่นยำของคำตอบโดยอัตโนมัติ
- งานง่ายตั้งค่าให้ใช้ effort ต่ำเพื่อความเร็วได้ และหากต้องการ reasoning ที่ซับซ้อนก็เพิ่มให้สูงได้
รองรับ GPU เดี่ยวด้วย MXFP4 quantization
- ด้วยการใช้ฟอร์แมต MXFP4 ทำให้แม้แต่ 20B ก็สามารถรันได้บน VRAM 16GB (ต้องเป็น GPU รุ่นใหม่)
- สำหรับ 120B หากอิง H100 ใช้หน่วยความจำ 80GB ก็สามารถทำได้บน GPU เดี่ยว โดยไม่ต้องประมวลผลแบบกระจายและใช้งานได้ง่าย
Benchmark และความพร้อมใช้งานจริง
- gpt-oss มีจุดเน้นการฝึกไปทาง reasoning จึงมีแนวโน้มเกิด hallucination ในคำถามความรู้ทั่วไปบางประเภท
- ในแง่การใช้งานจริงถือว่าอยู่ระดับแนวหน้าของโมเดลเปิดที่มีอยู่ และคาดว่าจะใช้งานได้จริงยิ่งขึ้นเมื่อผสานกับ tool integration
- ในการใช้งานจริงยังต้องพิจารณาสมดุลระหว่างความแม่นยำกับ reasoning และควรมีการเปรียบเทียบกับโมเดลเปิดอื่นเพิ่มเติมในอนาคต
เปรียบเทียบกับ GPT-5
- gpt-oss-120b แสดงสมรรถนะใกล้เคียงกับโมเดลเชิงพาณิชย์ของ OpenAI (GPT-5) ตามเกณฑ์ benchmark
- แม้ยังต้องรอดูความได้เปรียบในสภาพแวดล้อมจริง แต่ก็เป็นทางเลือกที่ทรงพลังในบรรดา LLM รุ่นใหม่ที่เปิดเผยน้ำหนักโมเดล
- benchmark เพียงอย่างเดียวยังมีข้อจำกัดในการอธิบายความสามารถในการแข่งขันจริงทั้งหมด แต่ก็เปิดโอกาสอย่างมากต่อการเปรียบเทียบภายนอกและงานวิจัยในอนาคต
สรุป
- การมาของซีรีส์ gpt-oss ได้สร้างมาตรฐานใหม่ให้กับวงการ LLM แบบ open weight ขนาดใหญ่ พร้อมการเปรียบเทียบและวิเคราะห์อย่างละเอียดว่านวัตกรรมสถาปัตยกรรมของ LLM ยุคใหม่ถูกนำไปใช้จริงอย่างไร
- ช่วยให้เห็นความแตกต่างและแนวโน้มเมื่อเทียบกับโมเดลล่าสุดอื่น ๆ เช่น Qwen3, GPT-5 จึงมีประโยชน์ต่อทั้งการประยุกต์ใช้จริงและการติดตามทิศทางงานวิจัยล่าสุด
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ยืนยันได้ว่า Qwen3 ทำได้ดีกว่ามากในการทดสอบแบบรันบนเครื่อง โดยเวอร์ชัน 32B พารามิเตอร์ทำตามพรอมป์ตได้แทบสมบูรณ์แบบและให้ผลลัพธ์ที่เป็นธรรมชาติ ขณะที่ simplebench gpt-oss(120B) กลับทำผลงานได้ไม่ดีในโจทย์ปริศนาเชิงตรรกะ คิดว่าความต่างนี้มาจากวิธีเทรน มิติของโมเดล และการใช้ผู้เชี่ยวชาญขนาดใหญ่จำนวนน้อย เทียบกับผู้เชี่ยวชาญขนาดเล็กจำนวนมาก
บล็อกโพสต์ของ Sebastian Raschka เป็นแหล่งข้อมูลชั้นยอด ใช้ get-oss และโมเดล qwen3 บนเครื่องผ่าน Ollama และ LM Studio ส่วนโมเดลใหญ่ก็ใช้ commercial API get-oss ให้ผลลัพธ์ดีเมื่อใส่ข้อมูลบริบทในพรอมป์ตเยอะ ๆ และ qwen3 ก็ยอดเยี่ยมเฉย ๆ เลย จนถึงเมื่อ 3 ปีก่อนผมยังเข้าใจแมชชีนเลิร์นนิงดีพอจะลงมือทำ neural network, GAN, RNN, LSTM ได้จริง แต่ LLM ยุคนี้ไม่ใช่สิ่งที่พัฒนาเองได้ง่าย ๆ แล้ว เลยรู้สึกเสียดายอยู่บ้าง ตอนนี้ก็กำลังดูหนังสือของ Sebastian Raschka ด้วย แต่คงอ่านไม่จบจนจบเล่ม
ผมรัน qwen3 coder instruct 30b-a3b exl3 q6 บน GPU 3090 ที่เครื่องตัวเอง แล้วลองให้มันสร้างหน้าเพจตัวอย่าง รันเซิร์ฟเวอร์ ตรวจหาเซิร์ฟเวอร์ที่ยังค้างอยู่ ปิดมันเองโดยขอสิทธิ์ก่อน จากนั้นสตาร์ตใหม่แล้วหา IP อัตโนมัติเพื่อเปิดในเบราว์เซอร์ ตอนนี้มันไม่ใช่แค่เดโมง่าย ๆ อีกต่อไป แต่ช่วยงานได้จริงในระดับที่มีประโยชน์แม้กับ junior หรือ intern
จากประสบการณ์ของผม qwen3-coder เหนือกว่าชัดเจน ผมติดตั้ง gpt-oss:20b ด้วย แต่พอสั่งให้สรุปโค้ด qwen3 ให้ผลในไม่กี่วินาที ขณะที่ gpt-oss ไม่ทำอะไรเลยนานเกิน 5 นาทีจนผมยกเลิก เลยใช้แค่ qwen3 ถ้าไม่ได้คำตอบที่ต้องการก็ไปใช้เสิร์ชเอนจินหรือ Perplexity แทน ผมใช้ 10GB 3080, Ryzen 3600x, RAM 32GB Qwen3-coder คือของที่ดีที่สุดที่เคยใช้มา
น่าสนใจที่ LLM แบบ open-weight ช่วงนี้มีสถาปัตยกรรมคล้ายกันมาก และนวัตกรรมดูเหมือนจะเกิดในฝั่งข้อมูลหรือ RL เป็นหลัก เมื่อก่อนในองค์กร ML ขนาดใหญ่ การจูนสถาปัตยกรรมสำคัญที่สุด แต่ความจริงตอนนี้ดูไม่เป็นแบบนั้น
ผมใช้ Qwen3 4B บนเครื่องอยู่และมันดีมาก แทบไม่ใช้โมเดลออนไลน์แล้ว และการค้นเว็บก็เจาะจงเป้าหมายได้ดีกว่ามาก แม้จะไม่ได้เชื่อถือมันทั้งหมด แต่โดยรวมถือว่าโอเค ผมมั่นใจว่าโมเดลโอเพนซอร์สแบบนี้จะเปลี่ยนเกมของระบบอัตโนมัติด้านองค์ความรู้บนเครื่องอย่างแน่นอน
ใน LM Arena โมเดลที่ไม่ใช่ pure Transformer แต่ทำผลงานดีที่สุดคือ Jamba (โครงสร้างไฮบริดระหว่าง Transformers และ state space model อยู่อันดับ 96) ส่วน hunyuan-turbos ของ Tencent ก็เป็นไฮบริดเช่นกัน และอยู่อันดับ 22 ดูบทความ arXiv
โดยทั่วไป LLM จะเทรนบนชุดข้อมูลขนาดมหาศาลเพียงครั้งเดียวเท่านั้น (single epoch) ซึ่งเป็นสภาพแวดล้อมที่ต่างจากวิธี Dropout ซึ่งตั้งอยู่บนสมมติฐานของการเทรนซ้ำหลายรอบเป็นหลักหลายร้อย epoch
ผมสงสัยว่าโมเดลที่ห้องแล็บใหญ่ ๆ ปล่อยออกมาจะพัฒนาได้อีกแค่ไหนถ้าเทรนเพิ่มอีก ตัวอย่างเช่น ถ้า GPT-OSS เทรนมา 2.1 ล้านชั่วโมง แล้วเพิ่มเป็นสองเท่า มันจะดีขึ้นแค่ไหนกันแน่
พอเข้าเว็บแล้วเจอข้อความผิดพลาดว่า "การเชื่อมต่อไม่ปลอดภัย" โดยขึ้นว่า "เว็บไซต์ magazine.sebastianraschka.com ใช้ HSTS จึงไม่สามารถเข้าชมได้ในขณะนี้" ใช้ Chrome เวอร์ชันล่าสุดบน Ubuntu