27 คะแนน โดย GN⁺ 2025-08-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • หลังจากที่ OpenAI เปิดเผยโมเดล gpt-oss-20b/120b แบบ open weight ทำให้ได้เห็น LLM แบบเปิดเผยน้ำหนักขนาดใหญ่จาก OpenAI เป็นครั้งแรกนับตั้งแต่ GPT-2 ในปี 2019
  • โมเดล gpt-oss พัฒนาจาก GPT-2 โดยแทนที่ Dropout, Absolute Position Embedding, GELU ฯลฯ ด้วยเทคนิคสมัยใหม่ที่มีประสิทธิภาพกว่า เช่น RoPE, SwiGLU, RMSNorm
  • ด้วยการใช้ Mixture-of-Experts(โครงสร้างผู้เชี่ยวชาญแบบโมดูลาร์), Sliding Window Attention, การทำ quantization แบบ MXFP4 จึงปรับปรุงทั้งประสิทธิภาพและการรันบน GPU เดี่ยวได้อย่างมาก
  • จาก การเปรียบเทียบกับ Qwen3 พบความแตกต่างหลายด้าน เช่น ความลึก/ความกว้างของสถาปัตยกรรม จำนวนผู้เชี่ยวชาญ attention bias และไลเซนส์โอเพนซอร์ส
  • gpt-oss-20b ถูกทำให้เบาเพื่อให้เหมาะกับฮาร์ดแวร์รุ่นใหม่ และมีฟังก์ชันปรับ reasoning effort จึงได้ทั้งความพร้อมใช้งานจริงและความยืดหยุ่นต่อการวิจัยต่อยอด

ภาพรวมและนวัตกรรมสำคัญ

  • OpenAI เปิดเผย gpt-oss-20b/120b แบบ open weight เป็นครั้งแรกนับตั้งแต่ GPT-2 ในปี 2019
    • ทำให้สามารถรัน 20B บน GPU ผู้ใช้ทั่วไป (RAM สูงสุด 16GB) และ 120B บน H100 80GB ได้
    • การปรับให้เหมาะสมด้วย MXFP4 ช่วยให้รันบน GPU เดี่ยวได้ และขยายการเข้าถึงสำหรับผู้ใช้ทั่วไป

การเปลี่ยนแปลงสถาปัตยกรรมหลักจาก GPT-2 → gpt-oss

การถอด Dropout ออก

  • GPT-2 มีการใช้ Dropout แต่ในสภาพแวดล้อมการฝึกด้วยข้อมูลปริมาณมากเพียง epoch เดียว พบว่ากลับทำให้ประสิทธิภาพลดลง
  • งานวิจัยล่าสุดก็แสดงเช่นกันว่า การไม่ใช้ Dropout ให้ผลลัพธ์ที่ดีกว่าในงาน downstream ของ LLM

การนำ RoPE(Rotary Position Embedding) มาใช้

  • แทนที่ absolute position embedding แบบเดิมด้วย RoPE(Rotary Position Embedding) ซึ่งกลายเป็นแนวทางหลัก
  • RoPE หมุนมุมของเวกเตอร์ query/key ตามตำแหน่ง เพื่อให้ ข้อมูลตำแหน่งมีความยืดหยุ่นและทั่วไปมากขึ้น

ฟังก์ชันกระตุ้นแบบ SwiGLU และการใช้ GLU

  • การนำแนวทาง GLU เช่น GEGLU/SwiGLU มาใช้ ทำให้ได้ความสามารถในการแทนค่าที่ดีกว่า 2-layer FFN เดิมด้วยจำนวนพารามิเตอร์ที่น้อยกว่า
  • ในเชิงคำนวณ Swish ก็มีประสิทธิภาพกว่า GELU ด้วย

การใช้ Mixture-of-Experts(MoE)

  • ใช้ เครือข่ายผู้เชี่ยวชาญ(Expert) หลายชุดแทน FFN เดี่ยว โดยจะเปิดใช้งานเพียงบางผู้เชี่ยวชาญในแต่ละการสร้างโทเคน
  • เพิ่มจำนวนพารามิเตอร์ของโมเดลได้อย่างมากโดยยังคงประสิทธิภาพการอนุมานไว้ได้จากความ sparse และเพิ่มความจุในการฝึก

การนำ Grouped Query Attention(GQA) มาใช้

  • ช่วยลดหน่วยความจำและปริมาณการคำนวณด้วยการแชร์ key/value เมื่อเทียบกับ Multi-Head Attention แบบเดิม
  • เพิ่มประสิทธิภาพโดยแทบไม่เสียสมรรถนะ และกำลังกลายเป็นมาตรฐานใน LLM ขนาดใหญ่

การใช้ Sliding Window Attention

  • ในบางเลเยอร์จะคำนวณ local attention ด้วย Sliding Window ที่จำกัดเพียง 128 โทเคนล่าสุด แทนการดูบริบททั้งหมด เพื่อลดการใช้หน่วยความจำให้ต่ำที่สุด
  • ช่วยให้อนุมานได้เร็วขึ้นโดยไม่ลดประสิทธิภาพ และรองรับคอนเท็กซ์ขนาดใหญ่

การใช้ RMSNorm

  • ใช้ RMSNorm แทน LayerNorm เพื่อเพิ่มประสิทธิภาพการคำนวณ
  • ใช้ RMS(root mean square) แทนการคำนวณค่าเฉลี่ย/ความแปรปรวนของ LayerNorm จึงลดภาระการคำนวณบน GPU

เปรียบเทียบ gpt-oss กับ Qwen3

ความแตกต่างด้านขนาด/โครงสร้าง

  • Qwen3 มี โครงสร้างที่ลึกกว่า (Transformer 48 บล็อก) ขณะที่ gpt-oss มี โครงสร้างที่กว้างกว่า (เพิ่ม emb dimension และจำนวน head)
  • โมเดลลึกยืดหยุ่นกว่าแต่ฝึกยากกว่า ส่วนโมเดลกว้างได้เปรียบด้านการทำ inference แบบขนาน (อ้างอิงจากงาน Gemma 2 ในโมเดล 9B ฝั่งกว้างเหนือกว่าเล็กน้อย)

ความแตกต่างของโครงสร้าง MoE

  • gpt-oss-20b: ผู้เชี่ยวชาญขนาดใหญ่ 32 คน เปิดใช้งาน 4 คนเท่านั้น
  • Qwen3: ผู้เชี่ยวชาญขนาดเล็กจำนวนมาก เปิดใช้งาน 8 คน
  • แนวโน้มล่าสุดชี้ว่า การจัดผู้เชี่ยวชาญขนาดเล็กจำนวนมากมีประสิทธิภาพกว่า แต่ gpt-oss ยังคงยึดโครงแบบใหญ่-จำนวนน้อย (ใน 20B และ 120B ปรับเพียงจำนวนผู้เชี่ยวชาญและจำนวนบล็อก)

Attention Bias และ Sinks

  • gpt-oss ใช้ หน่วย bias ใน attention (เป็นแนวทางที่พบไม่บ่อยหลังยุค GPT-2)
    • อย่างไรก็ตาม งานวิจัยล่าสุดพบว่าใน key-proj ผลที่ได้มีน้อยมาก
  • attention sink คือแนวคิดของโทเคนพิเศษที่มักถูก attend เสมอที่ตำแหน่งต้นลำดับ แต่ใน gpt-oss จะเพิ่มให้แต่ละ head ในรูปแบบ learned bias logit โดยไม่แก้ไขโทเคนอินพุต

ไลเซนส์และขอบเขตการเปิดเผย

  • ใช้ ไลเซนส์โอเพนซอร์ส Apache 2.0 จึงนำไปใช้เชิงพาณิชย์และสร้างโมเดลต่อยอดได้อย่างอิสระ
  • อย่างไรก็ตาม ยังไม่ใช่โอเพนซอร์สอย่างสมบูรณ์ในความหมายแท้จริง (ไม่มีการเปิดโค้ดฝึกหรือชุดข้อมูล และเป็นโมเดลแบบ ‘open weight’)

รายละเอียดอื่น ๆ และการใช้งานจริง

การฝึก/การปรับให้เหมาะสม

  • gpt-oss ฝึกด้วยทรัพยากรคอมพิวต์ 2.1M H100-hours
  • เน้นภาษาอังกฤษเป็นหลัก และโฟกัสที่ STEM, การเขียนโค้ด และข้อความความรู้ทั่วไป
  • ใช้เทคนิคล่าสุด เช่น pretraining + supervised fine-tuning แบบ instruction และขั้นตอน reasoning บนพื้นฐาน RL

การปรับ Reasoning Effort

  • สามารถตั้งค่า reasoning effort (ต่ำ/กลาง/สูง) ผ่าน system prompt เพื่อปรับความยาวและความแม่นยำของคำตอบโดยอัตโนมัติ
  • งานง่ายตั้งค่าให้ใช้ effort ต่ำเพื่อความเร็วได้ และหากต้องการ reasoning ที่ซับซ้อนก็เพิ่มให้สูงได้

รองรับ GPU เดี่ยวด้วย MXFP4 quantization

  • ด้วยการใช้ฟอร์แมต MXFP4 ทำให้แม้แต่ 20B ก็สามารถรันได้บน VRAM 16GB (ต้องเป็น GPU รุ่นใหม่)
  • สำหรับ 120B หากอิง H100 ใช้หน่วยความจำ 80GB ก็สามารถทำได้บน GPU เดี่ยว โดยไม่ต้องประมวลผลแบบกระจายและใช้งานได้ง่าย

Benchmark และความพร้อมใช้งานจริง

  • gpt-oss มีจุดเน้นการฝึกไปทาง reasoning จึงมีแนวโน้มเกิด hallucination ในคำถามความรู้ทั่วไปบางประเภท
  • ในแง่การใช้งานจริงถือว่าอยู่ระดับแนวหน้าของโมเดลเปิดที่มีอยู่ และคาดว่าจะใช้งานได้จริงยิ่งขึ้นเมื่อผสานกับ tool integration
  • ในการใช้งานจริงยังต้องพิจารณาสมดุลระหว่างความแม่นยำกับ reasoning และควรมีการเปรียบเทียบกับโมเดลเปิดอื่นเพิ่มเติมในอนาคต

เปรียบเทียบกับ GPT-5

  • gpt-oss-120b แสดงสมรรถนะใกล้เคียงกับโมเดลเชิงพาณิชย์ของ OpenAI (GPT-5) ตามเกณฑ์ benchmark
  • แม้ยังต้องรอดูความได้เปรียบในสภาพแวดล้อมจริง แต่ก็เป็นทางเลือกที่ทรงพลังในบรรดา LLM รุ่นใหม่ที่เปิดเผยน้ำหนักโมเดล
  • benchmark เพียงอย่างเดียวยังมีข้อจำกัดในการอธิบายความสามารถในการแข่งขันจริงทั้งหมด แต่ก็เปิดโอกาสอย่างมากต่อการเปรียบเทียบภายนอกและงานวิจัยในอนาคต

สรุป

  • การมาของซีรีส์ gpt-oss ได้สร้างมาตรฐานใหม่ให้กับวงการ LLM แบบ open weight ขนาดใหญ่ พร้อมการเปรียบเทียบและวิเคราะห์อย่างละเอียดว่านวัตกรรมสถาปัตยกรรมของ LLM ยุคใหม่ถูกนำไปใช้จริงอย่างไร
  • ช่วยให้เห็นความแตกต่างและแนวโน้มเมื่อเทียบกับโมเดลล่าสุดอื่น ๆ เช่น Qwen3, GPT-5 จึงมีประโยชน์ต่อทั้งการประยุกต์ใช้จริงและการติดตามทิศทางงานวิจัยล่าสุด

1 ความคิดเห็น

 
GN⁺ 2025-08-11
ความคิดเห็นจาก Hacker News
  • ยืนยันได้ว่า Qwen3 ทำได้ดีกว่ามากในการทดสอบแบบรันบนเครื่อง โดยเวอร์ชัน 32B พารามิเตอร์ทำตามพรอมป์ตได้แทบสมบูรณ์แบบและให้ผลลัพธ์ที่เป็นธรรมชาติ ขณะที่ simplebench gpt-oss(120B) กลับทำผลงานได้ไม่ดีในโจทย์ปริศนาเชิงตรรกะ คิดว่าความต่างนี้มาจากวิธีเทรน มิติของโมเดล และการใช้ผู้เชี่ยวชาญขนาดใหญ่จำนวนน้อย เทียบกับผู้เชี่ยวชาญขนาดเล็กจำนวนมาก

    • Qwen3 32B เป็นโมเดลแบบ dense ที่ใช้พารามิเตอร์ทั้งหมดตลอดเวลา ส่วน GPT OSS 20B เป็นโมเดล sparse MoE (Expert of Experts) ที่ใช้เพียงบางส่วน โดยในแต่ละครั้งใช้จริงราว 3.6B เท่านั้น จึงเร็วกว่าโมเดล dense 20B และฉลาดกว่าโมเดล 3.6B ถ้าจะเทียบอย่างยุติธรรมควรเทียบกับโมเดล dense 8B และโมเดลอย่าง Qwen Coder 30B A3B ก็เป็นจุดเปรียบเทียบที่ดีเช่นกัน
    • ผมคิดว่าความต่างแบบนี้ได้รับอิทธิพลจากข้อมูลและ pipeline การเทรนมากกว่าสถาปัตยกรรมของโมเดลมาก มีคนพูดกันว่า gpt-oss ใช้เพียงชุดข้อมูลสังเคราะห์สไตล์ Phi และเน้นไปที่เกมวัด benchmark เป็นหลัก ซึ่งหลักฐานที่มีอยู่ก็ดูมีน้ำหนักพอสมควร
    • สูตรคาดการณ์ประสิทธิภาพของ MoE คือ sqrt(จำนวนหัวที่ทำงาน * จำนวนพารามิเตอร์ทั้งหมด) เช่น sqrt(120*5) ~= 24 ดังนั้น GPT-OSS 120B จึงให้ประสิทธิภาพระดับประมาณ 24B พร้อมความเร็วระดับโมเดลที่เล็กกว่ามาก
    • qwen3 ค่อนข้างช้า ลองใช้เองแล้วมันก็ทำงานได้ แต่ช้าและให้ความรู้สึกว่ายังขาดฟีเจอร์อยู่
  • บล็อกโพสต์ของ Sebastian Raschka เป็นแหล่งข้อมูลชั้นยอด ใช้ get-oss และโมเดล qwen3 บนเครื่องผ่าน Ollama และ LM Studio ส่วนโมเดลใหญ่ก็ใช้ commercial API get-oss ให้ผลลัพธ์ดีเมื่อใส่ข้อมูลบริบทในพรอมป์ตเยอะ ๆ และ qwen3 ก็ยอดเยี่ยมเฉย ๆ เลย จนถึงเมื่อ 3 ปีก่อนผมยังเข้าใจแมชชีนเลิร์นนิงดีพอจะลงมือทำ neural network, GAN, RNN, LSTM ได้จริง แต่ LLM ยุคนี้ไม่ใช่สิ่งที่พัฒนาเองได้ง่าย ๆ แล้ว เลยรู้สึกเสียดายอยู่บ้าง ตอนนี้ก็กำลังดูหนังสือของ Sebastian Raschka ด้วย แต่คงอ่านไม่จบจนจบเล่ม

    • ในสาขาที่เปลี่ยนเร็วอย่างไม่น่าเชื่อ Sebastian Raschka ช่วยสรุปข้อมูลล่าสุดอย่างกระชับได้ตลอด ซึ่งช่วยได้มากจริง ๆ
  • ผมรัน qwen3 coder instruct 30b-a3b exl3 q6 บน GPU 3090 ที่เครื่องตัวเอง แล้วลองให้มันสร้างหน้าเพจตัวอย่าง รันเซิร์ฟเวอร์ ตรวจหาเซิร์ฟเวอร์ที่ยังค้างอยู่ ปิดมันเองโดยขอสิทธิ์ก่อน จากนั้นสตาร์ตใหม่แล้วหา IP อัตโนมัติเพื่อเปิดในเบราว์เซอร์ ตอนนี้มันไม่ใช่แค่เดโมง่าย ๆ อีกต่อไป แต่ช่วยงานได้จริงในระดับที่มีประโยชน์แม้กับ junior หรือ intern

  • จากประสบการณ์ของผม qwen3-coder เหนือกว่าชัดเจน ผมติดตั้ง gpt-oss:20b ด้วย แต่พอสั่งให้สรุปโค้ด qwen3 ให้ผลในไม่กี่วินาที ขณะที่ gpt-oss ไม่ทำอะไรเลยนานเกิน 5 นาทีจนผมยกเลิก เลยใช้แค่ qwen3 ถ้าไม่ได้คำตอบที่ต้องการก็ไปใช้เสิร์ชเอนจินหรือ Perplexity แทน ผมใช้ 10GB 3080, Ryzen 3600x, RAM 32GB Qwen3-coder คือของที่ดีที่สุดที่เคยใช้มา

    • Qwen3 coder 480B ดีพอ ๆ กับ Sonnet 4 เลย เรื่องนี้ทำให้ผมเริ่มรู้สึกจริง ๆ ว่าโมเดลจากจีนอาจแซงโมเดลฝั่งสหรัฐได้ในไม่ช้า โดยเฉพาะในงานเขียนโค้ด
    • ปัญหาอาจเกิดจาก gpt-oss 20B ใส่ลงใน 10GB ไม่ได้
    • ผมก็ใช้ gpt-oss-20b แบบง่าย ๆ เหมือนกัน แต่กับพรอมป์ตสั้น ๆ มันอาจหลุดไปลูปซ้ำไม่รู้จบได้ ตอนรันด้วย llama.cpp ผมตั้งค่า repetition penalty ให้ต่ำลงหน่อยแล้วไม่เจอปัญหานั้นอีก ใช้มันวิเคราะห์ diff วันละไม่กี่ครั้งเป็นหลัก แต่ก็อาจเป็นเพราะผมโชคดีก็ได้
    • อยากรู้ว่าคุณใช้มันแบบ agentic หรือเปล่า คือมีการถามตอบหลายรอบแบบอัตโนมัติ หรือใช้แค่แบบคัดลอกแล้วสั่งทีเดียวว่า “เขียนโค้ดนี้ให้หน่อย” อยากรู้ว่าโมเดลเปิดล่าสุดไล่ตามโมเดลเชิงพาณิชย์ได้แค่ไหนในงานเขียนโค้ดแบบ agentic
  • น่าสนใจที่ LLM แบบ open-weight ช่วงนี้มีสถาปัตยกรรมคล้ายกันมาก และนวัตกรรมดูเหมือนจะเกิดในฝั่งข้อมูลหรือ RL เป็นหลัก เมื่อก่อนในองค์กร ML ขนาดใหญ่ การจูนสถาปัตยกรรมสำคัญที่สุด แต่ความจริงตอนนี้ดูไม่เป็นแบบนั้น

    • ผมมองว่าในสเกลของ LLM การจูน hyperparameter เองแทบเป็นไปไม่ได้เลย ต้นทุนสูงเกินไป จึงทำได้แค่ทดสอบสถาปัตยกรรมพื้นฐานหลายแบบ แล้วเลือกหนึ่งแบบมาปรับให้สุดด้วยข้อมูลและ RL
    • เป็นข้อสังเกตที่ดี LLM ทำให้ใครก็ตามที่มีทรัพยากรมากพอสามารถลงสนามได้ สถาปัตยกรรมค่อนข้างทนต่อการปรับจูน และถ้าใส่ compute กับข้อมูลมากพอ ก็ยังสร้างโมเดลที่ดีได้แม้จะไม่เป็นไปตาม scaling law อย่างที่ Llama 3 เคยแสดงให้เห็นในอดีต
  • ผมใช้ Qwen3 4B บนเครื่องอยู่และมันดีมาก แทบไม่ใช้โมเดลออนไลน์แล้ว และการค้นเว็บก็เจาะจงเป้าหมายได้ดีกว่ามาก แม้จะไม่ได้เชื่อถือมันทั้งหมด แต่โดยรวมถือว่าโอเค ผมมั่นใจว่าโมเดลโอเพนซอร์สแบบนี้จะเปลี่ยนเกมของระบบอัตโนมัติด้านองค์ความรู้บนเครื่องอย่างแน่นอน

    • สงสัยว่า Qwen เป็นคนแนะนำพารามิเตอร์การค้นหาที่ดีกว่าเอง หรือว่า Qwen ลงมือค้นเว็บจริง ๆ ให้เลย
  • ใน LM Arena โมเดลที่ไม่ใช่ pure Transformer แต่ทำผลงานดีที่สุดคือ Jamba (โครงสร้างไฮบริดระหว่าง Transformers และ state space model อยู่อันดับ 96) ส่วน hunyuan-turbos ของ Tencent ก็เป็นไฮบริดเช่นกัน และอยู่อันดับ 22 ดูบทความ arXiv

  • โดยทั่วไป LLM จะเทรนบนชุดข้อมูลขนาดมหาศาลเพียงครั้งเดียวเท่านั้น (single epoch) ซึ่งเป็นสภาพแวดล้อมที่ต่างจากวิธี Dropout ซึ่งตั้งอยู่บนสมมติฐานของการเทรนซ้ำหลายรอบเป็นหลักหลายร้อย epoch

    • นี่เป็นข้อเท็จจริงที่รู้กันดีอยู่แล้ว ดู Table 2.2 ในบทความ GPT-3 ได้เลย
  • ผมสงสัยว่าโมเดลที่ห้องแล็บใหญ่ ๆ ปล่อยออกมาจะพัฒนาได้อีกแค่ไหนถ้าเทรนเพิ่มอีก ตัวอย่างเช่น ถ้า GPT-OSS เทรนมา 2.1 ล้านชั่วโมง แล้วเพิ่มเป็นสองเท่า มันจะดีขึ้นแค่ไหนกันแน่

    • GPT-4.5 อาจจริง ๆ แล้วถูกวางแผนให้เป็น GPT-5 ที่ใหญ่กว่าและเทรนด้วยข้อมูลมากขึ้นก็ได้ แต่เพราะต้นทุนแพงเกินไปจึงไม่สามารถเปิดใช้งานเชิงพาณิชย์ในวงกว้างได้ และก็น่าเสียดายที่เราไม่ได้เห็นเวอร์ชันที่ใส่ RL เข้าไปด้วย
    • ตอนนี้เริ่มชัดแล้วว่าเทคนิคการเทรนด้วย RL ขั้นสูงที่ใช้ใน GPT-5 ก็ไม่ได้สเกลได้แบบไร้ขีดจำกัด
  • พอเข้าเว็บแล้วเจอข้อความผิดพลาดว่า "การเชื่อมต่อไม่ปลอดภัย" โดยขึ้นว่า "เว็บไซต์ magazine.sebastianraschka.com ใช้ HSTS จึงไม่สามารถเข้าชมได้ในขณะนี้" ใช้ Chrome เวอร์ชันล่าสุดบน Ubuntu