3 คะแนน โดย GN⁺ 2025-09-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Qwen3-Next คือสถาปัตยกรรมโมเดลใหม่ที่พัฒนาขึ้นเพื่อรองรับ การขยายความยาวบริบท และ การขยายจำนวนพารามิเตอร์ทั้งหมด ซึ่งเป็นแนวโน้มอนาคตของ โมเดลขนาดใหญ่ โดยมอบความสามารถในการเพิ่มประสิทธิภาพการฝึกและการอนุมานให้สูงสุด
  • มีการนำ กลไก attention แบบไฮบริด และ โครงสร้าง MoE ที่ sparse สูงมาก มาใช้ เพื่อยกระดับประสิทธิภาพในงานบริบทยาวและการตั้งค่าพารามิเตอร์ขนาดใหญ่
  • เร่งความเร็วในการอนุมานผ่าน การเพิ่มเสถียรภาพของการฝึก และ กลไกการทำนายหลายโทเค็น
  • โมเดล Qwen3-Next-80B-A3B-Base บรรลุประสิทธิภาพเทียบเท่าหรือดีกว่า Qwen3-32B โดยลดต้นทุนการฝึกลงเหลือต่ำกว่า 10%
  • การเปิดตัวครั้งนี้มอบ ความก้าวหน้าด้านสถาปัตยกรรมล้ำสมัย ให้แก่ชุมชนโอเพนซอร์ส และปูพื้นฐานสู่การพัฒนา Qwen3.5 เพื่อยกระดับความฉลาดและผลิตภาพ

บทนำ

  • ด้วยความเชื่อว่า การขยายความยาวบริบท และ การขยายจำนวนพารามิเตอร์ทั้งหมด คือแนวโน้มสำคัญของโมเดลขนาดใหญ่ในอนาคต จึงได้ออกแบบสถาปัตยกรรมโมเดลใหม่ชื่อ Qwen3-Next เพื่อเพิ่มประสิทธิภาพการฝึกและการอนุมานในสภาพแวดล้อมที่มีบริบทยาวและพารามิเตอร์จำนวนมาก
  • เมื่อเทียบกับโครงสร้าง MoE ของ Qwen3 ได้มีการนำการปรับปรุงสำคัญหลายประการมาใช้ เช่น กลไก attention แบบไฮบริด, โครงสร้าง MoE ที่ sparse สูงมาก, การเพิ่มเสถียรภาพของการฝึก และกลไกการทำนายหลายโทเค็นเพื่อการอนุมานที่รวดเร็วยิ่งขึ้น
  • บนพื้นฐานของสถาปัตยกรรมนี้ ได้ฝึกโมเดล Qwen3-Next-80B-A3B-Base ซึ่งเป็นโมเดลขนาด 80B พารามิเตอร์ โดยจะเปิดใช้งานเพียง 3B พารามิเตอร์ระหว่างการอนุมาน
  • โมเดลพื้นฐานนี้ให้ประสิทธิภาพเทียบเท่าหรือดีกว่าเล็กน้อยเมื่อเทียบกับโมเดล dense แบบ Qwen3-32B ขณะใช้ต้นทุนการฝึก (เวลา GPU) ต่ำกว่า 10%
  • โดยเฉพาะอย่างยิ่ง ที่ความยาวบริบทมากกว่า 32K โทเค็น สามารถให้ throughput สูงกว่ามากกว่า 10 เท่า จึงบรรลุ ประสิทธิภาพขั้นสุด ทั้งในการฝึกและการอนุมาน
  • จาก Qwen3-Next-80B-A3B-Base ได้มีการพัฒนาและเปิดตัวรุ่น post-training สองรุ่นคือ Qwen3-Next-80B-A3B-Instruct และ Qwen3-Next-80B-A3B-Thinking
  • แก้ปัญหาความไม่เสถียรและประสิทธิภาพในการฝึก reinforcement learning (RL) ที่ยืดเยื้อมายาวนาน ซึ่งเกิดจากสถาปัตยกรรม hybrid attention และ high-sparsity MoE ทำให้ทั้งความเร็วในการฝึก RL และประสิทธิภาพสุดท้ายดีขึ้น
  • Qwen3-Next-80B-A3B-Instruct ให้ประสิทธิภาพเทียบเท่ากับโมเดลเรือธง Qwen3-235B-A22B-Instruct-2507 และแสดงความได้เปรียบชัดเจนใน งานบริบทยาวพิเศษ สูงสุด 256K โทเค็น
  • Qwen3-Next-80B-A3B-Thinking โดดเด่นในงานให้เหตุผลที่ซับซ้อน โดยเหนือกว่าโมเดลต้นทุนสูงกว่าอย่าง Qwen3-30B-A3B-Thinking-2507 และ Qwen3-32B-Thinking รวมถึงแซงหน้า Gemini-2.5-Flash-Thinking แบบปิดซอร์สในหลายเบนช์มาร์ก และเข้าใกล้ประสิทธิภาพของโมเดลระดับท็อป Qwen3-235B-A22B-Thinking-2507
  • Qwen3-Next เปิดให้ใช้งานแล้วบน Hugging Face และ ModelScope และทุกคนสามารถใช้บริการ Qwen3-Next ผ่าน Alibaba Cloud Model Studio และ NVIDIA API Catalog ได้

ฟีเจอร์หลัก

  • สถาปัตยกรรมไฮบริด: Gated DeltaNet + Gated Attention อาศัยข้อดีที่ linear attention สามารถทำลายข้อจำกัดความซับซ้อนกำลังสองของ standard attention และมีประสิทธิภาพมากกว่าในบริบทยาว
    • พบว่า linear attention นั้นเร็วแต่มีจุดอ่อนด้าน recall ขณะที่ standard attention มีต้นทุนสูงและช้า และจากการทดลองอย่างเป็นระบบยืนยันว่า Gated DeltaNet ให้ความสามารถในการเรียนรู้ในบริบทที่แข็งแกร่งกว่าวิธีทั่วไปอย่าง Sliding Window Attention หรือ Mamba2
    • ผสม Gated DeltaNet เข้ากับ standard attention ในอัตราส่วน 3:1 (75% ของเลเยอร์ใช้ Gated DeltaNet และอีก 25% คง standard attention ไว้) เพื่อให้ได้ทั้งประสิทธิภาพและความคุ้มค่าที่ดีกว่าสถาปัตยกรรมเดี่ยวอย่างสม่ำเสมอ
    • ใช้กลไก output gating ในเลเยอร์ standard attention เพื่อลดปัญหา low-rank ของ attention และเพิ่มมิติต่อ attention head จาก 128 เป็น 256
    • ใช้ rotary positional encoding กับเพียง 25% แรกของมิติตำแหน่ง เพื่อปรับปรุงการ extrapolate ไปยังลำดับที่ยาวขึ้น
  • MoE แบบ sparse สูงพิเศษ: เปิดใช้งานเพียง 3.7% ของพารามิเตอร์ โดย Qwen3-Next ใช้การออกแบบ MoE ที่ sparse สูง ซึ่งเปิดใช้งานเพียงราว 3B จากพารามิเตอร์ทั้งหมด 80B ในแต่ละขั้นของการอนุมาน
    • การทดลองแสดงให้เห็นว่า เมื่อคงจำนวน expert ที่ถูกเปิดใช้งานไว้ผ่าน global load balancing แล้วเพิ่มพารามิเตอร์ของ expert โดยรวม จะทำให้ training loss ลดลงอย่างต่อเนื่อง
    • เมื่อเทียบกับ MoE ของ Qwen3 (expert รวม 128 ตัว, routing 8 ตัว) Qwen3-Next ได้ขยายเป็น expert รวม 512 ตัว และผสม expert สำหรับ routing 10 ตัว + shared expert 1 ตัว เพื่อใช้ทรัพยากรให้เต็มที่โดยไม่ลดทอนประสิทธิภาพ
  • การออกแบบที่เอื้อต่อเสถียรภาพในการฝึก โดยกลไก attention output gating ช่วยขจัดปัญหาอย่าง Attention Sink และ Massive Activation เพื่อรับประกันเสถียรภาพเชิงตัวเลขของทั้งโมเดล
    • พบว่าใน QK-Norm ที่ใช้ใน Qwen3 มีปัญหาที่น้ำหนัก layer norm ของบางเลเยอร์เติบโตผิดปกติ ดังนั้น Qwen3-Next จึงใช้ Zero-Centered RMSNorm และใช้ weight decay กับค่าน้ำหนักของ norm เพื่อป้องกันการเติบโตไม่สิ้นสุด
    • ทำ normalization ให้กับพารามิเตอร์ของ MoE router ระหว่างการ initialize เพื่อให้ในช่วงต้นของการฝึกแต่ละ expert ถูกเลือกอย่างไม่ลำเอียง ลด noise ที่เกิดจากการสุ่มค่าเริ่มต้น
    • การออกแบบที่เน้นเสถียรภาพเหล่านี้ทำให้การทดลองขนาดเล็กเชื่อถือได้มากขึ้น และช่วยให้การฝึกขนาดใหญ่ดำเนินไปอย่างราบรื่น
    โฆษณา
  • การทำนายหลายโทเค็น โดย Qwen3-Next นำกลไก native multi-token prediction (MTP) มาใช้ ซึ่งไม่เพียงสร้างโมดูล MTP ที่มีอัตราการยอมรับสูงสำหรับ speculative decoding แต่ยังยกระดับประสิทธิภาพโดยรวมด้วย
    • Qwen3-Next ปรับแต่งประสิทธิภาพการอนุมานแบบหลายขั้นของ MTP โดยเฉพาะ และยังเพิ่มอัตราการยอมรับของ speculative decoding ในสถานการณ์จริงเพิ่มเติมผ่านการฝึกแบบหลายขั้นที่รักษาความสอดคล้องระหว่างการฝึกและการอนุมาน

การฝึกล่วงหน้า

  • ประสิทธิภาพการฝึกล่วงหน้าและความเร็วในการอนุมาน: Qwen3-Next ได้รับการฝึกบนชุดย่อยที่สุ่มอย่างสม่ำเสมอ (15T โทเค็น) จากคอร์ปัส pre-training 36T โทเค็นของ Qwen3
    • ใช้เวลา GPU น้อยกว่า 80% ของที่ต้องใช้สำหรับ Qwen3-30A-3B และใช้ต้นทุนการคำนวณเพียง 9.3% ของ Qwen3-32B แต่กลับได้ประสิทธิภาพที่ดีกว่า แสดงให้เห็นถึงประสิทธิภาพการฝึกและความคุ้มค่าที่ยอดเยี่ยม
    • ด้วยสถาปัตยกรรมไฮบริด จึงโดดเด่นในการอนุมานด้วยเช่นกัน โดยในช่วง prefill ที่บริบทยาว 4K มี throughput สูงกว่า Qwen3-32B เกือบ 7 เท่า
    • ที่มากกว่า 32K เร็วกว่าเกิน 10 เท่า
    • ในช่วง decode ที่บริบทยาว 4K มี throughput สูงกว่าเกือบ 4 เท่า และที่มากกว่า 32K ก็ยังรักษาความได้เปรียบด้านความเร็วมากกว่า 10 เท่าไว้ได้
  • ประสิทธิภาพของโมเดลพื้นฐาน: Qwen3-Next-80B-A3B-Base เปิดใช้งานพารามิเตอร์ non-embedding เพียง 1/10 ของ Qwen3-32B-Base แต่กลับเหนือกว่าในเบนช์มาร์กส่วนใหญ่ และยังแซงหน้า Qwen3-30B-A3B อย่างชัดเจน แสดงให้เห็นถึงประสิทธิภาพอันโดดเด่นและพลังของโมเดล

การฝึกหลังโมเดล

  • ประสิทธิภาพของโมเดล Instruct: Qwen3-Next-80B-A3B-Instruct เหนือกว่า Qwen3-30B-A3B-Instruct-2507 และ Qwen3-32B-Non-thinking อย่างชัดเจน และให้ผลลัพธ์ที่แทบจะตรงกับโมเดลเรือธง Qwen3-235B-A22B-Instruct-2507
    • บน RULER, Qwen3-Next-80B-A3B-Instruct เหนือกว่า Qwen3-30B-A3B-Instruct-2507 ซึ่งมี attention layer มากกว่า ในทุกความยาว และยังแซง Qwen3-235B-A22B-Instruct-2507 ซึ่งมีจำนวนเลเยอร์รวมมากกว่า ภายในบริบท 256K พิสูจน์จุดแข็งของการออกแบบไฮบริด Gated DeltaNet + Gated Attention สำหรับงานบริบทยาว
    โฆษณา
  • ประสิทธิภาพของโมเดล Thinking: Qwen3-Next-80B-A3B-Thinking เหนือกว่าโมเดลต้นทุนสูงกว่าอย่าง Qwen3-30B-A3B-Thinking-2507 และ Qwen3-32B-Thinking
    • แซงหน้า Gemini-2.5-Flash-Thinking แบบปิดซอร์สในหลายเบนช์มาร์ก และเข้าใกล้ Qwen3-235B-A22B-Thinking-2507 ซึ่งเป็นโมเดลเรือธงล่าสุดในตัวชี้วัดสำคัญ

พัฒนาด้วย Qwen3

  • Hugging Face Transformers โดยโค้ดของ Qwen3-Next ถูกรวมเข้ากับ main branch ของ Hugging Face transformers แล้ว
    • เวอร์ชันก่อนหน้านี้อาจเกิดข้อผิดพลาดได้
    • มี code snippet ที่สาธิตเนื้อหาที่โมเดลสร้างจากอินพุตที่กำหนด
    • multi-token prediction (MTP) ยังไม่พร้อมใช้งานทั่วไปใน Hugging Face Transformers
    • การปรับปรุงด้านประสิทธิภาพหรือ throughput ขึ้นอยู่กับการติดตั้งใช้งานอย่างมาก
    • สำหรับงานอนุมาน แนะนำให้ใช้เฟรมเวิร์กอนุมานเฉพาะทางอย่าง SGLang และ vLLM
    • การใช้ flash-linear-attention และ causal-conv1d อาจให้ประสิทธิภาพที่ดีกว่า ขึ้นอยู่กับการตั้งค่าการอนุมาน
    • ดูรายละเอียดคำแนะนำและข้อกำหนดเพิ่มเติมได้จากลิงก์ที่เกี่ยวข้อง
    • สำหรับการดีพลอย ให้ใช้ sglang หรือ vllm เวอร์ชันล่าสุดเพื่อสร้าง OpenAI-compatible API endpoint
  • SGLang เป็นเฟรมเวิร์กสำหรับเสิร์ฟโมเดลขนาดใหญ่และโมเดล vision-language ที่รวดเร็ว โดยสามารถเริ่มเซิร์ฟเวอร์ที่มีบริการ API แบบเข้ากันได้กับ OpenAI ได้
    • SGLang รองรับ Qwen3-Next บน main branch และสามารถติดตั้งจากซอร์สได้
    • มีคำสั่งสำหรับสร้าง API endpoint ที่ http://localhost:30000/v1 ด้วย tensor parallel บน 4 GPU และความยาวบริบทสูงสุด 256K โทเค็น
    • มีคำสั่งแนะนำสำหรับ MTP โดยใช้การตั้งค่าอื่นเหมือนด้านบน
    • ปัจจุบันต้องใช้ตัวแปรสภาพแวดล้อม SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
    • ความยาวบริบทเริ่มต้นคือ 256K และหากเซิร์ฟเวอร์เริ่มทำงานไม่สำเร็จ ควรพิจารณาลดลงเป็นค่าที่เล็กกว่า เช่น 32768
    โฆษณา
  • vLLM เป็นเอนจินอนุมานและเสิร์ฟสำหรับ LLM ที่มี throughput สูงและใช้หน่วยความจำอย่างมีประสิทธิภาพ โดยสามารถเริ่มเซิร์ฟเวอร์ที่มีบริการ API แบบเข้ากันได้กับ OpenAI ได้
    • vLLM รองรับ Qwen3-Next บน main branch และสามารถติดตั้งจากซอร์สได้
    • มีคำสั่งสำหรับสร้าง API endpoint ที่ http://localhost:8000/v1 ด้วย tensor parallel บน 4 GPU และความยาวบริบทสูงสุด 256K โทเค็น
    • มีคำสั่งแนะนำสำหรับ MTP โดยใช้การตั้งค่าอื่นเหมือนด้านบน
    • ปัจจุบันต้องใช้ตัวแปรสภาพแวดล้อม VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
    • ความยาวบริบทเริ่มต้นคือ 256K และหากเซิร์ฟเวอร์เริ่มทำงานไม่สำเร็จ ควรพิจารณาลดลงเป็นค่าที่เล็กกว่า เช่น 32768
  • การใช้งานแบบ Agentic: Qwen3 โดดเด่นด้านความสามารถในการเรียกใช้เครื่องมือ และแนะนำให้ใช้ Qwen-Agent เพื่อดึงความสามารถเชิงเอเจนต์ของ Qwen3 ออกมาได้สูงสุด
    • Qwen-Agent ครอบ encapsulate template การเรียกใช้เครื่องมือและ parser สำหรับการเรียกใช้เครื่องมือไว้ภายใน จึงลดความซับซ้อนในการเขียนโค้ดได้อย่างมาก
    • สามารถใช้ไฟล์การตั้งค่า MCP เพื่อกำหนดเครื่องมือที่ใช้งานได้ ใช้เครื่องมือแบบรวมของ Qwen-Agent หรือใช้เครื่องมือรวมที่สร้างเองก็ได้
  • การประมวลผลข้อความยาวพิเศษ: Qwen3-Next รองรับความยาวบริบทสูงสุด 262,144 โทเค็นแบบ native
    • สำหรับบทสนทนาที่ความยาวรวมของอินพุตและเอาต์พุตเกินขีดจำกัดนี้มาก แนะนำให้ใช้เทคนิคการสเกล RoPE เช่น YaRN เพื่อจัดการข้อความยาวได้อย่างมีประสิทธิภาพ
    • มีการตรวจสอบประสิทธิภาพของโมเดลที่ใช้ YaRN กับความยาวบริบทสูงสุด 1 ล้านโทเค็น
    • ปัจจุบัน YaRN รองรับในหลายเฟรมเวิร์กอนุมาน เช่น transformers, vllm และ sglang
    • มีสองแนวทางในการเปิดใช้ YaRN ในเฟรมเวิร์กที่รองรับ คือแก้ไขไฟล์โมเดลหรือส่งผ่านอาร์กิวเมนต์บรรทัดคำสั่ง
    • เพิ่มฟิลด์ rope_scaling ในไฟล์ config.json
    • สำหรับ vllm ให้ใช้อาร์กิวเมนต์บรรทัดคำสั่ง
    • สำหรับ sglang ให้ใช้อาร์กิวเมนต์บรรทัดคำสั่ง
    • เฟรมเวิร์กโอเพนซอร์สหลักทั้งหมดใช้ static YaRN ซึ่งทำให้ scaling factor คงที่ไม่ว่าความยาวอินพุตจะเป็นเท่าใด และอาจมีผลต่อประสิทธิภาพของข้อความสั้น
    • แนะนำให้เพิ่มการตั้งค่า rope_scaling เฉพาะเมื่อจำเป็นต้องประมวลผลบริบทยาวเท่านั้น
    • แนะนำให้ปรับ factor ตามความต้องการ เช่น หากแอปพลิเคชันของคุณมีความยาวบริบททั่วไปที่ 524,288 โทเค็น ให้ตั้งค่า factor เป็น 2.0

สรุป

  • Qwen3-Next แสดงถึงการก้าวกระโดดครั้งสำคัญของสถาปัตยกรรมโมเดล ด้วยการนำนวัตกรรมในกลไก attention อย่าง linear attention และ attention gate มาใช้ พร้อมเพิ่มความ sparse ในการออกแบบ MoE
  • Qwen3-Next-80B-A3B ให้ประสิทธิภาพเทียบเท่า Qwen3-235B-A22B-2507 ที่มีขนาดใหญ่กว่า ทั้งในโหมด thinking และ non-thinking พร้อมให้การอนุมานที่เร็วขึ้นอย่างมากในสถานการณ์บริบทยาว
  • ด้วยการเปิดตัวครั้งนี้ จึงมุ่งเสริมพลังให้ชุมชนโอเพนซอร์สด้วยความก้าวหน้าด้านสถาปัตยกรรมล้ำสมัย และเดินหน้าพัฒนาไปพร้อมกับวิวัฒนาการของสถาปัตยกรรมระดับแนวหน้า

1 ความคิดเห็น

 
GN⁺ 2025-09-13
ความคิดเห็นบน Hacker News
  • ส่วนที่เจ๋งที่สุดของ Qwen3-Next คือหลังจากใช้ linear attention แล้ว ก็เพิ่ม MTP (Multi-Token Prediction) เข้ามาโดยไม่ต้องเพิ่ม un-embedding matrix เพิ่มเติม แม้ว่า Deepseek R1 ก็มี MTP ที่เลเยอร์ที่ 61 เหมือนกัน แต่จะต้องเพิ่มเทนเซอร์ขนาดใหญ่อย่าง embed_tokens และ shared_head.head (ขนาดราว 2GB แบบ FP8) เข้าไป ทำให้ Qwen3-Next จัดการ MTP ได้ด้วยพารามิเตอร์ที่ active น้อยกว่ามาก และประหยัดหน่วยความจำได้เป็นระดับ GB ส่งผลให้ความเร็วในการอนุมานเพิ่มขึ้นอย่างชัดเจน
    • อยากรู้ว่า MTP ให้ประโยชน์อะไรจริง ๆ ในขั้นตอน inference หรือเกี่ยวข้องแค่กับประสิทธิภาพในช่วง pretraining เท่านั้น
    • อยากรู้ว่าความต่างระหว่าง MTP กับ Medusa heads คืออะไร และโมเดลนี้รองรับ speculative decoding แบบ “native” หรือไม่ ถ้ารันโมเดลนี้บน vllm จะได้ประโยชน์ของ speculative decoding ทันทีเลยหรือเปล่า เพราะมี MTP มาให้แล้ว
    • ถ้ามีแหล่งข้อมูลที่อธิบายคำพวกนี้ทั้งหมดแบบเข้าใจง่ายในที่เดียว รบกวนแนะนำด้วย
  • Alibaba ยังปล่อยโมเดลที่น่าทึ่งออกมาอย่างต่อเนื่องจริง ๆ ลองใช้ Qwen3-Next-80B-A3B บน Qwen Chat แล้ว เร็วมาก และคุณภาพก็ดูใกล้เคียงกับ Qwen3-235B-A22B มาก น่าประทับใจว่าเขาทำได้อย่างไร กำลังรอดูว่า benchmark จะขึ้นบน Artificial analysis เมื่อไร ตามข้อมูลใน Qwen Chat ข้อจำกัดของ Qwen3-Next คือรองรับ context length สูงสุด 262,144 token และ summary generation สูงสุด 32,768 token เมื่อเทียบกับ Qwen3-235B-A22B แล้ว context มากกว่า 2 เท่า และ summary มากกว่า 4 เท่า จุดแข็งคือการเข้าใจบริบทยาว ๆ และจัดการงานซับซ้อน ถึงอย่างนั้นฉันก็น่าจะยังใช้ Qwen2.5-Turbo ต่อไป เพราะเป็นหนึ่งในไม่กี่โมเดลที่รองรับ 1M token context ซึ่งเหมาะกับการใช้งานของฉันมากกว่า ที่อัปโหลด PDF ขนาดใหญ่แล้วถามข้ามหลายบท
    • ถึง frontier model จะบอกว่ารองรับ context ยาวมาก แต่ในทางปฏิบัติดูเหมือนว่าความแม่นยำจะตกลงอย่างหนักเมื่อ context ยาวขึ้น ต่อให้บอกว่ารองรับ 10M context แต่ถ้าใส่จนเต็มจริง ๆ ก็มักทำงานได้ไม่ดี อยากรู้เหมือนกันว่าคนอื่นคิดเห็นอย่างไร
    • ดูจาก model card แล้ว Qwen3-Next เองก็ขยายไปถึง context length สูงสุด 1M ได้ด้วย YaRN ตามคำอธิบายอย่างเป็นทางการ Qwen3-Next รองรับ context ได้ 262,144 token เป็นค่าเริ่มต้น และเมื่อผลรวมของ input+output token เกินกว่านั้นมาก ก็มีการยืนยันแล้วว่าสามารถประมวลผลได้ถึง 1M token ผ่านวิธีอย่าง RoPE scaling หรือ YaRN ที่มา
    • โมเดลปิดของ Alibaba ก็ประสิทธิภาพดีมากเช่นกัน แต่กลับไม่ค่อยเป็นที่รู้จัก และแทบไม่ค่อยโผล่ใน benchmark เลย Qwen3-coder-plus ดีกว่า qwen3 แบบโอเพนซอร์สอย่างมาก และ Qwen3 max ก็อยู่ในระดับที่แข่งกับโมเดล SOTA ได้
    • อยากรู้ว่าคุณเตรียมข้อมูล PDF อย่างไรก่อนจะป้อนเข้า Qwen
  • ลองสั่ง llm ให้ Qwen3-Next-80B-A3B-Thinking วาด “ASCII ของ spongebob” แล้วได้ออกมาเป็นแค่รูปง่าย ๆ พื้นฐานมาก แต่พอใช้ Qwen3-Coder-480B-A35B-Instruct กลับได้ SpongeBob ASCII ที่สมบูรณ์กว่ามาก ตอนกลางคืนลองหลายครั้งแล้วพบว่า Qwen3-coder มักวาด ASCII หลายแบบที่ช่วงขาหายไปหรือปิดงานไม่เรียบร้อย แต่พอตอนเช้าใช้พรอมป์เดียวกันกลับออกมาสมบูรณ์แบบในครั้งเดียว เลยสงสัยว่าการใช้ทรัพยากร (เซิร์ฟเวอร์, API) หรือสถานะระบบมีผลต่อคุณภาพคำตอบหรือไม่ หรือเป็นเรื่องดวงล้วน ๆ ลองใหม่อีกไม่กี่นาทีต่อมาก็ล้มเหลวอีก ดังนั้นคงประมาณว่ามีโอกาสสำเร็จ 1 ใน 10 และแทบไม่ค่อยเกิดกับ Qwen3-next
    • รู้สึกเหมือนโมเดลจำ SpongeBob ASCII นี้มาแบบทั้งก้อน
    • คิดว่าน่าจะมีการ distillation หรือมีการแชร์ข้อมูลฝึกระหว่าง Kimi K2 กับ Qwen Coder (หรือโมเดลที่เกี่ยวข้องอื่น ๆ) เพราะลองใช้ LLM มาหลายตัว แต่มีแค่ Kimi K2 ที่ให้ SpongeBob ASCII แบบเดียวกับ Qwen3-coder เป๊ะ Kimi K2 ก็สร้าง SpongeBob ASCII ออกมาได้เหมือนกันทุกประการ
    • การทดสอบ SpongeBob ASCII เอามาจากโซเชียลทางการของ Qwen และโดยพื้นฐานแล้วเป็น probe สำหรับวัด rote-memorization หรือการท่องจำแบบฉีดตรง ถ้าเป็น dense model ขนาดใหญ่ก็อาจจำทั้งก้อนได้ด้วยความจุของพารามิเตอร์ แต่ในสถาปัตยกรรม sparse-MoE ของ Qwen3 จะมี noise จากการเลือก expert หรือการสุ่ม token เพิ่มเข้ามา ทำให้ alignment ของภาพละเอียด ๆ พังได้ง่ายกว่าเดิม อีกทั้งยังมีโครงสร้างใหม่อย่าง gated-attention และ multi-token head เพิ่มเข้ามาอีก แค่ unlucky expert routing ครั้งเดียวก็อาจทำให้การจัดวางภาพเพี้ยนได้ และ Qwen3-coder เองก็ถูกฝึกมาเฉพาะทางด้านนี้ ทำให้การเปรียบเทียบไม่ยุติธรรมด้วย ลองเทียบผล ASCII จากโมเดลอื่นในตระกูล Qwen3 แล้ว พบว่าออกมาหลากหลายมาก
  • น่าทึ่งที่ MoE พัฒนามาไกลได้ขนาดนี้เพราะ Qwen Qwen3-Next เหนือกว่าโมเดล dense 72B รุ่นก่อนอย่างชัดเจน และถ้าทำ offload VRAM กับ CPU ได้ดี มันยังทำงานได้เร็วกว่าโมเดล 14B ด้วยซ้ำ ประสิทธิภาพระดับนี้ถือว่าสุดยอดจริง ๆ
    • ไม่ใช่ว่า LLM พัฒนาขึ้นเพราะ Qwen แต่ SOTA LLM นั้นเป็น MoE มาตั้งแต่ GPT-4 แล้ว น่าเสียดายที่ HN ตามเทรนด์ช้าเกินไปจนเรื่อง AI มีแต่คอมเมนต์ที่ไม่ค่อยมีประโยชน์เต็มไปหมด
    • พอมองย้อนกลับไป สิ่งที่ Meta ทุ่มทรัพยากรมหาศาลเพื่อฝึก dense 405B เมื่อปีที่แล้วกลับดูน่าขำ เพราะโมเดลทั้งใหญ่แต่ประสิทธิภาพจริงกลับยังด้อยกว่าโมเดลที่เล็กกว่ามัน 1/10 และในโลกความจริงก็ไม่มีฮาร์ดแวร์ไหนรันมันได้เร็วพอจะใช้งานได้จริง
  • เพิ่ม Qwen3 Next เข้าไปใน Brokk Power Ranking open round (benchmark ด้านการเขียนโค้ด) แล้ว ด้านประสิทธิภาพใกล้เคียง GPT-OSS-20b ผลลัพธ์ของโมเดลโอเพนซอร์สทั้งหมดดูได้ที่นี่
    • ถ้าเพิ่มหลายภาษาเข้ามาได้ benchmark นี้น่าจะมีประโยชน์มากขึ้น ตอนนี้วัดแค่ Java แต่ในการใช้งานจริงฉันใช้ภาษาอื่นเป็นหลัก จึงทำให้ผล benchmark ไม่ตรงกับประสบการณ์จริง
    • อยากรู้ว่า Kimi K2 ที่ลงทะเบียนไว้เป็นเวอร์ชันล่าสุดหรือเป็น Kimi k2 รุ่นเก่า
  • Oracle คาดการณ์ว่าสัปดาห์นี้ความต้องการดาต้าเซ็นเตอร์จะพุ่งสูงขึ้น และราคาหุ้นก็ปรับขึ้นตาม ถ้าการเพิ่มประสิทธิภาพของ LLM ได้ 10 เท่าเป็นเรื่องจริง ความต้องการต่อ Nvidia, Oracle, Coreweave และรายอื่น ๆ อาจลดลงได้
    • น่าจะต้องคิดถึงปรากฏการณ์ทางเศรษฐศาสตร์อย่าง Jevons paradox
    • แยกจากมุมมองของ Oracle แล้ว ผมไม่คิดว่าประสิทธิภาพที่ดีขึ้นจะนำไปสู่ความต้องการที่ลดลงโดยตรง เหมือน Jevons paradox ที่เมื่อมีประสิทธิภาพมากขึ้น คนกลับอาจใช้งานมากขึ้น
    • ตอน deepseek-r1 ก็มีคนพูดแบบเดียวกัน แต่ความจริงก็ไม่ได้เปลี่ยนไป ถ้าทำให้โมเดลมีประสิทธิภาพขึ้น 10 เท่า ทุกคนก็จะพยายามฝึกโมเดลที่ใหญ่ขึ้น 10 เท่าอยู่ดี ไม่มีใครหยุดแล้วบอกว่า “ขนาดเท่านี้พอแล้ว” ตราบใดที่ scaling ยังส่งผลต่อประสิทธิภาพ
    • ไม่มีทางเป็นแบบนั้นเลย พฤติกรรมของตลาดแสดงชัดว่าคนยินดีจ่ายเพื่อคุณภาพที่ดีที่สุดเสมอ และราคาก็มักจะใกล้เคียงเดิม พอมีโมเดลใหม่ออกมา โมเดลเก่าที่คุณภาพต่ำกว่า (แต่ถูกกว่า) ก็จะถูกเมินทันที ผู้คนต้องการแค่โมเดลที่ดีกว่าในราคาเท่าเดิม รอบนี้ก็น่าจะเป็นเหมือนเดิม
    • ถ้าฟองสบู่ AI แตกขึ้นมาจริง ๆ จนดาต้าเซ็นเตอร์กับ GPU เหลือเฟือ อยากรู้ว่าจะมีวิธีไหนบ้างในการใช้ประโยชน์จากสถานการณ์นั้นเพื่อทำกำไรจากการลงทุน
  • ถ้าสนใจ Gated Delta Network ดูงานวิจัยนี้ได้ ลิงก์ arxiv
    • ส่วนงานวิจัยเกี่ยวกับ Gated Attention ดูได้ที่นี่
  • Qwen3-Next ค่อนข้างน่าประทับใจ และคิดว่านวัตกรรมในอนาคตจะมาจากสถาปัตยกรรมที่ดีกว่า ไม่จำเป็นว่าต้องมีพารามิเตอร์เกิน 100B แบบ GPT OSS 120B เสมอไป
    • แน่นอนว่าพารามิเตอร์ยิ่งมากยิ่งดี โมเดลที่มีพารามิเตอร์น้อยมักหลอนบ่อยกว่า เพียงแต่ถ้ามีพารามิเตอร์ที่ active น้อยและมี routing ดี ก็อาจโอเคได้
    • สถาปัตยกรรมใหม่ดูน่าสนใจมาก และก็แปลกดีที่เปิดเผยออกมาแบบโอเพนทันที อย่างไรก็ตาม โมเดลตระกูล Qwen มีแนวโน้ม overfit ค่อนข้างมาก มักเก่งเฉพาะบางงาน และยังมีข้อจำกัดด้านการ generalize เมื่อเทียบกับโมเดลปิด ไม่แน่ใจว่าเป็นแค่ปัญหาเรื่อง scale หรือเกี่ยวกับ recipe/วิธีการฝึกด้วย เวลาทดสอบแบบ OOD (out-of-distribution) คุณค่าของมันจะลดลงอย่างรวดเร็ว ขณะที่โมเดลปิดยังคงมีจุดแข็งอยู่
  • คาดการณ์ว่า ภายใน 4 ปีข้างหน้า AI จะมีระดับสูงกว่าโมเดล SOTA ปัจจุบันอีกราว 15 IQ point (พร้อม context length ที่ยาวกว่ามาก) และจะกลายเป็นสินค้าแบบสาธารณะทั่วไปที่ใครก็เข้าถึงได้ง่าย เมื่อถึงจุดที่การปรับปรุงการฝึกด้วย synthetic data ชนเพดาน (หลังจาก “ข้อมูลจริง (real)” ถูกใช้หมดแล้ว) โมเดลโอเพนซอร์สจะถูกฝึกอย่างประหยัดโดยอาศัยเอาต์พุตจากโมเดลทุนใหญ่ หลังจากนั้นการพัฒนา AI จะชะงักลง จนกว่าจะมีวิธีฝึกปัญญาทั่วไปด้วย competitive reinforcement learning (เหมือนที่ AlphaGo ถูกฝึกมา) เมื่อวิธีนี้เกิดขึ้น ก็จะไม่ต้องใช้ข้อมูลฝึกมหาศาลอีกต่อไป และน่าจะนำไปสู่ AGI ที่แท้จริง
    • ฉันไม่เข้าใจแนวคิดเรื่อง “ใช้ข้อมูลจริงหมดแล้ว” เลย ทุกวันบนอินเทอร์เน็ตมีทั้งความรู้ใหม่ งานวิจัยวิทยาศาสตร์ และวิดีโอใหม่ ๆ ออกมา จะบอกว่าข้อมูลหมดได้อย่างไร
    • ถ้าสมมติว่าโมเดลล้ำหน้าปัจจุบันอยู่แถว IQ 120 ตามมาตรฐานของมนุษย์ (ไม่รู้แม่นไหม แต่ถ้าอ้างอิงตาม ที่นี่ ก็ประมาณนั้น) ต่อไปเราอาจได้เห็นบอตแบบ ultra-engaged ระดับ IQ 135 โผล่มาเป็นจำนวนมาก ซึ่งยากมากที่จะจินตนาการว่ามันจะมีความหมายอย่างไรในโลกจริง
  • แม้จะเป็นโมเดล 80B แต่ช่วงนี้ฉันสนใจโมเดลขนาดไม่เกิน 32B ที่รันบน MacBook Pro (M4, 64GB) ได้สบายมากกว่า ใช้ ollama ทุกวันสำหรับกรองสแปม โดย gemma3:27b ทำได้ดีมาก และ gpt-oss:20b ก็เร็วด้วยเลยใช้บ่อย
    • ถ้าช่วยอธิบายเพิ่มเติมได้จะดีมากว่าคุณใช้ Ollama กรองสแปมอย่างไร
    • แม้พารามิเตอร์รวมของโมเดลจะเป็น 80B แต่ตอน inference จะมี active อยู่ราว 3B เท่านั้น ฉันยังรัน Qwen3 30B รุ่น 2507 เก่าได้สบายบนการ์ด Nvidia 8GB
    • ด้วยความที่เป็นโครงสร้าง MoE มันน่าจะรันได้ดีมาก