4 คะแนน โดย GN⁺ 14 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็นโมเดลโอเพนซอร์สที่ใช้สถาปัตยกรรม Sparse Mixture-of-Experts (MoE) โดยจากทั้งหมด 35 พันล้านพารามิเตอร์ จะมีการเปิดใช้งานเพียง 3 พันล้านพารามิเตอร์ ทำให้ได้ทั้งประสิทธิภาพและสมรรถนะพร้อมกัน
  • เมื่อเทียบกับรุ่นก่อนหน้า ความสามารถด้าน การเขียนโค้ดแบบเอเจนต์ ดีขึ้นอย่างมาก และมีระดับที่สามารถแข่งขันกับโมเดล dense ขนาดใหญ่อย่าง Qwen3.5-27B หรือ Gemma4-31B ได้
  • ทำคะแนนสูงใน เบนช์มาร์กด้านการเขียนโค้ด หลัก ๆ เช่น SWE-bench, Terminal-Bench และ Claw-Eval และยังทำผลงานด้านงานมัลติโมดัลได้ในระดับ Claude Sonnet 4.5
  • เปิดให้เข้าถึงทั้ง น้ำหนักโมเดลแบบสาธารณะและ API ผ่าน Alibaba Cloud Model Studio API, Hugging Face และ ModelScope พร้อมรองรับการเชื่อมต่อกับเครื่องมือเขียนโค้ดหลากหลาย เช่น OpenClaw และ Claude Code
  • นำเสนอ มาตรฐานใหม่ของโมเดลโอเพนที่มีประสิทธิภาพ ด้วยพารามิเตอร์ที่เปิดใช้งานเพียง 3 พันล้านตัว แต่ให้สมรรถนะทัดเทียมโมเดลขนาดใหญ่

ภาพรวมของ Qwen3.6-35B-A3B

  • Qwen3.6-35B-A3B เป็นโมเดล Sparse Mixture-of-Experts (MoE) ที่มีการเปิดใช้งานเพียง 3 พันล้านพารามิเตอร์จากทั้งหมด 35 พันล้านพารามิเตอร์ เป็นโมเดลโอเพนซอร์สที่มีทั้งประสิทธิภาพและสมรรถนะ
  • เมื่อเทียบกับเวอร์ชันก่อนหน้าอย่าง Qwen3.5-35B-A3B ประสิทธิภาพด้าน agentic coding ดีขึ้นอย่างมาก และอยู่ในระดับที่แข่งขันกับโมเดล dense ขนาดใหญ่อย่าง Qwen3.5-27B หรือ Gemma4-31B ได้
  • รองรับทั้ง โหมดการให้เหตุผลแบบมัลติโมดัลและโหมดไม่ให้เหตุผล และเปิดให้ใช้งานผ่าน Qwen Studio, API, Hugging Face และ ModelScope
  • สามารถใช้งานโมเดลแบบโต้ตอบได้ใน Qwen Studio เรียกใช้งานผ่าน Alibaba Cloud Model Studio API(qwen3.6-flash) หรือโฮสต์ใช้งานเองได้โดยตรง

การประเมินประสิทธิภาพ

  • ประสิทธิภาพด้านภาษาและการเขียนโค้ด

    • Qwen3.6-35B-A3B ใช้พารามิเตอร์ที่เปิดใช้งานเพียง 3 พันล้านตัว แต่ทำผลงานเหนือกว่า Qwen3.5-27B (โมเดล dense 27 พันล้านพารามิเตอร์) ในหลายเบนช์มาร์กการเขียนโค้ดหลัก
    • ทำคะแนนสูง เช่น SWE-bench Verified 73.4, Terminal-Bench 51.5 และค่าเฉลี่ย Claw-Eval 68.7
    • ใน QwenWebBench (เบนช์มาร์กการสร้างโค้ดเว็บ) ทำได้ 1397 คะแนน ซึ่งอยู่ในระดับสูงสุดของโมเดลกลุ่มเดียวกัน
    • ในเบนช์มาร์กเอเจนต์ทั่วไป (MCPMark, MCP-Atlas, WideSearch เป็นต้น) ก็ให้ผลลัพธ์ที่ดีกว่าโมเดลคู่แข่ง
    • ยังรักษาความแม่นยำสูงในงานด้านความรู้และการให้เหตุผล เช่น MMLU-Pro, GPQA และ AIME26
  • สภาพแวดล้อมการประเมิน

    • ชุด SWE-Bench ถูกประเมินบนพื้นฐาน internal agent scaffold (เครื่องมือ bash + file-edit) ภายใต้ context window ขนาด 200K
    • Terminal-Bench 2.0 ใช้ข้อจำกัดเวลา 3 ชั่วโมง ในสภาพแวดล้อม 32 CPU/48GB RAM และคิดค่าเฉลี่ยจาก 5 รอบ
    • SkillsBench ประเมินจาก 78 งาน โดยตัดงานที่พึ่งพา API ออก
    • QwenClawBench และ QwenWebBench เป็นเบนช์มาร์กภายในที่อิงจากการกระจายการใช้งานจริง จึงสะท้อนสภาพแวดล้อมของผู้ใช้จริง
  • ประสิทธิภาพด้านวิชัน-ภาษา

    • Qwen3.6-35B-A3B เป็น โมเดลมัลติโมดัลโดยธรรมชาติ ที่ให้สมรรถนะระดับ Claude Sonnet 4.5 ได้ด้วยพารามิเตอร์ที่เปิดใช้งานเพียง 3 พันล้านตัว
    • แสดงจุดแข็งด้าน spatial intelligence ด้วยคะแนน RefCOCO (การรับรู้เชิงพื้นที่) 92.0 และ ODInW13 50.8
    • ทำคะแนนสูงในงานวิชัน-ภาษาหลากหลาย เช่น RealWorldQA 85.3, MMBench EN-DEV 92.8 และ OmniDocBench1.5 89.9
    • ในเบนช์มาร์กความเข้าใจวิดีโอ (VideoMME, VideoMMMU, MLVU เป็นต้น) ก็ยังคงทำคะแนนได้ในช่วง 80~86 อย่างสม่ำเสมอ

การใช้งาน Qwen3.6-35B-A3B

  • การปรับใช้และการเข้าถึง

    • ใช้งานได้ผ่าน Alibaba Cloud Model Studio API(qwen3.6-flash) และดาวน์โหลด น้ำหนักโมเดลแบบเปิด ได้จาก Hugging Face และ ModelScope
    • ทดลองใช้งานได้ทันทีใน Qwen Studio และรองรับการเชื่อมต่อกับ ผู้ช่วยเขียนโค้ดจากภายนอก เช่น OpenClaw, Claude Code และ Qwen Code
  • การใช้งาน API

    • รองรับฟังก์ชัน preserve_thinking เพื่อคงเนื้อหาการคิด (thinking) จากบทสนทนาก่อนหน้าไว้ จึงเหมาะกับ งานแบบเอเจนต์
    • Alibaba Cloud Model Studio มี chat completions API ที่เข้ากันได้กับสเปกของ OpenAI และ Anthropic API
    • ในโค้ดตัวอย่าง สามารถใช้ตัวเลือก enable_thinking เพื่อแยกการแสดง reasoning trace และคำตอบสุดท้ายออกจากกันได้
  • การเชื่อมต่อ OpenClaw

    • Qwen3.6-35B-A3B เข้ากันได้กับ OpenClaw (เดิมชื่อ Moltbot/Clawdbot) และสามารถเชื่อมต่อกับ Model Studio เพื่อมอบสภาพแวดล้อมการเขียนโค้ดแบบเอเจนต์บนเทอร์มินัล
    • ใช้งานโดยรวมข้อมูล API ของ Model Studio เข้าไปในไฟล์ตั้งค่า (~/.openclaw/openclaw.json)
    • ติดตั้งและรันได้ในสภาพแวดล้อม Node.js 22 ขึ้นไป
  • การเชื่อมต่อ Qwen Code

    • ใช้งานร่วมกับ Qwen Code (โอเพนซอร์ส AI agent สำหรับเทอร์มินัลที่ปรับแต่งมาสำหรับซีรีส์ Qwen) ได้อย่างสมบูรณ์
    • ติดตั้งบน Node.js 20 ขึ้นไป และทำขั้นตอนยืนยันตัวตนด้วยคำสั่ง /auth
  • การเชื่อมต่อ Claude Code

    • เนื่องจากรองรับโปรโตคอล Anthropic API จึงสามารถใช้งานใน Claude Code ได้โดยตรง
    • ตั้งค่าตัวแปรสภาพแวดล้อม ANTHROPIC_MODEL="qwen3.6-flash" แล้วจึงเรียกใช้ CLI

สรุปและแนวโน้ม

  • Qwen3.6-35B-A3B พิสูจน์ให้เห็นว่า ความสามารถด้านการเขียนโค้ดแบบเอเจนต์และการให้เหตุผล สามารถทัดเทียมโมเดล dense ขนาดใหญ่ได้ แม้ใช้ สถาปัตยกรรม Sparse MoE
  • ด้วยพารามิเตอร์ที่เปิดใช้งานเพียง 3 พันล้านตัว จึงได้ทั้งประสิทธิภาพและสมรรถนะ พร้อมผลลัพธ์ที่โดดเด่นในเบนช์มาร์กมัลติโมดัล
  • มีการเปิดเผยเป็นเช็กพอยต์โอเพนซอร์สเต็มรูปแบบ และนำเสนอ มาตรฐานใหม่ของโมเดลโอเพนที่มีประสิทธิภาพ
  • ทีม Qwen มีแผนจะขยายตระกูลโอเพนซอร์ส Qwen3.6 อย่างต่อเนื่อง และคาดหวังต่อฟีดแบ็กและการนำไปใช้งานจากชุมชน

ข้อมูลอ้างอิง

1 ความคิดเห็น

 
GN⁺ 14 일 전
ความคิดเห็นจาก Hacker News
  • ฉันลองรันเวอร์ชัน Unsloth 20.9GB GGUF บนโน้ตบุ๊กด้วย LM Studio
    ลิงก์โมเดล
    น่าแปลกที่มันวาด นกเพลิแกนขี่จักรยาน ได้ดีกว่า Opus 4.7
    ดู โพสต์เปรียบเทียบของ Simon Willison

    • ฉันลองทำซ้ำด้วยโมเดลเดียวกันแล้ว (M1 Max 64GB, ไม่ถึง 90 วินาที) — ภาพผลลัพธ์
      ผลลัพธ์ของฉันมี ดวงอาทิตย์กับเมฆ บนท้องฟ้า หญ้าเป็นเส้นสีเขียวบาง ๆ และเอฟเฟกต์ ดวงอาทิตย์มีรัศมี
      มีการแสดง “กระแสอากาศ” คล้ายกับของ Simon ด้วย แต่สุดท้ายสิ่งสำคัญก็คือเพลิแกนกับจักรยาน
    • ฉันลองเพราะมีลิงก์ GGUF ให้
      ใช้มันในโปรเจกต์ Shoggoth.db สำหรับงาน สำรวจ wiki + สร้าง DB อัตโนมัติ
      รู้สึกได้ว่าความสามารถในการสำรวจสิ่งมีชีวิตใหม่ ๆ ดีขึ้นจาก Qwen3.5
      ความเร็วก็เพิ่มเป็นราว 140 token/s และทำงานได้เสถียรบน RTX 4090 โดยไม่ต้อง offload หน่วยความจำ
      แต่ต้องใช้ตัวเลือก --no-mmproj-offload เพื่อเลี่ยงปัญหาชนกันของมัลติโหมด
    • สงสัยว่าเมื่อไรการทดสอบอย่าง “เพลิแกนขี่จักรยาน” จะหมดประโยชน์
      เดิมทีตั้งใจใช้ พรอมป์ต์ประหลาด ที่ไม่มีใครคิดถึงเพื่อวัดความคิดสร้างสรรค์ของโมเดล แต่ตอนนี้เริ่มรู้สึกว่ามันกลายเป็นเบนช์มาร์กภายในไปแล้ว
    • ฉันไม่เข้าใจว่าทำไมภาพฟลามิงโกของ Qwen ถึงชนะ
      มันนั่งอยู่บนยาง ตำแหน่งจะงอยปากก็แปลก และ สัดส่วนซี่ล้อกับขา ก็ดูไม่เป็นธรรมชาติ
      แว่นกันแดดยังโปร่งแสงจนเห็นตาแค่ข้างเดียว
      มันน่ารักก็จริง แต่พวก หูกระต่ายและเครื่องประดับ ที่ไม่ได้ขอกลับเป็นจุดหักคะแนนสำหรับฉัน
      ผลลัพธ์ของ Opus อาจหวือหวาน้อยกว่า แต่แม่นยำกว่า
    • ยิ่งดูภาพมากเท่าไร ก็ยิ่งรู้สึกว่า world model ยังเป็นชิ้นส่วนปริศนาที่ขาดหายอยู่
      สุดท้ายแล้วโมเดลตอนนี้ก็ยังเป็นเพียง ตัวสร้างประโยคเชิงความน่าจะเป็น เท่านั้น
  • ดีใจที่ทีม Qwen ยังปล่อย open weights ออกมาต่อเนื่อง
    ข่าวที่เกี่ยวข้อง 1, ข่าว 2
    น่าประทับใจที่โปรเจกต์ยังเดินหน้าต่อได้แม้หลังจากบุคลากรหลักอย่าง Junyang Lin และคนอื่น ๆ ออกไป

    • นี่เป็นเพียงหนึ่งในซีรีส์ Qwen 3.6
      โมเดลขนาดเล็กน่าจะถูกปล่อยตามมาเร็ว ๆ นี้ แต่ดูเหมือนว่า โมเดลหลัก 397A17B จะไม่รวมอยู่ด้วย
    • ส่วนตัวฉันอยากให้ปล่อย open weights ของ qwen-image 2.0
  • Unsloth มีเวอร์ชันที่ทำ quantization และแปลงรูปแบบ เสร็จแล้วอยู่แล้ว
    ลิงก์ Hugging Face

    • Unsloth มักอัป quants สำหรับทดลองได้เร็ว แต่ เวอร์ชันทันทีหลังเปิดตัวมักถูกแก้ไขทีหลัง
      ควรรอสักประมาณหนึ่งสัปดาห์แล้วค่อยกลับไปเช็กเพื่อให้ได้เวอร์ชันที่นิ่งกว่า
      บางครั้งบั๊กช่วงแรกก็ทำให้โมเดลดี ๆ ถูกประเมินต่ำเกินไป
    • สงสัยว่าทำไม Qwen ไม่ปล่อยโมเดล quantized เอง
      ฉันคิดว่า กระบวนการทำ quantization ซับซ้อนและมีความเสี่ยงด้านคุณภาพ ดังนั้นให้นักพัฒนาต้นฉบับทำเองน่าจะดีกว่า
      เวอร์ชัน quant ที่ผิดพลาดอาจทำลายชื่อเสียงของโมเดลได้
    • อยากรู้ว่าต้องใช้ VRAM เท่าไร รันบน GPU 16GB ได้ไหม
    • สงสัยว่า quantization พื้นฐานของ Qwen แย่ตรงไหน Unsloth คือใคร
      และ ข้อดีของฟอร์แมตที่ดี คืออะไร
      ถ้าอธิบายแนวคิดของ quantization เองด้วยก็คงดี
    • สงสัยว่าใช้โมเดลนี้ผ่านคำสั่ง ollama run claude ได้ไหม
  • ดีใจที่ทีม Qwen ปล่อยรุ่นนี้ออกมา
    โมเดลเขียนโค้ด open-weight ขนาดเล็ก มีประโยชน์สำหรับการสร้างเอเจนต์แบบปรับแต่งเองให้ทีมพัฒนาในบางอุตสาหกรรม เช่น การเงินหรือเฮลท์แคร์ ที่มีข้อจำกัดเรื่องการเข้าถึงคลาวด์
    ในฝั่งตะวันตกแทบไม่มีใครทำตลาดนี้เลย โดยดูเหมือนมีแค่ Mistral ที่เป็นข้อยกเว้น

    • Mistral ดูเหมือนเป็นบริษัทเดียวที่มุ่งหา โมเดลธุรกิจที่ยั่งยืน
      บริษัท AI อื่น ๆ ให้ความรู้สึกว่าเน้นแค่รายได้ระยะสั้น
    • โมเดลโอเพนขนาดเล็กก็สนุกดี แต่ คนละระดับกับโมเดลโฮสต์ขนาดใหญ่
      ถ้าจะทำงานจริงจัง ก็ควรลงทุนกับฮาร์ดแวร์ที่สามารถรันโมเดลใหญ่กว่าได้เอง
    • เห็นด้วย แต่โมเดลเล็กแบบนี้ยังไม่พอสำหรับงานอุตสาหกรรมจริง
      ด้วยอุปกรณ์ระดับราว 100,000 ดอลลาร์ ก็สามารถรันโมเดลที่ใหญ่กว่านี้แบบ on-premise ได้
    • การทำโมเดล open-weight ที่แข่งได้เป็นเรื่องยอดเยี่ยม แต่ ต้นทุนสูงเกินไป
    • ในอุตสาหกรรมที่มีการกำกับดูแล ฉันสงสัยว่าจะตรวจสอบอย่างไรว่าโมเดล ไม่ได้ฝึกจากข้อมูลที่เป็นอันตราย
  • ลักษณะ language embedding ของ Qwen น่าสนใจมาก
    ทวีตวิเคราะห์ที่เกี่ยวข้อง
    เขาบอกว่า Qwen อยู่ใน basin ที่เน้นการสอบ ต่างจากโมเดลอื่น

  • มีผู้บริหารของ Qwen ไปตั้งโพลบนทวิตเตอร์ถามว่าอยากเห็นโมเดลไหนเป็นโอเพนซอร์ส
    แม้ว่า เวอร์ชัน 27B จะได้ความนิยมสูงสุด แต่ก็ยังไม่ถูกปล่อยออกมา

    • มีความเป็นไปได้ว่าจะค่อย ๆ ปล่อยตามลำดับผ่าน กระบวนการ distillation แบบตอน 3.5
      โครงสร้าง A3B ทำให้ distill ได้เร็ว จึงอาจมาเร็ว ๆ นี้
    • 27B เป็น โมเดล dense เลยดึงดูดทางการตลาดน้อยกว่า 35A3B
      รุ่นหลังเร็วกว่าและให้ความรู้สึกว่า “ฉลาด” กว่า
    • น่าจะปล่อยเร็ว ๆ นี้แหละ
    • ส่วนตัวฉันคิดว่า สถาปัตยกรรม MoE ไม่มีประสิทธิภาพ
      ถ้าใช้ VRAM เท่ากัน โมเดล dense 27B จะจัดการคอนเท็กซ์ที่ใหญ่กว่าได้ จึงน่าจะให้คุณภาพดีกว่า
  • ฉันใช้ Qwen3.5-35B-A3B ในการทดสอบบนเครื่องตัวเองมาเยอะมาก
    มันเป็นโมเดลที่ทรงพลังที่สุดในบรรดาที่เครื่องฉันรันไหว
    โดยเฉพาะ quant เวอร์ชัน Mudler APEX-I-Quality กับ Byteshape Q3_K_S-3.40bpw ที่น่าประทับใจมาก
    บน RTX 3060 12GB มีหน่วยความจำเหลือมากขึ้นและความเร็วก็เพิ่มเป็นเกิน 40 t/s

    • พอลองหลายงานแล้ว Qwen3.6 คือการก้าวกระโดดครั้งใหญ่จาก 3.5
      มันสามารถปรับปรุงโปรเจกต์ที่ก่อนหน้านี้เคยติดขัดได้ด้วยตัวเอง
    • สงสัยว่า quant เวอร์ชันไหนดีที่สุด
  • ฉันรอคอย การปล่อยซอฟต์แวร์ AI แบบนี้มากที่สุด
    ไม่มีการตลาดแบบปั่นความเสี่ยง ไม่มีค่าสมัครสมาชิก เป็นแค่โมเดลที่อยากลองใช้อย่างแท้จริง

    • ฉันก็คิดเหมือนกัน ในอนาคตอันใกล้หวังว่า โมเดลโลคัลและประสิทธิภาพฮาร์ดแวร์ จะดีขึ้นพอ
      จนใช้งานได้จริงสำหรับกรณีใช้งานส่วนใหญ่
  • สงสัยว่าคนเอาโมเดลโลคัลแบบนี้ไปใช้จริงกันอย่างไร
    อยากรู้ว่ามันมีคุณค่าอะไรเมื่อเทียบกับการเช่าโทเค็นของ Anthropic หรือ OpenAI

    • ฉันใช้ Qwen3.5-9B กับงาน ดึงตารางจาก OCR แบบโลคัล
      เพราะรูปแบบเอกสารแตกต่างกันมาก แต่ก่อนต้องใช้ pipeline แบบอิงกฎที่ซับซ้อน
      ตอนนี้ใช้ ความสามารถมัลติโหมด เพื่อดึงข้อมูลแบบผสานภาษา+ภาพได้แล้ว
    • ฉันใช้ Qwen3.5-4B ร่วมกับ FOSS NVR ชื่อ Frigate
      มันดีพอสำหรับงานวิเคราะห์วิดีโอ ส่วนสรุปข้อความหรือแปลภาษาค่อยให้โมเดลใหญ่กว่าจัดการ
      ถ้าไม่ใช่งานเรียลไทม์ คุณภาพสำคัญกว่าความเร็ว จึงเหมาะกับ การประมวลผลแบบแบตช์
    • ฉันไม่อยากใช้ โมเดลเช่าโทเค็นไปตลอดชีวิต
      ฉันต้องการโมเดล self-hosted ที่ เป็นส่วนตัวอย่างสมบูรณ์
      ฉันเบื่อที่ SaaS ปิดบริการ แล้วคิดว่า LLM สุดท้ายก็ควรไปจบที่การโฮสต์เอง
    • ฉันใช้ vLLM + qwen3-coder-next ประมวลผลเอกสารหลายล้านฉบับแบบแบตช์
      ใช้งาน GPU ได้ 100% โดยไม่มีข้อจำกัดเรื่องโทเค็นหรือความเร็ว
    • ไม่ใช่ทุกงานที่จะต้องใช้โมเดลระดับ SOTA
      เช่น ฉันใช้ Gemma 4 เป็นตัวแปลออฟไลน์บน iPhone
      ซึ่งเร็วและแม่นยำกว่า Apple Translate
      งานเล็ก ๆ อย่าง การแก้ JSON โมเดลโลคัลมีประสิทธิภาพกว่ามาก