7 คะแนน โดย GN⁺ 2026-04-23 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • เปิดตัวเป็น โมเดลมัลติโหมดแบบ dense ขนาด 27 พันล้านพารามิเตอร์ รองรับทั้งโหมด thinking และ non-thinking รวมถึงการประมวลผลภาพและวิดีโอในเช็กพอยต์แบบรวมเดียว
  • ประสิทธิภาพด้าน agentic coding เหนือกว่าเรือธงโอเพนซอร์สรุ่นก่อนหน้า Qwen3.5-397B-A17B ในเบนช์มาร์กด้านโค้ดหลักเกือบทั้งหมด และยังเหนือกว่าโมเดลที่มีจำนวนพารามิเตอร์รวมมากกว่าสูงสุดถึง 15 เท่า
  • ทำคะแนน SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2 และยังเปิดเผยคะแนนการให้เหตุผลเชิงข้อความและการประเมิน STEM เช่น GPQA Diamond 87.8, AIME26 94.1
  • ด้วยการใช้ สถาปัตยกรรม dense จึงไม่มีความซับซ้อนจากการทำ MoE routing ทำให้ดีพลอยได้ง่าย พร้อมให้ทั้ง open weights, API, การใช้งานทันทีผ่าน Qwen Studio และการผสานรวมกับ OpenClaw, Qwen Code, Claude Code
  • แสดงให้เห็นว่า โมเดล dense ที่ฝึกมาอย่างดีสามารถแซงหน้ารุ่นก่อนหน้าที่มีขนาดใหญ่กว่ามากในงานหลักของนักพัฒนา และยังต่อยอดไปสู่การขยาย agentic coding ในสาย Qwen3.6

ภาพรวม

  • Qwen3.6-27B เปิดตัวเป็น โมเดลมัลติโหมดแบบ dense ขนาด 27 พันล้านพารามิเตอร์ รองรับทั้งโหมดมัลติโหมดแบบ thinking และ non-thinking
  • ในด้าน agentic coding ทำได้ดีกว่าเรือธงโอเพนซอร์สรุ่นก่อนหน้า Qwen3.5-397B-A17B ในเบนช์มาร์กโค้ดหลักโดยรวม
  • ใช้ สถาปัตยกรรม dense ที่ไม่มีความซับซ้อนของ MoE routing จึงดีพลอยได้ง่าย และให้ประสิทธิภาพด้านโค้ดระดับแนวหน้าในขนาดที่ใช้งานจริงและกระจายใช้งานได้กว้าง
  • ใช้งานได้ทันทีบน Qwen Studio และมีทั้ง open weights สำหรับชุมชนรวมถึงช่องทางเข้าถึงผ่าน API
  • จุดเด่นหลักประกอบด้วย agentic coding ระดับเรือธง, การให้เหตุผลเชิงข้อความที่แข็งแกร่ง และความสามารถด้านการให้เหตุผลแบบมัลติโหมด

ประสิทธิภาพ

  • Qwen3.6-27B ถูกประเมินเทียบกับโมเดลอ้างอิงทั้งแบบ dense และ MoE โดยแสดงการยกระดับอย่างชัดเจนใน เบนช์มาร์ก agentic coding
  • ระบุว่าสามารถเหนือกว่า โมเดลที่มีจำนวนพารามิเตอร์รวมมากกว่าสูงสุด 15 เท่า
  • หมวดการประเมินประกอบด้วย ภาษา ความรู้ STEM และการให้เหตุผล วิชัน-ภาษา การเข้าใจเอกสาร การเข้าใจวิดีโอ และ visual agent
  • ภาษา

    • ด้วยพารามิเตอร์เพียง 27 พันล้าน ก็ยังเหนือกว่า Qwen3.5-397B-A17B ในเบนช์มาร์กโค้ดหลักทั้งหมด
      • SWE-bench Verified 77.2 ต่อ 76.2
      • SWE-bench Pro 53.5 ต่อ 50.9
      • Terminal-Bench 2.0 59.3 ต่อ 52.5
      • SkillsBench 48.2 ต่อ 30.0
    • ยังนำหน้า โมเดล dense อื่น ๆ ในขนาดใกล้เคียงกันอย่างชัดเจน
    • ในงานให้เหตุผล ทำคะแนน GPQA Diamond 87.8 ซึ่งเป็นระดับที่แข่งขันได้กับโมเดลที่มีขนาดใหญ่กว่าหลายเท่าของบริษัทเดียวกัน
    • ตารางรายละเอียดเปรียบเทียบ Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B และ Qwen3.6-27B
    • ตัวเลขสำคัญในหมวด Coding Agent
      • SWE-bench Multilingual 71.3
      • QwenWebBench 1487
      • NL2Repo 36.2
      • Claw-Eval Avg 72.4
      • Claw-Eval Pass^3 60.6
      • QwenClawBench 53.4
    • ตัวเลขสำคัญในหมวด Knowledge
      • MMLU-Pro 86.2
      • MMLU-Redux 93.5
      • SuperGPQA 66.0
      • C-Eval 91.4
    • ตัวเลขสำคัญในหมวด STEM และการให้เหตุผล
      • HLE 24.0
      • LiveCodeBench v6 83.9
      • HMMT Feb 25 93.8
      • HMMT Nov 25 90.7
      • HMMT Feb 26 84.3
      • IMOAnswerBench 80.8
      • AIME26 94.1
  • การตั้งค่าการประเมินภาษา

    • SWE-Bench Series ใช้ internal agent scaffold พร้อมเครื่องมือ bash และ file-edit โดยตั้งค่า temp 1.0, top_p 0.95 และ context window 200K
      • โมเดลอ้างอิงทั้งหมดถูกประเมินบน refined benchmark ที่แก้ไขงานบางส่วนที่มีปัญหาในชุด SWE-bench Pro สาธารณะ
      โฆษณา
    • Terminal-Bench 2.0 ใช้ Harbor หรือ Terminus-2 harness
      • timeout 3 ชั่วโมง, 32 CPU, RAM 48 GB
      • temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, ctx 256K
      • เฉลี่ยจากการรัน 5 ครั้ง
    • SkillsBench ใช้ OpenCode ประเมิน 78 งาน
      • ใช้ subset แบบ self-contained ที่ตัดงานซึ่งพึ่งพา API ออก
      • เฉลี่ยจากการรัน 5 ครั้ง
    • การประเมินโมเดลอื่นใน NL2Repo ใช้ Claude Code
      • temp 1.0, top_p 0.95, max_turns 900
    • QwenClawBench เป็นเบนช์มาร์ก Claw agent ที่อิงจากการกระจายตัวของผู้ใช้จริง
      • temp 0.6, ctx 256K
    • QwenWebBench เป็นเบนช์มาร์กภายในสำหรับการสร้างโค้ดฝั่งฟรอนต์เอนด์
      • รองรับสองภาษา EN และ CN
      • มี 7 หมวด ได้แก่ Web Design, Web Apps, Games, SVG, Data Visualization, Animation และ 3D
      • ประเมินทั้งความถูกต้องของโค้ดและความสอดคล้องเชิงภาพด้วย auto-render และ multimodal judge
      • ใช้ระบบ BT หรือ Elo rating
    • AIME 26 ใช้ข้อสอบ AIME 2026 I และ II ครบชุด
      • ระบุว่าคะแนนอาจแตกต่างจากโน้ตของ Qwen 3.5
    โฆษณา
  • วิชัน-ภาษา

    • Qwen3.6-27B รองรับทั้งโหมดวิชัน-ภาษาแบบ thinking และ non-thinking ในเช็กพอยต์แบบรวมเดียว
    • ประมวลผลได้ทั้ง ภาพและวิดีโอ ควบคู่กับข้อความ
    • รองรับงานให้เหตุผลแบบมัลติโหมด การเข้าใจเอกสาร และ visual question answering
    • ตารางเปรียบเทียบอ้างอิง Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B และ Qwen3.6-27B
    • STEM และปริศนา

      • MMMU 82.9
      • MMMU-Pro 75.8
      • MathVista mini 87.4
      • DynaMath 85.6
      • VlmsAreBlind 97.0
    • VQA ทั่วไป

      • RealWorldQA 84.1
      • MMStar 81.4
      • MMBench EN-DEV-v1.1 92.3
      • SimpleVQA 56.1
    • การเข้าใจเอกสาร

      • CharXiv RQ 78.4
      • CC-OCR 81.2
      • OCRBench 89.4
    • ความฉลาดเชิงพื้นที่

      • ERQA 62.5
      • CountBench 97.8
      • RefCOCO avg 92.5
      • EmbSpatialBench 84.6
      • RefSpatialBench 70.0
    • การเข้าใจวิดีโอ

      • VideoMME(w sub.) 87.7
      • VideoMMMU 84.4
      • MLVU 86.6
      • MVBench 75.5
    • Visual Agent

      • V* 94.7
      • AndroidWorld 70.3
    • หมายเหตุ

      • ช่องว่าง (--) ในตารางหมายถึงยังไม่มีคะแนนหรือไม่เกี่ยวข้อง
    โฆษณา

การใช้งาน Qwen3.6-27B

  • ระบุว่าการรองรับ Alibaba Cloud Model Studio จะพร้อมใช้งานในเร็ว ๆ นี้
  • มี open weights บน Hugging Face และ ModelScope รองรับการ self-hosting
  • มีทั้งช่องทางใช้งานผ่าน Alibaba Cloud Model Studio API และการทดลองใช้ทันทีบน Qwen Studio
  • รองรับการผสานรวมกับผู้ช่วยเขียนโค้ดจากภายนอกอย่าง OpenClaw, Claude Code, Qwen Code
  • กล่าวถึงการลดความซับซ้อนของเวิร์กโฟลว์การพัฒนาและรองรับ context-aware coding experience
  • การใช้ API

    • รุ่นใหม่นี้รองรับฟีเจอร์ preserve_thinking
    • เป็นฟีเจอร์ที่เก็บรักษาเนื้อหา thinking ที่สร้างขึ้นในทุกเทิร์นก่อนหน้าของข้อความ และระบุว่าแนะนำสำหรับ agentic task
  • Alibaba Cloud Model Studio

    • รองรับ chat completions และ responses API ที่เข้ากันได้กับสเปก OpenAI
    • รองรับ Anthropic-compatible API interface ด้วย
    • ยกตัวอย่างตัวแปรสภาพแวดล้อมตามเอกสารทางการ
      • DASHSCOPE_API_KEY
      • DASHSCOPE_BASE_URL
      • DASHSCOPE_MODEL
    • มีตัวอย่าง Base URL ตามภูมิภาคด้วย
    • ในตัวอย่างโค้ดใช้ชื่อโมเดลเริ่มต้นเป็น qwen3.6-27b
    • ใน extra_body มี enable_thinking: True
      • preserve_thinking: True แสดงไว้ในรูปแบบคอมเมนต์
    • มีตัวอย่างการแยกเก็บ reasoning_content และ answer content จากการตอบกลับแบบสตรีมมิง
    • ข้อมูลเพิ่มเติมให้ดูที่ลิงก์ API doc
  • Coding & Agents

    • Qwen3.6-27B มีความสามารถด้าน agentic coding และผสานรวมกับ OpenClaw, Claude Code, Qwen Code ได้อย่างราบรื่น
    • OpenClaw

      • OpenClaw เป็น AI coding agent แบบโอเพนซอร์สที่โฮสต์เองได้ โดยก่อนหน้านี้ใช้ชื่อ Moltbot หรือ Clawdbot
      • เชื่อมต่อกับ Model Studio เพื่อมอบประสบการณ์ agentic coding เต็มรูปแบบในเทอร์มินัล
      • สคริปต์เริ่มต้นระบุขั้นตอน Node.js 22+, รันสคริปต์ติดตั้ง, ตั้งค่า DASHSCOPE_API_KEY, แล้วเรียก openclaw dashboard หรือ openclaw tui
      • ในการใช้งานครั้งแรกต้องแก้ไข ~/.openclaw/openclaw.json
        • ระบุชัดว่าไม่ให้เขียนทับทั้งไฟล์
        • ให้ merge เฉพาะฟิลด์ที่จำเป็นเพื่อเก็บค่าตั้งเดิมไว้
        โฆษณา
      • ตัวอย่างการตั้งค่ามีการลงทะเบียน provider modelstudio และโมเดล qwen3.6-27b
        • api เป็น openai-completions
        • ค่า reasoning เป็น true
        • ชนิดอินพุตคือ text, image
        • contextWindow คือ 131072
        • maxTokens คือ 16384
        • โมเดล primary เริ่มต้นคือ modelstudio/qwen3.6-27b
    • Qwen Code

      • Qwen Code เป็น AI agent แบบโอเพนซอร์สสำหรับเทอร์มินัล และเป็นเครื่องมือที่ปรับแต่งมาอย่างลึกสำหรับ Qwen Series
      • สคริปต์เริ่มต้นระบุขั้นตอน Node.js 20+, ติดตั้ง @qwen-code/qwen-code@latest, แล้วรัน qwen
      • มีตัวอย่างการใช้คำสั่ง /help, /auth ภายในเซสชัน
      • เมื่อใช้งานครั้งแรกจะมีพรอมป์ต์ให้ล็อกอิน และสามารถสลับวิธีการยืนยันตัวตนได้ด้วย /auth
    • Claude Code

      • Qwen APIs รองรับ Anthropic API protocol ด้วย
      • ระบุว่าสามารถใช้ร่วมกับเครื่องมืออย่าง Claude Code ได้
      • ตัวอย่างการตั้งค่ามีตัวแปรสภาพแวดล้อมต่อไปนี้
      • คำสั่งรันคือ claude

สรุป

  • โมเดล dense ที่ฝึกมาอย่างดี สามารถแซงหน้ารุ่นก่อนหน้าที่มีขนาดใหญ่กว่ามากในงานสำคัญสำหรับนักพัฒนาได้ ซึ่ง Qwen3.6-27B ได้พิสูจน์ให้เห็นแล้ว
  • แม้จะมีขนาด 27 พันล้านพารามิเตอร์ แต่ก็ยังเหนือกว่า Qwen3.5-397B-A17B ในเบนช์มาร์ก agentic coding หลักทั้งหมด
  • โครงสร้างเรียบง่ายต่อการดีพลอยและให้บริการ และสาย โอเพนซอร์ส Qwen3.6 ก็มีชุดโมเดลที่ครอบคลุมยิ่งขึ้นด้วยการเพิ่ม Qwen3.6-27B

4 ความคิดเห็น

 
kaydash 2026-04-23

อย่างน้อยถ้าเป็น a3b ก็ยังพอรันบนเครื่องโลคัลได้บ้าง 555

 
kirinonakar 2026-04-23

เขาว่าคะแนนเบนช์มาร์กออกมาดี แต่พอใช้งานจริงก็ยังดูไม่ถึงระดับที่เอามาใช้เป็นโค้ดดิ้งเอเจนต์ได้อย่างจริงจังนะครับ

 
b89kim 2026-04-26

ผมลองใช้แล้วและไม่มีปัญหาใหญ่กับการโค้ดแบบเอเจนติก แต่ตามที่บอก การใช้งานจริง+การโค้ดทั่วไปก็ยังด้อยกว่าโมเดลที่มีพารามิเตอร์ใหญ่กว่าอย่างหลีกเลี่ยงไม่ได้ ค่าการตั้งค่าต่าง ๆ ก็แตกต่างจาก 3.5 และยังมีการเพิ่มโหมด preserve_thinking เข้ามาด้วย โปรดใช้เป็นข้อมูลอ้างอิง หากเป็นการควอนไทซ์ 4 บิตของ 27B ก็ไม่มีปัญหาในการใช้งานบนเครื่องโลคัลครับ

 
GN⁺ 2026-04-23
ความเห็นจาก Hacker News
  • สำหรับผม ในฐานะโมเดล local ที่ quantize เหลือ 16.8GB ผลลัพธ์ pelican นี่ดีมากจริงๆ ผมสรุปไว้ที่ https://simonwillison.net/2026/Apr/22/qwen36-27b/ ทดลองรันบน M5 Pro 128GB RAM แต่หน่วยความจำที่ต้องใช้จริงอยู่ราว 20GB เลยคาดว่าเครื่อง 32GB ก็น่าจะรันได้สบายๆ ตอนอ่านประมวลผล 20 โทเคนใน 0.4 วินาที หรือ 54.32 tokens/s และตอน generate สร้าง 4,444 โทเคนใน 2 นาที 53 วินาที หรือ 25.57 tokens/s ผมชอบผลลัพธ์ครั้งนี้มากกว่า pelican ที่เคยทำด้วย Opus 4.7 เมื่อไม่กี่วันก่อนด้วยซ้ำ https://simonwillison.net/2026/Apr/16/qwen-beats-opus/
    • งานนี้ออกมาดีเกินไปจนแอบรู้สึกว่าอาจเคยอยู่ใน ข้อมูลฝึก มาก่อน อยากเห็นการทดสอบอื่นๆ เพิ่มเพื่อดูว่าต่างกันแค่ไหน
    • แอบคิดขำๆ ว่าสักวันผู้ให้บริการโมเดลอาจเริ่มปรับแต่งให้เข้ากับการทดสอบ pelican riding a bicycle อันทรงอิทธิพลของ Simon
    • หูกระต่าย บน Qwen Flamingo ก็ลงตัวแบบน่าทึ่งจริงๆ
    • ถ้าจำไม่ผิด แทบไม่เคยได้ยินใครใช้คำว่า excellent กับการทดสอบ pelican แบบนี้มาก่อน แต่ครั้งนี้ดูคู่ควรจริงๆ ช่วงหนึ่งกระแสไหลไปทาง MoE แล้ว แต่รอบนี้ dense model กลับมาเด่นอีกครั้งก็น่าสนใจดี สงสัยว่าโมเดลปิดเองก็จะเดินสายแบบรุ่นเร็วเป็น MoE ส่วนรุ่น pro เป็น dense หรือเปล่า
    • ตอนนี้ LLM น่าจะเริ่มเข้าใจแล้วว่าโครงจักรยานจริงๆ มีลักษณะเป็น สี่เหลี่ยมข้าวหลามตัด ที่แทบเหมือนถูกแบ่งครึ่ง → ◿◸ หวังว่าการพูดแบบนี้จะไม่ทำให้การทดสอบเสียไป
  • ตั้งแต่ Gemma 4 ออกมาช่วง Easter ที่ผ่านมา ผมรู้สึกว่าช่องว่างระหว่างโมเดล self hosting กับ Claude แคบลงมาก แน่นอนว่ายังต่างกันเยอะ แต่ก่อนหน้านั้นโมเดล local แทบสู้ไม่ได้เลย ตอนนี้สถานการณ์ดีขึ้นมาก และถ้า Qwen 3.6 ก้าวขึ้นไปอีกขั้นจาก Gemma 4 ก็ถือว่าน่าตื่นเต้นมาก ถึงอย่างนั้นโมเดล local ก็ยังมีอาการหลุดทางหรือพังแบบแปลกๆ อยู่บ้าง เลยยังต้องมี Opus ไว้ใกล้มือเสมอ แต่ทุกครั้งที่โมเดล local ช่วยผมได้จริงๆ มันยิ่งทำให้รู้สึกว่าการเขียนโค้ดยังควรเป็นเรื่องของ อิสรภาพ อยู่ ทั้งในความหมายว่าใช้ฟรี และในความหมายว่าเสรี เซ็ตอัปของผมคือเครื่อง Ubuntu แยกต่างหากที่มี RTX 5090 และตอนนี้ Qwen 3.6 27B ใช้ VRAM ไป 29GB จาก 32GB ผมรัน Ollama ใน podman instance ที่ไม่ใช้ root แล้วต่อ OpenCode เข้ากับ editor ในฐานะ ACP Service ซึ่งแนะนำมาก ACP คือ Agent Client Protocol และในมุมผม โลกควรไปทางนี้ รวมถึงรู้สึกขอบคุณทีม Qwen ที่ช่วยทำให้โลกดีขึ้นในโลกที่เต็มไปด้วย Sam Altman
    • ในบรรดาโมเดลที่ผมลองรัน local บน M5 MBP, Gemma4 ให้ความรู้สึกใกล้ Claude ที่สุด
    • ผมก็เห็นด้วยกับอุดมคติเรื่อง free และ local แต่สุดท้ายสิ่งสำคัญคือ การแข่งขันที่ยั่งยืน แค่มีแรงกดดันให้ต้นทุนเดือนละ 200 ดอลลาร์ลดลงมาได้มากก็น่าพอใจแล้ว
    • สงสัยว่าโมเดล 27B จะรับมือ งานเขียนโปรแกรม ได้จริงระดับไหน Claude เองยังมีพลาดบ้าง เลยนึกภาพไม่ค่อยออกว่า 27B จะใช้งานจริงได้แค่ไหน
    • อยากรู้ว่าใน RTX 5090 ได้ tokens/s เท่าไร
  • ทุกครั้งที่มีการเปิดตัวโมเดล อยากให้บอกมาด้วยเลยว่าตอนนี้รันได้บน consumer hardware แบบไหน ค่าใช้จ่ายเท่าไร และได้ tok/s ประมาณไหน
    • ถ้าจะรันโมเดล 27B แบบ 16-bit native จากที่เขาปล่อยมาเอง ต้องใช้ ฮาร์ดแวร์ค่อนข้างหนัก ต้องเป็น Mac หรือระบบ Strix Halo 128GB, GPU ผู้บริโภคความจุสูงหลายใบ หรือการ์ดเวิร์กสเตชันระดับ RTX 6000 เลย เลยเดาว่าทำไมพวกเขาไม่ค่อยโปรโมตว่ารันได้บนฮาร์ดแวร์ผู้บริโภคอะไร เพราะตัวรีลีสดั้งเดิมที่ให้ผลแบบนั้นใส่ในเครื่องผู้บริโภคทั่วไปได้ยาก คนส่วนใหญ่เลยรันเวอร์ชัน quantized ที่ใช้บิตน้อยลงแทน แต่การ quantize มี trade-off ชัดเจน จึงคาดหวังคุณภาพให้ตรงกับผลที่โฆษณาไว้เป๊ะๆ ได้ยาก Qwen3.5 27B รุ่นก่อน ถ้ายอมรับการลดคุณภาพได้ระดับหนึ่ง Q5 หรือ Q4 ก็ยังใช้งานได้ดีพอสมควร และบนระบบ unified memory ต้องมี RAM เพิ่มอีก 32GB ดังนั้น Mac 64GB จึงค่อนข้างเหมาะ จะใช้ NVIDIA 5090 32GB หรือ GPU 16GB/24GB สองใบก็ได้ แต่จะช้ากว่าเพราะต้องกระจายงาน ผมคิดว่าควรระวังคำอ้างว่ารันได้บน iPhone หรือระบบเล็กกว่านั้น แม้จะพอทำให้รันติดได้ด้วยการ quantize แบบสุดโต่งและสารพัดลูกเล่น แต่คุณภาพผลลัพธ์มักใช้จริงไม่ได้ บ่อยครั้งจะมี repository แนวอวดว่าเอาไปรันบนฮาร์ดแวร์เล็กๆ ได้ขึ้นมาในโซเชียล แต่ผลที่ออกมาก็มักไม่ดีนัก
    • ผมได้ประมาณ ~5 tokens/s บน M4 32GB RAM ใช้ unsloth/Qwen3.6-27B-GGUF:Q4_K_M กับ llama-server ส่วนโมเดล 35B-A3B ได้ราว 25 t/s เทียบกันแล้วบน A100 ได้ประมาณ 41 t/s กับ 97 t/s ตามลำดับ ผมยังไม่ได้ทดสอบ 27B แบบยาวๆ แต่ 35B-A3B มักหลุดบ่อยเมื่อ context เกิน 15k~20k โทเคน งานพื้นฐานสั่งได้ค่อนข้างเสถียร แต่คงยังเรียกระดับ frontier model ไม่ได้
    • คู่ CPU/GPU ที่ใช้รัน local LLM มีได้แทบไม่สิ้นสุด ส่วนใหญ่จึงเลือกเครื่องตามงบและเป้าหมายก่อน แล้วค่อยดูขนาดโมเดลกับระดับการ quantize เพื่อกะการใช้ VRAM คร่าวๆ ถ้าต้องการละเอียดกว่านั้นก็ใช้เครื่องคำนวณ VRAM ออนไลน์ได้ เช่น https://smcleod.net/vram-estimator/ ถ้ามีบัญชี huggingface ก็ใส่สเปกเครื่องแล้วดูสีข้างแต่ละ quant ว่าน่าจะพอไหวไหมได้ด้วย และ t/s ก็ขึ้นกับตัวแปรมากมายรวมถึงขนาด context ดังนั้นโดยมากประเมินได้แค่คร่าวๆ ตอนนี้ local LLM เป็นโลกที่เต็มไปด้วย trade-off ทุกจุดจริงๆ ต้องเลือกตลอดว่าจะ optimize อะไรให้เหมาะกับงาน
    • Qwen3.5-27B บน 4bit quant รันบนการ์ด 24GB ได้สบายๆ ผมใช้ Nvidia L4 สองใบกับ vllm flags บางตัวให้บริการนักพัฒนา 10 คนที่ 20~25 tok/s และตอนเงียบๆ ได้ถึงราว 40 tok/s นักพัฒนาก็พอใจกับประสิทธิภาพนี้ แต่ก็ขอเพิ่ม GPU เพื่อเพิ่ม throughput อยู่ดี
    • ผมได้ราว 30 t/s บน RTX 4090D และใช้ VRAM 42GB จาก 48GB การ quantize คือ UD-Q6_K_XL และมีคุยกันไว้ที่ https://huggingface.co/unsloth/Qwen3.6-27B-GGUF/discussions/7
  • มีทั้ง Qwen และ Minimax ที่ปล่อย โอเพนซอร์สโมเดล ออกมาพร้อมผล benchmark ที่ใกล้เคียงกับ OpenAI หรือ Anthropic แม้จะต่ำกว่านิดหน่อย เลยสงสัยว่าความได้เปรียบทางการแข่งขันของ OpenAI กับ Anthropic ตอนนี้คืออะไรกันแน่ แถมราคาโทเคนของโมเดลเปิดพวกนี้ก็ยังเป็นเพียงเศษเสี้ยวของ Anthropic Opus 4.6 ด้วย https://artificialanalysis.ai/models/#pricing
    • สำหรับงานโค้ด ผมมองว่าความต่างด้าน คุณภาพ แค่ไม่กี่เปอร์เซ็นต์สุดท้ายสำคัญพอจะยอมจ่ายแพงกว่า มันไม่เหมือนกับการปั๊มสแปมอีเมลหรือคอมเมนต์ HN จำนวนมาก ผมคิดว่านี่ก็เป็นเหตุผลที่ค่าตอบแทนของวิศวกรระดับเฉลี่ยกับระดับ P99 ต่างกันมาก อีกอย่าง การที่ผู้เล่น frontier ยังยอมแบกรับต้นทุน R&D สูงและยังแข่งขันได้ ก็ให้ผลดีระยะยาวเพราะบังคับให้สร้างผลิตภัณฑ์ที่ดีกว่าและมูลค่าเพิ่มมากขึ้น โดยเฉพาะ Anthropic ดูเหมือนจะพยายามวางตัวเป็นผู้ให้บริการที่ น่าเชื่อถือกว่า แม้ Ali จะโฮสต์ frontier model แบบเสียเงินอยู่เหมือนกัน แต่ถ้าไม่ใช่บริษัทจีน จะยอมเอา workload พัฒนาโค้ด production ไปวางบนผู้ให้บริการโฮสต์จากจีนไหมก็ยังน่าสงสัย OpenAI เองก็ยังมีจุดที่ทำให้รู้สึกคาใจ แต่ก็ยังสงสัยน้อยกว่าว่าจะดูดความลับทางการค้าไปทั้งก้อน Anthropic ผมไว้ใจมากกว่า OpenAI นิดหน่อย เลยมองว่าพรีเมียมราคามาจากตรงนี้ ประวัติศาสตร์เกี่ยวกับบริษัทโฮสต์จีนที่สามารถใช้แต้มต่อทุกอย่างและแชร์กับรัฐบาลหรือบริษัทอื่นได้ มีน้ำหนักมากพอที่ผู้คนจะตีราคา risk นี้เข้าไป
    • ผมใช้ทั้ง Opus และ Qwen และจากประสบการณ์จริง ช่องว่าง ระหว่างสองตัวนี้ใหญ่กว่าที่เห็นในกราฟ benchmark มาก ถ้าจะเทียบกับโมเดล hosted ตอนนี้ผมว่าควรดูฝั่ง GLM มากกว่า เพราะใกล้เคียงผู้เล่นรายใหญ่ที่สุด ก่อนหน้านี้ขายถูกมาก แต่ช่วงหลังเริ่มขึ้นราคาแล้ว
    • ถ้าผลลัพธ์พวกนี้เกิดจาก vampire attacks ก็อาจหมายความว่าเมื่อโมเดลปิดเรียนรู้วิธีทำให้ช่องทางดูดคำตอบปนเปื้อน ประสิทธิภาพก็อาจไม่ดีแบบตอนนี้ และถ้าเอาไปใช้ใน workflow ประจำวัน มันก็ยังไม่ได้เท่ากันขนาดนั้น การให้เหตุผลตื้นๆ อาจโอเค แต่พองานเขียนโค้ดหรือโจทย์ยากขึ้น ความต่างยังชัด อย่างน้อยในบรรดาโมเดลเปิดที่ผมเคยใช้ ยังไม่เจอตัวไหนดีเท่าโมเดลปิดเลย ถ้าใครมีเซ็ตอัปดีๆ ก็อยากให้แชร์
    • ณ ตอนนี้ผมมองว่ายังไม่มี ความได้เปรียบทางการแข่งขัน แต่ถ้า ecosystem ใด ecosystem หนึ่งเริ่มรวมศูนย์เมื่อไร จากนั้นความได้เปรียบน่าจะเริ่มเกิด
    • ราคาโทเคนที่สูงของ Opus กลับเป็นหลักฐานว่าคนยอมจ่ายเพื่อโมเดลที่ดีกว่า โมเดลใหม่ของ OpenAI และ Anthropic ดีกว่าโอเพนซอร์สอย่างเห็นได้ชัด โอเพนซอร์สไม่ได้แย่จนใช้ไม่ได้ แต่ frontier ดีกว่าชัด และน่าจะเป็นแบบนี้ไปอีกพักใหญ่ ถ้าเวลา SWE มีมูลค่าเกินนาทีละ 1 ดอลลาร์ ต่อให้บทสนทนาหนึ่งครั้งราคา 10 ดอลลาร์ แต่ช่วยประหยัดเวลาได้ 10 นาที ก็ถือว่าคุ้ม โดยเฉพาะงานโค้ด การดีขึ้นของคุณภาพเพียงเล็กน้อยสามารถแปลเป็นเวลาที่ประหยัดได้มาก
  • ตอนนี้ผมใช้ Qwen 3.6 35B กับ Gemma 4 26B บน M4 MBP แม้จะยังไม่ถึงระดับ Opus แต่ก็ทำ 95% ของสิ่งที่ผมต้องการได้ และทั้งหมดนี้รันแบบ local ล้วนๆ ซึ่งก็น่าทึ่งมากแล้ว
    • อยากรู้ว่าคุณทำ งาน ประเภทไหน และต่อ Qwen หรือ Gemma ผ่าน harness หรือวิธีการใช้งานแบบไหน พูดอีกอย่างคืออยากรู้ workflow กับ software stack เป็นอย่างไร
    • ตอนนี้มันใช้งานได้ดีพอแล้ว จนผมเริ่ม มอบหมาย งานให้ local model มากขึ้น คล้ายกับที่ Codex กำลังลดงานของตัวเอง และบน M4 ของผม รุ่น 122B กลับให้ throughput ดีกว่า dense 27B มาก เลยตื่นเต้นกับมันมากเหมือนกัน
    • อยากรู้ว่าคุณใช้กับ Ollama หรือใช้อย่างอื่น
    • อยากฟังเพิ่มว่าคำว่า 95% หมายถึงอะไรแน่ ผมสงสัยสองอย่าง หนึ่ง หมายถึงระดับ ความแม่นยำ ประมาณ 95% ของ Opus 4.5 หรือ 4.6 ในแง่คุณภาพผลลัพธ์หรือไม่ สอง หมายถึงทำงานแบบ tool calling หรือ agentic task เช่นวางแผนท่องเที่ยว ได้ราว 95% ของ Opus หรือเปล่า
  • ผมยังไม่คุ้นกับ local LLM มากนัก เลยใช้เวลาไปพอสมควรเมื่อวานกับการเซ็ตอัปและทดสอบ Qwen3.6-35B-A3B อยู่หลายตัว น่าจะเป็น mlx 4b กับ 8b และ gguf Q4_K_M กับ Q4_K_XL บน M4 64GB ของผมมันรันได้ค่อนข้างน่าประทับใจ แต่จากตารางของ TFA ดูเหมือนโมเดลใหม่นี้จะ ฉลาด ขึ้นเล็กน้อยแลกกับการกิน VRAM มากขึ้น เลยสงสัยว่าจุดต่างหลักอยู่ที่การเป็น dense หรือเปล่า และเพราะ 27B เล็กกว่า 35B จึงหวังว่าอีกไม่นานจะมีโมเดล quantized ที่ลดความต้องการ VRAM ลงมาอีก
    • ประเด็นหลักไม่ใช่แค่จำนวนพารามิเตอร์ 35B-A3B เป็นโมเดล Mixture of Experts จึงมีพารามิเตอร์ที่ถูก activate ต่อครั้งเพียงราว 3B เท่านั้น ดังนั้นภาระคำนวณจริงจึง scale ใกล้กับ 3B มากกว่า 35B แน่นอนว่ายังต้องเข้าถึงเลเยอร์ 35B ทั้งหมดด้วยแบนด์วิดท์สูงอยู่ดี ส่วนโมเดลนี้เป็น dense model จึงมีแนวโน้มจะช้ากว่ามากบน Mac ตัวอย่างเช่นบน M4 Pro ของผม ได้ประมาณ 9 tok/s กับ Q6 gguf ส่วน 35-A3B แม้จะเทียบกันไม่ยุติธรรมเพราะเป็น Q4 บน mlx แต่ได้ราว 70 tok/s โดยทั่วไป dense model แบบนี้เหมาะกับ dedicated GPU มากกว่า และถ้ามี VRAM พอให้วางทั้งโมเดลค้างไว้ได้ก็ยิ่งตัดสินใจง่าย โมเดลนี้น่าจะโอเคถ้ามีประมาณ 24GB VRAM ขึ้นไป และคาดว่า NVIDIA 3090, 4090, 5090 น่าจะรันได้สบาย
  • ถ้ารันด้วย llama server แบบ Q4_K_M บน 24GB จะได้ 91k context ประมาณนั้น และคำนวณแล้ว KV-Cache ใช้ราว 70MB ต่อ context 1K ถ้าไป Q5 ก็น่าจะเหลือพื้นที่ราว 30K โทเคน ซึ่งผมว่าก็น่าประทับใจไม่น้อย
  • ผมลองสร้าง pelican ขี่จักรยานเป็น SVG และผลคือ https://codepen.io/chdskndyq11546/pen/yyaWGJx อีกอันผมลองให้สร้างมังกรกินฮอตด็อกขณะขับรถ และผลคือ https://codepen.io/chdskndyq11546/pen/xbENmgK มันยังไม่สมบูรณ์แบบ แต่แค่ดูผลลัพธ์พวกนี้ก็รู้สึกได้เลยว่าโมเดลทรงพลังขึ้นมากแค่ไหน
    • ภาพมังกรยังมีปัญหาอย่างตาข้างเดียวหรือหางแปลกๆ แต่ฝั่ง pelican นี่แทบสมบูรณ์แบบจนผมรู้สึกว่าเป็นสิ่งที่ ดีที่สุด ที่เคยเห็นมา
    • มันกลายเป็น benchmark ที่ดังเกินไปแล้ว จนอดสงสัยไม่ได้ว่าโมเดลต่างๆ อาจถูกฝึกมารับมือการทดสอบนี้แล้วหรือเปล่า
  • จากประสบการณ์ local inference ของผมจนถึงตอนนี้ ยังไม่ค่อยน่าประทับใจเท่าไร บน M5 Pro 128GB RAM กับ omlx ได้ประมาณ 11 tokens/s สุดท้ายเลยใช้เวลาหนึ่งชั่วโมงเพื่อเขียนโค้ดไม่กี่ร้อยบรรทัดที่ใช้ไม่ได้ ขณะที่งานเดียวกัน Opus กับ Sonnet ทำสำเร็จใน CC ภายในไม่กี่นาที ส่วนโมเดล 3.6 35b ที่ผมรันบน Ollama เมื่อวานก็ดูโอเคพอใช้ ผมตั้งใจจะลอง harness อื่นนอกจาก Claude Code ด้วย แต่ตอนนี้ความรู้สึกคือ local model ยังช้าเกินไป
    • นี่เป็น dense model จึงช้าบน Mac เป็นเรื่องปกติ ถ้าใช้ Mac น่าลอง Qwen3.6-35B-A3B ซึ่งเป็นรีลีสแบบ Mixture of Experts ของ Qwen3.6 บน M4 Pro ของผมได้ราว 70 tok/s ถ้าคุณได้ช้ากว่านี้มาก มีโอกาสว่าเผลอใช้ฟอร์แมต GGUF อยู่ บน Mac ฟอร์แมต MLX ที่ทำมาสำหรับ Apple โดยเฉพาะมักเร็วกว่า
    • ผมได้ความเร็ว generate ราว 7 tokens/sec บน MacBook M2 Max ด้วย MLX 8-bit quant
    • รู้สึกว่า OpenCode ใช้ประโยชน์จาก local model ได้ดีกว่า Claude
  • สงสัยว่าถ้ามี RAM 48GB บน M4 Pro จะรันอะไรได้บ้าง
    • ในกรณีแบบนี้ ตัวเลือกที่ดีที่สุดน่าจะเป็น Qwen3.6 35B A3B ที่มีโครงสร้างเบาบางกว่า ดูรายละเอียดได้ที่ https://qwen.ai/blog?id=qwen3.6-35b-a3b