Qwen3.7-Max: แนวหน้าแห่งเอเจนต์
(qwen.ai)- Qwen3.7-Max เป็นโมเดลปิดที่เน้นเอเจนต์ ออกแบบมาสำหรับการเขียนโค้ด·ดีบัก งานอัตโนมัติในสำนักงาน และการทำงานอัตโนมัติแบบหลายร้อยถึงหลายพันขั้นตอน
- ในการประเมินด้านการเขียนโค้ด·เอเจนต์ทั่วไป·การให้เหตุผล·หลายภาษา โมเดลนี้แข่งขันกับโมเดลชั้นนำอื่น ๆ โดยทำคะแนน Terminal Bench 2.0-Terminus ได้ 69.7 และ GPQA Diamond ได้ 92.4
- ในการปรับแต่งเคอร์เนลอัตโนมัติเป็นเวลา 35 ชั่วโมง ได้ทำ การเรียกใช้เครื่องมือ 1,158 ครั้ง และประเมินผล 432 ครั้ง จนบรรลุความเร็วเพิ่มขึ้นแบบค่าเฉลี่ยเรขาคณิต 10.0 เท่าเมื่อเทียบกับ Triton
- แยกอินสแตนซ์การฝึกออกเป็น Task·Harness·Verifier แล้วทำการฝึก RL แบบข้ามฮาร์เนส เพื่อผลักดันการแก้ปัญหาแบบทั่วไปแทนการอาศัยทางลัดเฉพาะฮาร์เนส
- จะเปิดให้ใช้งานผ่าน API บน Alibaba Cloud Model Studio ในเร็ว ๆ นี้ และสามารถผสานกับ เฟรมเวิร์กเอเจนต์ อย่าง Claude Code·OpenClaw·Qwen Code ได้
การประเมินประสิทธิภาพ
- Qwen3.7-Max ถูกประเมินร่วมกับโมเดลเปรียบเทียบหลายตัวในด้านเอเจนต์เขียนโค้ด เอเจนต์ทั่วไป STEM·การให้เหตุผล ความสามารถทั่วไป และหลายภาษา
- ช่องว่าง (
--) หมายถึงยังไม่มีการเปิดเผยคะแนน -
เอเจนต์เขียนโค้ด
- ทำคะแนน Terminal Bench 2.0-Terminus ได้ 69.7 สูงกว่า DS-V4-Pro Max ที่ได้ 67.9
- ใน SWE-Verified ได้ 80.4 ซึ่งอยู่ในระดับใกล้เคียงกับ Opus-4.6 Max 80.8 และ DS-V4-Pro Max 80.6
- ทำคะแนน SWE-Pro 60.6, SWE-Multilingual 78.3, SciCode 53.5 และ QwenSVG 1608
- NL2repo ประเมินด้วย Claude Code และปิดใช้งานคำสั่ง Bash อย่าง
pip download,pip install,git cloneที่พยายามเข้าถึงรีโพซิทอรีเฉพาะ - QwenWebDev เป็นเบนช์มาร์กภายในสำหรับการสร้างโค้ดฟรอนต์เอนด์สองภาษาอังกฤษ·จีน โดยใช้ 7 หมวดหมู่ การเรนเดอร์อัตโนมัติ การตัดสินแบบมัลติโหมด และคะแนน BT/Elo
-
เอเจนต์ทั่วไป
- ใน MCP-Mark ทำได้ 60.8 สูงกว่า GLM-5.1 ที่ 57.5 และใน MCP-Atlas ได้ 76.4 สูงกว่า Opus-4.6 ที่ 75.8
- ใน Skillsbench ได้ 59.2 สูงกว่า K2.6 ที่ 56.2
- ใน Kernel Bench L3 บันทึกค่ามัธยฐานการเร่งความเร็ว 1.98 เท่าและอัตราชนะ 96% แสดงความสามารถในการปรับแต่ง GPU kernel
- ใน BFCL-V4 ได้ 75.0, Qwenclaw 64.3 และ ClawEval 65.2 ซึ่งใกล้เคียงกับ Opus-4.6 Max
- ใน SpreadSheetBench-v1 ทำได้ 87.0 แสดงประสิทธิภาพสูงในเบนช์มาร์กงานอัตโนมัติสำนักงานด้วย
- QwenClawBench เป็น Claw agent benchmark แบบโอเพนซอร์สที่สะท้อนการกระจายตัวของผู้ใช้จริง
- CoWorkBench เป็นเบนช์มาร์กความร่วมมือภายในที่ครอบคลุมงานระยะยาวในโดเมนด้านผลิตภาพ เช่น วิทยาการคอมพิวเตอร์ การเงิน กฎหมาย และการแพทย์
-
การให้เหตุผล
- ใน GPQA Diamond ทำได้ 92.4 สูงกว่า Opus-4.6 ที่ 91.3
- ใน HLE ได้ 41.4 สูงกว่า Opus-4.6 ที่ 40.0 และใน HMMT 2026 Feb ได้ 97.1 สูงกว่า Opus-4.6 ที่ 96.2
- ใน IMOAnswerBench ได้ 90.0 สูงกว่า DS-V4-Pro ที่ 89.8 และใน Apex ได้ 44.5 สูงกว่า DS-V4-Pro ที่ 38.3
- สำหรับสถานการณ์การให้เหตุผล แนะนำให้ใช้ system prompt ที่ขึ้นต้นด้วย
Reasoning effort is set to xhigh...
-
ความสามารถทั่วไปและหลายภาษา
- ใน IFBench ทำได้ 79.1 สูงกว่า DS-V4-Pro ที่ 77.0 แสดงความสามารถในการทำตามคำสั่งอย่างแม่นยำ
- ใน WMT24++ ได้ 85.8 และใน MAXIFE ได้ 89.2 แสดงจุดแข็งด้านความเข้าใจหลายภาษาและคุณภาพการแปล
- ใน SuperGPQA ได้ 73.6 และใน QwenWorldBench ได้ 57.3
- WMT24++ เป็นชุดย่อยของ WMT24 ที่ยากกว่า และใช้คะแนนเฉลี่ย XCOMET-XXL ครอบคลุม 55 ภาษา
- MAXIFE วัดความแม่นยำภายใต้การตั้งค่า prompt ภาษาอังกฤษและหลายภาษาจำนวน 23 แบบ
- MMLU-ProX ใช้ค่าความแม่นยำเฉลี่ยของ 29 ภาษา
เงื่อนไขการประเมินและรายละเอียดเบนช์มาร์ก
- Terminal-Bench 2.0 ประเมินด้วย Harbor/Terminus-2 harness จำกัดเวลา 5 ชั่วโมง, 12 CPU/24GB RAM,
temp=1.0,top_p=0.95,top_k=20, สูงสุด 80K โทเค็น, คอนเท็กซ์ 256K และใช้ค่าเฉลี่ย 5 รอบ - ตระกูล SWE-Bench ใช้ agent scaffold ภายในและเครื่องมือ Bash·แก้ไขไฟล์ โดยประเมินด้วย
temp=1.0,top_p=0.95และหน้าต่างคอนเท็กซ์ 200K - SkillsBench ประเมินด้วย OpenCode และใช้ค่าเฉลี่ย 5 รอบจาก 78 งาน หลังตัด 9 งานที่พึ่งพา external API ออก
- MCP-Mark ใช้ GitHub MCP v0.30.3 และตัดคำตอบ Playwright ที่ 32K โทเค็น
- MCP-Atlas เป็นคะแนนจากชุดสาธารณะและใช้ผู้ตัดสิน
gemini-2.5-pro - Kernel Bench L3 รายงานค่ามัธยฐานการเร่งความเร็วต่อโจทย์เทียบกับ PyTorch eager บน 50 ปัญหา และสัดส่วนปัญหาที่เร็วกว่า
torch.compile - ตัวอย่างทดสอบแต่ละรายการของ Kernel Bench L3 รันในคอนเทนเนอร์ Docker แบบแยกขาด พร้อม GPU H100 80GB 1 ตัว และจำกัดการเข้าถึงอินเทอร์เน็ตไว้เฉพาะโค้ดเบส CUTLASS และเอกสาร CUDA ทางการ
- Kernel Bench L3 ใช้ข้อจำกัดการเรียกใช้เครื่องมือ 500 ครั้งและหยุดก่อนกำหนดหลัง 100 เทิร์นที่ไม่มีการปรับปรุง พร้อมตรวจจับพฤติกรรมแฮ็กที่อาจเกิดขึ้นด้วย GPT-5.4(xhigh) และวัดเวลาในระดับเคอร์เนลด้วย CUPTI
- MRCR-v2 เป็นชุดย่อยคอนเท็กซ์ 128K ที่มี needle 8 รายการ และใช้โปรโตคอล mrcr_v2 ของ Google DeepMind eval_hub
ผู้ช่วยด้านผลิตภาพเชิงความร่วมมือ
- Qwen3.7-Max ตั้งเป้าเป็นเพื่อนร่วมงานขั้นสูงสำหรับผลิตภาพในการทำงานจริง โดยทำงานอย่างการสังเคราะห์ข้อมูลที่ซับซ้อน การวิเคราะห์และสร้างแบบจำลองข้อมูลเชิงลึก รวมถึงสร้างเอกสารและภาพประกอบที่พร้อมเผยแพร่ได้
- เข้ากันได้พื้นฐานกับ agent harness หลัก และรองรับทั้งการวางแผนอัตโนมัติและการทำงานต่อเนื่องหลายชั่วโมงสำหรับงานระยะยาว
- สามารถค่อย ๆ ยกระดับคุณภาพผลลัพธ์ผ่านการเรียกใช้เครื่องมือหลายพันครั้งและการวนปรับปรุงหลายสิบรอบ
- ระบุว่าสามารถทำโครงการซับซ้อนแบบ end-to-end ที่โดยปกติต้องใช้ทีมผู้เชี่ยวชาญ 1~2 สัปดาห์ ให้เสร็จได้ภายในไม่กี่ชั่วโมง
การฝึกเอเจนต์และการทำให้ทั่วไป
- Qwen3.7 ขยายคุณภาพและความหลากหลายของสภาพแวดล้อมการฝึกเอเจนต์ โดยต่อยอดจากแนวทาง environment scaling ที่เปิดตัวใน Qwen3.5
- ตั้งอยู่บนข้อสังเกตที่ว่า เช่นเดียวกับที่โมเดลภาษาทำให้ทั่วไปได้จากข้อความ pretraining ที่หลากหลาย ความสามารถของเอเจนต์ก็ทำให้ทั่วไปได้จากสภาพแวดล้อมการฝึกที่หลากหลายเช่นกัน
- เบนช์มาร์กทั้งหมดที่ใช้ประเมินเป็นสภาพแวดล้อม out-of-domain ใหม่ทั้งหมดที่ไม่รวมอยู่ในการฝึก
- environment scaling สร้างแนวโน้มการพัฒนาที่ชัดเจนและสม่ำเสมอ โดย Qwen3.7-Max ได้อันดับเฉลี่ย Top 3 ใกล้เคียงกับ Claude-4.6-Opus-Max
- การปรับปรุงบนชุดย่อยของเบนช์มาร์กมีความสม่ำเสมอจนสามารถทำนายการปรับปรุงสัมพัทธ์ของเบนช์มาร์กที่เหลือและค่าเฉลี่ยรวมได้ ชี้ให้เห็นถึง การทำให้ความสามารถทั่วไป มากกว่าการปรับเฉพาะเบนช์มาร์ก
- การวิเคราะห์เพิ่มเติมเกี่ยวกับพลวัตของ scaling และระเบียบวิธีจะถูกรายงานในเอกสารทางเทคนิคในอนาคต
การทำให้ทั่วไปแบบข้ามฮาร์เนส
- โครงสร้างพื้นฐานของสภาพแวดล้อม rollout แยกอินสแตนซ์การฝึกแต่ละรายการออกเป็นองค์ประกอบตั้งฉาก 3 ส่วนคือ Task, Harness, Verifier
- รองรับฮาร์เนสและเวอร์ชันที่หลากหลาย และใช้สภาพแวดล้อมที่อิงจากสถานการณ์จริงแทนพร็อกซีสังเคราะห์
- การออกแบบแบบแยกส่วนนี้ทำให้เกิดการสเกลแบบเชิงผสมผสาน โดยสามารถจับคู่งานเดียวกันกับประเภท·เวอร์ชันของฮาร์เนสและตัวตรวจสอบที่ต่างกันได้ด้วยต้นทุนเพิ่มเพียงเล็กน้อย
- ผ่านการฝึก RL แบบข้ามฮาร์เนส·ข้ามตัวตรวจสอบ ที่ทำให้งานเดียวกันไปปรากฏในคอนฟิกฮาร์เนสต่างกัน โมเดลจึงเรียนรู้กลยุทธ์แก้ปัญหาที่ทำให้ทั่วไปได้ แทนที่จะใช้ทางลัดเฉพาะฮาร์เนส
- ใน QwenClawBench และ CoWorkBench นั้น Qwen3.7-Max แสดงประสิทธิภาพที่แข็งแกร่งและสม่ำเสมอไม่ว่าฮาร์เนสที่ใช้ประเมินจะเป็นแบบใด
การวิวัฒน์ตนเองในสภาพแวดล้อมจริง
- Extend Attention เป็นโอเปอเรเตอร์ variable-length multi-head attention ระดับโปรดักชันของ SGLang
- สถานการณ์ทดสอบเกี่ยวข้องกับเคอร์เนลที่คอขวดด้านหน่วยความจำและไวต่อ latency ในงานเสิร์ฟ LLM ซึ่งคำนวณคะแนน attention ระหว่างโทเค็นที่เพิ่งสร้างใหม่ร่วมกับ MTP และ prefix KV-cache สูงสุด 32K รายการ
- อิมพลีเมนเทชันอ้างอิงคือ Triton implementation ทางการของ SGLang
-
การปรับแต่งเคอร์เนลบนสถาปัตยกรรม PPU ที่ไม่เคยรู้จัก
- Qwen3.7-Max ปรับแต่งเคอร์เนลนี้บนอินสแตนซ์ ECS ที่ติดตั้ง T-Head ZW-M890 PPU ซึ่งไม่เคยเห็นระหว่างการฝึก
- เริ่มต้นโดยไม่มีข้อมูลโปรไฟล์ล่วงหน้า ไม่มีเอกสารฮาร์ดแวร์ และไม่มีตัวอย่างเคอร์เนลสำหรับสถาปัตยกรรมนั้น
- เวิร์กสเปซว่างมีเพียงคำอธิบายงาน อิมพลีเมนเทชัน SGLang เดิม และสคริปต์ประเมินผล
- ตลอดการทำงานอัตโนมัติแบบต่อเนื่องราว 35 ชั่วโมง ได้เรียกใช้เครื่องมือ 1,158 ครั้งและประเมินเคอร์เนล 432 ครั้ง
- ทำทุกอย่างด้วยตนเองทั้งการวินิจฉัยความล้มเหลวในการคอมไพล์ แก้บั๊กความถูกต้อง ระบุคอขวดจาก runtime profiling และออกแบบสถาปัตยกรรมเคอร์เนลใหม่
- ผลลัพธ์สุดท้ายคือความเร็วเพิ่มขึ้นแบบค่าเฉลี่ยเรขาคณิต 10.0 เท่าเมื่อเทียบกับ Triton ในหลายเวิร์กโหลด
- แม้ผ่านไปเกิน 30 ชั่วโมงก็ยังค้นพบการปรับปรุงที่มีนัยสำคัญได้ แสดงผลิตภาพของการเพิ่มประสิทธิภาพอัตโนมัติระยะยาว
-
เส้นทางการปรับแต่ง
- ใช้การขนานแบบ Split-KV เพื่อแบ่ง prefix KV-cache ออกเป็นหลาย thread block ต่อ query และเพิ่ม reduction kernel ที่รวมผลลัพธ์ย่อยด้วย online softmax rescaling ทำให้ดีขึ้นจาก 0.33 เท่าเป็น 2.58 เท่าภายในราว 2 ชั่วโมง
- แทนที่
cudaMalloc/cudaFreeต่อการเรียกด้วยเทนเซอร์torch::emptyที่จัดสรรล่วงหน้า, ลบcudaMemcpyแบบ synchronous และ unroll ลูปภายใน 2 เท่า ทำให้เพิ่มเป็น 5.37 เท่าภายในราว 2.5 ชั่วโมง - เปลี่ยน fixed split divisor เป็น heuristic ตามขนาดเวิร์กโหลด และเพิ่ม SM wave occupancy บนสถาปัตยกรรม 36-SM ทำให้เพิ่มเป็น 6.85 เท่าภายในราว 3 ชั่วโมง
- รวมการลบ shared memory barrier, การโหลด K/V แบบใช้รีจิสเตอร์, persistent static tensor, batched softmax update และการ pre-scale Q ทำให้เพิ่มเป็น 8.50 เท่าในช่วง 3~25 ชั่วโมง
- เคอร์เนลเฉพาะสำหรับ MTP γ=4 ประมวลผล query token 4 ตัวพร้อมกันต่อบล็อก และแชร์การโหลด K/V ข้าม query จนไปถึง 10.0 เท่าในช่วง 32~35 ชั่วโมง
-
การเปรียบเทียบภายใต้เงื่อนไขเดียวกัน
- GLM 5.1 ไปได้ถึง 7.3 เท่า, Kimi K2.6 5.0 เท่า, DeepSeek V4 Pro 3.3 เท่า และ Qwen3.6-Plus 1.1 เท่า
- โมเดลที่หยุดก่อนกำหนดจะยุติเซสชันเองเมื่อพิจารณาว่าไม่สามารถคืบหน้าต่อได้หลังไม่สามารถสร้างการเรียกใช้เครื่องมือได้ 5 ครั้งติดกัน
-
การสร้างเคอร์เนลสำหรับ NVIDIA GPU
- Qwen3.7-Max ไม่ได้สร้างเฉพาะ PPU kernel แต่ยังสร้างเคอร์เนลระดับโปรดักชันสำหรับ NVIDIA GPU หลากหลายรุ่นได้ด้วย
- ใน KernelBench L3 นั้น Qwen3.7-Max สามารถสร้างเคอร์เนลเร่งความเร็วได้ใน 96% ของสถานการณ์
- ตัวเลขเปรียบเทียบคือ Opus-4.6 98%, GLM 5.1 78%, Kimi K2.6 80%, DeepSeek V4 Pro 54% และ Qwen3.6-Plus 48%
-
คุณลักษณะของเอเจนต์อัตโนมัติระยะยาว
- แสดง ความต่อเนื่องของการให้เหตุผลระยะยาว โดยคงกลยุทธ์การเพิ่มประสิทธิภาพไว้ได้ตลอดการเรียกใช้เครื่องมือมากกว่า 1,000 ครั้ง โดยไม่สูญเสียคอนเท็กซ์หรือถดถอย
- แสดง การทำให้ทั่วไปในคอนเท็กซ์ โดยสามารถสร้างเคอร์เนลที่แข่งขันได้บนสถาปัตยกรรมที่ไม่เคยเห็นในการฝึก โดยอาศัย feedback ระหว่างรันจริง ไม่ใช่ความรู้ฮาร์ดแวร์ที่ท่องจำไว้
การติดตามการแฮ็กรีวอร์ด
- Qwen3.7-Max ถูกผสานเข้ากับการมอนิเตอร์ RL สำหรับงานวิศวกรรมซอฟต์แวร์ เพื่อสร้างเฟรมเวิร์ก self-monitoring สำหรับ reward hacking และ self-evolution ของกฎ
- ตลอดการทดลอง RL ที่ยาวเกิน 80 ชั่วโมง ได้ค้นหาและเล่นซ้ำเส้นทางการฝึกอย่างอัตโนมัติ พร้อมรันการเรียกใช้มากกว่า 10,000 ครั้ง
- ระบุรูปแบบการแฮ็กที่เป็นไปได้อย่างเป็นระบบ เช่น ความพยายามเลี่ยงข้อจำกัดเพื่อเข้าถึงคำตอบบน GitHub
- ทำการตรวจสอบกฎ ขุดหาตัวอย่างโต้แย้ง และปรับแต่งซ้ำ
- ผ่านการวิวัฒน์กฎด้วยตนเองหลายรอบ ได้เพิ่ม heuristic rule ใหม่ 13 ข้อ และทำเครื่องหมายเคสการแฮ็กได้อย่างถูกต้อง 1,618 กรณี
- กระบวนการนี้ช่วยรับประกันเสถียรภาพของรางวัล RL และส่งเสริมการพัฒนาตนเองอย่างต่อเนื่องของโมเดลในฐานะเอเจนต์วิศวกรรมซอฟต์แวร์ขั้นสูง
การวางแผนและปฏิบัติการระยะยาวในการบริหารสตาร์ตอัป
- ขยายความซับซ้อนเชิงเวลาของงานฝึกในกรอบ Dynamic Cumulative Survival Games เพื่อเสริมความสามารถด้านการวางแผนและการปฏิบัติการระยะยาว
- เพิ่มความสม่ำเสมอของนโยบายเอเจนต์ในลำดับการตัดสินใจต่อเนื่องยาวเกินพันขั้นตอน ทำให้สามารถสร้างสมมติฐาน ปรับกลยุทธ์ตาม feedback จากสภาพแวดล้อม และสะสมประสบการณ์กับความทรงจำระยะยาวได้ต่อเนื่อง
- รักษาจังหวะการดำเนินงานที่เสถียรได้แม้ในช่วงเวลาที่ยาวนาน และทนต่อการเสื่อมของคอนเท็กซ์กับการหลุดจากคำสั่ง
-
ผลลัพธ์ YC-Bench
- YC-Bench เป็นเบนช์มาร์กที่จำลองวงจรชีวิตสตาร์ตอัปครบทั้ง 1 ปี
- เอเจนต์ต้องตัดสินใจหลายร้อยรอบ เช่น การบริหารคน ตรวจสอบสัญญา และระบุลูกค้าไม่ประสงค์ดี พร้อมรักษาอัตรากำไรแม้ต้นทุนบุคลากรจะเพิ่มขึ้น
- Qwen3.7-Max ทำรายได้รวม 2.08 ล้านดอลลาร์ สูงกว่า Qwen3.6-Plus ที่ 1.05 ล้านดอลลาร์ 2 เท่า และสูงกว่า Qwen3.5-Plus ที่ 352,000 ดอลลาร์ 5.9 เท่า
- จำนวนงานที่ทำสำเร็จคือ 237 งาน
- ดำเนินการตั้งแต่ค้นหาลูกค้าเป้าหมาย ระบุกับดักไม่ประสงค์ดีและขึ้นบัญชีดำ จัดลำดับความสำคัญของแหล่งรายได้ที่มั่นคง ไปจนถึงการฟื้นตัวอัตโนมัติในช่วงวิกฤตระยะกลาง
- สุดท้ายคอนเวิร์จไปสู่ลูปการดำเนินงานที่มีเสถียรภาพและประสิทธิภาพสูง
สร้างด้วย Qwen3.7
- Qwen3.7-Max จะพร้อมใช้งานเร็ว ๆ นี้ผ่าน Alibaba Cloud Model Studio และสามารถผสานเข้ากับเฟรมเวิร์กเอเจนต์ยอดนิยมและผู้ช่วยเขียนโค้ดได้
-
การใช้งาน API
- Qwen3.7-Max รองรับฟีเจอร์
preserve_thinkingซึ่งเก็บเนื้อหาการคิดของทุกเทิร์นก่อนหน้าไว้ในข้อความ และแนะนำสำหรับงานเอเจนต์ - Alibaba Cloud Model Studio รองรับโปรโตคอลมาตรฐานอุตสาหกรรม เช่น chat completions·responses API ที่เข้ากันได้กับสเปก OpenAI และ API interface ที่เข้ากันได้กับ Anthropic
DASHSCOPE_API_KEYใช้ API key ที่ได้รับจาก คอนโซล Model StudioDASHSCOPE_BASE_URLเป็นตัวเลือก และสามารถใช้ URL เริ่มต้นของ compatible mode API เป็นhttps://dashscope-intl.aliyuncs.com/compatible-mode/v1- URL ปักกิ่งคือ
https://dashscope.aliyuncs.com/compatible-mode/v1, URL สิงคโปร์คือhttps://dashscope-intl.aliyuncs.com/compatible-mode/v1, และ URL เวอร์จิเนีย สหรัฐฯ คือhttps://dashscope-us.aliyuncs.com/compatible-mode/v1 - ข้อมูลเพิ่มเติมดูได้ที่ เอกสาร API
- Qwen3.7-Max รองรับฟีเจอร์
-
การเขียนโค้ดฟรอนต์เอนด์
- Qwen3.7-Max สามารถสร้างเว็บแอปแบบอินเทอร์แอ็กทีฟจากพรอมป์ต์เดียว รวมถึงฉาก 3D ด้วย Three.js, แอนิเมชัน Canvas, เลย์เอาต์ทั้งหน้า และ SVG แบบไดนามิก
- พรอมป์ต์ตัวอย่างขอให้สร้าง HTML ที่ตรวจจับการแบมือ·กำมือผ่านกล้องเพื่อควบคุมการหดและกระจายของกลุ่มอนุภาค และสร้างข้อความ
hello, worldกับI’am Qwenตามท่าทางนิ้ว 1·2 พร้อมเอฟเฟกต์หมุนแบบ 3D
-
ผู้ช่วยสำนักงาน
- Qwen3.7-Max สามารถทำงานเป็นผู้ช่วยสำนักงานอัจฉริยะผ่านการผสานเครื่องมือ
- ตัวอย่างสาธิตคืออ่านข้อกำหนดรูปแบบวิทยานิพนธ์ของมหาวิทยาลัย แล้วจัดรูปแบบร่างที่ยุ่งเหยิงใหม่ด้วยการเรียกใช้เครื่องมือ office-cli แบบอัตโนมัติ
- ปรับเลย์เอาต์หน้า รูปแบบหัวข้อ แบบอักษร ระยะขอบ สารบัญ และรูปแบบบรรณานุกรม
- บทความตัวอย่างถูกสร้างโดย AI เพื่อใช้ในการสาธิต
-
เอเจนต์นำทางในโลกกายภาพ
- Qwen3.7-Max สามารถควบคุมสุนัขหุ่นยนต์ผ่านการเรียกใช้เครื่องมือ
- ทำความเข้าใจทางกายภาพ วางแผน จดจำ และตัดสินใจในสภาพแวดล้อมจริง
- ใช้โรบอติกส์เอเจนต์ฮาร์เนส Qwen-RobotClaw, โมเดลที่เน้นการนำทาง Qwen-RobotNav และเครื่องมือวิชันหลายตัวที่สร้างด้วยโมเดล Qwen-plus
- แผงด้านซ้ายของเดโมแสดงลำดับปฏิสัมพันธ์การเรียกใช้เครื่องมือของเอเจนต์ตลอด 20 นาทีในโลกจริง ตรงกลางแสดงมุมมองบุคคลที่หนึ่งตามเส้นทางของหุ่นยนต์สี่ขา และด้านขวาแสดงความทรงจำระยะยาวของเอเจนต์
-
การผสานเข้ากับผู้ช่วยเขียนโค้ด
- Qwen3.7-Max ถูกผสานเข้ากับเฟรมเวิร์กเอเจนต์ยอดนิยมและผู้ช่วยเขียนโค้ด
-
Claude Code
- Qwen API รองรับโปรโตคอล Anthropic API จึงใช้งานกับ Claude Code ได้โดยตรง
- ตั้งค่า
ANTHROPIC_MODELและANTHROPIC_SMALL_FAST_MODELเป็นqwen3.7-maxและตั้งANTHROPIC_BASE_URLเป็นhttps://dashscope-intl.aliyuncs.com/apps/anthropic
-
OpenClaw
- OpenClaw สามารถเชื่อมต่อผ่าน Model Studio
- หลังตั้งค่า
DASHSCOPE_API_KEYแล้วให้รันopenclaw dashboardและกำหนดmodelstudio/qwen3.7-maxเป็นโมเดลเริ่มต้นใน~/.openclaw/openclaw.json - ตัวอย่างการตั้งค่ารวมถึง
contextWindow1000000,maxTokens65536 และreasoningtrue
-
Qwen Code
- Qwen Code ถูกปรับแต่งเชิงลึกสำหรับซีรีส์ Qwen
- ติดตั้งด้วย
npm install -g @qwen-code/qwen-code@latestแล้วรันด้วยคำสั่งqwen
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ใน AA-omniscience อัตราคำตอบที่ไม่หลอนอยู่ในระดับสูงสุด และดีกว่า Opus 4.7, Gemini 3.1 Pro, GPT5.5 ขอแสดงความยินดีกับทีม
ต้องเพิ่มเข้าไปในกราฟเอง ไม่ได้แสดงเป็นค่าเริ่มต้น และสงสัยว่านี่คืออัตราหลอนต่ำสุดในชุดข้อมูลหรือเปล่า
ตัวอย่างเช่น ถ้ารัน Step 3.5 Flash แบบโลคัล โดยรวมถือว่าเก่งจนน่าทึ่ง แต่ประสิทธิภาพการใช้โทเค็นแย่มาก จนถ้าวัดตามเวลาจริงที่ใช้ ส่วนใหญ่ก็แพ้โมเดลอื่น แม้จะลองแฮ็กใส่ MTP support ให้ llama.cpp แล้ว บน Spark ก็จาก 20tk/s เป็นประมาณ 30tk/s เท่านั้น และแม้จะเทรนมาด้วยสาม heads แต่จุดที่เหมาะสมกลับเป็น MTP 2
โมเดลตระกูล DeepSeek กับ Qwen 3.5 Plus ก็คล้ายกัน คือเมื่อเทียบกับ Opus โดยเฉพาะ GPT 5.5 แล้ว ใช้โทเค็นมากกว่ามากกว่าจะได้คำตอบแบบเดียวกัน
หวังมากว่า Qwen 3.7 จะดีขึ้นในจุดนี้ และอยากลองเร็ว ๆ อีกอย่าง การรัน DeepSeek v4 Flash บน Spark นี่น่าทึ่งแบบเหลือเชื่อจริง ๆ ถ้า antirez มาเห็นก็อยากจะบอกว่าขอบคุณ
สุดท้ายแล้วมันหมายถึงแค่ว่าโมเดลสอดคล้องกับความเชื่อของกลุ่มคนที่สร้างแบบทดสอบมากแค่ไหน ซึ่งความเชื่อนั้นอาจจริงหรือเท็จก็ได้
เมื่อคืนผมเกือบชนลิมิตรายสัปดาห์ของ Claude Code แบบอันตราย เลยให้ Claude ไปตั้งค่า Qwen3.6 ด้วย llama.cpp และ OpenCode เอาจริง ๆ มันเป็น ทางเลือกฟรีที่ยอดเยี่ยมของ Claude Code และสำหรับงานเล็กลงหรือไม่ซับซ้อนมากหลายแบบก็ถือว่าดีพอแล้ว
เลยตื่นเต้นที่จะได้ลองเวอร์ชันใหม่นี้ด้วย ประทับใจมากที่โมเดลโอเพนซอร์สเข้าใกล้แนวหน้ามากขนาดนี้
สัปดาห์ก่อนผมลอง qwen3.6-27b Q6_k GUFF บน M2 MacBook Pro 32GB ด้วย llama.cpp และ LM Studio ทั้งคู่แทบจะได้ไม่ถึง 1 โทเค็นต่อวินาที
ไม่รู้ว่าควรคาดหวังความเร็วประมาณไหน จำได้ว่าเมื่อ 2 ปีก่อนตอนรันโมเดลสาย Llama 3 34b ด้วย llama.cpp ยังได้หลายโทเค็นต่อวินาที เลยไม่แน่ใจว่าตั้งค่าพลาดไปหมด หรือความคาดหวังของผมไม่สมจริงเอง
หรือว่า qwen 3.x ช้ากว่าเพราะเหตุผลบางอย่างก็ไม่รู้ สงสัยเหมือนกันว่าเป็นสถาปัตยกรรมผู้เชี่ยวชาญผสม (MoE) หรือเปล่า ไม่ได้คาดหวังให้ตอบสนองทันที แต่ความเร็วตอนนี้ใช้งานจริงยากมาก
อยากรู้ด้วยว่าใช้ MCP หรือเครื่องมืออื่นสำหรับปรับประสิทธิภาพอย่าง context-mode หรือ dynamic context pruning ไหม ผมลองโมเดลโลคัลมาพอสมควรแล้ว แต่เพิ่งเริ่มกับ opencode และผลลัพธ์ยังไม่ค่อยดี แม้อยากให้มันทำงานง่าย ๆ ได้ดีจริง ๆ อีกอย่าง opencode ที่เพิ่งติดตั้งใหม่มีปัญหาใช้ CPU ของ iTerm 100% แม้ตอนว่าง
ถ้าต้องเอางานเขียนโค้ดทั้งหมดไปทำบน Opus 4.7 ค่าใช้จ่ายรายเดือนคงสูงกว่าใช้ Sonnet ได้ถึง 10~20 เท่า
ในเมื่อเริ่มปล่อยโมเดลปิดมากขึ้นเรื่อย ๆ ก็อยากให้พาร์ตเนอร์กับหนึ่งใน hyperscaler รายใหญ่ของสหรัฐจริง ๆ เพื่อให้ใช้โมเดลพวกนี้ผ่าน ผู้ให้บริการที่อยู่ในสหรัฐ ได้
ผมเข้าใจดีว่าทำไมสิ่งนั้นอาจไม่สมเหตุสมผลหรือไม่สอดคล้องกับผลประโยชน์ของพวกเขา และก็จริงว่าสหรัฐเองก็ไม่ได้ทำแบบนั้นให้โดยอัตโนมัติในทางกลับกันเหมือนกัน แต่อย่างน้อยก็อยากทดสอบกับเวิร์กโหลดโปรดักชันจริง ๆ ให้ได้
ตัวเลขเองดูดีมาก แต่ก็ยังไม่เข้าใจว่าทำไมโพสต์แบบนี้ถึงไม่เทียบกับ โมเดลคู่แข่งล่าสุด ผู้คนไม่น่าจะไม่สังเกตเห็นอยู่แล้ว
OpenAI กับ Anthropic ก็เหมือนกัน เพราะบ่อยครั้งก็ใช้ชุดข้อมูลประเมินคนละชุดกัน
โพสต์แบบนี้ไม่ได้หล่นลงมาจากฟ้าแม้จะเป็นเรื่อง LLM ถ้ามีชุดเบนช์มาร์กเป้าหมายของโมเดลตัวเองอยู่แล้ว การคงชุดโมเดลที่เทียบกันแบบวางข้างกันได้ต่อเนื่องก็เป็นภาระในการดูแลอีกแบบหนึ่ง
ในทางปฏิบัติคงหวังให้ผู้อ่านไม่ทันสังเกตรายละเอียด
โมเดล Qwen นั้นยอดเยี่ยมในแง่ open weights แต่รุ่นก่อน ๆ ในการใช้งานจริงไม่ได้ทำได้ดีเท่าตัวเลขเบนช์มาร์ก และเมื่อรู้ว่าการจูนตัวเลขเบนช์มาร์กได้ผล ก็ย่อมปรับไปตามนั้น
ถ้าพูดว่าเทียบได้กับ 4.7 ภาพจำของโมเดลอ้างอิงในการประเมินก็จะถูกตรึงไว้แบบนั้น
สงสัยว่านี่เป็นประเภทที่อีกหนึ่งสัปดาห์จะมีรีลีสบน Hugging Face หรือเปล่า หรือรู้แน่ชัดแล้วว่าจะ คงไว้แบบปิด
หวังว่าจะมี รีลีส open weights ของ Qwen ออกมาเพิ่ม โดยเฉพาะ 122B กับ 397B
แค่เกิน Qwen 9B เครื่องก็เสี่ยงค้างทั้งระบบแล้ว
ในเบนช์มาร์กไม่มี Opus 4.7, GPT5.5, Gemini Flash 3.5
ผมใช้ pi agent อยู่ และอยากลองใช้โมเดล Qwen แบบโฮสต์ อยากรู้ว่ามีตัวเลือกไหนดีบ้าง
ผู้ให้บริการอย่างเป็นทางการไม่มี Alibaba และก็สงสัยว่าบริการอย่าง OpenRouter จะเร็วพอไหม อ้างอิงจากที่ DeepSeek v4 ถูกจำกัดหนักมากบนบริการพร็อกซีแบบนี้
ผมเพิ่งเริ่มลองเล่น LLM แบบโลคัล และพูดตรง ๆ ว่าค่อนข้างน่าประทับใจ ใช้เวิร์กสเตชันโน้ตบุ๊กที่มี NVIDIA A1000 (VRAM 6GB) กับ RAM 96GB
แทบไม่ได้ใช้ GPU เลย นาน ๆ ทีถึงจะใช้กับงานออกแบบ CAD หรือแมชชีนเลิร์นนิงบน OpenCV ลองรัน llama3:latest แล้วทำงานได้เร็วพอสมควร เลยอยากรู้ว่า Qwen จะรันบนระบบของผมได้อย่างไร
รูปแบบที่ผมเชื่อถือที่สุดคือการเพิ่ม ผลลัพธ์ยืนยันความถูกต้อง ขนาดเล็กเข้าไปกับทุกการกระทำภายนอก เพราะเอเจนต์มักไม่ได้ล้มเหลวเพราะความลึกในการให้เหตุผลไม่พอ แต่ล้มเหลวเร็วกว่าเพราะอาการ state drift แบบเงียบ ๆ