Qwen3.7-Max: แนวหน้าแห่งเอเจนต์

(qwen.ai)

5 คะแนน โดย GN⁺ 2026-05-21 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

Qwen3.7-Max เป็นโมเดลปิดที่เน้นเอเจนต์ ออกแบบมาสำหรับการเขียนโค้ด·ดีบัก งานอัตโนมัติในสำนักงาน และการทำงานอัตโนมัติแบบหลายร้อยถึงหลายพันขั้นตอน
ในการประเมินด้านการเขียนโค้ด·เอเจนต์ทั่วไป·การให้เหตุผล·หลายภาษา โมเดลนี้แข่งขันกับโมเดลชั้นนำอื่น ๆ โดยทำคะแนน Terminal Bench 2.0-Terminus ได้ 69.7 และ GPQA Diamond ได้ 92.4
ในการปรับแต่งเคอร์เนลอัตโนมัติเป็นเวลา 35 ชั่วโมง ได้ทำ การเรียกใช้เครื่องมือ 1,158 ครั้ง และประเมินผล 432 ครั้ง จนบรรลุความเร็วเพิ่มขึ้นแบบค่าเฉลี่ยเรขาคณิต 10.0 เท่าเมื่อเทียบกับ Triton
แยกอินสแตนซ์การฝึกออกเป็น Task·Harness·Verifier แล้วทำการฝึก RL แบบข้ามฮาร์เนส เพื่อผลักดันการแก้ปัญหาแบบทั่วไปแทนการอาศัยทางลัดเฉพาะฮาร์เนส
จะเปิดให้ใช้งานผ่าน API บน Alibaba Cloud Model Studio ในเร็ว ๆ นี้ และสามารถผสานกับ เฟรมเวิร์กเอเจนต์ อย่าง Claude Code·OpenClaw·Qwen Code ได้

การประเมินประสิทธิภาพ

Qwen3.7-Max ถูกประเมินร่วมกับโมเดลเปรียบเทียบหลายตัวในด้านเอเจนต์เขียนโค้ด เอเจนต์ทั่วไป STEM·การให้เหตุผล ความสามารถทั่วไป และหลายภาษา
ช่องว่าง (--) หมายถึงยังไม่มีการเปิดเผยคะแนน
เอเจนต์เขียนโค้ด
- ทำคะแนน Terminal Bench 2.0-Terminus ได้ 69.7 สูงกว่า DS-V4-Pro Max ที่ได้ 67.9
- ใน SWE-Verified ได้ 80.4 ซึ่งอยู่ในระดับใกล้เคียงกับ Opus-4.6 Max 80.8 และ DS-V4-Pro Max 80.6
- ทำคะแนน SWE-Pro 60.6, SWE-Multilingual 78.3, SciCode 53.5 และ QwenSVG 1608
- NL2repo ประเมินด้วย Claude Code และปิดใช้งานคำสั่ง Bash อย่าง pip download, pip install, git clone ที่พยายามเข้าถึงรีโพซิทอรีเฉพาะ
- QwenWebDev เป็นเบนช์มาร์กภายในสำหรับการสร้างโค้ดฟรอนต์เอนด์สองภาษาอังกฤษ·จีน โดยใช้ 7 หมวดหมู่ การเรนเดอร์อัตโนมัติ การตัดสินแบบมัลติโหมด และคะแนน BT/Elo
เอเจนต์ทั่วไป
- ใน MCP-Mark ทำได้ 60.8 สูงกว่า GLM-5.1 ที่ 57.5 และใน MCP-Atlas ได้ 76.4 สูงกว่า Opus-4.6 ที่ 75.8
- ใน Skillsbench ได้ 59.2 สูงกว่า K2.6 ที่ 56.2
- ใน Kernel Bench L3 บันทึกค่ามัธยฐานการเร่งความเร็ว 1.98 เท่าและอัตราชนะ 96% แสดงความสามารถในการปรับแต่ง GPU kernel
- ใน BFCL-V4 ได้ 75.0, Qwenclaw 64.3 และ ClawEval 65.2 ซึ่งใกล้เคียงกับ Opus-4.6 Max
- ใน SpreadSheetBench-v1 ทำได้ 87.0 แสดงประสิทธิภาพสูงในเบนช์มาร์กงานอัตโนมัติสำนักงานด้วย
- QwenClawBench เป็น Claw agent benchmark แบบโอเพนซอร์สที่สะท้อนการกระจายตัวของผู้ใช้จริง
- CoWorkBench เป็นเบนช์มาร์กความร่วมมือภายในที่ครอบคลุมงานระยะยาวในโดเมนด้านผลิตภาพ เช่น วิทยาการคอมพิวเตอร์ การเงิน กฎหมาย และการแพทย์
การให้เหตุผล
- ใน GPQA Diamond ทำได้ 92.4 สูงกว่า Opus-4.6 ที่ 91.3
- ใน HLE ได้ 41.4 สูงกว่า Opus-4.6 ที่ 40.0 และใน HMMT 2026 Feb ได้ 97.1 สูงกว่า Opus-4.6 ที่ 96.2
- ใน IMOAnswerBench ได้ 90.0 สูงกว่า DS-V4-Pro ที่ 89.8 และใน Apex ได้ 44.5 สูงกว่า DS-V4-Pro ที่ 38.3
- สำหรับสถานการณ์การให้เหตุผล แนะนำให้ใช้ system prompt ที่ขึ้นต้นด้วย Reasoning effort is set to xhigh...
ความสามารถทั่วไปและหลายภาษา
- ใน IFBench ทำได้ 79.1 สูงกว่า DS-V4-Pro ที่ 77.0 แสดงความสามารถในการทำตามคำสั่งอย่างแม่นยำ
- ใน WMT24++ ได้ 85.8 และใน MAXIFE ได้ 89.2 แสดงจุดแข็งด้านความเข้าใจหลายภาษาและคุณภาพการแปล
- ใน SuperGPQA ได้ 73.6 และใน QwenWorldBench ได้ 57.3
- WMT24++ เป็นชุดย่อยของ WMT24 ที่ยากกว่า และใช้คะแนนเฉลี่ย XCOMET-XXL ครอบคลุม 55 ภาษา
- MAXIFE วัดความแม่นยำภายใต้การตั้งค่า prompt ภาษาอังกฤษและหลายภาษาจำนวน 23 แบบ
- MMLU-ProX ใช้ค่าความแม่นยำเฉลี่ยของ 29 ภาษา

เงื่อนไขการประเมินและรายละเอียดเบนช์มาร์ก

Terminal-Bench 2.0 ประเมินด้วย Harbor/Terminus-2 harness จำกัดเวลา 5 ชั่วโมง, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, สูงสุด 80K โทเค็น, คอนเท็กซ์ 256K และใช้ค่าเฉลี่ย 5 รอบ
ตระกูล SWE-Bench ใช้ agent scaffold ภายในและเครื่องมือ Bash·แก้ไขไฟล์ โดยประเมินด้วย temp=1.0, top_p=0.95 และหน้าต่างคอนเท็กซ์ 200K
SkillsBench ประเมินด้วย OpenCode และใช้ค่าเฉลี่ย 5 รอบจาก 78 งาน หลังตัด 9 งานที่พึ่งพา external API ออก
MCP-Mark ใช้ GitHub MCP v0.30.3 และตัดคำตอบ Playwright ที่ 32K โทเค็น
MCP-Atlas เป็นคะแนนจากชุดสาธารณะและใช้ผู้ตัดสิน gemini-2.5-pro
Kernel Bench L3 รายงานค่ามัธยฐานการเร่งความเร็วต่อโจทย์เทียบกับ PyTorch eager บน 50 ปัญหา และสัดส่วนปัญหาที่เร็วกว่า torch.compile
ตัวอย่างทดสอบแต่ละรายการของ Kernel Bench L3 รันในคอนเทนเนอร์ Docker แบบแยกขาด พร้อม GPU H100 80GB 1 ตัว และจำกัดการเข้าถึงอินเทอร์เน็ตไว้เฉพาะโค้ดเบส CUTLASS และเอกสาร CUDA ทางการ
Kernel Bench L3 ใช้ข้อจำกัดการเรียกใช้เครื่องมือ 500 ครั้งและหยุดก่อนกำหนดหลัง 100 เทิร์นที่ไม่มีการปรับปรุง พร้อมตรวจจับพฤติกรรมแฮ็กที่อาจเกิดขึ้นด้วย GPT-5.4(xhigh) และวัดเวลาในระดับเคอร์เนลด้วย CUPTI
MRCR-v2 เป็นชุดย่อยคอนเท็กซ์ 128K ที่มี needle 8 รายการ และใช้โปรโตคอล mrcr_v2 ของ Google DeepMind eval_hub

ผู้ช่วยด้านผลิตภาพเชิงความร่วมมือ

Qwen3.7-Max ตั้งเป้าเป็นเพื่อนร่วมงานขั้นสูงสำหรับผลิตภาพในการทำงานจริง โดยทำงานอย่างการสังเคราะห์ข้อมูลที่ซับซ้อน การวิเคราะห์และสร้างแบบจำลองข้อมูลเชิงลึก รวมถึงสร้างเอกสารและภาพประกอบที่พร้อมเผยแพร่ได้
เข้ากันได้พื้นฐานกับ agent harness หลัก และรองรับทั้งการวางแผนอัตโนมัติและการทำงานต่อเนื่องหลายชั่วโมงสำหรับงานระยะยาว
สามารถค่อย ๆ ยกระดับคุณภาพผลลัพธ์ผ่านการเรียกใช้เครื่องมือหลายพันครั้งและการวนปรับปรุงหลายสิบรอบ
ระบุว่าสามารถทำโครงการซับซ้อนแบบ end-to-end ที่โดยปกติต้องใช้ทีมผู้เชี่ยวชาญ 1~2 สัปดาห์ ให้เสร็จได้ภายในไม่กี่ชั่วโมง

การฝึกเอเจนต์และการทำให้ทั่วไป

Qwen3.7 ขยายคุณภาพและความหลากหลายของสภาพแวดล้อมการฝึกเอเจนต์ โดยต่อยอดจากแนวทาง environment scaling ที่เปิดตัวใน Qwen3.5
ตั้งอยู่บนข้อสังเกตที่ว่า เช่นเดียวกับที่โมเดลภาษาทำให้ทั่วไปได้จากข้อความ pretraining ที่หลากหลาย ความสามารถของเอเจนต์ก็ทำให้ทั่วไปได้จากสภาพแวดล้อมการฝึกที่หลากหลายเช่นกัน
เบนช์มาร์กทั้งหมดที่ใช้ประเมินเป็นสภาพแวดล้อม out-of-domain ใหม่ทั้งหมดที่ไม่รวมอยู่ในการฝึก
environment scaling สร้างแนวโน้มการพัฒนาที่ชัดเจนและสม่ำเสมอ โดย Qwen3.7-Max ได้อันดับเฉลี่ย Top 3 ใกล้เคียงกับ Claude-4.6-Opus-Max
การปรับปรุงบนชุดย่อยของเบนช์มาร์กมีความสม่ำเสมอจนสามารถทำนายการปรับปรุงสัมพัทธ์ของเบนช์มาร์กที่เหลือและค่าเฉลี่ยรวมได้ ชี้ให้เห็นถึง การทำให้ความสามารถทั่วไป มากกว่าการปรับเฉพาะเบนช์มาร์ก
การวิเคราะห์เพิ่มเติมเกี่ยวกับพลวัตของ scaling และระเบียบวิธีจะถูกรายงานในเอกสารทางเทคนิคในอนาคต

การทำให้ทั่วไปแบบข้ามฮาร์เนส

โครงสร้างพื้นฐานของสภาพแวดล้อม rollout แยกอินสแตนซ์การฝึกแต่ละรายการออกเป็นองค์ประกอบตั้งฉาก 3 ส่วนคือ Task, Harness, Verifier
รองรับฮาร์เนสและเวอร์ชันที่หลากหลาย และใช้สภาพแวดล้อมที่อิงจากสถานการณ์จริงแทนพร็อกซีสังเคราะห์
การออกแบบแบบแยกส่วนนี้ทำให้เกิดการสเกลแบบเชิงผสมผสาน โดยสามารถจับคู่งานเดียวกันกับประเภท·เวอร์ชันของฮาร์เนสและตัวตรวจสอบที่ต่างกันได้ด้วยต้นทุนเพิ่มเพียงเล็กน้อย
ผ่านการฝึก RL แบบข้ามฮาร์เนส·ข้ามตัวตรวจสอบ ที่ทำให้งานเดียวกันไปปรากฏในคอนฟิกฮาร์เนสต่างกัน โมเดลจึงเรียนรู้กลยุทธ์แก้ปัญหาที่ทำให้ทั่วไปได้ แทนที่จะใช้ทางลัดเฉพาะฮาร์เนส
ใน QwenClawBench และ CoWorkBench นั้น Qwen3.7-Max แสดงประสิทธิภาพที่แข็งแกร่งและสม่ำเสมอไม่ว่าฮาร์เนสที่ใช้ประเมินจะเป็นแบบใด

การวิวัฒน์ตนเองในสภาพแวดล้อมจริง

Extend Attention เป็นโอเปอเรเตอร์ variable-length multi-head attention ระดับโปรดักชันของ SGLang
สถานการณ์ทดสอบเกี่ยวข้องกับเคอร์เนลที่คอขวดด้านหน่วยความจำและไวต่อ latency ในงานเสิร์ฟ LLM ซึ่งคำนวณคะแนน attention ระหว่างโทเค็นที่เพิ่งสร้างใหม่ร่วมกับ MTP และ prefix KV-cache สูงสุด 32K รายการ
อิมพลีเมนเทชันอ้างอิงคือ Triton implementation ทางการของ SGLang
การปรับแต่งเคอร์เนลบนสถาปัตยกรรม PPU ที่ไม่เคยรู้จัก
- Qwen3.7-Max ปรับแต่งเคอร์เนลนี้บนอินสแตนซ์ ECS ที่ติดตั้ง T-Head ZW-M890 PPU ซึ่งไม่เคยเห็นระหว่างการฝึก
- เริ่มต้นโดยไม่มีข้อมูลโปรไฟล์ล่วงหน้า ไม่มีเอกสารฮาร์ดแวร์ และไม่มีตัวอย่างเคอร์เนลสำหรับสถาปัตยกรรมนั้น
- เวิร์กสเปซว่างมีเพียงคำอธิบายงาน อิมพลีเมนเทชัน SGLang เดิม และสคริปต์ประเมินผล
- ตลอดการทำงานอัตโนมัติแบบต่อเนื่องราว 35 ชั่วโมง ได้เรียกใช้เครื่องมือ 1,158 ครั้งและประเมินเคอร์เนล 432 ครั้ง
- ทำทุกอย่างด้วยตนเองทั้งการวินิจฉัยความล้มเหลวในการคอมไพล์ แก้บั๊กความถูกต้อง ระบุคอขวดจาก runtime profiling และออกแบบสถาปัตยกรรมเคอร์เนลใหม่
- ผลลัพธ์สุดท้ายคือความเร็วเพิ่มขึ้นแบบค่าเฉลี่ยเรขาคณิต 10.0 เท่าเมื่อเทียบกับ Triton ในหลายเวิร์กโหลด
- แม้ผ่านไปเกิน 30 ชั่วโมงก็ยังค้นพบการปรับปรุงที่มีนัยสำคัญได้ แสดงผลิตภาพของการเพิ่มประสิทธิภาพอัตโนมัติระยะยาว
เส้นทางการปรับแต่ง
- ใช้การขนานแบบ Split-KV เพื่อแบ่ง prefix KV-cache ออกเป็นหลาย thread block ต่อ query และเพิ่ม reduction kernel ที่รวมผลลัพธ์ย่อยด้วย online softmax rescaling ทำให้ดีขึ้นจาก 0.33 เท่าเป็น 2.58 เท่าภายในราว 2 ชั่วโมง
- แทนที่ cudaMalloc/cudaFree ต่อการเรียกด้วยเทนเซอร์ torch::empty ที่จัดสรรล่วงหน้า, ลบ cudaMemcpy แบบ synchronous และ unroll ลูปภายใน 2 เท่า ทำให้เพิ่มเป็น 5.37 เท่าภายในราว 2.5 ชั่วโมง
- เปลี่ยน fixed split divisor เป็น heuristic ตามขนาดเวิร์กโหลด และเพิ่ม SM wave occupancy บนสถาปัตยกรรม 36-SM ทำให้เพิ่มเป็น 6.85 เท่าภายในราว 3 ชั่วโมง
- รวมการลบ shared memory barrier, การโหลด K/V แบบใช้รีจิสเตอร์, persistent static tensor, batched softmax update และการ pre-scale Q ทำให้เพิ่มเป็น 8.50 เท่าในช่วง 3~25 ชั่วโมง
- เคอร์เนลเฉพาะสำหรับ MTP γ=4 ประมวลผล query token 4 ตัวพร้อมกันต่อบล็อก และแชร์การโหลด K/V ข้าม query จนไปถึง 10.0 เท่าในช่วง 32~35 ชั่วโมง
การเปรียบเทียบภายใต้เงื่อนไขเดียวกัน
- GLM 5.1 ไปได้ถึง 7.3 เท่า, Kimi K2.6 5.0 เท่า, DeepSeek V4 Pro 3.3 เท่า และ Qwen3.6-Plus 1.1 เท่า
- โมเดลที่หยุดก่อนกำหนดจะยุติเซสชันเองเมื่อพิจารณาว่าไม่สามารถคืบหน้าต่อได้หลังไม่สามารถสร้างการเรียกใช้เครื่องมือได้ 5 ครั้งติดกัน
การสร้างเคอร์เนลสำหรับ NVIDIA GPU
- Qwen3.7-Max ไม่ได้สร้างเฉพาะ PPU kernel แต่ยังสร้างเคอร์เนลระดับโปรดักชันสำหรับ NVIDIA GPU หลากหลายรุ่นได้ด้วย
- ใน KernelBench L3 นั้น Qwen3.7-Max สามารถสร้างเคอร์เนลเร่งความเร็วได้ใน 96% ของสถานการณ์
- ตัวเลขเปรียบเทียบคือ Opus-4.6 98%, GLM 5.1 78%, Kimi K2.6 80%, DeepSeek V4 Pro 54% และ Qwen3.6-Plus 48%
คุณลักษณะของเอเจนต์อัตโนมัติระยะยาว
- แสดง ความต่อเนื่องของการให้เหตุผลระยะยาว โดยคงกลยุทธ์การเพิ่มประสิทธิภาพไว้ได้ตลอดการเรียกใช้เครื่องมือมากกว่า 1,000 ครั้ง โดยไม่สูญเสียคอนเท็กซ์หรือถดถอย
- แสดง การทำให้ทั่วไปในคอนเท็กซ์ โดยสามารถสร้างเคอร์เนลที่แข่งขันได้บนสถาปัตยกรรมที่ไม่เคยเห็นในการฝึก โดยอาศัย feedback ระหว่างรันจริง ไม่ใช่ความรู้ฮาร์ดแวร์ที่ท่องจำไว้

การติดตามการแฮ็กรีวอร์ด

Qwen3.7-Max ถูกผสานเข้ากับการมอนิเตอร์ RL สำหรับงานวิศวกรรมซอฟต์แวร์ เพื่อสร้างเฟรมเวิร์ก self-monitoring สำหรับ reward hacking และ self-evolution ของกฎ
ตลอดการทดลอง RL ที่ยาวเกิน 80 ชั่วโมง ได้ค้นหาและเล่นซ้ำเส้นทางการฝึกอย่างอัตโนมัติ พร้อมรันการเรียกใช้มากกว่า 10,000 ครั้ง
ระบุรูปแบบการแฮ็กที่เป็นไปได้อย่างเป็นระบบ เช่น ความพยายามเลี่ยงข้อจำกัดเพื่อเข้าถึงคำตอบบน GitHub
ทำการตรวจสอบกฎ ขุดหาตัวอย่างโต้แย้ง และปรับแต่งซ้ำ
ผ่านการวิวัฒน์กฎด้วยตนเองหลายรอบ ได้เพิ่ม heuristic rule ใหม่ 13 ข้อ และทำเครื่องหมายเคสการแฮ็กได้อย่างถูกต้อง 1,618 กรณี
กระบวนการนี้ช่วยรับประกันเสถียรภาพของรางวัล RL และส่งเสริมการพัฒนาตนเองอย่างต่อเนื่องของโมเดลในฐานะเอเจนต์วิศวกรรมซอฟต์แวร์ขั้นสูง

การวางแผนและปฏิบัติการระยะยาวในการบริหารสตาร์ตอัป

ขยายความซับซ้อนเชิงเวลาของงานฝึกในกรอบ Dynamic Cumulative Survival Games เพื่อเสริมความสามารถด้านการวางแผนและการปฏิบัติการระยะยาว
เพิ่มความสม่ำเสมอของนโยบายเอเจนต์ในลำดับการตัดสินใจต่อเนื่องยาวเกินพันขั้นตอน ทำให้สามารถสร้างสมมติฐาน ปรับกลยุทธ์ตาม feedback จากสภาพแวดล้อม และสะสมประสบการณ์กับความทรงจำระยะยาวได้ต่อเนื่อง
รักษาจังหวะการดำเนินงานที่เสถียรได้แม้ในช่วงเวลาที่ยาวนาน และทนต่อการเสื่อมของคอนเท็กซ์กับการหลุดจากคำสั่ง
ผลลัพธ์ YC-Bench
- YC-Bench เป็นเบนช์มาร์กที่จำลองวงจรชีวิตสตาร์ตอัปครบทั้ง 1 ปี
- เอเจนต์ต้องตัดสินใจหลายร้อยรอบ เช่น การบริหารคน ตรวจสอบสัญญา และระบุลูกค้าไม่ประสงค์ดี พร้อมรักษาอัตรากำไรแม้ต้นทุนบุคลากรจะเพิ่มขึ้น
- Qwen3.7-Max ทำรายได้รวม 2.08 ล้านดอลลาร์ สูงกว่า Qwen3.6-Plus ที่ 1.05 ล้านดอลลาร์ 2 เท่า และสูงกว่า Qwen3.5-Plus ที่ 352,000 ดอลลาร์ 5.9 เท่า
- จำนวนงานที่ทำสำเร็จคือ 237 งาน
- ดำเนินการตั้งแต่ค้นหาลูกค้าเป้าหมาย ระบุกับดักไม่ประสงค์ดีและขึ้นบัญชีดำ จัดลำดับความสำคัญของแหล่งรายได้ที่มั่นคง ไปจนถึงการฟื้นตัวอัตโนมัติในช่วงวิกฤตระยะกลาง
- สุดท้ายคอนเวิร์จไปสู่ลูปการดำเนินงานที่มีเสถียรภาพและประสิทธิภาพสูง

สร้างด้วย Qwen3.7

Qwen3.7-Max จะพร้อมใช้งานเร็ว ๆ นี้ผ่าน Alibaba Cloud Model Studio และสามารถผสานเข้ากับเฟรมเวิร์กเอเจนต์ยอดนิยมและผู้ช่วยเขียนโค้ดได้
การใช้งาน API
- Qwen3.7-Max รองรับฟีเจอร์ preserve_thinking ซึ่งเก็บเนื้อหาการคิดของทุกเทิร์นก่อนหน้าไว้ในข้อความ และแนะนำสำหรับงานเอเจนต์
- Alibaba Cloud Model Studio รองรับโปรโตคอลมาตรฐานอุตสาหกรรม เช่น chat completions·responses API ที่เข้ากันได้กับสเปก OpenAI และ API interface ที่เข้ากันได้กับ Anthropic
- DASHSCOPE_API_KEY ใช้ API key ที่ได้รับจาก คอนโซล Model Studio
- DASHSCOPE_BASE_URL เป็นตัวเลือก และสามารถใช้ URL เริ่มต้นของ compatible mode API เป็น https://dashscope-intl.aliyuncs.com/compatible-mode/v1
- URL ปักกิ่งคือ https://dashscope.aliyuncs.com/compatible-mode/v1, URL สิงคโปร์คือ https://dashscope-intl.aliyuncs.com/compatible-mode/v1, และ URL เวอร์จิเนีย สหรัฐฯ คือ https://dashscope-us.aliyuncs.com/compatible-mode/v1
- ข้อมูลเพิ่มเติมดูได้ที่ เอกสาร API
การเขียนโค้ดฟรอนต์เอนด์
- Qwen3.7-Max สามารถสร้างเว็บแอปแบบอินเทอร์แอ็กทีฟจากพรอมป์ต์เดียว รวมถึงฉาก 3D ด้วย Three.js, แอนิเมชัน Canvas, เลย์เอาต์ทั้งหน้า และ SVG แบบไดนามิก
- พรอมป์ต์ตัวอย่างขอให้สร้าง HTML ที่ตรวจจับการแบมือ·กำมือผ่านกล้องเพื่อควบคุมการหดและกระจายของกลุ่มอนุภาค และสร้างข้อความ hello, world กับ I’am Qwen ตามท่าทางนิ้ว 1·2 พร้อมเอฟเฟกต์หมุนแบบ 3D
ผู้ช่วยสำนักงาน
- Qwen3.7-Max สามารถทำงานเป็นผู้ช่วยสำนักงานอัจฉริยะผ่านการผสานเครื่องมือ
- ตัวอย่างสาธิตคืออ่านข้อกำหนดรูปแบบวิทยานิพนธ์ของมหาวิทยาลัย แล้วจัดรูปแบบร่างที่ยุ่งเหยิงใหม่ด้วยการเรียกใช้เครื่องมือ office-cli แบบอัตโนมัติ
- ปรับเลย์เอาต์หน้า รูปแบบหัวข้อ แบบอักษร ระยะขอบ สารบัญ และรูปแบบบรรณานุกรม
- บทความตัวอย่างถูกสร้างโดย AI เพื่อใช้ในการสาธิต
เอเจนต์นำทางในโลกกายภาพ
- Qwen3.7-Max สามารถควบคุมสุนัขหุ่นยนต์ผ่านการเรียกใช้เครื่องมือ
- ทำความเข้าใจทางกายภาพ วางแผน จดจำ และตัดสินใจในสภาพแวดล้อมจริง
- ใช้โรบอติกส์เอเจนต์ฮาร์เนส Qwen-RobotClaw, โมเดลที่เน้นการนำทาง Qwen-RobotNav และเครื่องมือวิชันหลายตัวที่สร้างด้วยโมเดล Qwen-plus
- แผงด้านซ้ายของเดโมแสดงลำดับปฏิสัมพันธ์การเรียกใช้เครื่องมือของเอเจนต์ตลอด 20 นาทีในโลกจริง ตรงกลางแสดงมุมมองบุคคลที่หนึ่งตามเส้นทางของหุ่นยนต์สี่ขา และด้านขวาแสดงความทรงจำระยะยาวของเอเจนต์
การผสานเข้ากับผู้ช่วยเขียนโค้ด
- Qwen3.7-Max ถูกผสานเข้ากับเฟรมเวิร์กเอเจนต์ยอดนิยมและผู้ช่วยเขียนโค้ด
- Claude Code
  - Qwen API รองรับโปรโตคอล Anthropic API จึงใช้งานกับ Claude Code ได้โดยตรง
  - ตั้งค่า ANTHROPIC_MODEL และ ANTHROPIC_SMALL_FAST_MODEL เป็น qwen3.7-max และตั้ง ANTHROPIC_BASE_URL เป็น https://dashscope-intl.aliyuncs.com/apps/anthropic
- OpenClaw
  - OpenClaw สามารถเชื่อมต่อผ่าน Model Studio
  - หลังตั้งค่า DASHSCOPE_API_KEY แล้วให้รัน openclaw dashboard และกำหนด modelstudio/qwen3.7-max เป็นโมเดลเริ่มต้นใน ~/.openclaw/openclaw.json
  - ตัวอย่างการตั้งค่ารวมถึง contextWindow 1000000, maxTokens 65536 และ reasoning true
- Qwen Code
  - Qwen Code ถูกปรับแต่งเชิงลึกสำหรับซีรีส์ Qwen
  - ติดตั้งด้วย npm install -g @qwen-code/qwen-code@latest แล้วรันด้วยคำสั่ง qwen

3 ความคิดเห็น

beepp 2026-05-21

ก่อนหน้านี้เห็นโพสต์ว่าคนหลัก ๆ ลาออกกันไปก็เลยกังวล แต่ดูเหมือนว่าพวกเขายังเคลื่อนไหวกันอย่างคึกคักนะ

emptybynature 2026-05-22

อย่างไรเสียก็เป็นอุตสาหกรรมที่ต่างก็กลั่นความรู้กันเองและนำกลับไปใช้ต่ออยู่แล้ว ใครจะย้ายไปไหนก็ไม่ได้สำคัญมากนักอยู่ดี สถานการณ์กำลังไหลไปสู่สงครามตัดราคากัน ดังนั้นสุดท้ายบริษัทที่มีกระสุนทุนมากกว่าน่าจะเป็นผู้ชนะ

GN⁺ 2026-05-21

ความคิดเห็นจาก Hacker News

ใน AA-omniscience อัตราคำตอบที่ไม่หลอนอยู่ในระดับสูงสุด และดีกว่า Opus 4.7, Gemini 3.1 Pro, GPT5.5 ขอแสดงความยินดีกับทีม
- ลิงก์อ้างอิงคืออันนี้: https://artificialanalysis.ai/evaluations/omniscience?models...
  ต้องเพิ่มเข้าไปในกราฟเอง ไม่ได้แสดงเป็นค่าเริ่มต้น และสงสัยว่านี่คืออัตราหลอนต่ำสุดในชุดข้อมูลหรือเปล่า
- ถ้าได้ใช้โมเดลจีนระดับท็อปแบบนี้เยอะ ๆ คำถามใหญ่ที่สุดคือ ประสิทธิภาพการใช้โทเค็น เป็นอย่างไร
  ตัวอย่างเช่น ถ้ารัน Step 3.5 Flash แบบโลคัล โดยรวมถือว่าเก่งจนน่าทึ่ง แต่ประสิทธิภาพการใช้โทเค็นแย่มาก จนถ้าวัดตามเวลาจริงที่ใช้ ส่วนใหญ่ก็แพ้โมเดลอื่น แม้จะลองแฮ็กใส่ MTP support ให้ llama.cpp แล้ว บน Spark ก็จาก 20tk/s เป็นประมาณ 30tk/s เท่านั้น และแม้จะเทรนมาด้วยสาม heads แต่จุดที่เหมาะสมกลับเป็น MTP 2
  โมเดลตระกูล DeepSeek กับ Qwen 3.5 Plus ก็คล้ายกัน คือเมื่อเทียบกับ Opus โดยเฉพาะ GPT 5.5 แล้ว ใช้โทเค็นมากกว่ามากกว่าจะได้คำตอบแบบเดียวกัน
  หวังมากว่า Qwen 3.7 จะดีขึ้นในจุดนี้ และอยากลองเร็ว ๆ อีกอย่าง การรัน DeepSeek v4 Flash บน Spark นี่น่าทึ่งแบบเหลือเชื่อจริง ๆ ถ้า antirez มาเห็นก็อยากจะบอกว่าขอบคุณ
- การที่ “อัตราคำตอบที่ไม่หลอน” สมบูรณ์แบบ ไม่ได้มีความหมายมากนักในตัวมันเอง เพราะแม้แต่การทดสอบแบบนี้ก็อาจมี อาการหลอนที่มนุษย์สร้างขึ้น ปะปนอยู่ได้
  สุดท้ายแล้วมันหมายถึงแค่ว่าโมเดลสอดคล้องกับความเชื่อของกลุ่มคนที่สร้างแบบทดสอบมากแค่ไหน ซึ่งความเชื่อนั้นอาจจริงหรือเท็จก็ได้
- สุดยอดมาก และความก้าวหน้าน่าประทับใจ อยากรู้เหมือนกันว่าใช้ ชิปของตัวเอง ไปเท่าไรในการฝึก
- สงสัยว่าการ เปลี่ยนสถานะของความสามารถ จะเกิดขึ้นที่ระดับไหน 5% หรือ 1%
เมื่อคืนผมเกือบชนลิมิตรายสัปดาห์ของ Claude Code แบบอันตราย เลยให้ Claude ไปตั้งค่า Qwen3.6 ด้วย llama.cpp และ OpenCode เอาจริง ๆ มันเป็น ทางเลือกฟรีที่ยอดเยี่ยมของ Claude Code และสำหรับงานเล็กลงหรือไม่ซับซ้อนมากหลายแบบก็ถือว่าดีพอแล้ว
เลยตื่นเต้นที่จะได้ลองเวอร์ชันใหม่นี้ด้วย ประทับใจมากที่โมเดลโอเพนซอร์สเข้าใกล้แนวหน้ามากขนาดนี้
- อยากรู้ว่ารันบนเครื่องและโมเดลอะไร
  สัปดาห์ก่อนผมลอง qwen3.6-27b Q6_k GUFF บน M2 MacBook Pro 32GB ด้วย llama.cpp และ LM Studio ทั้งคู่แทบจะได้ไม่ถึง 1 โทเค็นต่อวินาที
  ไม่รู้ว่าควรคาดหวังความเร็วประมาณไหน จำได้ว่าเมื่อ 2 ปีก่อนตอนรันโมเดลสาย Llama 3 34b ด้วย llama.cpp ยังได้หลายโทเค็นต่อวินาที เลยไม่แน่ใจว่าตั้งค่าพลาดไปหมด หรือความคาดหวังของผมไม่สมจริงเอง
  หรือว่า qwen 3.x ช้ากว่าเพราะเหตุผลบางอย่างก็ไม่รู้ สงสัยเหมือนกันว่าเป็นสถาปัตยกรรมผู้เชี่ยวชาญผสม (MoE) หรือเปล่า ไม่ได้คาดหวังให้ตอบสนองทันที แต่ความเร็วตอนนี้ใช้งานจริงยากมาก
- เวอร์ชันใหม่นี้ไม่ใช่อะไรที่รันโลคัลได้ มันเป็น โมเดลคลาวด์ และถึงจะปล่อยเวตออกมาก็คงใหญ่เกินไปอยู่ดี
- อยากรู้ว่าใช้โมเดลไหนกันแน่ ใช้พารามิเตอร์และควอนไทซ์แบบไหน แล้วฮาร์ดแวร์เป็นอะไร
  อยากรู้ด้วยว่าใช้ MCP หรือเครื่องมืออื่นสำหรับปรับประสิทธิภาพอย่าง context-mode หรือ dynamic context pruning ไหม ผมลองโมเดลโลคัลมาพอสมควรแล้ว แต่เพิ่งเริ่มกับ opencode และผลลัพธ์ยังไม่ค่อยดี แม้อยากให้มันทำงานง่าย ๆ ได้ดีจริง ๆ อีกอย่าง opencode ที่เพิ่งติดตั้งใหม่มีปัญหาใช้ CPU ของ iTerm 100% แม้ตอนว่าง
- น่าเสียดายที่ Qwen Max มักเป็น โมเดลปิด
- อยากรู้ว่า Qwen 3.6 ให้ความรู้สึกอย่างไรเมื่อเทียบกับ Sonnet 4.6 เพราะในความเป็นจริงตัวนั้นเป็นตัวที่คนใช้กันเยอะ
  ถ้าต้องเอางานเขียนโค้ดทั้งหมดไปทำบน Opus 4.7 ค่าใช้จ่ายรายเดือนคงสูงกว่าใช้ Sonnet ได้ถึง 10~20 เท่า
ในเมื่อเริ่มปล่อยโมเดลปิดมากขึ้นเรื่อย ๆ ก็อยากให้พาร์ตเนอร์กับหนึ่งใน hyperscaler รายใหญ่ของสหรัฐจริง ๆ เพื่อให้ใช้โมเดลพวกนี้ผ่าน ผู้ให้บริการที่อยู่ในสหรัฐ ได้
ผมเข้าใจดีว่าทำไมสิ่งนั้นอาจไม่สมเหตุสมผลหรือไม่สอดคล้องกับผลประโยชน์ของพวกเขา และก็จริงว่าสหรัฐเองก็ไม่ได้ทำแบบนั้นให้โดยอัตโนมัติในทางกลับกันเหมือนกัน แต่อย่างน้อยก็อยากทดสอบกับเวิร์กโหลดโปรดักชันจริง ๆ ให้ได้
- ถ้า hyperscaler ของสหรัฐไม่ทำแบบเดียวกันกลับไป ก็อยากให้สถานะตอนนี้คงอยู่ต่อไป ถ้าทุกฝ่ายโอเคกับการแชร์ ก็ควรแชร์กันสองทาง ไม่อย่างนั้น hyperscaler สหรัฐก็ควรอยู่แบบแยกตัวเองต่อไปเหมือนที่เป็นมา
- Qwen3.6-Plus ใช้ได้บน Fireworks
- Alibaba Cloud มี ดาต้าเซ็นเตอร์ในเม็กซิโก
- ในเมื่อ fireworks โฮสต์ Qwen 3.6 Plus อยู่ ก็น่าจะเอา Qwen 3.7 Plus มาได้เหมือนกัน
- ChatLLM รองรับ QWEN แต่อยากรู้ว่าแบบนี้ถือว่าปลอดภัยตามมาตรฐานสหรัฐหรือไม่
ตัวเลขเองดูดีมาก แต่ก็ยังไม่เข้าใจว่าทำไมโพสต์แบบนี้ถึงไม่เทียบกับ โมเดลคู่แข่งล่าสุด ผู้คนไม่น่าจะไม่สังเกตเห็นอยู่แล้ว
- ไม่มีที่ไหนปล่อยตัวเลขที่ทำให้ดูแย่กว่าคู่แข่ง
  OpenAI กับ Anthropic ก็เหมือนกัน เพราะบ่อยครั้งก็ใช้ชุดข้อมูลประเมินคนละชุดกัน
- ถ้าเป็นการอัปเวอร์ชันย่อยก็ถือว่าพอให้อภัยได้ อนึ่ง ช่วงนี้ในโลกโมเดลภาษาขนาดใหญ่ ไม่รู้เพราะอะไรแต่ x.5 กลายเป็นเหมือนการอัปเวอร์ชันใหญ่โดยพฤตินัย
  โพสต์แบบนี้ไม่ได้หล่นลงมาจากฟ้าแม้จะเป็นเรื่อง LLM ถ้ามีชุดเบนช์มาร์กเป้าหมายของโมเดลตัวเองอยู่แล้ว การคงชุดโมเดลที่เทียบกันแบบวางข้างกันได้ต่อเนื่องก็เป็นภาระในการดูแลอีกแบบหนึ่ง
- น่าจะเป็นตรรกะที่ทำให้ดูเหมือนว่าตัวเอง ตามหลังระดับท็อปล่าสุดอยู่ราว N เดือน
  ในทางปฏิบัติคงหวังให้ผู้อ่านไม่ทันสังเกตรายละเอียด
  โมเดล Qwen นั้นยอดเยี่ยมในแง่ open weights แต่รุ่นก่อน ๆ ในการใช้งานจริงไม่ได้ทำได้ดีเท่าตัวเลขเบนช์มาร์ก และเมื่อรู้ว่าการจูนตัวเลขเบนช์มาร์กได้ผล ก็ย่อมปรับไปตามนั้น
- ผมมองว่านี่เป็นส่วนหนึ่งของการตั้งความคาดหวัง อาจมีข้อจำกัดเช่นเคยจัด distillation หรือ evaluation harness ไว้กับโมเดลบางตัว
  ถ้าพูดว่าเทียบได้กับ 4.7 ภาพจำของโมเดลอ้างอิงในการประเมินก็จะถูกตรึงไว้แบบนั้น
- พูดกันตรง ๆ Opus-4.6 รุ่นแรก ๆ ดีกว่าสิ่งที่ตอนนี้ให้บริการในชื่อ 4.7 มาก ถ้าทำงานได้ในระดับนั้นจริง ผมพร้อมจะย้ายไปใช้ทั้งหมดเลย
สงสัยว่านี่เป็นประเภทที่อีกหนึ่งสัปดาห์จะมีรีลีสบน Hugging Face หรือเปล่า หรือรู้แน่ชัดแล้วว่าจะ คงไว้แบบปิด
- ถ้าผมเข้าใจผิดก็ช่วยแก้ให้ที แต่เท่าที่รู้ โมเดล Max ปกติจะไม่ถูกเปิดเผย
หวังว่าจะมี รีลีส open weights ของ Qwen ออกมาเพิ่ม โดยเฉพาะ 122B กับ 397B
- ใช่เลย ช่วงประมาณ 60~150B เป็นจุดที่ดีมากบน ฮาร์ดแวร์ prosumer ตอนนี้ ถ้ามีโมเดลอย่าง 120b-a14b ออกมาก็คงดี
- ส่วนตัวผมกลับรอโมเดลที่เล็กกว่านี้อย่าง 9B ที่ควอนไทซ์ได้ต่ำกว่ามากกว่า
- ผมรอ qwen3.7 9b กับ 72b มากกว่า ปกติประสิทธิภาพต่อขนาดดีมาก
- ผมยังรอ qwem image-edit 2.0 open weights อยู่เลย
- ฟังแล้วเจ็บเลย ผมเพิ่งเริ่มลองเล่นของพวกนี้เอง สภาพแวดล้อมผมก็เป็นเดสก์ท็อปเกมมิงธรรมดา มี 12GB 3060 กับ RAM 32GB
  แค่เกิน Qwen 9B เครื่องก็เสี่ยงค้างทั้งระบบแล้ว
ในเบนช์มาร์กไม่มี Opus 4.7, GPT5.5, Gemini Flash 3.5
ผมใช้ pi agent อยู่ และอยากลองใช้โมเดล Qwen แบบโฮสต์ อยากรู้ว่ามีตัวเลือกไหนดีบ้าง
ผู้ให้บริการอย่างเป็นทางการไม่มี Alibaba และก็สงสัยว่าบริการอย่าง OpenRouter จะเร็วพอไหม อ้างอิงจากที่ DeepSeek v4 ถูกจำกัดหนักมากบนบริการพร็อกซีแบบนี้
- ผมใช้ qwen3.6-max-preview บน pi + openrouter เยอะอยู่ ยังไม่เจอปัญหาเรื่องเสถียรภาพหรือประสิทธิภาพเลย
ผมเพิ่งเริ่มลองเล่น LLM แบบโลคัล และพูดตรง ๆ ว่าค่อนข้างน่าประทับใจ ใช้เวิร์กสเตชันโน้ตบุ๊กที่มี NVIDIA A1000 (VRAM 6GB) กับ RAM 96GB
แทบไม่ได้ใช้ GPU เลย นาน ๆ ทีถึงจะใช้กับงานออกแบบ CAD หรือแมชชีนเลิร์นนิงบน OpenCV ลองรัน llama3:latest แล้วทำงานได้เร็วพอสมควร เลยอยากรู้ว่า Qwen จะรันบนระบบของผมได้อย่างไร
รูปแบบที่ผมเชื่อถือที่สุดคือการเพิ่ม ผลลัพธ์ยืนยันความถูกต้อง ขนาดเล็กเข้าไปกับทุกการกระทำภายนอก เพราะเอเจนต์มักไม่ได้ล้มเหลวเพราะความลึกในการให้เหตุผลไม่พอ แต่ล้มเหลวเร็วกว่าเพราะอาการ state drift แบบเงียบ ๆ
- อธิบายประเด็นนี้เพิ่มได้ไหม

Qwen3.7-Max: แนวหน้าแห่งเอเจนต์

การประเมินประสิทธิภาพ

เอเจนต์เขียนโค้ด

เอเจนต์ทั่วไป

การให้เหตุผล

ความสามารถทั่วไปและหลายภาษา

เงื่อนไขการประเมินและรายละเอียดเบนช์มาร์ก

ผู้ช่วยด้านผลิตภาพเชิงความร่วมมือ

การฝึกเอเจนต์และการทำให้ทั่วไป

การทำให้ทั่วไปแบบข้ามฮาร์เนส

การวิวัฒน์ตนเองในสภาพแวดล้อมจริง

การปรับแต่งเคอร์เนลบนสถาปัตยกรรม PPU ที่ไม่เคยรู้จัก

เส้นทางการปรับแต่ง

การเปรียบเทียบภายใต้เงื่อนไขเดียวกัน

การสร้างเคอร์เนลสำหรับ NVIDIA GPU

คุณลักษณะของเอเจนต์อัตโนมัติระยะยาว

การติดตามการแฮ็กรีวอร์ด

การวางแผนและปฏิบัติการระยะยาวในการบริหารสตาร์ตอัป

ผลลัพธ์ YC-Bench

สร้างด้วย Qwen3.7

การใช้งาน API

การเขียนโค้ดฟรอนต์เอนด์

ผู้ช่วยสำนักงาน

เอเจนต์นำทางในโลกกายภาพ

การผสานเข้ากับผู้ช่วยเขียนโค้ด

Claude Code

OpenClaw

Qwen Code

บทความที่เกี่ยวข้อง

3 ความคิดเห็น

ความคิดเห็นจาก Hacker News