1 คะแนน โดย GN⁺ 3 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Qwen3.7-Max เป็นโมเดลปิดที่เน้นเอเจนต์ ออกแบบมาสำหรับการเขียนโค้ด·ดีบัก งานอัตโนมัติในสำนักงาน และการทำงานอัตโนมัติแบบหลายร้อยถึงหลายพันขั้นตอน
  • ในการประเมินด้านการเขียนโค้ด·เอเจนต์ทั่วไป·การให้เหตุผล·หลายภาษา โมเดลนี้แข่งขันกับโมเดลชั้นนำอื่น ๆ โดยทำคะแนน Terminal Bench 2.0-Terminus ได้ 69.7 และ GPQA Diamond ได้ 92.4
  • ในการปรับแต่งเคอร์เนลอัตโนมัติเป็นเวลา 35 ชั่วโมง ได้ทำ การเรียกใช้เครื่องมือ 1,158 ครั้ง และประเมินผล 432 ครั้ง จนบรรลุความเร็วเพิ่มขึ้นแบบค่าเฉลี่ยเรขาคณิต 10.0 เท่าเมื่อเทียบกับ Triton
  • แยกอินสแตนซ์การฝึกออกเป็น Task·Harness·Verifier แล้วทำการฝึก RL แบบข้ามฮาร์เนส เพื่อผลักดันการแก้ปัญหาแบบทั่วไปแทนการอาศัยทางลัดเฉพาะฮาร์เนส
  • จะเปิดให้ใช้งานผ่าน API บน Alibaba Cloud Model Studio ในเร็ว ๆ นี้ และสามารถผสานกับ เฟรมเวิร์กเอเจนต์ อย่าง Claude Code·OpenClaw·Qwen Code ได้

การประเมินประสิทธิภาพ

  • Qwen3.7-Max ถูกประเมินร่วมกับโมเดลเปรียบเทียบหลายตัวในด้านเอเจนต์เขียนโค้ด เอเจนต์ทั่วไป STEM·การให้เหตุผล ความสามารถทั่วไป และหลายภาษา
  • ช่องว่าง (--) หมายถึงยังไม่มีการเปิดเผยคะแนน
  • เอเจนต์เขียนโค้ด

    • ทำคะแนน Terminal Bench 2.0-Terminus ได้ 69.7 สูงกว่า DS-V4-Pro Max ที่ได้ 67.9
    • ใน SWE-Verified ได้ 80.4 ซึ่งอยู่ในระดับใกล้เคียงกับ Opus-4.6 Max 80.8 และ DS-V4-Pro Max 80.6
    • ทำคะแนน SWE-Pro 60.6, SWE-Multilingual 78.3, SciCode 53.5 และ QwenSVG 1608
    • NL2repo ประเมินด้วย Claude Code และปิดใช้งานคำสั่ง Bash อย่าง pip download, pip install, git clone ที่พยายามเข้าถึงรีโพซิทอรีเฉพาะ
    • QwenWebDev เป็นเบนช์มาร์กภายในสำหรับการสร้างโค้ดฟรอนต์เอนด์สองภาษาอังกฤษ·จีน โดยใช้ 7 หมวดหมู่ การเรนเดอร์อัตโนมัติ การตัดสินแบบมัลติโหมด และคะแนน BT/Elo
  • เอเจนต์ทั่วไป

    • ใน MCP-Mark ทำได้ 60.8 สูงกว่า GLM-5.1 ที่ 57.5 และใน MCP-Atlas ได้ 76.4 สูงกว่า Opus-4.6 ที่ 75.8
    • ใน Skillsbench ได้ 59.2 สูงกว่า K2.6 ที่ 56.2
    • ใน Kernel Bench L3 บันทึกค่ามัธยฐานการเร่งความเร็ว 1.98 เท่าและอัตราชนะ 96% แสดงความสามารถในการปรับแต่ง GPU kernel
    • ใน BFCL-V4 ได้ 75.0, Qwenclaw 64.3 และ ClawEval 65.2 ซึ่งใกล้เคียงกับ Opus-4.6 Max
    • ใน SpreadSheetBench-v1 ทำได้ 87.0 แสดงประสิทธิภาพสูงในเบนช์มาร์กงานอัตโนมัติสำนักงานด้วย
    • QwenClawBench เป็น Claw agent benchmark แบบโอเพนซอร์สที่สะท้อนการกระจายตัวของผู้ใช้จริง
    • CoWorkBench เป็นเบนช์มาร์กความร่วมมือภายในที่ครอบคลุมงานระยะยาวในโดเมนด้านผลิตภาพ เช่น วิทยาการคอมพิวเตอร์ การเงิน กฎหมาย และการแพทย์
  • การให้เหตุผล

    • ใน GPQA Diamond ทำได้ 92.4 สูงกว่า Opus-4.6 ที่ 91.3
    • ใน HLE ได้ 41.4 สูงกว่า Opus-4.6 ที่ 40.0 และใน HMMT 2026 Feb ได้ 97.1 สูงกว่า Opus-4.6 ที่ 96.2
    • ใน IMOAnswerBench ได้ 90.0 สูงกว่า DS-V4-Pro ที่ 89.8 และใน Apex ได้ 44.5 สูงกว่า DS-V4-Pro ที่ 38.3
    • สำหรับสถานการณ์การให้เหตุผล แนะนำให้ใช้ system prompt ที่ขึ้นต้นด้วย Reasoning effort is set to xhigh...
  • ความสามารถทั่วไปและหลายภาษา

    • ใน IFBench ทำได้ 79.1 สูงกว่า DS-V4-Pro ที่ 77.0 แสดงความสามารถในการทำตามคำสั่งอย่างแม่นยำ
    • ใน WMT24++ ได้ 85.8 และใน MAXIFE ได้ 89.2 แสดงจุดแข็งด้านความเข้าใจหลายภาษาและคุณภาพการแปล
    • ใน SuperGPQA ได้ 73.6 และใน QwenWorldBench ได้ 57.3
    • WMT24++ เป็นชุดย่อยของ WMT24 ที่ยากกว่า และใช้คะแนนเฉลี่ย XCOMET-XXL ครอบคลุม 55 ภาษา
    • MAXIFE วัดความแม่นยำภายใต้การตั้งค่า prompt ภาษาอังกฤษและหลายภาษาจำนวน 23 แบบ
    • MMLU-ProX ใช้ค่าความแม่นยำเฉลี่ยของ 29 ภาษา

เงื่อนไขการประเมินและรายละเอียดเบนช์มาร์ก

  • Terminal-Bench 2.0 ประเมินด้วย Harbor/Terminus-2 harness จำกัดเวลา 5 ชั่วโมง, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, สูงสุด 80K โทเค็น, คอนเท็กซ์ 256K และใช้ค่าเฉลี่ย 5 รอบ
  • ตระกูล SWE-Bench ใช้ agent scaffold ภายในและเครื่องมือ Bash·แก้ไขไฟล์ โดยประเมินด้วย temp=1.0, top_p=0.95 และหน้าต่างคอนเท็กซ์ 200K
  • SkillsBench ประเมินด้วย OpenCode และใช้ค่าเฉลี่ย 5 รอบจาก 78 งาน หลังตัด 9 งานที่พึ่งพา external API ออก
  • MCP-Mark ใช้ GitHub MCP v0.30.3 และตัดคำตอบ Playwright ที่ 32K โทเค็น
  • MCP-Atlas เป็นคะแนนจากชุดสาธารณะและใช้ผู้ตัดสิน gemini-2.5-pro
  • Kernel Bench L3 รายงานค่ามัธยฐานการเร่งความเร็วต่อโจทย์เทียบกับ PyTorch eager บน 50 ปัญหา และสัดส่วนปัญหาที่เร็วกว่า torch.compile
  • ตัวอย่างทดสอบแต่ละรายการของ Kernel Bench L3 รันในคอนเทนเนอร์ Docker แบบแยกขาด พร้อม GPU H100 80GB 1 ตัว และจำกัดการเข้าถึงอินเทอร์เน็ตไว้เฉพาะโค้ดเบส CUTLASS และเอกสาร CUDA ทางการ
  • Kernel Bench L3 ใช้ข้อจำกัดการเรียกใช้เครื่องมือ 500 ครั้งและหยุดก่อนกำหนดหลัง 100 เทิร์นที่ไม่มีการปรับปรุง พร้อมตรวจจับพฤติกรรมแฮ็กที่อาจเกิดขึ้นด้วย GPT-5.4(xhigh) และวัดเวลาในระดับเคอร์เนลด้วย CUPTI
  • MRCR-v2 เป็นชุดย่อยคอนเท็กซ์ 128K ที่มี needle 8 รายการ และใช้โปรโตคอล mrcr_v2 ของ Google DeepMind eval_hub

ผู้ช่วยด้านผลิตภาพเชิงความร่วมมือ

  • Qwen3.7-Max ตั้งเป้าเป็นเพื่อนร่วมงานขั้นสูงสำหรับผลิตภาพในการทำงานจริง โดยทำงานอย่างการสังเคราะห์ข้อมูลที่ซับซ้อน การวิเคราะห์และสร้างแบบจำลองข้อมูลเชิงลึก รวมถึงสร้างเอกสารและภาพประกอบที่พร้อมเผยแพร่ได้
  • เข้ากันได้พื้นฐานกับ agent harness หลัก และรองรับทั้งการวางแผนอัตโนมัติและการทำงานต่อเนื่องหลายชั่วโมงสำหรับงานระยะยาว
  • สามารถค่อย ๆ ยกระดับคุณภาพผลลัพธ์ผ่านการเรียกใช้เครื่องมือหลายพันครั้งและการวนปรับปรุงหลายสิบรอบ
  • ระบุว่าสามารถทำโครงการซับซ้อนแบบ end-to-end ที่โดยปกติต้องใช้ทีมผู้เชี่ยวชาญ 1~2 สัปดาห์ ให้เสร็จได้ภายในไม่กี่ชั่วโมง

การฝึกเอเจนต์และการทำให้ทั่วไป

  • Qwen3.7 ขยายคุณภาพและความหลากหลายของสภาพแวดล้อมการฝึกเอเจนต์ โดยต่อยอดจากแนวทาง environment scaling ที่เปิดตัวใน Qwen3.5
  • ตั้งอยู่บนข้อสังเกตที่ว่า เช่นเดียวกับที่โมเดลภาษาทำให้ทั่วไปได้จากข้อความ pretraining ที่หลากหลาย ความสามารถของเอเจนต์ก็ทำให้ทั่วไปได้จากสภาพแวดล้อมการฝึกที่หลากหลายเช่นกัน
  • เบนช์มาร์กทั้งหมดที่ใช้ประเมินเป็นสภาพแวดล้อม out-of-domain ใหม่ทั้งหมดที่ไม่รวมอยู่ในการฝึก
  • environment scaling สร้างแนวโน้มการพัฒนาที่ชัดเจนและสม่ำเสมอ โดย Qwen3.7-Max ได้อันดับเฉลี่ย Top 3 ใกล้เคียงกับ Claude-4.6-Opus-Max
  • การปรับปรุงบนชุดย่อยของเบนช์มาร์กมีความสม่ำเสมอจนสามารถทำนายการปรับปรุงสัมพัทธ์ของเบนช์มาร์กที่เหลือและค่าเฉลี่ยรวมได้ ชี้ให้เห็นถึง การทำให้ความสามารถทั่วไป มากกว่าการปรับเฉพาะเบนช์มาร์ก
  • การวิเคราะห์เพิ่มเติมเกี่ยวกับพลวัตของ scaling และระเบียบวิธีจะถูกรายงานในเอกสารทางเทคนิคในอนาคต

การทำให้ทั่วไปแบบข้ามฮาร์เนส

  • โครงสร้างพื้นฐานของสภาพแวดล้อม rollout แยกอินสแตนซ์การฝึกแต่ละรายการออกเป็นองค์ประกอบตั้งฉาก 3 ส่วนคือ Task, Harness, Verifier
  • รองรับฮาร์เนสและเวอร์ชันที่หลากหลาย และใช้สภาพแวดล้อมที่อิงจากสถานการณ์จริงแทนพร็อกซีสังเคราะห์
  • การออกแบบแบบแยกส่วนนี้ทำให้เกิดการสเกลแบบเชิงผสมผสาน โดยสามารถจับคู่งานเดียวกันกับประเภท·เวอร์ชันของฮาร์เนสและตัวตรวจสอบที่ต่างกันได้ด้วยต้นทุนเพิ่มเพียงเล็กน้อย
  • ผ่านการฝึก RL แบบข้ามฮาร์เนส·ข้ามตัวตรวจสอบ ที่ทำให้งานเดียวกันไปปรากฏในคอนฟิกฮาร์เนสต่างกัน โมเดลจึงเรียนรู้กลยุทธ์แก้ปัญหาที่ทำให้ทั่วไปได้ แทนที่จะใช้ทางลัดเฉพาะฮาร์เนส
  • ใน QwenClawBench และ CoWorkBench นั้น Qwen3.7-Max แสดงประสิทธิภาพที่แข็งแกร่งและสม่ำเสมอไม่ว่าฮาร์เนสที่ใช้ประเมินจะเป็นแบบใด

การวิวัฒน์ตนเองในสภาพแวดล้อมจริง

  • Extend Attention เป็นโอเปอเรเตอร์ variable-length multi-head attention ระดับโปรดักชันของ SGLang
  • สถานการณ์ทดสอบเกี่ยวข้องกับเคอร์เนลที่คอขวดด้านหน่วยความจำและไวต่อ latency ในงานเสิร์ฟ LLM ซึ่งคำนวณคะแนน attention ระหว่างโทเค็นที่เพิ่งสร้างใหม่ร่วมกับ MTP และ prefix KV-cache สูงสุด 32K รายการ
  • อิมพลีเมนเทชันอ้างอิงคือ Triton implementation ทางการของ SGLang
  • การปรับแต่งเคอร์เนลบนสถาปัตยกรรม PPU ที่ไม่เคยรู้จัก

    • Qwen3.7-Max ปรับแต่งเคอร์เนลนี้บนอินสแตนซ์ ECS ที่ติดตั้ง T-Head ZW-M890 PPU ซึ่งไม่เคยเห็นระหว่างการฝึก
    • เริ่มต้นโดยไม่มีข้อมูลโปรไฟล์ล่วงหน้า ไม่มีเอกสารฮาร์ดแวร์ และไม่มีตัวอย่างเคอร์เนลสำหรับสถาปัตยกรรมนั้น
    • เวิร์กสเปซว่างมีเพียงคำอธิบายงาน อิมพลีเมนเทชัน SGLang เดิม และสคริปต์ประเมินผล
    • ตลอดการทำงานอัตโนมัติแบบต่อเนื่องราว 35 ชั่วโมง ได้เรียกใช้เครื่องมือ 1,158 ครั้งและประเมินเคอร์เนล 432 ครั้ง
    • ทำทุกอย่างด้วยตนเองทั้งการวินิจฉัยความล้มเหลวในการคอมไพล์ แก้บั๊กความถูกต้อง ระบุคอขวดจาก runtime profiling และออกแบบสถาปัตยกรรมเคอร์เนลใหม่
    • ผลลัพธ์สุดท้ายคือความเร็วเพิ่มขึ้นแบบค่าเฉลี่ยเรขาคณิต 10.0 เท่าเมื่อเทียบกับ Triton ในหลายเวิร์กโหลด
    • แม้ผ่านไปเกิน 30 ชั่วโมงก็ยังค้นพบการปรับปรุงที่มีนัยสำคัญได้ แสดงผลิตภาพของการเพิ่มประสิทธิภาพอัตโนมัติระยะยาว
  • เส้นทางการปรับแต่ง

    • ใช้การขนานแบบ Split-KV เพื่อแบ่ง prefix KV-cache ออกเป็นหลาย thread block ต่อ query และเพิ่ม reduction kernel ที่รวมผลลัพธ์ย่อยด้วย online softmax rescaling ทำให้ดีขึ้นจาก 0.33 เท่าเป็น 2.58 เท่าภายในราว 2 ชั่วโมง
    • แทนที่ cudaMalloc/cudaFree ต่อการเรียกด้วยเทนเซอร์ torch::empty ที่จัดสรรล่วงหน้า, ลบ cudaMemcpy แบบ synchronous และ unroll ลูปภายใน 2 เท่า ทำให้เพิ่มเป็น 5.37 เท่าภายในราว 2.5 ชั่วโมง
    • เปลี่ยน fixed split divisor เป็น heuristic ตามขนาดเวิร์กโหลด และเพิ่ม SM wave occupancy บนสถาปัตยกรรม 36-SM ทำให้เพิ่มเป็น 6.85 เท่าภายในราว 3 ชั่วโมง
    • รวมการลบ shared memory barrier, การโหลด K/V แบบใช้รีจิสเตอร์, persistent static tensor, batched softmax update และการ pre-scale Q ทำให้เพิ่มเป็น 8.50 เท่าในช่วง 3~25 ชั่วโมง
    • เคอร์เนลเฉพาะสำหรับ MTP γ=4 ประมวลผล query token 4 ตัวพร้อมกันต่อบล็อก และแชร์การโหลด K/V ข้าม query จนไปถึง 10.0 เท่าในช่วง 32~35 ชั่วโมง
  • การเปรียบเทียบภายใต้เงื่อนไขเดียวกัน

    • GLM 5.1 ไปได้ถึง 7.3 เท่า, Kimi K2.6 5.0 เท่า, DeepSeek V4 Pro 3.3 เท่า และ Qwen3.6-Plus 1.1 เท่า
    • โมเดลที่หยุดก่อนกำหนดจะยุติเซสชันเองเมื่อพิจารณาว่าไม่สามารถคืบหน้าต่อได้หลังไม่สามารถสร้างการเรียกใช้เครื่องมือได้ 5 ครั้งติดกัน
  • การสร้างเคอร์เนลสำหรับ NVIDIA GPU

    • Qwen3.7-Max ไม่ได้สร้างเฉพาะ PPU kernel แต่ยังสร้างเคอร์เนลระดับโปรดักชันสำหรับ NVIDIA GPU หลากหลายรุ่นได้ด้วย
    • ใน KernelBench L3 นั้น Qwen3.7-Max สามารถสร้างเคอร์เนลเร่งความเร็วได้ใน 96% ของสถานการณ์
    • ตัวเลขเปรียบเทียบคือ Opus-4.6 98%, GLM 5.1 78%, Kimi K2.6 80%, DeepSeek V4 Pro 54% และ Qwen3.6-Plus 48%
  • คุณลักษณะของเอเจนต์อัตโนมัติระยะยาว

    • แสดง ความต่อเนื่องของการให้เหตุผลระยะยาว โดยคงกลยุทธ์การเพิ่มประสิทธิภาพไว้ได้ตลอดการเรียกใช้เครื่องมือมากกว่า 1,000 ครั้ง โดยไม่สูญเสียคอนเท็กซ์หรือถดถอย
    • แสดง การทำให้ทั่วไปในคอนเท็กซ์ โดยสามารถสร้างเคอร์เนลที่แข่งขันได้บนสถาปัตยกรรมที่ไม่เคยเห็นในการฝึก โดยอาศัย feedback ระหว่างรันจริง ไม่ใช่ความรู้ฮาร์ดแวร์ที่ท่องจำไว้

การติดตามการแฮ็กรีวอร์ด

  • Qwen3.7-Max ถูกผสานเข้ากับการมอนิเตอร์ RL สำหรับงานวิศวกรรมซอฟต์แวร์ เพื่อสร้างเฟรมเวิร์ก self-monitoring สำหรับ reward hacking และ self-evolution ของกฎ
  • ตลอดการทดลอง RL ที่ยาวเกิน 80 ชั่วโมง ได้ค้นหาและเล่นซ้ำเส้นทางการฝึกอย่างอัตโนมัติ พร้อมรันการเรียกใช้มากกว่า 10,000 ครั้ง
  • ระบุรูปแบบการแฮ็กที่เป็นไปได้อย่างเป็นระบบ เช่น ความพยายามเลี่ยงข้อจำกัดเพื่อเข้าถึงคำตอบบน GitHub
  • ทำการตรวจสอบกฎ ขุดหาตัวอย่างโต้แย้ง และปรับแต่งซ้ำ
  • ผ่านการวิวัฒน์กฎด้วยตนเองหลายรอบ ได้เพิ่ม heuristic rule ใหม่ 13 ข้อ และทำเครื่องหมายเคสการแฮ็กได้อย่างถูกต้อง 1,618 กรณี
  • กระบวนการนี้ช่วยรับประกันเสถียรภาพของรางวัล RL และส่งเสริมการพัฒนาตนเองอย่างต่อเนื่องของโมเดลในฐานะเอเจนต์วิศวกรรมซอฟต์แวร์ขั้นสูง

การวางแผนและปฏิบัติการระยะยาวในการบริหารสตาร์ตอัป

  • ขยายความซับซ้อนเชิงเวลาของงานฝึกในกรอบ Dynamic Cumulative Survival Games เพื่อเสริมความสามารถด้านการวางแผนและการปฏิบัติการระยะยาว
  • เพิ่มความสม่ำเสมอของนโยบายเอเจนต์ในลำดับการตัดสินใจต่อเนื่องยาวเกินพันขั้นตอน ทำให้สามารถสร้างสมมติฐาน ปรับกลยุทธ์ตาม feedback จากสภาพแวดล้อม และสะสมประสบการณ์กับความทรงจำระยะยาวได้ต่อเนื่อง
  • รักษาจังหวะการดำเนินงานที่เสถียรได้แม้ในช่วงเวลาที่ยาวนาน และทนต่อการเสื่อมของคอนเท็กซ์กับการหลุดจากคำสั่ง
  • ผลลัพธ์ YC-Bench

    • YC-Bench เป็นเบนช์มาร์กที่จำลองวงจรชีวิตสตาร์ตอัปครบทั้ง 1 ปี
    • เอเจนต์ต้องตัดสินใจหลายร้อยรอบ เช่น การบริหารคน ตรวจสอบสัญญา และระบุลูกค้าไม่ประสงค์ดี พร้อมรักษาอัตรากำไรแม้ต้นทุนบุคลากรจะเพิ่มขึ้น
    • Qwen3.7-Max ทำรายได้รวม 2.08 ล้านดอลลาร์ สูงกว่า Qwen3.6-Plus ที่ 1.05 ล้านดอลลาร์ 2 เท่า และสูงกว่า Qwen3.5-Plus ที่ 352,000 ดอลลาร์ 5.9 เท่า
    • จำนวนงานที่ทำสำเร็จคือ 237 งาน
    • ดำเนินการตั้งแต่ค้นหาลูกค้าเป้าหมาย ระบุกับดักไม่ประสงค์ดีและขึ้นบัญชีดำ จัดลำดับความสำคัญของแหล่งรายได้ที่มั่นคง ไปจนถึงการฟื้นตัวอัตโนมัติในช่วงวิกฤตระยะกลาง
    • สุดท้ายคอนเวิร์จไปสู่ลูปการดำเนินงานที่มีเสถียรภาพและประสิทธิภาพสูง

สร้างด้วย Qwen3.7

  • Qwen3.7-Max จะพร้อมใช้งานเร็ว ๆ นี้ผ่าน Alibaba Cloud Model Studio และสามารถผสานเข้ากับเฟรมเวิร์กเอเจนต์ยอดนิยมและผู้ช่วยเขียนโค้ดได้
  • การใช้งาน API

    • Qwen3.7-Max รองรับฟีเจอร์ preserve_thinking ซึ่งเก็บเนื้อหาการคิดของทุกเทิร์นก่อนหน้าไว้ในข้อความ และแนะนำสำหรับงานเอเจนต์
    • Alibaba Cloud Model Studio รองรับโปรโตคอลมาตรฐานอุตสาหกรรม เช่น chat completions·responses API ที่เข้ากันได้กับสเปก OpenAI และ API interface ที่เข้ากันได้กับ Anthropic
    • DASHSCOPE_API_KEY ใช้ API key ที่ได้รับจาก คอนโซล Model Studio
    • DASHSCOPE_BASE_URL เป็นตัวเลือก และสามารถใช้ URL เริ่มต้นของ compatible mode API เป็น https://dashscope-intl.aliyuncs.com/compatible-mode/v1
    • URL ปักกิ่งคือ https://dashscope.aliyuncs.com/compatible-mode/v1, URL สิงคโปร์คือ https://dashscope-intl.aliyuncs.com/compatible-mode/v1, และ URL เวอร์จิเนีย สหรัฐฯ คือ https://dashscope-us.aliyuncs.com/compatible-mode/v1
    • ข้อมูลเพิ่มเติมดูได้ที่ เอกสาร API
  • การเขียนโค้ดฟรอนต์เอนด์

    • Qwen3.7-Max สามารถสร้างเว็บแอปแบบอินเทอร์แอ็กทีฟจากพรอมป์ต์เดียว รวมถึงฉาก 3D ด้วย Three.js, แอนิเมชัน Canvas, เลย์เอาต์ทั้งหน้า และ SVG แบบไดนามิก
    • พรอมป์ต์ตัวอย่างขอให้สร้าง HTML ที่ตรวจจับการแบมือ·กำมือผ่านกล้องเพื่อควบคุมการหดและกระจายของกลุ่มอนุภาค และสร้างข้อความ hello, world กับ I’am Qwen ตามท่าทางนิ้ว 1·2 พร้อมเอฟเฟกต์หมุนแบบ 3D
  • ผู้ช่วยสำนักงาน

    • Qwen3.7-Max สามารถทำงานเป็นผู้ช่วยสำนักงานอัจฉริยะผ่านการผสานเครื่องมือ
    • ตัวอย่างสาธิตคืออ่านข้อกำหนดรูปแบบวิทยานิพนธ์ของมหาวิทยาลัย แล้วจัดรูปแบบร่างที่ยุ่งเหยิงใหม่ด้วยการเรียกใช้เครื่องมือ office-cli แบบอัตโนมัติ
    • ปรับเลย์เอาต์หน้า รูปแบบหัวข้อ แบบอักษร ระยะขอบ สารบัญ และรูปแบบบรรณานุกรม
    • บทความตัวอย่างถูกสร้างโดย AI เพื่อใช้ในการสาธิต
  • เอเจนต์นำทางในโลกกายภาพ

    • Qwen3.7-Max สามารถควบคุมสุนัขหุ่นยนต์ผ่านการเรียกใช้เครื่องมือ
    • ทำความเข้าใจทางกายภาพ วางแผน จดจำ และตัดสินใจในสภาพแวดล้อมจริง
    • ใช้โรบอติกส์เอเจนต์ฮาร์เนส Qwen-RobotClaw, โมเดลที่เน้นการนำทาง Qwen-RobotNav และเครื่องมือวิชันหลายตัวที่สร้างด้วยโมเดล Qwen-plus
    • แผงด้านซ้ายของเดโมแสดงลำดับปฏิสัมพันธ์การเรียกใช้เครื่องมือของเอเจนต์ตลอด 20 นาทีในโลกจริง ตรงกลางแสดงมุมมองบุคคลที่หนึ่งตามเส้นทางของหุ่นยนต์สี่ขา และด้านขวาแสดงความทรงจำระยะยาวของเอเจนต์
  • การผสานเข้ากับผู้ช่วยเขียนโค้ด

    • Qwen3.7-Max ถูกผสานเข้ากับเฟรมเวิร์กเอเจนต์ยอดนิยมและผู้ช่วยเขียนโค้ด
    • Claude Code

      • Qwen API รองรับโปรโตคอล Anthropic API จึงใช้งานกับ Claude Code ได้โดยตรง
      • ตั้งค่า ANTHROPIC_MODEL และ ANTHROPIC_SMALL_FAST_MODEL เป็น qwen3.7-max และตั้ง ANTHROPIC_BASE_URL เป็น https://dashscope-intl.aliyuncs.com/apps/anthropic
    • OpenClaw

      • OpenClaw สามารถเชื่อมต่อผ่าน Model Studio
      • หลังตั้งค่า DASHSCOPE_API_KEY แล้วให้รัน openclaw dashboard และกำหนด modelstudio/qwen3.7-max เป็นโมเดลเริ่มต้นใน ~/.openclaw/openclaw.json
      • ตัวอย่างการตั้งค่ารวมถึง contextWindow 1000000, maxTokens 65536 และ reasoning true
    • Qwen Code

      • Qwen Code ถูกปรับแต่งเชิงลึกสำหรับซีรีส์ Qwen
      • ติดตั้งด้วย npm install -g @qwen-code/qwen-code@latest แล้วรันด้วยคำสั่ง qwen

1 ความคิดเห็น

 
GN⁺ 3 시간 전
ความคิดเห็นจาก Hacker News
  • ใน AA-omniscience อัตราคำตอบที่ไม่หลอนอยู่ในระดับสูงสุด และดีกว่า Opus 4.7, Gemini 3.1 Pro, GPT5.5 ขอแสดงความยินดีกับทีม

    • ลิงก์อ้างอิงคืออันนี้: https://artificialanalysis.ai/evaluations/omniscience?models...
      ต้องเพิ่มเข้าไปในกราฟเอง ไม่ได้แสดงเป็นค่าเริ่มต้น และสงสัยว่านี่คืออัตราหลอนต่ำสุดในชุดข้อมูลหรือเปล่า
    • ถ้าได้ใช้โมเดลจีนระดับท็อปแบบนี้เยอะ ๆ คำถามใหญ่ที่สุดคือ ประสิทธิภาพการใช้โทเค็น เป็นอย่างไร
      ตัวอย่างเช่น ถ้ารัน Step 3.5 Flash แบบโลคัล โดยรวมถือว่าเก่งจนน่าทึ่ง แต่ประสิทธิภาพการใช้โทเค็นแย่มาก จนถ้าวัดตามเวลาจริงที่ใช้ ส่วนใหญ่ก็แพ้โมเดลอื่น แม้จะลองแฮ็กใส่ MTP support ให้ llama.cpp แล้ว บน Spark ก็จาก 20tk/s เป็นประมาณ 30tk/s เท่านั้น และแม้จะเทรนมาด้วยสาม heads แต่จุดที่เหมาะสมกลับเป็น MTP 2
      โมเดลตระกูล DeepSeek กับ Qwen 3.5 Plus ก็คล้ายกัน คือเมื่อเทียบกับ Opus โดยเฉพาะ GPT 5.5 แล้ว ใช้โทเค็นมากกว่ามากกว่าจะได้คำตอบแบบเดียวกัน
      หวังมากว่า Qwen 3.7 จะดีขึ้นในจุดนี้ และอยากลองเร็ว ๆ อีกอย่าง การรัน DeepSeek v4 Flash บน Spark นี่น่าทึ่งแบบเหลือเชื่อจริง ๆ ถ้า antirez มาเห็นก็อยากจะบอกว่าขอบคุณ
    • การที่ “อัตราคำตอบที่ไม่หลอน” สมบูรณ์แบบ ไม่ได้มีความหมายมากนักในตัวมันเอง เพราะแม้แต่การทดสอบแบบนี้ก็อาจมี อาการหลอนที่มนุษย์สร้างขึ้น ปะปนอยู่ได้
      สุดท้ายแล้วมันหมายถึงแค่ว่าโมเดลสอดคล้องกับความเชื่อของกลุ่มคนที่สร้างแบบทดสอบมากแค่ไหน ซึ่งความเชื่อนั้นอาจจริงหรือเท็จก็ได้
    • สุดยอดมาก และความก้าวหน้าน่าประทับใจ อยากรู้เหมือนกันว่าใช้ ชิปของตัวเอง ไปเท่าไรในการฝึก
    • สงสัยว่าการ เปลี่ยนสถานะของความสามารถ จะเกิดขึ้นที่ระดับไหน 5% หรือ 1%
  • เมื่อคืนผมเกือบชนลิมิตรายสัปดาห์ของ Claude Code แบบอันตราย เลยให้ Claude ไปตั้งค่า Qwen3.6 ด้วย llama.cpp และ OpenCode เอาจริง ๆ มันเป็น ทางเลือกฟรีที่ยอดเยี่ยมของ Claude Code และสำหรับงานเล็กลงหรือไม่ซับซ้อนมากหลายแบบก็ถือว่าดีพอแล้ว
    เลยตื่นเต้นที่จะได้ลองเวอร์ชันใหม่นี้ด้วย ประทับใจมากที่โมเดลโอเพนซอร์สเข้าใกล้แนวหน้ามากขนาดนี้

    • อยากรู้ว่ารันบนเครื่องและโมเดลอะไร
      สัปดาห์ก่อนผมลอง qwen3.6-27b Q6_k GUFF บน M2 MacBook Pro 32GB ด้วย llama.cpp และ LM Studio ทั้งคู่แทบจะได้ไม่ถึง 1 โทเค็นต่อวินาที
      ไม่รู้ว่าควรคาดหวังความเร็วประมาณไหน จำได้ว่าเมื่อ 2 ปีก่อนตอนรันโมเดลสาย Llama 3 34b ด้วย llama.cpp ยังได้หลายโทเค็นต่อวินาที เลยไม่แน่ใจว่าตั้งค่าพลาดไปหมด หรือความคาดหวังของผมไม่สมจริงเอง
      หรือว่า qwen 3.x ช้ากว่าเพราะเหตุผลบางอย่างก็ไม่รู้ สงสัยเหมือนกันว่าเป็นสถาปัตยกรรมผู้เชี่ยวชาญผสม (MoE) หรือเปล่า ไม่ได้คาดหวังให้ตอบสนองทันที แต่ความเร็วตอนนี้ใช้งานจริงยากมาก
    • เวอร์ชันใหม่นี้ไม่ใช่อะไรที่รันโลคัลได้ มันเป็น โมเดลคลาวด์ และถึงจะปล่อยเวตออกมาก็คงใหญ่เกินไปอยู่ดี
    • อยากรู้ว่าใช้โมเดลไหนกันแน่ ใช้พารามิเตอร์และควอนไทซ์แบบไหน แล้วฮาร์ดแวร์เป็นอะไร
      อยากรู้ด้วยว่าใช้ MCP หรือเครื่องมืออื่นสำหรับปรับประสิทธิภาพอย่าง context-mode หรือ dynamic context pruning ไหม ผมลองโมเดลโลคัลมาพอสมควรแล้ว แต่เพิ่งเริ่มกับ opencode และผลลัพธ์ยังไม่ค่อยดี แม้อยากให้มันทำงานง่าย ๆ ได้ดีจริง ๆ อีกอย่าง opencode ที่เพิ่งติดตั้งใหม่มีปัญหาใช้ CPU ของ iTerm 100% แม้ตอนว่าง
    • น่าเสียดายที่ Qwen Max มักเป็น โมเดลปิด
    • อยากรู้ว่า Qwen 3.6 ให้ความรู้สึกอย่างไรเมื่อเทียบกับ Sonnet 4.6 เพราะในความเป็นจริงตัวนั้นเป็นตัวที่คนใช้กันเยอะ
      ถ้าต้องเอางานเขียนโค้ดทั้งหมดไปทำบน Opus 4.7 ค่าใช้จ่ายรายเดือนคงสูงกว่าใช้ Sonnet ได้ถึง 10~20 เท่า
  • ในเมื่อเริ่มปล่อยโมเดลปิดมากขึ้นเรื่อย ๆ ก็อยากให้พาร์ตเนอร์กับหนึ่งใน hyperscaler รายใหญ่ของสหรัฐจริง ๆ เพื่อให้ใช้โมเดลพวกนี้ผ่าน ผู้ให้บริการที่อยู่ในสหรัฐ ได้
    ผมเข้าใจดีว่าทำไมสิ่งนั้นอาจไม่สมเหตุสมผลหรือไม่สอดคล้องกับผลประโยชน์ของพวกเขา และก็จริงว่าสหรัฐเองก็ไม่ได้ทำแบบนั้นให้โดยอัตโนมัติในทางกลับกันเหมือนกัน แต่อย่างน้อยก็อยากทดสอบกับเวิร์กโหลดโปรดักชันจริง ๆ ให้ได้

    • ถ้า hyperscaler ของสหรัฐไม่ทำแบบเดียวกันกลับไป ก็อยากให้สถานะตอนนี้คงอยู่ต่อไป ถ้าทุกฝ่ายโอเคกับการแชร์ ก็ควรแชร์กันสองทาง ไม่อย่างนั้น hyperscaler สหรัฐก็ควรอยู่แบบแยกตัวเองต่อไปเหมือนที่เป็นมา
    • Qwen3.6-Plus ใช้ได้บน Fireworks
    • Alibaba Cloud มี ดาต้าเซ็นเตอร์ในเม็กซิโก
    • ในเมื่อ fireworks โฮสต์ Qwen 3.6 Plus อยู่ ก็น่าจะเอา Qwen 3.7 Plus มาได้เหมือนกัน
    • ChatLLM รองรับ QWEN แต่อยากรู้ว่าแบบนี้ถือว่าปลอดภัยตามมาตรฐานสหรัฐหรือไม่
  • ตัวเลขเองดูดีมาก แต่ก็ยังไม่เข้าใจว่าทำไมโพสต์แบบนี้ถึงไม่เทียบกับ โมเดลคู่แข่งล่าสุด ผู้คนไม่น่าจะไม่สังเกตเห็นอยู่แล้ว

    • ไม่มีที่ไหนปล่อยตัวเลขที่ทำให้ดูแย่กว่าคู่แข่ง
      OpenAI กับ Anthropic ก็เหมือนกัน เพราะบ่อยครั้งก็ใช้ชุดข้อมูลประเมินคนละชุดกัน
    • ถ้าเป็นการอัปเวอร์ชันย่อยก็ถือว่าพอให้อภัยได้ อนึ่ง ช่วงนี้ในโลกโมเดลภาษาขนาดใหญ่ ไม่รู้เพราะอะไรแต่ x.5 กลายเป็นเหมือนการอัปเวอร์ชันใหญ่โดยพฤตินัย
      โพสต์แบบนี้ไม่ได้หล่นลงมาจากฟ้าแม้จะเป็นเรื่อง LLM ถ้ามีชุดเบนช์มาร์กเป้าหมายของโมเดลตัวเองอยู่แล้ว การคงชุดโมเดลที่เทียบกันแบบวางข้างกันได้ต่อเนื่องก็เป็นภาระในการดูแลอีกแบบหนึ่ง
    • น่าจะเป็นตรรกะที่ทำให้ดูเหมือนว่าตัวเอง ตามหลังระดับท็อปล่าสุดอยู่ราว N เดือน
      ในทางปฏิบัติคงหวังให้ผู้อ่านไม่ทันสังเกตรายละเอียด
      โมเดล Qwen นั้นยอดเยี่ยมในแง่ open weights แต่รุ่นก่อน ๆ ในการใช้งานจริงไม่ได้ทำได้ดีเท่าตัวเลขเบนช์มาร์ก และเมื่อรู้ว่าการจูนตัวเลขเบนช์มาร์กได้ผล ก็ย่อมปรับไปตามนั้น
    • ผมมองว่านี่เป็นส่วนหนึ่งของการตั้งความคาดหวัง อาจมีข้อจำกัดเช่นเคยจัด distillation หรือ evaluation harness ไว้กับโมเดลบางตัว
      ถ้าพูดว่าเทียบได้กับ 4.7 ภาพจำของโมเดลอ้างอิงในการประเมินก็จะถูกตรึงไว้แบบนั้น
    • พูดกันตรง ๆ Opus-4.6 รุ่นแรก ๆ ดีกว่าสิ่งที่ตอนนี้ให้บริการในชื่อ 4.7 มาก ถ้าทำงานได้ในระดับนั้นจริง ผมพร้อมจะย้ายไปใช้ทั้งหมดเลย
  • สงสัยว่านี่เป็นประเภทที่อีกหนึ่งสัปดาห์จะมีรีลีสบน Hugging Face หรือเปล่า หรือรู้แน่ชัดแล้วว่าจะ คงไว้แบบปิด

    • ถ้าผมเข้าใจผิดก็ช่วยแก้ให้ที แต่เท่าที่รู้ โมเดล Max ปกติจะไม่ถูกเปิดเผย
  • หวังว่าจะมี รีลีส open weights ของ Qwen ออกมาเพิ่ม โดยเฉพาะ 122B กับ 397B

    • ใช่เลย ช่วงประมาณ 60~150B เป็นจุดที่ดีมากบน ฮาร์ดแวร์ prosumer ตอนนี้ ถ้ามีโมเดลอย่าง 120b-a14b ออกมาก็คงดี
    • ส่วนตัวผมกลับรอโมเดลที่เล็กกว่านี้อย่าง 9B ที่ควอนไทซ์ได้ต่ำกว่ามากกว่า
    • ผมรอ qwen3.7 9b กับ 72b มากกว่า ปกติประสิทธิภาพต่อขนาดดีมาก
    • ผมยังรอ qwem image-edit 2.0 open weights อยู่เลย
    • ฟังแล้วเจ็บเลย ผมเพิ่งเริ่มลองเล่นของพวกนี้เอง สภาพแวดล้อมผมก็เป็นเดสก์ท็อปเกมมิงธรรมดา มี 12GB 3060 กับ RAM 32GB
      แค่เกิน Qwen 9B เครื่องก็เสี่ยงค้างทั้งระบบแล้ว
  • ในเบนช์มาร์กไม่มี Opus 4.7, GPT5.5, Gemini Flash 3.5

  • ผมใช้ pi agent อยู่ และอยากลองใช้โมเดล Qwen แบบโฮสต์ อยากรู้ว่ามีตัวเลือกไหนดีบ้าง
    ผู้ให้บริการอย่างเป็นทางการไม่มี Alibaba และก็สงสัยว่าบริการอย่าง OpenRouter จะเร็วพอไหม อ้างอิงจากที่ DeepSeek v4 ถูกจำกัดหนักมากบนบริการพร็อกซีแบบนี้

    • ผมใช้ qwen3.6-max-preview บน pi + openrouter เยอะอยู่ ยังไม่เจอปัญหาเรื่องเสถียรภาพหรือประสิทธิภาพเลย
  • ผมเพิ่งเริ่มลองเล่น LLM แบบโลคัล และพูดตรง ๆ ว่าค่อนข้างน่าประทับใจ ใช้เวิร์กสเตชันโน้ตบุ๊กที่มี NVIDIA A1000 (VRAM 6GB) กับ RAM 96GB
    แทบไม่ได้ใช้ GPU เลย นาน ๆ ทีถึงจะใช้กับงานออกแบบ CAD หรือแมชชีนเลิร์นนิงบน OpenCV ลองรัน llama3:latest แล้วทำงานได้เร็วพอสมควร เลยอยากรู้ว่า Qwen จะรันบนระบบของผมได้อย่างไร

  • รูปแบบที่ผมเชื่อถือที่สุดคือการเพิ่ม ผลลัพธ์ยืนยันความถูกต้อง ขนาดเล็กเข้าไปกับทุกการกระทำภายนอก เพราะเอเจนต์มักไม่ได้ล้มเหลวเพราะความลึกในการให้เหตุผลไม่พอ แต่ล้มเหลวเร็วกว่าเพราะอาการ state drift แบบเงียบ ๆ

    • อธิบายประเด็นนี้เพิ่มได้ไหม