Tongyi DeepResearch – โมเดลโอเพนซอร์ส 30B MoE ที่ทัดเทียมกับ OpenAI DeepResearch

(tongyi-agent.github.io)

10 คะแนน โดย GN⁺ 2025-11-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Tongyi DeepResearch คือ เว็บเอเจนต์โอเพนซอร์สเต็มรูปแบบ ตัวแรกที่แสดงประสิทธิภาพทัดเทียมกับ OpenAI DeepResearch และทำผลงานระดับแนวหน้าในเบนช์มาร์กการค้นหาข้อมูลที่ซับซ้อน
- Tongyi Lab เป็นหนึ่งในหน่วยวิจัยและพัฒนา AI ของ Alibaba Group โดยมุ่งเน้นที่ large language model (LLM), โมเดลมัลติโหมด และเทคโนโลยีเอเจนต์ และเป็นผู้สร้างโมเดล QWEN
ได้สร้าง ไปป์ไลน์การเรียนรู้แบบ end-to-end ที่ผสาน Agentic Continual Pre-training(CPT), Supervised Fine-Tuning(SFT) และ Reinforcement Learning(RL)
เสริมความสามารถด้านการให้เหตุผลและการวางแผนระยะยาวผ่านการสร้าง QA ขนาดใหญ่ที่อิงกับ ข้อมูลสังเคราะห์ทั้งหมด และแนวทาง IterResearch
รองรับทั้ง โหมด ReAct และ โหมด Heavy เพื่อครอบคลุมตั้งแต่การให้เหตุผลง่าย ๆ ไปจนถึงงานวิจัยหลายขั้นตอนที่ซับซ้อน พร้อมยืนยันประสิทธิภาพที่เสถียรด้วยการเรียนรู้แบบเสริมกำลังบนพื้นฐานของอัลกอริทึม GRPO
ถูกนำไปใช้จริงแล้วทั้งในบริการภายในและภายนอก Alibaba เช่น Gaode Mate และ Tongyi FaRui แสดงให้เห็นถึงการใช้งานจริงและความสามารถในการขยายของเอเจนต์วิจัย AI โอเพนซอร์ส

จากแชตบอตสู่เอเจนต์อัตโนมัติ

Tongyi DeepResearch คือ เว็บเอเจนต์โอเพนซอร์สเต็มรูปแบบ ตัวแรกที่บรรลุประสิทธิภาพระดับ OpenAI DeepResearch
- ทำคะแนน Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75
- เหนือกว่า Deep Research agent เชิงพาณิชย์และโอเพนซอร์สทั้งหมดที่มีอยู่เดิม
นอกจากตัวโมเดลแล้ว ยังเปิดเผย วิธีการฝึกทั้งระบบที่อิงการสังเคราะห์ข้อมูล
- มีโครงสร้างพื้นฐานสำหรับการสร้างข้อมูลอัตโนมัติและ reinforcement learning ตลอดทุกขั้นตอน รวมถึง Agentic CPT, SFT และ RL
ด้วย เฟรมเวิร์ก ReAct จึงแสดงความสามารถภายในที่แข็งแกร่งได้โดยไม่ต้องพึ่ง prompt engineering
- ใน Heavy Mode ได้สาธิตขีดความสามารถสูงสุดด้านการวางแผนและการให้เหตุผลที่ซับซ้อน

การ pre-training ต่อเนื่องและ post-training ที่อิงข้อมูลสังเคราะห์

นำ Agentic CPT มาใช้เพื่อสร้างโมเดลพื้นฐานแบบเอเจนต์
- ผ่านระบบ AgentFounder เพื่อทำการสังเคราะห์ข้อมูลขนาดใหญ่และสร้าง data flywheel แบบวนรอบ
ในขั้นตอน การจัดโครงสร้างข้อมูลใหม่และการสร้างคำถาม ได้ผสานเอกสาร ข้อมูลจากการ crawl, knowledge graph, บันทึกการเรียกใช้เครื่องมือ และอื่น ๆ
- จากนั้นนำมาจัดโครงสร้างใหม่เป็น หน่วยความรู้แบบ open-world ที่ยึดเอนทิตีเป็นศูนย์กลาง และสร้างคู่ (คำถาม, คำตอบ) ได้หลากหลายรูปแบบ
ผ่าน การสังเคราะห์การกระทำ(Action Synthesis) เพื่อสร้างข้อมูลการกระทำทั้งระดับปฐมภูมิและระดับสูง
- เสริมความสามารถในการตัดสินใจด้วยการสร้างแบบจำลองโครงสร้างการตัดสินใจหลายขั้นตอน
ข้อมูล post-training
- สร้าง ไปป์ไลน์การสร้าง QA แบบสังเคราะห์ที่ทำงานอัตโนมัติเต็มรูปแบบ
  - ผ่านชุดงานวิจัยอย่าง WebWalker, WebSailor, WebShaper ฯลฯ เพื่อผลิต ข้อมูล QA แบบอิงกราฟและควบคุมความยากได้
- สร้างโครงสร้างข้อมูลที่สมจริงผ่าน knowledge graph แบบ random walk และ การผสานข้อมูลตาราง
  - ปรับระดับความยากอย่างเป็นระบบผ่าน “การดำเนินการระดับอะตอม” เช่น การรวมเอนทิตี
- ทำให้ความไม่สอดคล้องระหว่างโครงสร้างข้อมูลกับโครงสร้างการให้เหตุผลต่ำที่สุดด้วย การทำให้ปัญหาเป็นรูปแบบเชิงทฤษฎีเซต
  - เพิ่มประสิทธิภาพในการตรวจสอบความสอดคล้องของ QA
- สร้างคำถามวิจัยระดับปริญญาเอกด้วย เอนจินข้อมูลอัตโนมัติ
  - เริ่มจากฐานความรู้แบบสหวิทยาการ แล้วสร้าง QA ความยากสูงผ่านลูปเพิ่มความซับซ้อนแบบวนซ้ำ
- ใช้เฟรมเวิร์ก ReAct และ IterResearch เพื่อเรียนรู้รูปแบบการให้เหตุผลที่หลากหลาย
  - IterResearch จะจัดโครงสร้างพื้นที่ทำงานใหม่ในแต่ละรอบ เพื่อเสริมความสามารถในการวางแผนระยะยาว

โหมดการรัน

โมเดลรองรับวิธีการทำงาน 2 แบบ คือ โหมด ReAct และ โหมด Heavy
Native ReAct Mode
- ใช้โครงสร้างวนรอบ Thought–Action–Observation และแสดงประสิทธิภาพยอดเยี่ยมได้โดยไม่ต้องอาศัย prompt engineering
  - รองรับ context length 128K จึงจัดการรอบการโต้ตอบจำนวนมากได้
- ความเรียบง่ายและความเป็นสากลเป็นเกณฑ์ที่ชัดเจนสำหรับการประเมินความสามารถภายในของโมเดล
- ใช้ วิธีการทั่วไปที่ขยายได้ ตามหลักการ “The Bitter Lesson”
Heavy Mode
- ดำเนินงานวิจัยหลายขั้นตอนที่ซับซ้อนบนพื้นฐานของ แนวทาง IterResearch
  - ในแต่ละรอบจะเก็บเฉพาะผลลัพธ์สำคัญไว้ และจัดโครงสร้างพื้นที่ทำงานใหม่
  - อัปเดตรายงานกลางอย่างต่อเนื่องเพื่อคงคุณภาพการให้เหตุผลในระดับสูง
- ผ่าน เฟรมเวิร์ก Research–Synthesis จะสำรวจผลลัพธ์จากเอเจนต์วิจัยหลายตัวแบบขนานก่อนนำมารวมกัน
  - ช่วยเปิดเส้นทางการสำรวจที่กว้างขึ้นภายใต้ข้อจำกัดของ context

ไปป์ไลน์การฝึกเอเจนต์แบบ end-to-end

สร้างลูปการเรียนรู้แบบบูรณาการเต็มรูปแบบตั้งแต่ Agentic CPT → SFT → RL
ในขั้นตอน On-policy reinforcement learning(RL) ใช้อัลกอริทึม Group Relative Policy Optimization(GRPO)
- สร้างเสถียรภาพด้วย token-level policy gradient loss, กลยุทธ์ leave-one-out และการกรองตัวอย่างเชิงลบ
- ระหว่างการฝึก รางวัลเพิ่มขึ้นและยังคงรักษา policy entropy ในระดับสูงเพื่อให้การสำรวจดำเนินต่อไป
ข้อมูลสังเคราะห์ ให้การกระจายข้อมูลที่สม่ำเสมอกว่าข้อมูลที่มนุษย์ทำ annotation เช่น BrowseComp จึงช่วยเพิ่มประสิทธิภาพการฝึก
องค์ประกอบโครงสร้างพื้นฐาน
- สภาพแวดล้อมการฝึกแบบสังเคราะห์: สร้างสภาพแวดล้อมจำลองด้วยฐานข้อมูล Wikipedia แบบออฟไลน์และชุดเครื่องมือที่ปรับแต่งเอง
- sandbox เครื่องมือที่เสถียร: ป้องกันข้อผิดพลาดจากการเรียกใช้เครื่องมือด้วย caching, retry และ backup API
- การคัดสรรข้อมูลอัตโนมัติ: เพิ่มเสถียรภาพและประสิทธิภาพด้วยการสังเคราะห์และกรองข้อมูลแบบเรียลไทม์ตามพลวัตของการฝึก
- เฟรมเวิร์ก On-policy แบบ asynchronous: ใช้ลูป RL แบบ asynchronous ระดับสเต็ปบนพื้นฐานของ rLLM
- จากกระบวนการนี้ จึงได้ ลูปการฝึกเอเจนต์ AI แบบวิวัฒน์ตัวเองสมบูรณ์ ซึ่งสามารถแก้ปัญหาได้อย่างเสถียรแม้ในสภาพแวดล้อมพลวัตที่ซับซ้อน

ตัวอย่างการใช้งานจริง

Gaode Mate (เอเจนต์แผนที่และการนำทาง)
- ร่วมมือกับทีม Amap เพื่อพัฒนา AI copilot ชื่อ ‘Xiao Gao’
- ทำงานวางแผนที่ซับซ้อน เช่น แผนการเดินทางหลายขั้นตอน หรือเส้นทางที่รวมที่พักที่เป็นมิตรต่อสัตว์เลี้ยง ด้วยการให้เหตุผลหลายชั้น
Tongyi FaRui (เอเจนต์วิจัยกฎหมาย)
- ทำงานวิจัยหลายขั้นตอนระดับทนายความ เช่น การค้นหาคำพิพากษา การตรวจทานกฎหมายแบบข้ามอ้างอิง และการรวมผลวิเคราะห์
- ข้อสรุปทั้งหมดอ้างอิงจาก เอกสารตุลาการที่ตรวจสอบได้ พร้อมการอ้างอิงที่แม่นยำ

ข้อจำกัดและงานในอนาคต

มีข้อจำกัดในการจัดการงานระยะยาวมากเป็นพิเศษจาก ข้อจำกัด context 128K
จำเป็นต้องตรวจสอบความสามารถในการขยายไปสู่ โมเดล MoE ขนาดเกิน 30B
มีแผนวิจัย partial rollout และ off-policy learning เพื่อ ปรับปรุงประสิทธิภาพของ reinforcement learning

ชุดงานวิจัย

เปิดเผยงานวิจัยที่เกี่ยวข้อง 11 ฉบับ เช่น WebWalker, WebDancer, WebSailor, WebShaper, WebWatcher
ในช่วง 6 เดือนที่ผ่านมาได้เผยแพร่รายงานทางเทคนิคทุกเดือน และครั้งนี้ได้เปิดเผยรายงานใหม่ 6 ฉบับพร้อมกับ โมเดล Tongyi DeepResearch‑30B‑A3B
มีแผนพัฒนาโมเดลเอเจนต์รุ่นถัดไปอย่างต่อเนื่อง

1 ความคิดเห็น

GN⁺ 2025-11-04

ความคิดเห็นจาก Hacker News

ดีใจที่มี โมเดล 30B MoE ที่เปิดให้ใช้สำหรับ “ดีปรีเสิร์ช”
โครงสร้างที่รันเอเจนต์หลายตัวแบบขนาน โดยให้โมเดลเบาทำหน้าที่ค้นหา·ดึงข้อมูล และให้โมเดล 30B รับผิดชอบการวางแผน·การกำหนดเส้นทางเครื่องมือ·การตรวจสอบนั้นมีประสิทธิภาพ
โครงสร้าง การทำงานแบบเฉพาะทาง ของ MoE เหมาะกับ AI เอเจนต์แบบกระจายตัว แต่ก็ต้องมี orchestration สำหรับการลองใหม่·การหาฉันทามติ·การประเมินเว็บรีเสิร์ชหลายขั้นตอน
สงสัยว่าช่วงนี้ LLM แบบเฉพาะทาง จะเพิ่มขึ้นแบบระเบิดหรือไม่
ถ้าโมเดลขนาดใหญ่โตเกินไปจนแตะขีดจำกัดของ pretraining แล้ว ก็อาจมีโมเดลตามวัตถุประสงค์เฉพาะมากขึ้น
เมื่อดูจากที่ GPT‑3.5 เคยเล่นหมากรุกเก่ง แต่โมเดลรุ่นหลังกลับไม่เป็นแบบนั้น ก็ดูเหมือนว่าจะมี trade-off ในข้อมูลฝึก
- ตอนนี้โมเดลใหญ่แบบใช้งานทั่วไปยังเหนือกว่าแทบทุกด้าน
  การ fine-tune โมเดลเล็กสำหรับงานเฉพาะมีต้นทุนสูง และความก้าวหน้าของโมเดลใหญ่ก็เร็วมากจนตามไม่ทันในไม่ช้า
  แต่ถ้าความเร็วในการพัฒนาช้าลง การฝึกโมเดลขนาดเล็ก ก็จะกลับมามีความหมายอีกครั้ง
- อยากเห็น benchmark ของ LLM ที่เล่นหมากรุกเก่ง
  คิดมานานแล้วว่าอยากมีโมเดล 4B~8B ที่รู้เฉพาะเฟรมเวิร์กอย่าง SvelteKit ได้ดีมาก
  ไม่แน่เสมอไปว่าคุณภาพของโมเดลใหญ่จะดีกว่าเสมอ และถ้าโมเดลเล็กรันได้บน GPU ใบเดียวก็น่าจะใช้งานได้จริงกว่ามาก
  เคยเสนอไอเดียเว็บไซต์เปรียบเทียบ chess LLM ให้พี่ชาย แต่จนถึงตอนนี้ก็ยังไม่ได้ทำ
- ไม่เห็นด้วยกับคำพูดที่ว่า GPT‑3.5 เล่นหมากรุกเก่ง
  ลองใช้จริงแล้วมี การเดินมั่วจากภาพหลอน เยอะมาก
- แชร์ลิงก์ seed‑tars.com/game‑tars
- นี่ไม่ใช่หัวใจของสถาปัตยกรรม MoE หรอกหรือ?
  ข้อดีคือสามารถ ฝึกและปรับปรุง เฉพาะส่วนที่ต้องใช้ได้แบบแยกกัน
สงสัยว่า เครื่องมือดีปรีเสิร์ช แบบนี้มีประโยชน์จริงหรือไม่
จากประสบการณ์ของฉัน มันยังไปไม่พ้นระดับสรุปผลจากเสิร์ชเอนจินและสร้างได้แค่รายงานจืด ๆ
- เคยใช้ในสหราชอาณาจักรเพื่อดูเรื่องการปฏิบัติตามกฎหมายสำหรับเว็บไซต์เล็ก ๆ ที่ดูแลอยู่ และถ้าใส่บริบทลงไป มันก็ให้ผลลัพธ์ที่ ปรับตามงาน ได้ค่อนข้างดี
  แม้จะไม่ถึงระดับทนาย แต่สำหรับโปรเจ็กต์ที่ไม่มีงบก็ช่วยได้มาก
- ฉันก็มีประสบการณ์คล้ายกัน
  มันให้ความรู้สึกเหมือน รายงานที่ปรึกษา ที่เขียนให้ดูเหมือนมีคุณภาพ มากกว่าจะช่วยคนที่อยากเรียนรู้อย่างจริงจัง จึงมีคุณค่าจริงไม่มาก
- แม้รายงานจะจืด แต่ก็มีประโยชน์ในการ ไล่หาที่มาของข้อมูล
  มันช่วยหาเคสอ้างอิงสำหรับคำถามอย่าง “หัวข้อนี้เคยมีงานวิจัยมาก่อนหรือยัง?” ได้
- ฉันใช้ ChatGPT บ่อย และถ้าโยนคำถามให้ มันช่วย จัดระเบียบแหล่งข้อมูล ที่เกี่ยวข้องได้ดี
  แม้จะยังแทนการทำรีเสิร์ชเองทั้งหมดไม่ได้ แต่ก็ช่วยมากในช่วงเริ่มต้นจัดข้อมูล
- ต่อให้เป็นแค่สรุประดับเสิร์ชเอนจิน ก็ยังพอใช้หาไอเดียใหม่ ๆ หรือ unknown unknowns ได้ดีพอสมควร
ก่อนหน้านี้เคยปล่อย โมเดล Qwen3 4B distill และชุดข้อมูลสังเคราะห์ไว้บน Hugging Face
- อยากให้ทำ Hugging Face Space ที่ทดลองใช้ได้จากเบราว์เซอร์เลย
  Qwen3 4B รันบน Intel iGPU ของฉันได้ดีมากจนน่าประทับใจ
  ก่อนหน้านี้เคยนึกไอเดียเรื่อง ‘โมเดลราคาถูกมากสำหรับตรวจจับเนื้อหาเป็นอันตราย’ และ LLM ขนาดเล็กแบบนี้ก็น่าจะทำหน้าที่นั้นได้
  อีกอย่างก็น่าจะลองใช้สำหรับ routing ได้ด้วย
- ฉันลองรันกับ web search MCP ของตัวเองแล้ว และนี่เป็นครั้งแรกที่เห็น คุณภาพดีปรีเสิร์ช แบบนี้จากโมเดลที่เล็กขนาดนี้
โดยรวมเป็นซีรีส์ที่น่าสนใจ
แต่แค่ CSS property word-break: break-word; ก็ทำให้อ่านยากมากแล้ว
- ฉันก็ลองอ่านเหมือนกัน แต่รู้สึกเหมือน คำมันไม่ต่อกัน
เช้าวันอาทิตย์แบบนี้ ในฐานะ งานอดิเรกของวิศวกร ฉันสงสัยว่าถ้าจะ self-host ต้องทำอย่างไร
อยากลองให้มันรันบน 2080Ti กับ VRAM 128GB(?) ต่อให้ช้าก็ยังดี
มองว่าข้อจำกัดนี่แหละคือความสนุก
- ถ้าอยากได้ VRAM เยอะแต่ประหยัด AMD MI50 ก็น่าสนใจ
  รุ่น 32GB หาซื้อได้บน AliExpress ราว 150~250 ดอลลาร์ และถ้ารวมหลายใบก็จัดชุด 128GB VRAM ได้
  แม้จะไม่เร็วเท่า GPU รุ่นใหม่ แต่ก็ยังใช้งานได้ดีพอ
- ถ้าอยากลองรันบนเครื่องตัวเองแบบเร็ว ๆ แอป Ollama ง่ายที่สุด
  ติดตั้งได้จาก ollama.com
  แต่ถ้าเป็น 2080Ti ที่มี 128GB VRAM ก็อยากรู้เหมือนกันว่าทำยังไง
- ฉันรันโมเดลบน MacBook Pro ที่มี unified memory 128GB
  มันช้าแต่ทำงานออฟไลน์ได้ดี และพกไปใช้ในร้านกาแฟได้ด้วย
  ฉันใช้ Ollama เลยต้องรอให้โมเดลใหม่ ๆ ถูกพอร์ตมาก่อน
- เซ็ตอัปที่ประกอบเองแบบงบจำกัดของฉันเป็นดังนี้
  Ryzen 9 9950X, RAM 96GB, RTX 3090 สองใบ, PSU 1600W
  สามารถรันโมเดล 30B ที่ quantized แบบ FP8 ได้สบาย ๆ
- น่าจะหมายถึง RAM มากกว่า VRAM
  โมเดลนี้เป็น 30B MoE แต่มี active parameters แค่ราว 3B จึงคล้ายกับ Qwen3 MoE
  ฉันรันโมเดล quantized 4bit บน i5‑6600 อายุ 11 ปี กับ Radeon 6600 (8GB) และได้ประมาณ 12tps ที่คอนเท็กซ์ 16k
  พร้อมแชร์ ตัวอย่างสคริปต์รัน
โมเดล Tongyi มีให้ใช้บน OpenRouter ด้วย และมีเวอร์ชันฟรี
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
มีคนเล่นมุกว่า “Deep research” อาจถูกแปลเป็น “ยินยอม (Agree)” หรือเปล่า
- จริง ๆ แล้วชื่อภาษาจีนคือ 通义千问(Tongyi Qianwen) ซึ่งหมายถึง “รู้ทุกคำถาม”
  แม้จะออกเสียงเหมือน “同意(ยินยอม)” แต่ความหมายต่างกัน
  ดูได้ที่ หน้าอย่างเป็นทางการของ Alibaba Qwen
โมเดลนี้จริง ๆ แล้ว เปิดเผย weights มาตั้งแต่เดือนก่อนแล้ว
- ถึงอย่างนั้นก็ไม่ใช่ทุกคนจะตามข่าวแบบเรียลไทม์ เพราะงั้นต่อให้เป็นโมเดลเมื่อเดือนก่อนก็ยังมีประโยชน์อยู่
- ถ้าอย่างนั้นก็อยากรู้เหมือนกันว่า ประสิทธิภาพเมื่อเทียบ กับโมเดลอื่นเป็นอย่างไร
“Deep research” ของ OpenAI ไม่ใช่โมเดลเฉพาะตัว แต่ใกล้เคียงกับ รูปแบบการทำงานเชิงฟังก์ชัน มากกว่า
ผลลัพธ์จะแตกต่างกันไปตามว่าใช้โมเดลไหน เช่น GPT‑5, GPT‑4o, o3
- ตอนนี้แทบทุกเจ้าทั้ง OpenAI, Perplexity, Google Gemini, Anthropic, Grok ต่างก็มี รูปแบบการรีเสิร์ชคล้ายกัน
  คือเป็นงานระยะยาวที่อิงการค้นหา เก็บข้อมูลอยู่ 5~10 นาที แล้วสร้าง รายงานพร้อมการอ้างอิง
  โมเดล Tongyi ถูกปรับมาเฉพาะทางสำหรับลูปการค้นหาและเขียนรายงานลักษณะนี้

Tongyi DeepResearch – โมเดลโอเพนซอร์ส 30B MoE ที่ทัดเทียมกับ OpenAI DeepResearch

จากแชตบอตสู่เอเจนต์อัตโนมัติ

การ pre-training ต่อเนื่องและ post-training ที่อิงข้อมูลสังเคราะห์

ข้อมูล post-training

โหมดการรัน

Native ReAct Mode

Heavy Mode

ไปป์ไลน์การฝึกเอเจนต์แบบ end-to-end

องค์ประกอบโครงสร้างพื้นฐาน

ตัวอย่างการใช้งานจริง

ข้อจำกัดและงานในอนาคต

ชุดงานวิจัย

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News