- Tongyi DeepResearch คือ เว็บเอเจนต์โอเพนซอร์สเต็มรูปแบบ ตัวแรกที่แสดงประสิทธิภาพทัดเทียมกับ OpenAI DeepResearch และทำผลงานระดับแนวหน้าในเบนช์มาร์กการค้นหาข้อมูลที่ซับซ้อน
- Tongyi Lab เป็นหนึ่งในหน่วยวิจัยและพัฒนา AI ของ Alibaba Group โดยมุ่งเน้นที่ large language model (LLM), โมเดลมัลติโหมด และเทคโนโลยีเอเจนต์ และเป็นผู้สร้างโมเดล QWEN
- ได้สร้าง ไปป์ไลน์การเรียนรู้แบบ end-to-end ที่ผสาน Agentic Continual Pre-training(CPT), Supervised Fine-Tuning(SFT) และ Reinforcement Learning(RL)
- เสริมความสามารถด้านการให้เหตุผลและการวางแผนระยะยาวผ่านการสร้าง QA ขนาดใหญ่ที่อิงกับ ข้อมูลสังเคราะห์ทั้งหมด และแนวทาง IterResearch
- รองรับทั้ง โหมด ReAct และ โหมด Heavy เพื่อครอบคลุมตั้งแต่การให้เหตุผลง่าย ๆ ไปจนถึงงานวิจัยหลายขั้นตอนที่ซับซ้อน พร้อมยืนยันประสิทธิภาพที่เสถียรด้วยการเรียนรู้แบบเสริมกำลังบนพื้นฐานของอัลกอริทึม GRPO
- ถูกนำไปใช้จริงแล้วทั้งในบริการภายในและภายนอก Alibaba เช่น Gaode Mate และ Tongyi FaRui แสดงให้เห็นถึงการใช้งานจริงและความสามารถในการขยายของเอเจนต์วิจัย AI โอเพนซอร์ส
จากแชตบอตสู่เอเจนต์อัตโนมัติ
- Tongyi DeepResearch คือ เว็บเอเจนต์โอเพนซอร์สเต็มรูปแบบ ตัวแรกที่บรรลุประสิทธิภาพระดับ OpenAI DeepResearch
- ทำคะแนน Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75
- เหนือกว่า Deep Research agent เชิงพาณิชย์และโอเพนซอร์สทั้งหมดที่มีอยู่เดิม
- นอกจากตัวโมเดลแล้ว ยังเปิดเผย วิธีการฝึกทั้งระบบที่อิงการสังเคราะห์ข้อมูล
- มีโครงสร้างพื้นฐานสำหรับการสร้างข้อมูลอัตโนมัติและ reinforcement learning ตลอดทุกขั้นตอน รวมถึง Agentic CPT, SFT และ RL
- ด้วย เฟรมเวิร์ก ReAct จึงแสดงความสามารถภายในที่แข็งแกร่งได้โดยไม่ต้องพึ่ง prompt engineering
- ใน Heavy Mode ได้สาธิตขีดความสามารถสูงสุดด้านการวางแผนและการให้เหตุผลที่ซับซ้อน
การ pre-training ต่อเนื่องและ post-training ที่อิงข้อมูลสังเคราะห์
- นำ Agentic CPT มาใช้เพื่อสร้างโมเดลพื้นฐานแบบเอเจนต์
- ผ่านระบบ AgentFounder เพื่อทำการสังเคราะห์ข้อมูลขนาดใหญ่และสร้าง data flywheel แบบวนรอบ
- ในขั้นตอน การจัดโครงสร้างข้อมูลใหม่และการสร้างคำถาม ได้ผสานเอกสาร ข้อมูลจากการ crawl, knowledge graph, บันทึกการเรียกใช้เครื่องมือ และอื่น ๆ
- จากนั้นนำมาจัดโครงสร้างใหม่เป็น หน่วยความรู้แบบ open-world ที่ยึดเอนทิตีเป็นศูนย์กลาง และสร้างคู่ (คำถาม, คำตอบ) ได้หลากหลายรูปแบบ
- ผ่าน การสังเคราะห์การกระทำ(Action Synthesis) เพื่อสร้างข้อมูลการกระทำทั้งระดับปฐมภูมิและระดับสูง
- เสริมความสามารถในการตัดสินใจด้วยการสร้างแบบจำลองโครงสร้างการตัดสินใจหลายขั้นตอน
-
ข้อมูล post-training
- สร้าง ไปป์ไลน์การสร้าง QA แบบสังเคราะห์ที่ทำงานอัตโนมัติเต็มรูปแบบ
- ผ่านชุดงานวิจัยอย่าง WebWalker, WebSailor, WebShaper ฯลฯ เพื่อผลิต ข้อมูล QA แบบอิงกราฟและควบคุมความยากได้
- สร้างโครงสร้างข้อมูลที่สมจริงผ่าน knowledge graph แบบ random walk และ การผสานข้อมูลตาราง
- ปรับระดับความยากอย่างเป็นระบบผ่าน “การดำเนินการระดับอะตอม” เช่น การรวมเอนทิตี
- ทำให้ความไม่สอดคล้องระหว่างโครงสร้างข้อมูลกับโครงสร้างการให้เหตุผลต่ำที่สุดด้วย การทำให้ปัญหาเป็นรูปแบบเชิงทฤษฎีเซต
- เพิ่มประสิทธิภาพในการตรวจสอบความสอดคล้องของ QA
- สร้างคำถามวิจัยระดับปริญญาเอกด้วย เอนจินข้อมูลอัตโนมัติ
- เริ่มจากฐานความรู้แบบสหวิทยาการ แล้วสร้าง QA ความยากสูงผ่านลูปเพิ่มความซับซ้อนแบบวนซ้ำ
- ใช้เฟรมเวิร์ก ReAct และ IterResearch เพื่อเรียนรู้รูปแบบการให้เหตุผลที่หลากหลาย
- IterResearch จะจัดโครงสร้างพื้นที่ทำงานใหม่ในแต่ละรอบ เพื่อเสริมความสามารถในการวางแผนระยะยาว
โหมดการรัน
- โมเดลรองรับวิธีการทำงาน 2 แบบ คือ โหมด ReAct และ โหมด Heavy
-
Native ReAct Mode
- ใช้โครงสร้างวนรอบ Thought–Action–Observation และแสดงประสิทธิภาพยอดเยี่ยมได้โดยไม่ต้องอาศัย prompt engineering
- รองรับ context length 128K จึงจัดการรอบการโต้ตอบจำนวนมากได้
- ความเรียบง่ายและความเป็นสากลเป็นเกณฑ์ที่ชัดเจนสำหรับการประเมินความสามารถภายในของโมเดล
- ใช้ วิธีการทั่วไปที่ขยายได้ ตามหลักการ “The Bitter Lesson”
-
Heavy Mode
- ดำเนินงานวิจัยหลายขั้นตอนที่ซับซ้อนบนพื้นฐานของ แนวทาง IterResearch
- ในแต่ละรอบจะเก็บเฉพาะผลลัพธ์สำคัญไว้ และจัดโครงสร้างพื้นที่ทำงานใหม่
- อัปเดตรายงานกลางอย่างต่อเนื่องเพื่อคงคุณภาพการให้เหตุผลในระดับสูง
- ผ่าน เฟรมเวิร์ก Research–Synthesis จะสำรวจผลลัพธ์จากเอเจนต์วิจัยหลายตัวแบบขนานก่อนนำมารวมกัน
- ช่วยเปิดเส้นทางการสำรวจที่กว้างขึ้นภายใต้ข้อจำกัดของ context
ไปป์ไลน์การฝึกเอเจนต์แบบ end-to-end
- สร้างลูปการเรียนรู้แบบบูรณาการเต็มรูปแบบตั้งแต่ Agentic CPT → SFT → RL
- ในขั้นตอน On-policy reinforcement learning(RL) ใช้อัลกอริทึม Group Relative Policy Optimization(GRPO)
- สร้างเสถียรภาพด้วย token-level policy gradient loss, กลยุทธ์ leave-one-out และการกรองตัวอย่างเชิงลบ
- ระหว่างการฝึก รางวัลเพิ่มขึ้นและยังคงรักษา policy entropy ในระดับสูงเพื่อให้การสำรวจดำเนินต่อไป
- ข้อมูลสังเคราะห์ ให้การกระจายข้อมูลที่สม่ำเสมอกว่าข้อมูลที่มนุษย์ทำ annotation เช่น BrowseComp จึงช่วยเพิ่มประสิทธิภาพการฝึก
-
องค์ประกอบโครงสร้างพื้นฐาน
- สภาพแวดล้อมการฝึกแบบสังเคราะห์: สร้างสภาพแวดล้อมจำลองด้วยฐานข้อมูล Wikipedia แบบออฟไลน์และชุดเครื่องมือที่ปรับแต่งเอง
- sandbox เครื่องมือที่เสถียร: ป้องกันข้อผิดพลาดจากการเรียกใช้เครื่องมือด้วย caching, retry และ backup API
- การคัดสรรข้อมูลอัตโนมัติ: เพิ่มเสถียรภาพและประสิทธิภาพด้วยการสังเคราะห์และกรองข้อมูลแบบเรียลไทม์ตามพลวัตของการฝึก
- เฟรมเวิร์ก On-policy แบบ asynchronous: ใช้ลูป RL แบบ asynchronous ระดับสเต็ปบนพื้นฐานของ rLLM
- จากกระบวนการนี้ จึงได้ ลูปการฝึกเอเจนต์ AI แบบวิวัฒน์ตัวเองสมบูรณ์ ซึ่งสามารถแก้ปัญหาได้อย่างเสถียรแม้ในสภาพแวดล้อมพลวัตที่ซับซ้อน
ตัวอย่างการใช้งานจริง
- Gaode Mate (เอเจนต์แผนที่และการนำทาง)
- ร่วมมือกับทีม Amap เพื่อพัฒนา AI copilot ชื่อ ‘Xiao Gao’
- ทำงานวางแผนที่ซับซ้อน เช่น แผนการเดินทางหลายขั้นตอน หรือเส้นทางที่รวมที่พักที่เป็นมิตรต่อสัตว์เลี้ยง ด้วยการให้เหตุผลหลายชั้น
- Tongyi FaRui (เอเจนต์วิจัยกฎหมาย)
- ทำงานวิจัยหลายขั้นตอนระดับทนายความ เช่น การค้นหาคำพิพากษา การตรวจทานกฎหมายแบบข้ามอ้างอิง และการรวมผลวิเคราะห์
- ข้อสรุปทั้งหมดอ้างอิงจาก เอกสารตุลาการที่ตรวจสอบได้ พร้อมการอ้างอิงที่แม่นยำ
ข้อจำกัดและงานในอนาคต
- มีข้อจำกัดในการจัดการงานระยะยาวมากเป็นพิเศษจาก ข้อจำกัด context 128K
- จำเป็นต้องตรวจสอบความสามารถในการขยายไปสู่ โมเดล MoE ขนาดเกิน 30B
- มีแผนวิจัย partial rollout และ off-policy learning เพื่อ ปรับปรุงประสิทธิภาพของ reinforcement learning
ชุดงานวิจัย
- เปิดเผยงานวิจัยที่เกี่ยวข้อง 11 ฉบับ เช่น WebWalker, WebDancer, WebSailor, WebShaper, WebWatcher
- ในช่วง 6 เดือนที่ผ่านมาได้เผยแพร่รายงานทางเทคนิคทุกเดือน และครั้งนี้ได้เปิดเผยรายงานใหม่ 6 ฉบับพร้อมกับ โมเดล Tongyi DeepResearch‑30B‑A3B
- มีแผนพัฒนาโมเดลเอเจนต์รุ่นถัดไปอย่างต่อเนื่อง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
โครงสร้างที่รันเอเจนต์หลายตัวแบบขนาน โดยให้โมเดลเบาทำหน้าที่ค้นหา·ดึงข้อมูล และให้โมเดล 30B รับผิดชอบการวางแผน·การกำหนดเส้นทางเครื่องมือ·การตรวจสอบนั้นมีประสิทธิภาพ
โครงสร้าง การทำงานแบบเฉพาะทาง ของ MoE เหมาะกับ AI เอเจนต์แบบกระจายตัว แต่ก็ต้องมี orchestration สำหรับการลองใหม่·การหาฉันทามติ·การประเมินเว็บรีเสิร์ชหลายขั้นตอน
ถ้าโมเดลขนาดใหญ่โตเกินไปจนแตะขีดจำกัดของ pretraining แล้ว ก็อาจมีโมเดลตามวัตถุประสงค์เฉพาะมากขึ้น
เมื่อดูจากที่ GPT‑3.5 เคยเล่นหมากรุกเก่ง แต่โมเดลรุ่นหลังกลับไม่เป็นแบบนั้น ก็ดูเหมือนว่าจะมี trade-off ในข้อมูลฝึก
การ fine-tune โมเดลเล็กสำหรับงานเฉพาะมีต้นทุนสูง และความก้าวหน้าของโมเดลใหญ่ก็เร็วมากจนตามไม่ทันในไม่ช้า
แต่ถ้าความเร็วในการพัฒนาช้าลง การฝึกโมเดลขนาดเล็ก ก็จะกลับมามีความหมายอีกครั้ง
คิดมานานแล้วว่าอยากมีโมเดล 4B~8B ที่รู้เฉพาะเฟรมเวิร์กอย่าง SvelteKit ได้ดีมาก
ไม่แน่เสมอไปว่าคุณภาพของโมเดลใหญ่จะดีกว่าเสมอ และถ้าโมเดลเล็กรันได้บน GPU ใบเดียวก็น่าจะใช้งานได้จริงกว่ามาก
เคยเสนอไอเดียเว็บไซต์เปรียบเทียบ chess LLM ให้พี่ชาย แต่จนถึงตอนนี้ก็ยังไม่ได้ทำ
ลองใช้จริงแล้วมี การเดินมั่วจากภาพหลอน เยอะมาก
ข้อดีคือสามารถ ฝึกและปรับปรุง เฉพาะส่วนที่ต้องใช้ได้แบบแยกกัน
จากประสบการณ์ของฉัน มันยังไปไม่พ้นระดับสรุปผลจากเสิร์ชเอนจินและสร้างได้แค่รายงานจืด ๆ
แม้จะไม่ถึงระดับทนาย แต่สำหรับโปรเจ็กต์ที่ไม่มีงบก็ช่วยได้มาก
มันให้ความรู้สึกเหมือน รายงานที่ปรึกษา ที่เขียนให้ดูเหมือนมีคุณภาพ มากกว่าจะช่วยคนที่อยากเรียนรู้อย่างจริงจัง จึงมีคุณค่าจริงไม่มาก
มันช่วยหาเคสอ้างอิงสำหรับคำถามอย่าง “หัวข้อนี้เคยมีงานวิจัยมาก่อนหรือยัง?” ได้
แม้จะยังแทนการทำรีเสิร์ชเองทั้งหมดไม่ได้ แต่ก็ช่วยมากในช่วงเริ่มต้นจัดข้อมูล
Qwen3 4B รันบน Intel iGPU ของฉันได้ดีมากจนน่าประทับใจ
ก่อนหน้านี้เคยนึกไอเดียเรื่อง ‘โมเดลราคาถูกมากสำหรับตรวจจับเนื้อหาเป็นอันตราย’ และ LLM ขนาดเล็กแบบนี้ก็น่าจะทำหน้าที่นั้นได้
อีกอย่างก็น่าจะลองใช้สำหรับ routing ได้ด้วย
แต่แค่ CSS property
word-break: break-word;ก็ทำให้อ่านยากมากแล้วอยากลองให้มันรันบน 2080Ti กับ VRAM 128GB(?) ต่อให้ช้าก็ยังดี
มองว่าข้อจำกัดนี่แหละคือความสนุก
รุ่น 32GB หาซื้อได้บน AliExpress ราว 150~250 ดอลลาร์ และถ้ารวมหลายใบก็จัดชุด 128GB VRAM ได้
แม้จะไม่เร็วเท่า GPU รุ่นใหม่ แต่ก็ยังใช้งานได้ดีพอ
ติดตั้งได้จาก ollama.com
แต่ถ้าเป็น 2080Ti ที่มี 128GB VRAM ก็อยากรู้เหมือนกันว่าทำยังไง
มันช้าแต่ทำงานออฟไลน์ได้ดี และพกไปใช้ในร้านกาแฟได้ด้วย
ฉันใช้ Ollama เลยต้องรอให้โมเดลใหม่ ๆ ถูกพอร์ตมาก่อน
Ryzen 9 9950X, RAM 96GB, RTX 3090 สองใบ, PSU 1600W
สามารถรันโมเดล 30B ที่ quantized แบบ FP8 ได้สบาย ๆ
โมเดลนี้เป็น 30B MoE แต่มี active parameters แค่ราว 3B จึงคล้ายกับ Qwen3 MoE
ฉันรันโมเดล quantized 4bit บน i5‑6600 อายุ 11 ปี กับ Radeon 6600 (8GB) และได้ประมาณ 12tps ที่คอนเท็กซ์ 16k
พร้อมแชร์ ตัวอย่างสคริปต์รัน
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
แม้จะออกเสียงเหมือน “同意(ยินยอม)” แต่ความหมายต่างกัน
ดูได้ที่ หน้าอย่างเป็นทางการของ Alibaba Qwen
ผลลัพธ์จะแตกต่างกันไปตามว่าใช้โมเดลไหน เช่น GPT‑5, GPT‑4o, o3
คือเป็นงานระยะยาวที่อิงการค้นหา เก็บข้อมูลอยู่ 5~10 นาที แล้วสร้าง รายงานพร้อมการอ้างอิง
โมเดล Tongyi ถูกปรับมาเฉพาะทางสำหรับลูปการค้นหาและเขียนรายงานลักษณะนี้