ความแตกต่างระหว่าง Deep Research, Deep Research และ Deep Research

(leehanchung.github.io)

6 คะแนน โดย GN⁺ 2025-03-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ช่วงหลังมานี้ AI lab ต่าง ๆ ใช้คำว่า ‘Deep Research’ เพื่อเปิดตัวฟีเจอร์ที่หลากหลาย
Google เปิดตัว Gemini 1.5 Deep Research ในเดือนธันวาคม 2024, OpenAI เปิดตัว Deep Research ในเดือนกุมภาพันธ์ 2025 และ Perplexity ก็เปิดตัว Deep Research ของตนเองตามมาติด ๆ
นอกจากนี้ DeepSeek, Qwen ของ Alibaba และ xAI ของ Elon Musk ก็ได้นำฟีเจอร์ Search และ Deep Search มาใช้ในผู้ช่วยแชตบอตเช่นกัน
บน GitHub ก็เริ่มมี อิมพลีเมนเทชันโอเพนซอร์สของ ‘Deep Research’ หลายสิบตัว ปรากฏขึ้น
สิ่งนี้สะท้อนให้เห็นว่า เช่นเดียวกับ Retrieval-Augmented Generation(RAG) ในปี 2025 คำว่า ‘Deep Research’ กำลังถูกใช้โดยไม่มีคำนิยามที่ชัดเจน

Deep Research, Deep Search หรือแค่ Search

> Google : “Deep Research ใช้ AI เพื่อสำรวจหัวข้อที่ซับซ้อน จัดทำรายงานที่ครอบคลุมและอ่านง่าย และแสดงให้เห็นว่า Gemini มีความสามารถมากขึ้นในการจัดการงานที่ซับซ้อนเพื่อช่วยประหยัดเวลา”
> OpenAI : “Deep Research คือเอเจนต์รุ่นถัดไปของ OpenAI เมื่อผู้ใช้ให้พรอมป์ต์ ChatGPT จะค้นหา วิเคราะห์ และสังเคราะห์ข้อมูลจากแหล่งออนไลน์หลายร้อยแห่ง เพื่อสร้างรายงานที่ครอบคลุมในระดับนักวิเคราะห์วิจัย”
> Perplexity : “เมื่อคุณถามคำถามแบบ Deep Research, Perplexity จะทำการค้นหาหลายสิบครั้ง อ่านแหล่งข้อมูลหลายร้อยแหล่ง ให้เหตุผลกับข้อมูล และส่งมอบรายงานที่ครอบคลุมโดยอัตโนมัติ”

หากตัดถ้อยคำทางการตลาดออกไป Deep Research สามารถนิยามได้ดังนี้
> ระบบสร้างรายงานที่รับ คำค้นของผู้ใช้ ใช้ โมเดลภาษาขนาดใหญ่(LLM) เป็นเอเจนต์ เพื่อ ค้นหาและวิเคราะห์ข้อมูลแบบวนซ้ำ และ ส่งออกรายงานแบบละเอียด
ในศัพท์ของการประมวลผลภาษาธรรมชาติ(NLP) สิ่งนี้เป็นที่รู้จักในชื่อ ‘report generation’

วิธีการอิมพลีเมนต์

หลังการมาของ ChatGPT การสร้างรายงานหรือ ‘Deep Research’ ได้กลายเป็นจุดโฟกัสสำคัญของ AI engineering
ผู้เขียนได้ทดลองสิ่งนี้ในแฮ็กกาธอนช่วงต้นปี 2023 ซึ่งเป็นช่วงที่ AI engineering เพิ่งเริ่มได้รับความสนใจ
เครื่องมือและเดโมจำนวนมาก เช่น LangChain, AutoGPT, GPT-Researcher และ prompt engineering ได้รับความสนใจอย่างมากบน Twitter และ LinkedIn
แต่ความท้าทายที่แท้จริงอยู่ที่รายละเอียดของการอิมพลีเมนต์
ด้านล่างนี้จะสำรวจแพตเทิร์นทั่วไปในการสร้างระบบสร้างรายงาน เน้นให้เห็นความแตกต่าง และจัดหมวดหมู่สิ่งที่ผู้ให้บริการแต่ละรายนำเสนอ

แบบไม่ฝึก: กราฟไม่มีวงจรแบบมีทิศทาง(DAG)

ในระยะแรกพบว่า การขอให้ LLM อย่าง GPT-3.5 สร้างรายงานขึ้นมาตั้งแต่ต้นนั้นไม่ค่อยใช้งานได้จริง
จึงใช้ Composite pattern เพื่อเชื่อมการเรียกใช้ LLM หลายครั้งเข้าด้วยกัน
แยกย่อยคำค้นของผู้ใช้เพื่อสร้างโครงร่างรายงาน
สำหรับแต่ละส่วน จะค้นหาและสรุปข้อมูลที่เกี่ยวข้องจากเสิร์ชเอนจินหรือฐานความรู้
สุดท้ายใช้ LLM รวมแต่ละส่วนให้เป็นรายงานที่สอดคล้องกัน
GPT-Researcher เป็นตัวอย่างหนึ่ง
- พรอมป์ต์ทั้งหมดในระบบนี้ถูกปรับจูนอย่างละเอียดผ่าน ‘prompt engineering’
- การประเมินอาศัยการตรวจดูผลลัพธ์แบบอัตวิสัย และคุณภาพของรายงานไม่สม่ำเสมอ
- เวลามันทำงานได้ก็ดีมาก แต่ไม่ได้เสถียรเสมอไป

แบบไม่ฝึก: เครื่องสถานะจำกัด(FSM)

เพื่อยกระดับคุณภาพของรายงาน วิศวกรจึงเพิ่มความซับซ้อนให้กับแนวทางแบบ DAG
แทนที่จะเป็นกระบวนการแบบรอบเดียว ก็มีการนำแพตเทิร์นเชิงโครงสร้างอย่าง Reflexion และ self-reflection มาใช้ เพื่อให้ LLM ตรวจทานและปรับปรุงผลลัพธ์ของตนเอง
สิ่งนี้เปลี่ยน DAG แบบง่ายให้กลายเป็นเครื่องสถานะจำกัด(FSM) โดยให้ LLM ช่วยกำกับการเปลี่ยนสถานะบางส่วน
- เช่นเดียวกับวิธีแบบ DAG พรอมป์ต์ทั้งหมดยังคงเขียนขึ้นด้วยมือ และการประเมินยังเป็นแบบอัตวิสัย
- เนื่องจากระบบถูกปรับแต่งด้วยมือ คุณภาพของรายงานจึงยังคงผันผวนมาก

แบบฝึก: end-to-end

ข้อเสียของวิธีก่อนหน้า ได้แก่ prompt engineering ที่ค่อนข้างสุ่มและการขาดตัวชี้วัดการประเมินที่วัดผลได้ ทำให้เกิดความพยายามในการเปลี่ยนแปลง
STORM ของ Stanford แก้ปัญหานี้ด้วยการใช้ DSPy เพื่อปรับแต่งระบบแบบ end-to-end
- ผลลัพธ์คือ STORM สามารถสร้างรายงานที่มีคุณภาพเทียบได้กับบทความในวิกิพีเดีย

แบบฝึก: โมเดลการให้เหตุผลขนาดใหญ่

จากความสามารถในการให้เหตุผลของ LLM ที่ดีขึ้น โมเดลการให้เหตุผลขนาดใหญ่จึงกลายเป็นตัวเลือกที่น่าสนใจสำหรับ Deep Research
ตัวอย่างเช่น OpenAI ฝึกโมเดล Deep Research ของตนดังนี้
- ประเมินผลลัพธ์โดยใช้ LLM-as-a-judge และ evaluation rubric
แชตแอสซิสแทนต์ของ Google Gemini และ Perplexity ก็มีฟีเจอร์ ‘Deep Research’ เช่นกัน แต่ไม่ได้เผยแพร่เอกสารว่าพวกเขาปรับแต่งโมเดลหรือระบบอย่างไร หรือมีการประเมินเชิงปริมาณที่เป็นรูปธรรมอย่างไร
อย่างไรก็ตาม ผู้จัดการผลิตภัณฑ์ Deep Research ของ Google กล่าวในการให้สัมภาษณ์ในพอดแคสต์ว่า “เรามีสิทธิ์เข้าถึงแบบพิเศษ มันเป็นโมเดลที่แทบจะเหมือนกัน(Gemini 1.5) แน่นอนว่าเรามีการทำงานฝึกต่อเพิ่มเติมของเราเอง”
สิ่งนี้บ่งชี้ว่างาน fine-tuning อาจไม่ได้มีสัดส่วนมากนัก
ขณะเดียวกัน Grok ของ xAI ทำได้ดีในการสร้างรายงาน แต่ดูเหมือนจะไม่ค้นหาเกินสองรอบการวนซ้ำ
กล่าวคือค้นหาส่วนโครงร่างไม่กี่ครั้ง และค้นหาแต่ละส่วนอีกไม่กี่ครั้ง

ภูมิทัศน์การแข่งขัน

เพื่อประเมินความสามารถของบริการต่าง ๆ ที่มีฟีเจอร์ Deep Research ได้มีการพัฒนาแผนที่เชิงแนวคิดขึ้นมา
แกนตั้ง: ความลึกของการวิจัย(จำนวนรอบการวนซ้ำเพื่อรวบรวมข้อมูลเพิ่มเติมโดยอิงจากผลลัพธ์ก่อนหน้า)
แกนนอน: ระดับการฝึก(ตั้งแต่ระบบที่ปรับแต่งด้วยมือไปจนถึงระบบที่ฝึกเต็มรูปแบบโดยใช้เทคนิค machine learning)
ตัวอย่างของระบบแบบฝึก:
- OpenAI Deep Research: ระบบที่อิง reinforcement learning และปรับให้เหมาะกับงานวิจัย
- DeepSeek: ฝึกสำหรับการให้เหตุผลทั่วไปและการใช้เครื่องมือ และสามารถปรับเข้ากับความต้องการด้านการวิจัยได้
- Google Gemini: LLM ที่ผ่านการฝึกอย่างกว้างขวาง แต่ไม่ได้เฉพาะทางด้านงานวิจัย
- Stanford STORM: ระบบที่ปรับแต่งกระบวนการวิจัยทั้งหมดแบบ end-to-end
กรอบนี้ช่วยให้เข้าใจได้ว่าแต่ละบริการสร้างสมดุลระหว่างความลึกของการวิจัยแบบวนซ้ำและแนวทางการฝึกอย่างไร

บทสรุป

เทคโนโลยี Deep Research กำลังพัฒนาอย่างรวดเร็ว และเทคนิคที่เมื่อไม่กี่เดือนก่อนยังใช้ไม่ได้ผลหรือยังไม่ถูกอิมพลีเมนต์ ปัจจุบันกลับถูกนำมาใช้ได้สำเร็จแล้ว
อย่างไรก็ตาม การใช้คำศัพท์ที่กำกวมกำลังเพิ่มความสับสน
หวังว่าบทความนี้จะช่วยให้ความแตกต่างทางเทคนิคชัดเจนขึ้น และช่วยไม่ให้หลงไปกับถ้อยคำทางการตลาด

2 ความคิดเห็น

halfenif 2025-03-10

> เพื่อนร่วมงานล้อว่า "AlphaGO เอาชนะอีเซดลได้ก็จริง แต่อีเซดลมีอัลกอริทึมขับขี่อัตโนมัติที่ดีกว่ามาก"

แต่มีอีเซดลอยู่แค่คนเดียว และก็โคลนไม่ได้

GN⁺ 2025-03-06

ความคิดเห็นจาก Hacker News

การแยกความต่างระหว่าง DeepSearch และ DeepResearch ที่ Han Xiao เสนอนั้นน่าสนใจมาก
- DeepSearch คือกระบวนการค้นหา อ่าน และให้เหตุผลซ้ำไปเรื่อย ๆ จนกว่าจะพบคำตอบที่ดีที่สุด
- DeepResearch คือการเพิ่มกรอบการทำงานที่มีโครงสร้างเข้าไปใน DeepSearch เพื่อสร้างรายงานวิจัยขนาดยาว
- คิดว่า DeepSearch เป็นแพตเทิร์นที่มีคุณค่าและน่าสนใจกว่า
- DeepResearch เป็นเพียงเอฟเฟกต์การแต่งหน้าที่แพ็กผลลัพธ์ให้อยู่ในรูปแบบ "รายงาน" และมีโอกาสสูงที่จะนำไปสู่ผลลัพธ์ที่ไม่แม่นยำหรือชวนให้เข้าใจผิด
เพื่อนร่วมงานคนหนึ่งเคยพูดติดตลกว่า "AlphaGO ชนะ Lee Sedol ได้ แต่ Lee Sedol มีอัลกอริทึมการขับขี่อัตโนมัติที่ดีกว่ามาก"
- เป็นการเน้นให้เห็นช่องว่างขนาดใหญ่ระหว่าง AI ที่ล้ำหน้าที่สุดกับ "ความสามารถโดยเฉลี่ย" ของมนุษย์ทั่วไปเมื่อเวลาผ่านไป
ดูเหมือนจะจับความแตกต่างระหว่างสิ่งที่ OpenAI และบริษัทอื่น ๆ นำเสนอได้ดี
- Gemini 2.0 Flash ของ Google ก็ผสานรวมกับ Google Search แบบเนทีฟเช่นกัน
- DR ของ OpenAI มีแนวโน้มจะฝึกโมเดลสำหรับงานเฉพาะ
- กำลังมุ่งไปในทิศทางของการนำเสนอโมเดล + การฝึก RL ต่อเนื่องเป็นผลิตภัณฑ์
- genspark MOA สร้างรายงานเชิงลึกสำหรับพรอมป์ต์ที่กำหนด
AI กำลังมีความหลากหลายมากขึ้นเรื่อย ๆ และมีความเป็นไปได้ที่จะเกิดเอเจนต์ที่หลากหลาย
มีคนบอกว่า Grok โดดเด่นเรื่องการสร้างรายงาน โดยสามารถขอให้ตอบในรูปแบบตารางเพื่อให้เปรียบเทียบได้ง่าย
- Amazon เป็นฝ่ายเลือกสินค้าที่จะนำมาเปรียบเทียบ แต่หัวข้อเปรียบเทียบกลับไม่ดีนัก
- สามารถใช้ Grok เพื่อเพิ่มหรือลบคอลัมน์ และย่อคำตอบให้สั้นลงได้
DR เป็นวิธีที่ดีในการรวบรวมข้อมูล และทำวิจัยจริงจากจุดเริ่มต้นที่โฟกัสไว้
- การที่ LLM ทำสิ่งนี้ได้ ไม่ได้แปลว่ามันฉลาดขึ้น
- LLM ไม่ได้เข้าใจหัวข้อได้ลึกซึ้งขึ้น
- ยังต้องการความสามารถที่ลึกกว่านี้สำหรับการบูรณาการและการประยุกต์ใช้ข้อมูล
- ด้วยข้อจำกัดของสถาปัตยกรรม Transformer การเรียนรู้แบบเรียลไทม์จึงทำได้ยาก
เมื่อนำ OpenAI Deep Research มาเทียบกับ Deep Research ของ Perplexity จะเห็นความต่างแบบ "แคบแต่ลึก" vs "ตื้นแต่กว้าง"
- OpenAI เลือกแหล่งข้อมูลคุณภาพสูงและเจาะลึกในหัวข้อเฉพาะ
- Perplexity ใช้แหล่งข้อมูลจำนวนมากเพื่อให้ภาพรวมของพื้นที่ปัญหาในระดับผิวหน้า
- OpenAI ใช้เวลานานกว่า
ได้ลองเวิร์กโฟลว์หลากหลายแบบผ่าน Deep Search/Research
- มีทั้งแนวทางแบบ imperative (เลือกแหล่งข้อมูลเองโดยตรงเพื่อสร้างรายงาน) และ declarative (ใช้อัลกอริทึม DFS/BFS)
- รู้สึกทึ่งกับโฟลว์แบบ end-to-end ของระบบอย่าง STORM
STORM ได้รับการประเมินสูง แต่ GPT Researcher ไม่เป็นเช่นนั้น
- สามารถปรับแต่ง GPT Researcher ให้เหมาะกับงบประมาณที่หลากหลายได้
แม้จะเป็นแพลตฟอร์มจัดระเบียบข้อมูลที่ใหญ่ที่สุดบนอินเทอร์เน็ต แต่ก็ยังหาคำอื่นมาใช้อธิบายผลิตภัณฑ์นี้ไม่ได้