ความแตกต่างระหว่าง Deep Research, Deep Research และ Deep Research
(leehanchung.github.io)- ช่วงหลังมานี้ AI lab ต่าง ๆ ใช้คำว่า ‘Deep Research’ เพื่อเปิดตัวฟีเจอร์ที่หลากหลาย
- Google เปิดตัว Gemini 1.5 Deep Research ในเดือนธันวาคม 2024, OpenAI เปิดตัว Deep Research ในเดือนกุมภาพันธ์ 2025 และ Perplexity ก็เปิดตัว Deep Research ของตนเองตามมาติด ๆ
- นอกจากนี้ DeepSeek, Qwen ของ Alibaba และ xAI ของ Elon Musk ก็ได้นำฟีเจอร์ Search และ Deep Search มาใช้ในผู้ช่วยแชตบอตเช่นกัน
- บน GitHub ก็เริ่มมี อิมพลีเมนเทชันโอเพนซอร์สของ ‘Deep Research’ หลายสิบตัว ปรากฏขึ้น
- สิ่งนี้สะท้อนให้เห็นว่า เช่นเดียวกับ Retrieval-Augmented Generation(RAG) ในปี 2025 คำว่า ‘Deep Research’ กำลังถูกใช้โดยไม่มีคำนิยามที่ชัดเจน
Deep Research, Deep Search หรือแค่ Search
> Google : “Deep Research ใช้ AI เพื่อสำรวจหัวข้อที่ซับซ้อน จัดทำรายงานที่ครอบคลุมและอ่านง่าย และแสดงให้เห็นว่า Gemini มีความสามารถมากขึ้นในการจัดการงานที่ซับซ้อนเพื่อช่วยประหยัดเวลา”
> OpenAI : “Deep Research คือเอเจนต์รุ่นถัดไปของ OpenAI เมื่อผู้ใช้ให้พรอมป์ต์ ChatGPT จะค้นหา วิเคราะห์ และสังเคราะห์ข้อมูลจากแหล่งออนไลน์หลายร้อยแห่ง เพื่อสร้างรายงานที่ครอบคลุมในระดับนักวิเคราะห์วิจัย”
> Perplexity : “เมื่อคุณถามคำถามแบบ Deep Research, Perplexity จะทำการค้นหาหลายสิบครั้ง อ่านแหล่งข้อมูลหลายร้อยแหล่ง ให้เหตุผลกับข้อมูล และส่งมอบรายงานที่ครอบคลุมโดยอัตโนมัติ”
- หากตัดถ้อยคำทางการตลาดออกไป Deep Research สามารถนิยามได้ดังนี้
> ระบบสร้างรายงานที่รับ คำค้นของผู้ใช้ ใช้ โมเดลภาษาขนาดใหญ่(LLM) เป็นเอเจนต์ เพื่อ ค้นหาและวิเคราะห์ข้อมูลแบบวนซ้ำ และ ส่งออกรายงานแบบละเอียด - ในศัพท์ของการประมวลผลภาษาธรรมชาติ(NLP) สิ่งนี้เป็นที่รู้จักในชื่อ ‘report generation’
วิธีการอิมพลีเมนต์
- หลังการมาของ ChatGPT การสร้างรายงานหรือ ‘Deep Research’ ได้กลายเป็นจุดโฟกัสสำคัญของ AI engineering
- ผู้เขียนได้ทดลองสิ่งนี้ในแฮ็กกาธอนช่วงต้นปี 2023 ซึ่งเป็นช่วงที่ AI engineering เพิ่งเริ่มได้รับความสนใจ
- เครื่องมือและเดโมจำนวนมาก เช่น LangChain, AutoGPT, GPT-Researcher และ prompt engineering ได้รับความสนใจอย่างมากบน Twitter และ LinkedIn
- แต่ความท้าทายที่แท้จริงอยู่ที่รายละเอียดของการอิมพลีเมนต์
- ด้านล่างนี้จะสำรวจแพตเทิร์นทั่วไปในการสร้างระบบสร้างรายงาน เน้นให้เห็นความแตกต่าง และจัดหมวดหมู่สิ่งที่ผู้ให้บริการแต่ละรายนำเสนอ
แบบไม่ฝึก: กราฟไม่มีวงจรแบบมีทิศทาง(DAG)
- ในระยะแรกพบว่า การขอให้ LLM อย่าง GPT-3.5 สร้างรายงานขึ้นมาตั้งแต่ต้นนั้นไม่ค่อยใช้งานได้จริง
- จึงใช้ Composite pattern เพื่อเชื่อมการเรียกใช้ LLM หลายครั้งเข้าด้วยกัน
- แยกย่อยคำค้นของผู้ใช้เพื่อสร้างโครงร่างรายงาน
- สำหรับแต่ละส่วน จะค้นหาและสรุปข้อมูลที่เกี่ยวข้องจากเสิร์ชเอนจินหรือฐานความรู้
- สุดท้ายใช้ LLM รวมแต่ละส่วนให้เป็นรายงานที่สอดคล้องกัน
- GPT-Researcher เป็นตัวอย่างหนึ่ง
- พรอมป์ต์ทั้งหมดในระบบนี้ถูกปรับจูนอย่างละเอียดผ่าน ‘prompt engineering’
- การประเมินอาศัยการตรวจดูผลลัพธ์แบบอัตวิสัย และคุณภาพของรายงานไม่สม่ำเสมอ
- เวลามันทำงานได้ก็ดีมาก แต่ไม่ได้เสถียรเสมอไป
แบบไม่ฝึก: เครื่องสถานะจำกัด(FSM)
- เพื่อยกระดับคุณภาพของรายงาน วิศวกรจึงเพิ่มความซับซ้อนให้กับแนวทางแบบ DAG
- แทนที่จะเป็นกระบวนการแบบรอบเดียว ก็มีการนำแพตเทิร์นเชิงโครงสร้างอย่าง Reflexion และ self-reflection มาใช้ เพื่อให้ LLM ตรวจทานและปรับปรุงผลลัพธ์ของตนเอง
- สิ่งนี้เปลี่ยน DAG แบบง่ายให้กลายเป็นเครื่องสถานะจำกัด(FSM) โดยให้ LLM ช่วยกำกับการเปลี่ยนสถานะบางส่วน
- เช่นเดียวกับวิธีแบบ DAG พรอมป์ต์ทั้งหมดยังคงเขียนขึ้นด้วยมือ และการประเมินยังเป็นแบบอัตวิสัย
- เนื่องจากระบบถูกปรับแต่งด้วยมือ คุณภาพของรายงานจึงยังคงผันผวนมาก
แบบฝึก: end-to-end
- ข้อเสียของวิธีก่อนหน้า ได้แก่ prompt engineering ที่ค่อนข้างสุ่มและการขาดตัวชี้วัดการประเมินที่วัดผลได้ ทำให้เกิดความพยายามในการเปลี่ยนแปลง
- STORM ของ Stanford แก้ปัญหานี้ด้วยการใช้ DSPy เพื่อปรับแต่งระบบแบบ end-to-end
- ผลลัพธ์คือ STORM สามารถสร้างรายงานที่มีคุณภาพเทียบได้กับบทความในวิกิพีเดีย
แบบฝึก: โมเดลการให้เหตุผลขนาดใหญ่
- จากความสามารถในการให้เหตุผลของ LLM ที่ดีขึ้น โมเดลการให้เหตุผลขนาดใหญ่จึงกลายเป็นตัวเลือกที่น่าสนใจสำหรับ Deep Research
- ตัวอย่างเช่น OpenAI ฝึกโมเดล Deep Research ของตนดังนี้
- ประเมินผลลัพธ์โดยใช้ LLM-as-a-judge และ evaluation rubric
- แชตแอสซิสแทนต์ของ Google Gemini และ Perplexity ก็มีฟีเจอร์ ‘Deep Research’ เช่นกัน แต่ไม่ได้เผยแพร่เอกสารว่าพวกเขาปรับแต่งโมเดลหรือระบบอย่างไร หรือมีการประเมินเชิงปริมาณที่เป็นรูปธรรมอย่างไร
- อย่างไรก็ตาม ผู้จัดการผลิตภัณฑ์ Deep Research ของ Google กล่าวในการให้สัมภาษณ์ในพอดแคสต์ว่า “เรามีสิทธิ์เข้าถึงแบบพิเศษ มันเป็นโมเดลที่แทบจะเหมือนกัน(Gemini 1.5) แน่นอนว่าเรามีการทำงานฝึกต่อเพิ่มเติมของเราเอง”
- สิ่งนี้บ่งชี้ว่างาน fine-tuning อาจไม่ได้มีสัดส่วนมากนัก
- ขณะเดียวกัน Grok ของ xAI ทำได้ดีในการสร้างรายงาน แต่ดูเหมือนจะไม่ค้นหาเกินสองรอบการวนซ้ำ
- กล่าวคือค้นหาส่วนโครงร่างไม่กี่ครั้ง และค้นหาแต่ละส่วนอีกไม่กี่ครั้ง
ภูมิทัศน์การแข่งขัน
- เพื่อประเมินความสามารถของบริการต่าง ๆ ที่มีฟีเจอร์ Deep Research ได้มีการพัฒนาแผนที่เชิงแนวคิดขึ้นมา
- แกนตั้ง: ความลึกของการวิจัย(จำนวนรอบการวนซ้ำเพื่อรวบรวมข้อมูลเพิ่มเติมโดยอิงจากผลลัพธ์ก่อนหน้า)
- แกนนอน: ระดับการฝึก(ตั้งแต่ระบบที่ปรับแต่งด้วยมือไปจนถึงระบบที่ฝึกเต็มรูปแบบโดยใช้เทคนิค machine learning)
- ตัวอย่างของระบบแบบฝึก:
- OpenAI Deep Research: ระบบที่อิง reinforcement learning และปรับให้เหมาะกับงานวิจัย
- DeepSeek: ฝึกสำหรับการให้เหตุผลทั่วไปและการใช้เครื่องมือ และสามารถปรับเข้ากับความต้องการด้านการวิจัยได้
- Google Gemini: LLM ที่ผ่านการฝึกอย่างกว้างขวาง แต่ไม่ได้เฉพาะทางด้านงานวิจัย
- Stanford STORM: ระบบที่ปรับแต่งกระบวนการวิจัยทั้งหมดแบบ end-to-end
- กรอบนี้ช่วยให้เข้าใจได้ว่าแต่ละบริการสร้างสมดุลระหว่างความลึกของการวิจัยแบบวนซ้ำและแนวทางการฝึกอย่างไร
บทสรุป
- เทคโนโลยี Deep Research กำลังพัฒนาอย่างรวดเร็ว และเทคนิคที่เมื่อไม่กี่เดือนก่อนยังใช้ไม่ได้ผลหรือยังไม่ถูกอิมพลีเมนต์ ปัจจุบันกลับถูกนำมาใช้ได้สำเร็จแล้ว
- อย่างไรก็ตาม การใช้คำศัพท์ที่กำกวมกำลังเพิ่มความสับสน
- หวังว่าบทความนี้จะช่วยให้ความแตกต่างทางเทคนิคชัดเจนขึ้น และช่วยไม่ให้หลงไปกับถ้อยคำทางการตลาด
2 ความคิดเห็น
> เพื่อนร่วมงานล้อว่า "AlphaGO เอาชนะอีเซดลได้ก็จริง แต่อีเซดลมีอัลกอริทึมขับขี่อัตโนมัติที่ดีกว่ามาก"
แต่มีอีเซดลอยู่แค่คนเดียว และก็โคลนไม่ได้
ความคิดเห็นจาก Hacker News
การแยกความต่างระหว่าง DeepSearch และ DeepResearch ที่ Han Xiao เสนอนั้นน่าสนใจมาก
เพื่อนร่วมงานคนหนึ่งเคยพูดติดตลกว่า "AlphaGO ชนะ Lee Sedol ได้ แต่ Lee Sedol มีอัลกอริทึมการขับขี่อัตโนมัติที่ดีกว่ามาก"
ดูเหมือนจะจับความแตกต่างระหว่างสิ่งที่ OpenAI และบริษัทอื่น ๆ นำเสนอได้ดี
AI กำลังมีความหลากหลายมากขึ้นเรื่อย ๆ และมีความเป็นไปได้ที่จะเกิดเอเจนต์ที่หลากหลาย
มีคนบอกว่า Grok โดดเด่นเรื่องการสร้างรายงาน โดยสามารถขอให้ตอบในรูปแบบตารางเพื่อให้เปรียบเทียบได้ง่าย
DR เป็นวิธีที่ดีในการรวบรวมข้อมูล และทำวิจัยจริงจากจุดเริ่มต้นที่โฟกัสไว้
เมื่อนำ OpenAI Deep Research มาเทียบกับ Deep Research ของ Perplexity จะเห็นความต่างแบบ "แคบแต่ลึก" vs "ตื้นแต่กว้าง"
ได้ลองเวิร์กโฟลว์หลากหลายแบบผ่าน Deep Search/Research
STORM ได้รับการประเมินสูง แต่ GPT Researcher ไม่เป็นเช่นนั้น
แม้จะเป็นแพลตฟอร์มจัดระเบียบข้อมูลที่ใหญ่ที่สุดบนอินเทอร์เน็ต แต่ก็ยังหาคำอื่นมาใช้อธิบายผลิตภัณฑ์นี้ไม่ได้