6 คะแนน โดย GN⁺ 2025-03-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • ช่วงหลังมานี้ AI lab ต่าง ๆ ใช้คำว่า ‘Deep Research’ เพื่อเปิดตัวฟีเจอร์ที่หลากหลาย
  • Google เปิดตัว Gemini 1.5 Deep Research ในเดือนธันวาคม 2024, OpenAI เปิดตัว Deep Research ในเดือนกุมภาพันธ์ 2025 และ Perplexity ก็เปิดตัว Deep Research ของตนเองตามมาติด ๆ
  • นอกจากนี้ DeepSeek, Qwen ของ Alibaba และ xAI ของ Elon Musk ก็ได้นำฟีเจอร์ Search และ Deep Search มาใช้ในผู้ช่วยแชตบอตเช่นกัน
  • บน GitHub ก็เริ่มมี อิมพลีเมนเทชันโอเพนซอร์สของ ‘Deep Research’ หลายสิบตัว ปรากฏขึ้น
  • สิ่งนี้สะท้อนให้เห็นว่า เช่นเดียวกับ Retrieval-Augmented Generation(RAG) ในปี 2025 คำว่า ‘Deep Research’ กำลังถูกใช้โดยไม่มีคำนิยามที่ชัดเจน

Deep Research, Deep Search หรือแค่ Search

> Google : “Deep Research ใช้ AI เพื่อสำรวจหัวข้อที่ซับซ้อน จัดทำรายงานที่ครอบคลุมและอ่านง่าย และแสดงให้เห็นว่า Gemini มีความสามารถมากขึ้นในการจัดการงานที่ซับซ้อนเพื่อช่วยประหยัดเวลา”
> OpenAI : “Deep Research คือเอเจนต์รุ่นถัดไปของ OpenAI เมื่อผู้ใช้ให้พรอมป์ต์ ChatGPT จะค้นหา วิเคราะห์ และสังเคราะห์ข้อมูลจากแหล่งออนไลน์หลายร้อยแห่ง เพื่อสร้างรายงานที่ครอบคลุมในระดับนักวิเคราะห์วิจัย”
> Perplexity : “เมื่อคุณถามคำถามแบบ Deep Research, Perplexity จะทำการค้นหาหลายสิบครั้ง อ่านแหล่งข้อมูลหลายร้อยแหล่ง ให้เหตุผลกับข้อมูล และส่งมอบรายงานที่ครอบคลุมโดยอัตโนมัติ”

  • หากตัดถ้อยคำทางการตลาดออกไป Deep Research สามารถนิยามได้ดังนี้
    > ระบบสร้างรายงานที่รับ คำค้นของผู้ใช้ ใช้ โมเดลภาษาขนาดใหญ่(LLM) เป็นเอเจนต์ เพื่อ ค้นหาและวิเคราะห์ข้อมูลแบบวนซ้ำ และ ส่งออกรายงานแบบละเอียด
  • ในศัพท์ของการประมวลผลภาษาธรรมชาติ(NLP) สิ่งนี้เป็นที่รู้จักในชื่อ ‘report generation

วิธีการอิมพลีเมนต์

  • หลังการมาของ ChatGPT การสร้างรายงานหรือ ‘Deep Research’ ได้กลายเป็นจุดโฟกัสสำคัญของ AI engineering
  • ผู้เขียนได้ทดลองสิ่งนี้ในแฮ็กกาธอนช่วงต้นปี 2023 ซึ่งเป็นช่วงที่ AI engineering เพิ่งเริ่มได้รับความสนใจ
  • เครื่องมือและเดโมจำนวนมาก เช่น LangChain, AutoGPT, GPT-Researcher และ prompt engineering ได้รับความสนใจอย่างมากบน Twitter และ LinkedIn
  • แต่ความท้าทายที่แท้จริงอยู่ที่รายละเอียดของการอิมพลีเมนต์
  • ด้านล่างนี้จะสำรวจแพตเทิร์นทั่วไปในการสร้างระบบสร้างรายงาน เน้นให้เห็นความแตกต่าง และจัดหมวดหมู่สิ่งที่ผู้ให้บริการแต่ละรายนำเสนอ

แบบไม่ฝึก: กราฟไม่มีวงจรแบบมีทิศทาง(DAG)

  • ในระยะแรกพบว่า การขอให้ LLM อย่าง GPT-3.5 สร้างรายงานขึ้นมาตั้งแต่ต้นนั้นไม่ค่อยใช้งานได้จริง
  • จึงใช้ Composite pattern เพื่อเชื่อมการเรียกใช้ LLM หลายครั้งเข้าด้วยกัน
  • แยกย่อยคำค้นของผู้ใช้เพื่อสร้างโครงร่างรายงาน
  • สำหรับแต่ละส่วน จะค้นหาและสรุปข้อมูลที่เกี่ยวข้องจากเสิร์ชเอนจินหรือฐานความรู้
  • สุดท้ายใช้ LLM รวมแต่ละส่วนให้เป็นรายงานที่สอดคล้องกัน
  • GPT-Researcher เป็นตัวอย่างหนึ่ง
    • พรอมป์ต์ทั้งหมดในระบบนี้ถูกปรับจูนอย่างละเอียดผ่าน ‘prompt engineering’
    • การประเมินอาศัยการตรวจดูผลลัพธ์แบบอัตวิสัย และคุณภาพของรายงานไม่สม่ำเสมอ
    • เวลามันทำงานได้ก็ดีมาก แต่ไม่ได้เสถียรเสมอไป

แบบไม่ฝึก: เครื่องสถานะจำกัด(FSM)

  • เพื่อยกระดับคุณภาพของรายงาน วิศวกรจึงเพิ่มความซับซ้อนให้กับแนวทางแบบ DAG
  • แทนที่จะเป็นกระบวนการแบบรอบเดียว ก็มีการนำแพตเทิร์นเชิงโครงสร้างอย่าง Reflexion และ self-reflection มาใช้ เพื่อให้ LLM ตรวจทานและปรับปรุงผลลัพธ์ของตนเอง
  • สิ่งนี้เปลี่ยน DAG แบบง่ายให้กลายเป็นเครื่องสถานะจำกัด(FSM) โดยให้ LLM ช่วยกำกับการเปลี่ยนสถานะบางส่วน
    • เช่นเดียวกับวิธีแบบ DAG พรอมป์ต์ทั้งหมดยังคงเขียนขึ้นด้วยมือ และการประเมินยังเป็นแบบอัตวิสัย
    • เนื่องจากระบบถูกปรับแต่งด้วยมือ คุณภาพของรายงานจึงยังคงผันผวนมาก

แบบฝึก: end-to-end

  • ข้อเสียของวิธีก่อนหน้า ได้แก่ prompt engineering ที่ค่อนข้างสุ่มและการขาดตัวชี้วัดการประเมินที่วัดผลได้ ทำให้เกิดความพยายามในการเปลี่ยนแปลง
  • STORM ของ Stanford แก้ปัญหานี้ด้วยการใช้ DSPy เพื่อปรับแต่งระบบแบบ end-to-end
    • ผลลัพธ์คือ STORM สามารถสร้างรายงานที่มีคุณภาพเทียบได้กับบทความในวิกิพีเดีย

แบบฝึก: โมเดลการให้เหตุผลขนาดใหญ่

  • จากความสามารถในการให้เหตุผลของ LLM ที่ดีขึ้น โมเดลการให้เหตุผลขนาดใหญ่จึงกลายเป็นตัวเลือกที่น่าสนใจสำหรับ Deep Research
  • ตัวอย่างเช่น OpenAI ฝึกโมเดล Deep Research ของตนดังนี้
    • ประเมินผลลัพธ์โดยใช้ LLM-as-a-judge และ evaluation rubric
  • แชตแอสซิสแทนต์ของ Google Gemini และ Perplexity ก็มีฟีเจอร์ ‘Deep Research’ เช่นกัน แต่ไม่ได้เผยแพร่เอกสารว่าพวกเขาปรับแต่งโมเดลหรือระบบอย่างไร หรือมีการประเมินเชิงปริมาณที่เป็นรูปธรรมอย่างไร
  • อย่างไรก็ตาม ผู้จัดการผลิตภัณฑ์ Deep Research ของ Google กล่าวในการให้สัมภาษณ์ในพอดแคสต์ว่า “เรามีสิทธิ์เข้าถึงแบบพิเศษ มันเป็นโมเดลที่แทบจะเหมือนกัน(Gemini 1.5) แน่นอนว่าเรามีการทำงานฝึกต่อเพิ่มเติมของเราเอง”
  • สิ่งนี้บ่งชี้ว่างาน fine-tuning อาจไม่ได้มีสัดส่วนมากนัก
  • ขณะเดียวกัน Grok ของ xAI ทำได้ดีในการสร้างรายงาน แต่ดูเหมือนจะไม่ค้นหาเกินสองรอบการวนซ้ำ
  • กล่าวคือค้นหาส่วนโครงร่างไม่กี่ครั้ง และค้นหาแต่ละส่วนอีกไม่กี่ครั้ง

ภูมิทัศน์การแข่งขัน

  • เพื่อประเมินความสามารถของบริการต่าง ๆ ที่มีฟีเจอร์ Deep Research ได้มีการพัฒนาแผนที่เชิงแนวคิดขึ้นมา
  • แกนตั้ง: ความลึกของการวิจัย(จำนวนรอบการวนซ้ำเพื่อรวบรวมข้อมูลเพิ่มเติมโดยอิงจากผลลัพธ์ก่อนหน้า)
  • แกนนอน: ระดับการฝึก(ตั้งแต่ระบบที่ปรับแต่งด้วยมือไปจนถึงระบบที่ฝึกเต็มรูปแบบโดยใช้เทคนิค machine learning)
  • ตัวอย่างของระบบแบบฝึก:
    • OpenAI Deep Research: ระบบที่อิง reinforcement learning และปรับให้เหมาะกับงานวิจัย
    • DeepSeek: ฝึกสำหรับการให้เหตุผลทั่วไปและการใช้เครื่องมือ และสามารถปรับเข้ากับความต้องการด้านการวิจัยได้
    • Google Gemini: LLM ที่ผ่านการฝึกอย่างกว้างขวาง แต่ไม่ได้เฉพาะทางด้านงานวิจัย
    • Stanford STORM: ระบบที่ปรับแต่งกระบวนการวิจัยทั้งหมดแบบ end-to-end
  • กรอบนี้ช่วยให้เข้าใจได้ว่าแต่ละบริการสร้างสมดุลระหว่างความลึกของการวิจัยแบบวนซ้ำและแนวทางการฝึกอย่างไร

บทสรุป

  • เทคโนโลยี Deep Research กำลังพัฒนาอย่างรวดเร็ว และเทคนิคที่เมื่อไม่กี่เดือนก่อนยังใช้ไม่ได้ผลหรือยังไม่ถูกอิมพลีเมนต์ ปัจจุบันกลับถูกนำมาใช้ได้สำเร็จแล้ว
  • อย่างไรก็ตาม การใช้คำศัพท์ที่กำกวมกำลังเพิ่มความสับสน
  • หวังว่าบทความนี้จะช่วยให้ความแตกต่างทางเทคนิคชัดเจนขึ้น และช่วยไม่ให้หลงไปกับถ้อยคำทางการตลาด

2 ความคิดเห็น

 
halfenif 2025-03-10

> เพื่อนร่วมงานล้อว่า "AlphaGO เอาชนะอีเซดลได้ก็จริง แต่อีเซดลมีอัลกอริทึมขับขี่อัตโนมัติที่ดีกว่ามาก"

แต่มีอีเซดลอยู่แค่คนเดียว และก็โคลนไม่ได้

 
GN⁺ 2025-03-06
ความคิดเห็นจาก Hacker News
  • การแยกความต่างระหว่าง DeepSearch และ DeepResearch ที่ Han Xiao เสนอนั้นน่าสนใจมาก

    • DeepSearch คือกระบวนการค้นหา อ่าน และให้เหตุผลซ้ำไปเรื่อย ๆ จนกว่าจะพบคำตอบที่ดีที่สุด
    • DeepResearch คือการเพิ่มกรอบการทำงานที่มีโครงสร้างเข้าไปใน DeepSearch เพื่อสร้างรายงานวิจัยขนาดยาว
    • คิดว่า DeepSearch เป็นแพตเทิร์นที่มีคุณค่าและน่าสนใจกว่า
    • DeepResearch เป็นเพียงเอฟเฟกต์การแต่งหน้าที่แพ็กผลลัพธ์ให้อยู่ในรูปแบบ "รายงาน" และมีโอกาสสูงที่จะนำไปสู่ผลลัพธ์ที่ไม่แม่นยำหรือชวนให้เข้าใจผิด
  • เพื่อนร่วมงานคนหนึ่งเคยพูดติดตลกว่า "AlphaGO ชนะ Lee Sedol ได้ แต่ Lee Sedol มีอัลกอริทึมการขับขี่อัตโนมัติที่ดีกว่ามาก"

    • เป็นการเน้นให้เห็นช่องว่างขนาดใหญ่ระหว่าง AI ที่ล้ำหน้าที่สุดกับ "ความสามารถโดยเฉลี่ย" ของมนุษย์ทั่วไปเมื่อเวลาผ่านไป
  • ดูเหมือนจะจับความแตกต่างระหว่างสิ่งที่ OpenAI และบริษัทอื่น ๆ นำเสนอได้ดี

    • Gemini 2.0 Flash ของ Google ก็ผสานรวมกับ Google Search แบบเนทีฟเช่นกัน
    • DR ของ OpenAI มีแนวโน้มจะฝึกโมเดลสำหรับงานเฉพาะ
    • กำลังมุ่งไปในทิศทางของการนำเสนอโมเดล + การฝึก RL ต่อเนื่องเป็นผลิตภัณฑ์
    • genspark MOA สร้างรายงานเชิงลึกสำหรับพรอมป์ต์ที่กำหนด
  • AI กำลังมีความหลากหลายมากขึ้นเรื่อย ๆ และมีความเป็นไปได้ที่จะเกิดเอเจนต์ที่หลากหลาย

  • มีคนบอกว่า Grok โดดเด่นเรื่องการสร้างรายงาน โดยสามารถขอให้ตอบในรูปแบบตารางเพื่อให้เปรียบเทียบได้ง่าย

    • Amazon เป็นฝ่ายเลือกสินค้าที่จะนำมาเปรียบเทียบ แต่หัวข้อเปรียบเทียบกลับไม่ดีนัก
    • สามารถใช้ Grok เพื่อเพิ่มหรือลบคอลัมน์ และย่อคำตอบให้สั้นลงได้
  • DR เป็นวิธีที่ดีในการรวบรวมข้อมูล และทำวิจัยจริงจากจุดเริ่มต้นที่โฟกัสไว้

    • การที่ LLM ทำสิ่งนี้ได้ ไม่ได้แปลว่ามันฉลาดขึ้น
    • LLM ไม่ได้เข้าใจหัวข้อได้ลึกซึ้งขึ้น
    • ยังต้องการความสามารถที่ลึกกว่านี้สำหรับการบูรณาการและการประยุกต์ใช้ข้อมูล
    • ด้วยข้อจำกัดของสถาปัตยกรรม Transformer การเรียนรู้แบบเรียลไทม์จึงทำได้ยาก
  • เมื่อนำ OpenAI Deep Research มาเทียบกับ Deep Research ของ Perplexity จะเห็นความต่างแบบ "แคบแต่ลึก" vs "ตื้นแต่กว้าง"

    • OpenAI เลือกแหล่งข้อมูลคุณภาพสูงและเจาะลึกในหัวข้อเฉพาะ
    • Perplexity ใช้แหล่งข้อมูลจำนวนมากเพื่อให้ภาพรวมของพื้นที่ปัญหาในระดับผิวหน้า
    • OpenAI ใช้เวลานานกว่า
  • ได้ลองเวิร์กโฟลว์หลากหลายแบบผ่าน Deep Search/Research

    • มีทั้งแนวทางแบบ imperative (เลือกแหล่งข้อมูลเองโดยตรงเพื่อสร้างรายงาน) และ declarative (ใช้อัลกอริทึม DFS/BFS)
    • รู้สึกทึ่งกับโฟลว์แบบ end-to-end ของระบบอย่าง STORM
  • STORM ได้รับการประเมินสูง แต่ GPT Researcher ไม่เป็นเช่นนั้น

    • สามารถปรับแต่ง GPT Researcher ให้เหมาะกับงบประมาณที่หลากหลายได้
  • แม้จะเป็นแพลตฟอร์มจัดระเบียบข้อมูลที่ใหญ่ที่สุดบนอินเทอร์เน็ต แต่ก็ยังหาคำอื่นมาใช้อธิบายผลิตภัณฑ์นี้ไม่ได้