Open Deep Research - ดีพรีเสิร์ชที่สร้างขึ้นด้วยโอเพนซอร์ส

xguru · 2025-02-05T13:13:12+09:00

DeepResearch ที่ OpenAI เปิดตัว สามารถสรุปเนื้อหาและตอบคำถามผ่านการค้นหาเว็บได้ ได้รับความสนใจจากการทำคะแนนสูงบนเบนช์มาร์ก GAIA ผสาน LLM ที่ทรงพลังเข้ากับเฟรมเวิร์กเอเจนต์ภายใน เพื่อใช้เครื่องมือต่าง ๆ อย่างเป็นขั้นตอน เช่น การท่องเว็บ เนื่องจาก OpenAI ไม่ได้เปิดเผยรายละเอียดของเฟรมเวิร์กเอเจนต์ จึงมีการทดลองตลอด 24 ชั่วโมงเพื่อสร้างสิ่งนี้ขึ้นใหม่ด้วยโอเพนซอร์ส เฟรมเวิร์กเอเจนต์คืออะไร และทำไมจึงสำคัญ? เฟรมเวิร์กเอเจนต์คือโครงสร้างที่เพิ่มชั้นเสริมบน LLM เพื่อให้สามารถทำแอ็กชันต่าง ๆ ได้ เช่น ท่องเว็บ อ่าน PDF เป็นต้น เมื่อเทียบกับการใช้ LLM เป็นเพียงแชตอย่างเดียว การผสานเข้ากับระบบเอเจนต์จะทรงพลังยิ่งกว่ามาก แม้เพียงนำเฟรมเวิร์กเอเจนต์อย่างง่ายผ่านไลบรารีอย่าง smolagents มาใช้ ก็ช่วยยกระดับประสิทธิภาพได้อย่างมาก OpenAI DeepResearch ก็ใช้แนวทางนี้เช่นกัน จึงได้ประสิทธิภาพที่โดดเด่น เบนช์มาร์ก GAIA GAIA เป็นเบนช์มาร์กที่ยากมากสำหรับประเมินประสิทธิภาพของเอเจนต์ ตัวอย่างเช่น มีคำถามซับซ้อนให้เรียงลำดับผลไม้ที่ปรากฏใน “Embroidery from Uzbekistan” โดยเชื่อมโยงกับรายการอาหารเช้าในอดีตของเรือลำหนึ่ง หากใช้ LLM เดี่ยว ๆ จะได้เพียงราว 7% แต่ DeepResearch ทำได้เกิน 67% แสดงให้เห็นถึงช่องว่างที่ชัดเจน คำถามใน GAIA ต้องอาศัยการให้เหตุผลหลายขั้นตอน การค้นหาข้อมูล และการประมวลผลหลายโมดัล จึงเหมาะอย่างยิ่งสำหรับทดสอบพลังของแนวทางแบบเอเจนต์ การสร้าง Open Deep Research มีการทดลองผสาน LLM แบบโอเพนซอร์สเข้ากับเฟรมเวิร์กเอเจนต์ เพื่อทำซ้ำแนวทางของ DeepResearch เป้าหมายคือยกระดับประสิทธิภาพบน GAIA ด้วยเว็บเบราว์เซอร์แบบข้อความอย่างง่ายและเครื่องมือสำหรับเปิดดูไฟล์ ใช้ CodeAgent แนวทาง CodeAgent แสดงแอ็กชันในรูปโค้ดแทน JSON ตามงานวิจัยของ Wang et al. (2024) การแทนค่าเป็นโค้ดมีข้อดีคือกระชับ เข้าใจง่าย และเหมาะกับ LLM ช่วยลดจำนวนขั้นตอน จึงประหยัดค่าใช้จ่าย และยังได้เปรียบในการจัดการสถานะแบบหลายโมดัล การสร้างเครื่องมือที่เหมาะสม เครื่องมือแรก: เว็บเบราว์เซอร์แบบข้อความ แม้ยังไม่ได้มีฟังก์ชันครบถ้วนแบบ Operator แต่ในระยะแรกก็ให้ความสามารถในการท่องเว็บแบบพื้นฐาน เครื่องมือที่สอง: อินสเปกเตอร์สำหรับเปิดดูไฟล์ข้อความ รองรับการอ่านเนื้อหาผ่านเครื่องมือประมวลผลเอกสารแบบเรียบง่าย ในอนาคตมีแผนรองรับฟอร์แมตไฟล์ที่ละเอียดขึ้น เชื่อมต่อ vision model ระหว่างการท่องเว็บ และนำ GUI agent มาใช้ ผลลัพธ์ การทดลองสร้างซ้ำภายใน 24 ชั่วโมง ทำคะแนนบนเบนช์มาร์ก GAIA ได้ราว 54% เมื่อใช้การแทนค่าแบบโค้ดแทน JSON คะแนนเพิ่มจาก 33% เป็น 54% ทุกคนสามารถสร้างซ้ำได้ด้วยเฟรมเวิร์ก smolagents และเครื่องมือที่เปิดให้ใช้งาน ยังมีช่องทางปรับปรุงอีกมาก เช่น การผสานเบราว์เซอร์ระดับ Operator หรือโลคัลโมเดลที่ทรงพลัง งานสร้างซ้ำจากชุมชน มีอิมพลีเมนเทชันจากชุมชนหลากหลาย เช่น dzhng, assafelovic, nickscamara, jina-ai, mshumer แต่ละตัวใช้ไลบรารีต่างกัน หรือทดลองวิธีค้นหา/ทำดัชนีที่แตกต่างกัน มีเป้าหมายจะแชร์ผลการสร้างซ้ำและพัฒนาต่อ โดยใช้ open LLM, vision model และการแทนแอ็กชันแบบโค้ด ขั้นตอนถัดไปที่สำคัญที่สุด งานสำคัญคือการสร้าง GUI agent เพื่อรองรับความสามารถด้านเว็บเบราว์เซอร์ขั้นสูงแบบ OpenAI Operator ต้องการเปิดซอร์สฟังก์ชันที่มองหน้าจอและควบคุมด้วยเมาส์และคีย์บอร์ดได้ มีแผนเชื่อมต่อกับ smolagents, OpenAI Operator และระบบอื่น ๆ เพื่อเพิ่มความสมบูรณ์ การเพิ่มคะแนน GAIA การใช้ open LLM และการสร้างเว็บเบราว์เซอร์เชิงภาพ คือโจทย์หลักต่อไป

(huggingface.co)

21 คะแนน โดย xguru 2025-02-05 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

DeepResearch ที่ OpenAI เปิดตัว สามารถสรุปเนื้อหาและตอบคำถามผ่านการค้นหาเว็บได้
- ได้รับความสนใจจากการทำคะแนนสูงบนเบนช์มาร์ก GAIA
- ผสาน LLM ที่ทรงพลังเข้ากับเฟรมเวิร์กเอเจนต์ภายใน เพื่อใช้เครื่องมือต่าง ๆ อย่างเป็นขั้นตอน เช่น การท่องเว็บ
เนื่องจาก OpenAI ไม่ได้เปิดเผยรายละเอียดของเฟรมเวิร์กเอเจนต์ จึงมีการทดลองตลอด 24 ชั่วโมงเพื่อสร้างสิ่งนี้ขึ้นใหม่ด้วยโอเพนซอร์ส

เฟรมเวิร์กเอเจนต์คืออะไร และทำไมจึงสำคัญ?

เฟรมเวิร์กเอเจนต์คือโครงสร้างที่เพิ่มชั้นเสริมบน LLM เพื่อให้สามารถทำแอ็กชันต่าง ๆ ได้ เช่น ท่องเว็บ อ่าน PDF เป็นต้น
เมื่อเทียบกับการใช้ LLM เป็นเพียงแชตอย่างเดียว การผสานเข้ากับระบบเอเจนต์จะทรงพลังยิ่งกว่ามาก
แม้เพียงนำเฟรมเวิร์กเอเจนต์อย่างง่ายผ่านไลบรารีอย่าง smolagents มาใช้ ก็ช่วยยกระดับประสิทธิภาพได้อย่างมาก
OpenAI DeepResearch ก็ใช้แนวทางนี้เช่นกัน จึงได้ประสิทธิภาพที่โดดเด่น

เบนช์มาร์ก GAIA

GAIA เป็นเบนช์มาร์กที่ยากมากสำหรับประเมินประสิทธิภาพของเอเจนต์
ตัวอย่างเช่น มีคำถามซับซ้อนให้เรียงลำดับผลไม้ที่ปรากฏใน “Embroidery from Uzbekistan” โดยเชื่อมโยงกับรายการอาหารเช้าในอดีตของเรือลำหนึ่ง
หากใช้ LLM เดี่ยว ๆ จะได้เพียงราว 7% แต่ DeepResearch ทำได้เกิน 67% แสดงให้เห็นถึงช่องว่างที่ชัดเจน
คำถามใน GAIA ต้องอาศัยการให้เหตุผลหลายขั้นตอน การค้นหาข้อมูล และการประมวลผลหลายโมดัล จึงเหมาะอย่างยิ่งสำหรับทดสอบพลังของแนวทางแบบเอเจนต์

การสร้าง Open Deep Research

มีการทดลองผสาน LLM แบบโอเพนซอร์สเข้ากับเฟรมเวิร์กเอเจนต์ เพื่อทำซ้ำแนวทางของ DeepResearch
เป้าหมายคือยกระดับประสิทธิภาพบน GAIA ด้วยเว็บเบราว์เซอร์แบบข้อความอย่างง่ายและเครื่องมือสำหรับเปิดดูไฟล์
ใช้ CodeAgent
- แนวทาง CodeAgent แสดงแอ็กชันในรูปโค้ดแทน JSON
- ตามงานวิจัยของ Wang et al. (2024) การแทนค่าเป็นโค้ดมีข้อดีคือกระชับ เข้าใจง่าย และเหมาะกับ LLM
- ช่วยลดจำนวนขั้นตอน จึงประหยัดค่าใช้จ่าย และยังได้เปรียบในการจัดการสถานะแบบหลายโมดัล
การสร้างเครื่องมือที่เหมาะสม
- เครื่องมือแรก: เว็บเบราว์เซอร์แบบข้อความ
  - แม้ยังไม่ได้มีฟังก์ชันครบถ้วนแบบ Operator แต่ในระยะแรกก็ให้ความสามารถในการท่องเว็บแบบพื้นฐาน
- เครื่องมือที่สอง: อินสเปกเตอร์สำหรับเปิดดูไฟล์ข้อความ
  - รองรับการอ่านเนื้อหาผ่านเครื่องมือประมวลผลเอกสารแบบเรียบง่าย
- ในอนาคตมีแผนรองรับฟอร์แมตไฟล์ที่ละเอียดขึ้น เชื่อมต่อ vision model ระหว่างการท่องเว็บ และนำ GUI agent มาใช้

ผลลัพธ์

การทดลองสร้างซ้ำภายใน 24 ชั่วโมง ทำคะแนนบนเบนช์มาร์ก GAIA ได้ราว 54%
เมื่อใช้การแทนค่าแบบโค้ดแทน JSON คะแนนเพิ่มจาก 33% เป็น 54%
ทุกคนสามารถสร้างซ้ำได้ด้วยเฟรมเวิร์ก smolagents และเครื่องมือที่เปิดให้ใช้งาน
ยังมีช่องทางปรับปรุงอีกมาก เช่น การผสานเบราว์เซอร์ระดับ Operator หรือโลคัลโมเดลที่ทรงพลัง

งานสร้างซ้ำจากชุมชน

มีอิมพลีเมนเทชันจากชุมชนหลากหลาย เช่น dzhng, assafelovic, nickscamara, jina-ai, mshumer
แต่ละตัวใช้ไลบรารีต่างกัน หรือทดลองวิธีค้นหา/ทำดัชนีที่แตกต่างกัน
มีเป้าหมายจะแชร์ผลการสร้างซ้ำและพัฒนาต่อ โดยใช้ open LLM, vision model และการแทนแอ็กชันแบบโค้ด

ขั้นตอนถัดไปที่สำคัญที่สุด

งานสำคัญคือการสร้าง GUI agent เพื่อรองรับความสามารถด้านเว็บเบราว์เซอร์ขั้นสูงแบบ OpenAI Operator
ต้องการเปิดซอร์สฟังก์ชันที่มองหน้าจอและควบคุมด้วยเมาส์และคีย์บอร์ดได้
มีแผนเชื่อมต่อกับ smolagents, OpenAI Operator และระบบอื่น ๆ เพื่อเพิ่มความสมบูรณ์
การเพิ่มคะแนน GAIA การใช้ open LLM และการสร้างเว็บเบราว์เซอร์เชิงภาพ คือโจทย์หลักต่อไป