- DeepResearch ที่ OpenAI เปิดตัว สามารถสรุปเนื้อหาและตอบคำถามผ่านการค้นหาเว็บได้
- ได้รับความสนใจจากการทำคะแนนสูงบนเบนช์มาร์ก GAIA
- ผสาน LLM ที่ทรงพลังเข้ากับเฟรมเวิร์กเอเจนต์ภายใน เพื่อใช้เครื่องมือต่าง ๆ อย่างเป็นขั้นตอน เช่น การท่องเว็บ
- เนื่องจาก OpenAI ไม่ได้เปิดเผยรายละเอียดของเฟรมเวิร์กเอเจนต์ จึงมีการทดลองตลอด 24 ชั่วโมงเพื่อสร้างสิ่งนี้ขึ้นใหม่ด้วยโอเพนซอร์ส
เฟรมเวิร์กเอเจนต์คืออะไร และทำไมจึงสำคัญ?
- เฟรมเวิร์กเอเจนต์คือโครงสร้างที่เพิ่มชั้นเสริมบน LLM เพื่อให้สามารถทำแอ็กชันต่าง ๆ ได้ เช่น ท่องเว็บ อ่าน PDF เป็นต้น
- เมื่อเทียบกับการใช้ LLM เป็นเพียงแชตอย่างเดียว การผสานเข้ากับระบบเอเจนต์จะทรงพลังยิ่งกว่ามาก
- แม้เพียงนำเฟรมเวิร์กเอเจนต์อย่างง่ายผ่านไลบรารีอย่าง smolagents มาใช้ ก็ช่วยยกระดับประสิทธิภาพได้อย่างมาก
- OpenAI DeepResearch ก็ใช้แนวทางนี้เช่นกัน จึงได้ประสิทธิภาพที่โดดเด่น
เบนช์มาร์ก GAIA
- GAIA เป็นเบนช์มาร์กที่ยากมากสำหรับประเมินประสิทธิภาพของเอเจนต์
- ตัวอย่างเช่น มีคำถามซับซ้อนให้เรียงลำดับผลไม้ที่ปรากฏใน “Embroidery from Uzbekistan” โดยเชื่อมโยงกับรายการอาหารเช้าในอดีตของเรือลำหนึ่ง
- หากใช้ LLM เดี่ยว ๆ จะได้เพียงราว 7% แต่ DeepResearch ทำได้เกิน 67% แสดงให้เห็นถึงช่องว่างที่ชัดเจน
- คำถามใน GAIA ต้องอาศัยการให้เหตุผลหลายขั้นตอน การค้นหาข้อมูล และการประมวลผลหลายโมดัล จึงเหมาะอย่างยิ่งสำหรับทดสอบพลังของแนวทางแบบเอเจนต์
การสร้าง Open Deep Research
- มีการทดลองผสาน LLM แบบโอเพนซอร์สเข้ากับเฟรมเวิร์กเอเจนต์ เพื่อทำซ้ำแนวทางของ DeepResearch
- เป้าหมายคือยกระดับประสิทธิภาพบน GAIA ด้วยเว็บเบราว์เซอร์แบบข้อความอย่างง่ายและเครื่องมือสำหรับเปิดดูไฟล์
- ใช้ CodeAgent
- แนวทาง CodeAgent แสดงแอ็กชันในรูปโค้ดแทน JSON
- ตามงานวิจัยของ Wang et al. (2024) การแทนค่าเป็นโค้ดมีข้อดีคือกระชับ เข้าใจง่าย และเหมาะกับ LLM
- ช่วยลดจำนวนขั้นตอน จึงประหยัดค่าใช้จ่าย และยังได้เปรียบในการจัดการสถานะแบบหลายโมดัล
- การสร้างเครื่องมือที่เหมาะสม
- เครื่องมือแรก: เว็บเบราว์เซอร์แบบข้อความ
- แม้ยังไม่ได้มีฟังก์ชันครบถ้วนแบบ Operator แต่ในระยะแรกก็ให้ความสามารถในการท่องเว็บแบบพื้นฐาน
- เครื่องมือที่สอง: อินสเปกเตอร์สำหรับเปิดดูไฟล์ข้อความ
- รองรับการอ่านเนื้อหาผ่านเครื่องมือประมวลผลเอกสารแบบเรียบง่าย
- ในอนาคตมีแผนรองรับฟอร์แมตไฟล์ที่ละเอียดขึ้น เชื่อมต่อ vision model ระหว่างการท่องเว็บ และนำ GUI agent มาใช้
ผลลัพธ์
- การทดลองสร้างซ้ำภายใน 24 ชั่วโมง ทำคะแนนบนเบนช์มาร์ก GAIA ได้ราว 54%
- เมื่อใช้การแทนค่าแบบโค้ดแทน JSON คะแนนเพิ่มจาก 33% เป็น 54%
- ทุกคนสามารถสร้างซ้ำได้ด้วยเฟรมเวิร์ก smolagents และเครื่องมือที่เปิดให้ใช้งาน
- ยังมีช่องทางปรับปรุงอีกมาก เช่น การผสานเบราว์เซอร์ระดับ Operator หรือโลคัลโมเดลที่ทรงพลัง
งานสร้างซ้ำจากชุมชน
- มีอิมพลีเมนเทชันจากชุมชนหลากหลาย เช่น dzhng, assafelovic, nickscamara, jina-ai, mshumer
- แต่ละตัวใช้ไลบรารีต่างกัน หรือทดลองวิธีค้นหา/ทำดัชนีที่แตกต่างกัน
- มีเป้าหมายจะแชร์ผลการสร้างซ้ำและพัฒนาต่อ โดยใช้ open LLM, vision model และการแทนแอ็กชันแบบโค้ด
ขั้นตอนถัดไปที่สำคัญที่สุด
- งานสำคัญคือการสร้าง GUI agent เพื่อรองรับความสามารถด้านเว็บเบราว์เซอร์ขั้นสูงแบบ OpenAI Operator
- ต้องการเปิดซอร์สฟังก์ชันที่มองหน้าจอและควบคุมด้วยเมาส์และคีย์บอร์ดได้
- มีแผนเชื่อมต่อกับ smolagents, OpenAI Operator และระบบอื่น ๆ เพื่อเพิ่มความสมบูรณ์
- การเพิ่มคะแนน GAIA การใช้ open LLM และการสร้างเว็บเบราว์เซอร์เชิงภาพ คือโจทย์หลักต่อไป
ยังไม่มีความคิดเห็น