• DeepResearch ที่ OpenAI เปิดตัว สามารถสรุปเนื้อหาและตอบคำถามผ่านการค้นหาเว็บได้
    • ได้รับความสนใจจากการทำคะแนนสูงบนเบนช์มาร์ก GAIA
    • ผสาน LLM ที่ทรงพลังเข้ากับเฟรมเวิร์กเอเจนต์ภายใน เพื่อใช้เครื่องมือต่าง ๆ อย่างเป็นขั้นตอน เช่น การท่องเว็บ
  • เนื่องจาก OpenAI ไม่ได้เปิดเผยรายละเอียดของเฟรมเวิร์กเอเจนต์ จึงมีการทดลองตลอด 24 ชั่วโมงเพื่อสร้างสิ่งนี้ขึ้นใหม่ด้วยโอเพนซอร์ส

เฟรมเวิร์กเอเจนต์คืออะไร และทำไมจึงสำคัญ?

  • เฟรมเวิร์กเอเจนต์คือโครงสร้างที่เพิ่มชั้นเสริมบน LLM เพื่อให้สามารถทำแอ็กชันต่าง ๆ ได้ เช่น ท่องเว็บ อ่าน PDF เป็นต้น
  • เมื่อเทียบกับการใช้ LLM เป็นเพียงแชตอย่างเดียว การผสานเข้ากับระบบเอเจนต์จะทรงพลังยิ่งกว่ามาก
  • แม้เพียงนำเฟรมเวิร์กเอเจนต์อย่างง่ายผ่านไลบรารีอย่าง smolagents มาใช้ ก็ช่วยยกระดับประสิทธิภาพได้อย่างมาก
  • OpenAI DeepResearch ก็ใช้แนวทางนี้เช่นกัน จึงได้ประสิทธิภาพที่โดดเด่น

เบนช์มาร์ก GAIA

  • GAIA เป็นเบนช์มาร์กที่ยากมากสำหรับประเมินประสิทธิภาพของเอเจนต์
  • ตัวอย่างเช่น มีคำถามซับซ้อนให้เรียงลำดับผลไม้ที่ปรากฏใน “Embroidery from Uzbekistan” โดยเชื่อมโยงกับรายการอาหารเช้าในอดีตของเรือลำหนึ่ง
  • หากใช้ LLM เดี่ยว ๆ จะได้เพียงราว 7% แต่ DeepResearch ทำได้เกิน 67% แสดงให้เห็นถึงช่องว่างที่ชัดเจน
  • คำถามใน GAIA ต้องอาศัยการให้เหตุผลหลายขั้นตอน การค้นหาข้อมูล และการประมวลผลหลายโมดัล จึงเหมาะอย่างยิ่งสำหรับทดสอบพลังของแนวทางแบบเอเจนต์

การสร้าง Open Deep Research

  • มีการทดลองผสาน LLM แบบโอเพนซอร์สเข้ากับเฟรมเวิร์กเอเจนต์ เพื่อทำซ้ำแนวทางของ DeepResearch
  • เป้าหมายคือยกระดับประสิทธิภาพบน GAIA ด้วยเว็บเบราว์เซอร์แบบข้อความอย่างง่ายและเครื่องมือสำหรับเปิดดูไฟล์
  • ใช้ CodeAgent
    • แนวทาง CodeAgent แสดงแอ็กชันในรูปโค้ดแทน JSON
    • ตามงานวิจัยของ Wang et al. (2024) การแทนค่าเป็นโค้ดมีข้อดีคือกระชับ เข้าใจง่าย และเหมาะกับ LLM
    • ช่วยลดจำนวนขั้นตอน จึงประหยัดค่าใช้จ่าย และยังได้เปรียบในการจัดการสถานะแบบหลายโมดัล
  • การสร้างเครื่องมือที่เหมาะสม
    • เครื่องมือแรก: เว็บเบราว์เซอร์แบบข้อความ
      • แม้ยังไม่ได้มีฟังก์ชันครบถ้วนแบบ Operator แต่ในระยะแรกก็ให้ความสามารถในการท่องเว็บแบบพื้นฐาน
    • เครื่องมือที่สอง: อินสเปกเตอร์สำหรับเปิดดูไฟล์ข้อความ
      • รองรับการอ่านเนื้อหาผ่านเครื่องมือประมวลผลเอกสารแบบเรียบง่าย
    • ในอนาคตมีแผนรองรับฟอร์แมตไฟล์ที่ละเอียดขึ้น เชื่อมต่อ vision model ระหว่างการท่องเว็บ และนำ GUI agent มาใช้

ผลลัพธ์

  • การทดลองสร้างซ้ำภายใน 24 ชั่วโมง ทำคะแนนบนเบนช์มาร์ก GAIA ได้ราว 54%
  • เมื่อใช้การแทนค่าแบบโค้ดแทน JSON คะแนนเพิ่มจาก 33% เป็น 54%
  • ทุกคนสามารถสร้างซ้ำได้ด้วยเฟรมเวิร์ก smolagents และเครื่องมือที่เปิดให้ใช้งาน
  • ยังมีช่องทางปรับปรุงอีกมาก เช่น การผสานเบราว์เซอร์ระดับ Operator หรือโลคัลโมเดลที่ทรงพลัง

งานสร้างซ้ำจากชุมชน

  • มีอิมพลีเมนเทชันจากชุมชนหลากหลาย เช่น dzhng, assafelovic, nickscamara, jina-ai, mshumer
  • แต่ละตัวใช้ไลบรารีต่างกัน หรือทดลองวิธีค้นหา/ทำดัชนีที่แตกต่างกัน
  • มีเป้าหมายจะแชร์ผลการสร้างซ้ำและพัฒนาต่อ โดยใช้ open LLM, vision model และการแทนแอ็กชันแบบโค้ด

ขั้นตอนถัดไปที่สำคัญที่สุด

  • งานสำคัญคือการสร้าง GUI agent เพื่อรองรับความสามารถด้านเว็บเบราว์เซอร์ขั้นสูงแบบ OpenAI Operator
  • ต้องการเปิดซอร์สฟังก์ชันที่มองหน้าจอและควบคุมด้วยเมาส์และคีย์บอร์ดได้
  • มีแผนเชื่อมต่อกับ smolagents, OpenAI Operator และระบบอื่น ๆ เพื่อเพิ่มความสมบูรณ์
  • การเพิ่มคะแนน GAIA การใช้ open LLM และการสร้างเว็บเบราว์เซอร์เชิงภาพ คือโจทย์หลักต่อไป

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น