2 คะแนน โดย GN⁺ 2024-04-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แค่ต้องมีเอเจนต์มากขึ้น

  • พบว่าประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLMs) สามารถขยายได้ตามจำนวนเอเจนต์ที่ถูกสร้างอินสแตนซ์ขึ้นมา
  • สามารถปรับปรุง LLMs ได้ผ่านวิธีการ sampling และ voting โดยไม่ขึ้นกับวิธีที่ซับซ้อนแบบเดิม ๆ และระดับการปรับปรุงนั้นสัมพันธ์กับความยากของงาน
  • ทำการทดลองอย่างกว้างขวางบนเบนช์มาร์ก LLM ที่หลากหลายเพื่อยืนยันการมีอยู่ของข้อค้นพบนี้ และศึกษาคุณสมบัติที่อาจส่งเสริมให้มันเกิดขึ้น
  • โค้ดที่ใช้ในการวิจัยเปิดให้ใช้งานสาธารณะ

ความเห็นของ GN⁺

  • งานวิจัยนี้อาจมีส่วนสำคัญต่อวงการปัญญาประดิษฐ์ด้วยการนำเสนอแนวทางใหม่ในการยกระดับประสิทธิภาพของโมเดลภาษาขนาดใหญ่
  • การค้นพบว่าการเพิ่มจำนวนเอเจนต์ส่งผลโดยตรงต่อการเพิ่มประสิทธิภาพ มอบมุมมองใหม่เกี่ยวกับการขยายทรัพยากรและประสิทธิภาพ
  • ยังจำเป็นต้องมีการวิจัยเพิ่มเติมว่า ผลลัพธ์เชิงทดลองเหล่านี้จะนำไปใช้กับแอปพลิเคชันจริงได้อย่างไร
  • ข้อที่ว่าการเพิ่มประสิทธิภาพสัมพันธ์กับความยากของงาน อาจช่วยในการวางกลยุทธ์เพิ่มประสิทธิภาพโมเดลภาษาให้เหมาะกับงานเฉพาะได้
  • โค้ดที่เปิดเผยสู่สาธารณะช่วยให้นักวิจัยคนอื่นสามารถทำซ้ำและต่อยอดงานวิจัยนี้ได้ ซึ่งส่งเสริมความโปร่งใสและความร่วมมือทางวิทยาศาสตร์

1 ความคิดเห็น

 
GN⁺ 2024-04-08
ความเห็นจาก Hacker News
  • สรุปความคิดเห็นแรก:

    • งานวิจัยนี้ตั้งคำถามกับแนวคิดทั้งหมดของการตั้งค่าแบบหลายเอเจนต์ (เช่น Chain-of-thought, LLM-Debate)
    • วิธีทางเลือกคือรัน LLM ตัวเดิมกับคำถามเดียวกันหลายครั้ง แล้วใช้อัลกอริทึมวัดความคล้ายคลึงกันระหว่างคำตอบเพื่อเลือกคำตอบที่พบได้บ่อยที่สุด
    • อัลกอริทึมที่เรียบง่ายนี้ให้ประสิทธิภาพยอดเยี่ยมแม้เมื่อเทียบกับอัลกอริทึมหลายเอเจนต์แบบอื่น
    • สิ่งนี้ชี้ให้เห็นว่าสคีมาหลายเอเจนต์ไม่ได้ทำอะไรที่พิเศษนัก และผลลัพธ์ที่ดีขึ้นส่วนใหญ่เกิดจากการรัน LLM หลายครั้งและพรอมป์ต์ให้เลือกคำตอบที่ดีที่สุด
  • สรุปความคิดเห็นที่สอง:

    • ตลอด 16 เดือนที่ผ่านมา มีการยืนยันว่าน่าจะต้องจัดลำดับชั้นของเอเจนต์ แทนที่จะมุ่งเน้นให้เอเจนต์เดี่ยวจัดการทุกอย่างได้อย่างถูกต้อง
    • เป็นเรื่องน่าสนใจที่ผลตอบแทนต่อภารกิจลดลงอย่างรวดเร็ว คล้ายกับขนาดที่เหมาะสมของการประชุมมนุษย์
    • สงสัยว่าหากปรับจำนวนเอเจนต์ให้ละเอียดขึ้น จะสอดคล้องกับขนาดการประชุมที่เหมาะสมแค่ไหน
    • อยากเห็นการเพิ่มประสิทธิภาพที่ได้เมื่อปรับจูนแต่ละเอเจนต์แบบละเอียดให้มีเป้าหมายต่างกันเล็กน้อย
  • สรุปความคิดเห็นที่สาม:

    • เรื่องนี้เกี่ยวข้องกับสิ่งที่ศาสตราจารย์ Edward Chang จากภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสแตนฟอร์ด กล่าวถึงในพอดแคสต์ ACM ByteCast ตอนล่าสุด
    • ใช้วิธีให้ LLM หลายตัวสนทนากันเกี่ยวกับหัวข้ออภิปราย และให้มนุษย์ทำหน้าที่เป็นผู้ดำเนินรายการ
    • คำตอบสุดท้ายที่ LLM หลายตัวได้มาผ่านการสนทนานั้นดีขึ้นอย่างมากทั้งในด้านความถูกต้องและความแม่นยำ
  • สรุปความคิดเห็นที่สี่:

    • ความหงุดหงิดที่มีต่องานวิจัยเรื่อง mixture of experts คือข้อสรุปเชิงความน่าจะเป็นพื้นฐานที่ว่า โดยทั่วไปแล้วการถาม LLM หลายครั้งแล้วเลือกผลด้วยเสียงข้างมาก มักให้ประสิทธิภาพดีกว่าการถามครั้งเดียวแล้วใช้ผลนั้นเลย
    • ดูเหมือนว่ายังสามารถเพิ่มประโยชน์ได้อีก ด้วยการหาแนวทางที่ดีกว่าในการผสม LLM ที่หลากหลาย หรือแบ่งงานออกเป็นงานย่อย
  • สรุปความคิดเห็นที่ห้า:

    • จากกราฟจะเห็นว่าได้ประโยชน์ส่วนใหญ่แล้วที่เอเจนต์ 10 ตัว ได้เพิ่มอีกเล็กน้อยที่ 20 ตัว และหลังจากนั้นผลตอบแทนก็ลดลง
  • สรุปความคิดเห็นที่หก:

    • มีความคิดเชิงล้อเล่นเกี่ยวกับโมเดลธุรกิจของบริษัทที่ให้บริการ LLM: บริการเรียกรถที่ต้องเรียกหลายครั้งกว่าจะไปถึงจุดหมาย หรือผงซักฟอกที่ต้องใช้หลายรอบกว่าที่เสื้อผ้าจะ "น่าจะ" สะอาด
    • ถ้าบริษัทขาย "ปัญญาประดิษฐ์" ก็ดูสมเหตุสมผลที่จะจ่ายเงินเฉพาะสำหรับคำตอบที่ถูกต้อง
  • สรุปความคิดเห็นที่เจ็ด:

    • มีความเห็นว่าวิธีนี้อาจมีต้นทุนสูงมากและไม่ยั่งยืน และเห็นด้วยว่า MoE น่าจะเป็นทิศทางที่ควรไปต่อ เพราะโมเดลใหม่ ๆ ก็น่าจะเจอกับผลตอบแทนที่ลดลงเช่นกัน
    • การคำนวณสำหรับพรอมป์ต์เดียวจะเพิ่มขึ้น 7-15 เท่า
  • สรุปความคิดเห็นที่แปด:

    • ที่เก็บโค้ดสาธารณะและพรอมป์ต์ที่ใช้ในเบนช์มาร์กน่าสนใจมาก
    • อยากเห็นการทำเบนช์มาร์กเอเจนต์ที่ใช้ LLM ร่วมกับชุดเครื่องมือ
  • สรุปความคิดเห็นที่เก้า:

    • ถ้ารวมทุกคำกล่าวประเภท "x คือทั้งหมดที่ต้องการ" เข้าด้วยกัน ก็คงจะตระหนักได้ว่าแท้จริงแล้วต้องการหลายสิ่งมาก
  • สรุปความคิดเห็นที่สิบ:

    • ensemble ของเอเจนต์ GPT 3.5 ไม่ว่าจำนวนเท่าใด ก็มีความแม่นยำน้อยกว่าการเรียก GPT-4 เพียงครั้งเดียว