PyTorchKR

ต่อจาก MoE (Mixture-of-Experts) และ MoD (Mixture-of-Depths) วันนี้ขอแนะนำเทคนิคใหม่ที่ถูกเสนอขึ้นมาเพื่อยกระดับประสิทธิภาพของ LLM กันครับ/ค่ะ เทคนิคนี้มีชื่อว่า MoA (Mixture-of-Agents) หรือการผสมเอเจนต์ ซึ่งเป็นแนวทางที่รวบรวมจุดแข็งของ LLM หลายตัวเข้าด้วยกัน เพื่อใช้ประโยชน์จากความเชี่ยวชาญแบบหมู่คณะและเพิ่มประสิทธิภาพได้อย่างมาก มาดูกันครับ/ค่ะ :smiley:

แนะนำสั้น ๆ เกี่ยวกับเทคนิค MoE (Mixture-of-Experts)

เทคนิค MoE หรือ Mixture-of-Experts เป็นวิธีที่ช่วยเพิ่มประสิทธิภาพของโมเดล โดยในช่วงฝึกสอนจะฝึกให้โมเดลมี expert model หลายตัวอยู่ภายใน ทำให้ขนาดโมเดลใหญ่ขึ้น แต่ในช่วงรันจริง (inference) จะเปิดใช้งานเฉพาะ expert บางตัวที่เหมาะกับการตอบคำถาม (query) ของผู้ใช้เท่านั้น #mixture-of-experts

แนะนำสั้น ๆ เกี่ยวกับเทคนิค MoD (Mixture-of-Depths)

ช่วงหลังยังมีงานวิจัยและการเผยแพร่เกี่ยวกับ เทคนิค MoD (Mixture-of-Depths) ที่อาจเรียกได้ว่าเป็นเทคนิคผสมความลึก ซึ่งเป็นแนวทางลดจำนวนเลเยอร์ที่ถูกเปิดใช้งาน หรือพูดอีกแบบคือเป็นการลดความลึก (depth) #mixture-of-depths


MoA (Mixture-of-Agents, เทคนิคผสมเอเจนต์) เทคนิคใหม่เพื่อยกระดับประสิทธิภาพของ LLM

แนะนำงานวิจัยเทคนิค MoA (Mixture-of-Agents)

ในช่วงหลังมีการเปิดตัวและเผยแพร่โมเดลภาษาขนาดใหญ่ (LLM) จำนวนมาก และ LLM แต่ละตัวก็แสดงประสิทธิภาพที่น่าประทับใจในหนึ่งหรือหลายด้าน อย่างไรก็ตาม ประสิทธิภาพของ LLM เหล่านี้มักเพิ่มขึ้นตามขนาดโมเดล ข้อมูลฝึกสอน และโครงสร้างพื้นฐานด้านการประมวลผล ทำให้การขยายโมเดลต่อไปมีต้นทุนสูงมาก

งานวิจัยนี้ (Mixture-of-Agents Enhances Large Language Model Capabilities) เสนอเฟรมเวิร์ก Mixture-of-Agents ที่สามารถยกระดับความสามารถด้านการให้เหตุผลและการสร้างภาษา โดยอาศัยจุดแข็งของ LLM หลายตัวร่วมกัน แนวทางนี้ตั้งอยู่บนแนวคิดเรื่องความร่วมมือระหว่าง LLM (collaborativeness) กล่าวคือ เมื่อโมเดลนำคำตอบของโมเดลอื่นมาใช้งาน แม้ว่าคำตอบนั้นจะมีคุณภาพไม่สูง ก็ยังสามารถสร้างคำตอบที่ดีกว่าเดิมได้เมื่อเทียบกับกรณีที่ไม่ได้อ้างอิงคำตอบเหล่านั้นเลย

ด้วยเทคนิค MoA นี้ LLM หลายตัวสามารถนำจุดแข็งเฉพาะของตนมารวมกัน เพื่อผสานองค์ความรู้และสร้างผลลัพธ์ที่ดียิ่งขึ้นในท้ายที่สุด ผลลัพธ์คือสามารถทำคะแนนได้โดดเด่นในหลาย benchmark เช่น AlpacaEval 2.0, MT-Benchmark และ FLASK โดยเฉพาะอย่างยิ่งทำผลงานได้ดีกว่า GPT-4o (GPT-4 Omni)

ที่สำคัญที่สุด ข้อดีใหญ่ของ MoA คือสามารถใช้งานได้โดยไม่ต้องแก้ไขตัว LLM เดิมเลย แต่ปรับเพียง input prompt และการตั้งค่าบางส่วนของ LLM เช่น temperature และ sampling options เท่านั้น กล่าวคือไม่จำเป็นต้องผ่านกระบวนการอย่าง fine-tuning เพิ่มเติม และยังให้ความยืดหยุ่นกับการขยายระบบ เพราะสามารถนำ LLM รุ่นใหม่มาใช้ได้ทันทีโดยไม่ขึ้นกับขนาดหรือสถาปัตยกรรมของเอเจนต์ LLM ที่ใช้อยู่

แนะนำเทคนิค MoA (Mixture-of-Agents)

แนวทาง Mixture-of-Agents (MoA) มีเป้าหมายเพื่อใช้ประโยชน์จากความเชี่ยวชาญแบบหมู่คณะของ LLM หลายตัวผ่านโครงสร้างแบบลำดับชั้น แต่ละชั้นประกอบด้วย LLM agent หลายตัว ซึ่งจะสร้างคำตอบโดยอิงจากผลลัพธ์ของชั้นก่อนหน้า และค่อย ๆ ปรับปรุงผลลัพธ์สุดท้ายให้ดีขึ้นทีละขั้น

แนวคิดแกนกลางของ MoA เริ่มจากข้อสังเกตว่าโมเดลภาษาขนาดใหญ่ (LLM) สามารถสร้างคำตอบที่มีคุณภาพสูงขึ้นได้เมื่ออ้างอิงคำตอบจากโมเดลอื่น กล่าวคือเปิดโอกาสให้ LLM หลายตัวอ้างอิงคำตอบของกันและกันเพื่อสร้างความร่วมมือ (collaborativeness) และยกระดับคุณภาพของคำตอบสุดท้าย วิธีนี้ทำให้แม้คุณภาพของผลลัพธ์ระหว่างทางจะไม่สูงมาก แต่ก็ยังสามารถเพิ่มคุณภาพของคำตอบสุดท้ายได้อย่างมีนัยสำคัญ

คุณลักษณะสำคัญของเทคนิคผสมเอเจนต์สามารถสรุปได้ดังนี้:

  • โครงสร้างแบบลำดับชั้น: เฟรมเวิร์ก MoA ใช้โครงสร้างหลายชั้นที่ประกอบด้วย LLM agent หลายตัว แต่ละ agent จะช่วยปรับปรุงคำตอบจากชั้นก่อนหน้า ทำให้ผลลัพธ์สุดท้ายดีขึ้นอย่างต่อเนื่อง

  • ความหลากหลายของโมเดล: เฟรมเวิร์กนี้เน้นการใช้ LLM ที่หลากหลายในแต่ละชั้น เมื่อรวมโมเดลที่แตกต่างกันเข้าด้วยกัน จะสามารถสร้างคำตอบที่ลุ่มลึกและละเอียดอ่อนยิ่งขึ้นได้

  • การปรับปรุงแบบวนซ้ำ: กระบวนการแบบทำซ้ำเปิดทางให้ข้อความที่สร้างขึ้นถูกปรับปรุงได้อย่างต่อเนื่อง และดึงผลลัพธ์ที่ดีที่สุดออกมาผ่านการสังเคราะห์แบบร่วมมือของหลายโมเดล

ความร่วมมือของโมเดลภาษาขนาดใหญ่ (Collaborativeness)

ความร่วมมือ (collaborativeness) ของโมเดลภาษาขนาดใหญ่ (LLM, Large Language Models) หมายถึงความสามารถของ LLM หลายตัวในการสร้างคำตอบที่ดีกว่าเดิมเมื่ออ้างอิงผลลัพธ์ของกันและกัน งานวิจัยจำนวนมากชี้ว่า หากโมเดลภาษาตัวหนึ่งใช้ผลลัพธ์ของอีกโมเดลเป็นข้อมูลประกอบ คุณภาพของคำตอบจะดีขึ้น นี่เป็นไปได้เพราะแต่ละโมเดลมีจุดแข็งที่ต่างกัน

ตัวอย่างเช่น โมเดลหนึ่งอาจทำตามคำสั่งที่ซับซ้อนได้ดี ขณะที่อีกโมเดลหนึ่งอาจเก่งด้านการสร้างโค้ดมากกว่า ความหลากหลายเช่นนี้ทำให้ในสภาพแวดล้อมแบบร่วมมือ แต่ละโมเดลสามารถชดเชยจุดอ่อนของอีกโมเดลได้ เพื่อพิสูจน์ความร่วมมือนี้ในเชิงทดลอง จึงมีการใช้ benchmark หลายชุด และโดยเฉพาะใน benchmark AlpacaEval 2.0 พบว่าประสิทธิภาพเพิ่มขึ้นอย่างชัดเจนเมื่อหลายโมเดลอ้างอิงผลลัพธ์ของกันและกัน

จากสิ่งนี้ เราสามารถสังเกตได้ว่าเมื่อ LLM ได้รับคำตอบที่สร้างขึ้นอย่างเป็นอิสระจากโมเดลอื่น ประสิทธิภาพโดยรวมจะดีขึ้นอย่างชัดเจน ผลลัพธ์ลักษณะนี้แสดงให้เห็นว่า LLM มีธรรมชาติแบบร่วมมือโดยพื้นฐาน อีกทั้งยังบ่งชี้ได้ว่า แม้ผลลัพธ์ที่มีคุณภาพต่ำกว่า ก็ยังสามารถช่วยให้โมเดลอื่นสร้างคำตอบที่ดีขึ้นได้เมื่อถูกใช้เป็นแหล่งข้อมูลอ้างอิง

ในงานวิจัยนี้ มีการอธิบายบทบาทของ LLM ที่ใช้ในเทคนิค MoA ออกเป็น 2 แบบ คือ Proposer และ Aggregator:

  • LLM แบบ Proposer: คือ LLM ที่เชี่ยวชาญในการสร้างคำตอบอ้างอิงที่มีประโยชน์ให้โมเดลอื่นนำไปใช้ Proposer ที่ดีอาจไม่ได้สร้างคำตอบที่ได้คะแนนสูงด้วยตัวเองเสมอไป แต่สามารถช่วยให้มีบริบทมากขึ้นและมุมมองที่หลากหลายยิ่งขึ้น จนสุดท้ายมีส่วนช่วยให้ได้คำตอบปลายทางที่ดีขึ้นเมื่อใช้ร่วมกับ Aggregator

  • LLM แบบ Aggregator: คือโมเดลที่เชี่ยวชาญในการสังเคราะห์คำตอบจากโมเดลอื่นให้กลายเป็นผลลัพธ์คุณภาพสูงเพียงหนึ่งเดียว Aggregator ที่มีประสิทธิภาพควรรักษาหรือยกระดับคุณภาพของคำตอบสุดท้ายได้ แม้จะได้รับอินพุตจาก Proposer ที่มีคุณภาพต่ำกว่าคำตอบที่ตัว Aggregator สามารถสร้างขึ้นเองก็ตาม

โครงสร้างของเทคนิค MoA (Architecture of MoA, Mixture-of-Agents)

เฟรมเวิร์ก MoA ประกอบด้วยหลายชั้น (Layer, $l$) ตามภาพด้านบน และในแต่ละชั้น (Layer-$i$) จะมี LLM หลายตัว ($n$) อยู่ภายใน ในภาพ LLM แต่ละตัวในชั้นที่ $i$ ถูกระบุเป็น $A_{i,1}$, $A_{i,2}$, ...$A_{i,n}$ ในโครงสร้างนี้ agent ของแต่ละชั้นจะใช้ผลลัพธ์ทั้งหมดจากชั้นก่อนหน้าเป็นข้อมูลเสริมเพื่อสร้างคำตอบ สิ่งที่ควรสังเกตคือ LLM ตัวเดิมสามารถถูกนำกลับมาใช้ซ้ำได้ทั้งในชั้นเดียวกันและต่างชั้นกัน

ในช่วงแรก LLM ของชั้นแรกจะสร้างคำตอบต่อ prompt ที่กำหนดมาอย่างเป็นอิสระ จากนั้นคำตอบเหล่านี้จะถูกส่งต่อไปยัง agent ในชั้นถัดไปเพื่อสร้างคำตอบที่ประณีตยิ่งขึ้น กระบวนการนี้จะทำซ้ำไปเรื่อย ๆ จนได้คำตอบสุดท้ายที่มีความแม่นยำและครอบคลุมมากขึ้น กล่าวคือเป็นกระบวนการที่ดำเนินซ้ำหลายรอบเพื่อให้ได้คำตอบที่แข็งแกร่งและรอบด้านยิ่งขึ้น วิธีนี้ช่วยก้าวข้ามข้อจำกัดของโมเดลเดี่ยว และสร้างคำตอบคุณภาพสูงที่ผสานข้อมูลกับมุมมองที่หลากหลายได้ จึงมีประโยชน์มากโดยเฉพาะกับการแก้ปัญหาที่ซับซ้อน

อีกองค์ประกอบสำคัญของโครงสร้าง MoA คือการเลือกโมเดล จำเป็นต้องเลือกโมเดลที่จะอยู่ในแต่ละชั้นอย่างรอบคอบโดยพิจารณาทั้งประสิทธิภาพและความหลากหลาย เพื่อกำหนดองค์ประกอบของ agent ที่เหมาะสมที่สุด

เกณฑ์ในการเลือกเอเจนต์ (LLM) ที่จะใช้

ในเทคนิค MoA การเลือกโมเดลไม่ได้พิจารณาแค่ตัวชี้วัดด้านประสิทธิภาพที่บอกว่าโมเดลทำงานเฉพาะอย่างได้ดีแค่ไหนเท่านั้น แต่ยังพิจารณาความหลากหลาย ซึ่งสะท้อนว่าโมเดลสามารถสร้างคำตอบที่แตกต่างได้มากเพียงใดด้วย:

  • ตัวชี้วัดประสิทธิภาพ (Performance Metrics): ใช้บ่งชี้ว่าแต่ละโมเดลทำงานเฉพาะอย่างได้ดีเพียงใด เพื่อเลือกโมเดลที่สร้างผลลัพธ์คุณภาพสูงได้ ส่วนความหลากหลายหมายถึงความสามารถของโมเดลในการเข้าหาและแก้ปัญหาด้วยวิธีที่ต่างกัน ตัวอย่างเช่น โมเดลหนึ่งอาจโดดเด่นด้านการประมวลผลภาษาธรรมชาติ ขณะที่อีกโมเดลอาจทำได้ดีกว่าในงานสร้างโค้ดหรือแก้โจทย์คณิตศาสตร์ เมื่อนำโมเดลที่มีความสามารถต่างกันมาผสมกัน โครงสร้าง multi-agent ก็จะสร้างคำตอบที่ครอบคลุมและทรงพลังยิ่งขึ้นได้

  • การคำนึงถึงความหลากหลาย (Diversity Considerations): ความหลากหลายของโมเดลช่วยลดอคติที่อาจเกิดจากการพึ่งพาโมเดลเดียว และช่วยให้รองรับปัญหาได้กว้างขึ้น ตัวอย่างเช่น หากใช้โมเดลเดิมซ้ำในหลายชั้น คุณภาพของคำตอบอาจลดลงจากข้อจำกัดของโมเดลนั้นเอง ดังนั้นการใช้โมเดลที่หลากหลายจึงเป็นเรื่องสำคัญ โดยการเลือกโมเดลที่เหมาะสมสำหรับแต่ละชั้นจากทั้งตัวชี้วัดประสิทธิภาพและความหลากหลาย จะช่วยเพิ่มคุณภาพของคำตอบสุดท้ายให้สูงสุดได้

โครงสร้าง Single-Proposer และ Multi-Proposer

หากมองในระดับนามธรรมที่สูงขึ้น (high-level perspective) เทคนิค MoA อาจมองได้ว่าเป็นการยกระดับแนวคิดของ MoE จากระดับภายในโมเดลขึ้นมาสู่ระดับโมเดลทั้งตัว โดย MoA สามารถทำงานได้ผ่าน prompt interface เพียงอย่างเดียว โดยไม่ต้องแก้ไข activation ภายในหรือ weight ของ LLM เลย กล่าวคือ แทนที่จะมี subnet เฉพาะทางอยู่ภายในโมเดลเดียวแบบ MoE แนวทางนี้จะใช้ LLM หลายตัว (หรือแม้แต่ตัวเดียวซ้ำหลายครั้ง) กระจายอยู่ตามหลายชั้น

  • โครงสร้าง Single-Proposer: แม้ MoA จะตั้งอยู่บนพื้นฐานของการใช้หลาย agent (LLM) แต่ก็สามารถใช้ LLM ตัวเดิมซ้ำหลายครั้งได้เช่นกัน ในกรณีนี้จะสร้างผลลัพธ์ที่แตกต่างกันโดยเปลี่ยนการตั้งค่า sampling ต่าง ๆ เช่น temperature เมื่อป้อนอินพุตให้โมเดลเดียวกัน ในโครงสร้างแบบ Single-Proposer นี้ แต่ละชั้นอาจมีโมเดลที่ถูกเปิดใช้งานเพียงหนึ่งตัวหรือจำนวนน้อย แต่คำตอบที่หลากหลายจากโมเดลเหล่านี้ก็ยังมีบทบาทสำคัญให้ Aggregator ใช้สร้างคำตอบสุดท้าย

  • โครงสร้าง Multi-Proposer: ใช้โมเดลที่หลากหลายในแต่ละชั้นเพื่อสร้างผลลัพธ์ที่แตกต่างกัน วิธีนี้ช่วยเพิ่มปฏิสัมพันธ์และความร่วมมือระหว่างโมเดลให้สูงสุด ทำให้สามารถสร้างคำตอบที่ครอบคลุมและมีคุณภาพสูงขึ้นได้ โครงสร้างแบบ Multi-Proposer ใช้ประโยชน์จากความหลากหลายของโมเดลอย่างเต็มที่ เพื่อขยายขอบเขตในการแก้ปัญหาและก้าวข้ามข้อจำกัดของโมเดลเดี่ยว ผ่านการตั้งค่าเช่นนี้ โครงสร้าง multi-agent จึงสามารถมอบโซลูชันที่แข็งแกร่งและรอบด้านยิ่งขึ้นได้

ในที่นี้ Proposers และ Aggregators ทำหน้าที่เสริมกันและกัน Proposer จะสร้างคำตอบตั้งต้นผ่านแนวทางที่หลากหลาย ส่วน Aggregator จะรวบรวมและสังเคราะห์คำตอบเหล่านั้นเพื่อรับประกันคุณภาพของคำตอบสุดท้าย โครงสร้างแบบร่วมมือนี้ช่วยให้ระบบ multi-agent สามารถให้คำตอบที่ทรงพลังและครอบคลุมกว่าการใช้โมเดลเดี่ยว

ประสิทธิภาพและความคุ้มค่าด้านต้นทุนของเทคนิค MoA

ประสิทธิภาพของเทคนิค MoA

จากตารางด้านบน MoA และ MoA-Lite เป็นโมเดลที่ใช้ proposer 6 ตัว โดยมี 3 ชั้น (Layer) และ 2 ชั้น (Layer) ตามลำดับ ส่วน MoA w/ GPT-4o คือโมเดลที่ใช้ GPT-4o เป็น aggregator ขั้นสุดท้ายของ MoA benchmark ข้างต้นเผยแพร่ทั้งค่าเฉลี่ยคะแนนและส่วนเบี่ยงเบนมาตรฐาน หลังจากรันแต่ละรายการ 3 ครั้ง

โมเดลที่ใช้เทคนิค MoA ทำคะแนน 65.1% ใน AlpacaEval 2.0 ซึ่งสูงกว่า GPT-4o ที่ได้ 57.5% นอกจากนี้ยังทำผลงานใน MT-Benchmark ได้ดีกว่า GPT-4o ด้วย

ดังที่แสดงในภาพด้านบน เทคนิค MoA ให้ประสิทธิภาพดีกว่าการใช้ LLM เดี่ยว เหตุผลน่าจะเป็นเพราะ aggregator ไม่ได้เพียงเลือกคำตอบหนึ่งจากที่ proposer LLM สร้างขึ้น แต่ใช้การอ้างอิงคำตอบที่ถูกเสนอทั้งหมดอย่างสังเคราะห์เพื่อสร้างคำตอบขึ้นมาใหม่

ด้านขวาของภาพด้านบนเป็นการเปรียบเทียบคำตอบของ aggregator กับคำตอบของ proposer โดยใช้คะแนนความคล้ายคลึงอย่าง BLEU ในแต่ละตัวอย่าง จะคำนวณค่าสหสัมพันธ์ของอันดับระหว่างคะแนนความชอบจำนวน $n$ ค่า และคะแนนความคล้ายคลึงจำนวน $n$ ค่า ที่ผู้ประเมินซึ่งใช้ GPT-4 เป็นฐานตัดสินจากคำตอบของ proposer จำนวน $n$ รายการ กล่าวคือสามารถยืนยันได้ว่ามีความสัมพันธ์เชิงบวกระหว่างอัตราการชนะกับคะแนน BLEU

นอกจากนี้ยังมีการวิเคราะห์ผลกระทบต่อคุณภาพสุดท้ายโดยเปลี่ยนจำนวน proposer (ค่า $n$ ในตารางด้านซ้ายบน) เพื่อหาจำนวน proposer ที่เหมาะสมในแต่ละชั้น พบว่าคุณภาพสุดท้ายเพิ่มขึ้นตามการเพิ่มขึ้นของ $n$ ซึ่งอธิบายได้ว่าเมื่อมีคำตอบจากโมเดลที่หลากหลายมากขึ้น ก็ทำให้ aggregator มีข้อมูลให้ใช้งานมากขึ้น (สำหรับโครงสร้าง Single-Proposer ในที่นี้ เป็นผลจากการใช้ LLM เดี่ยวโดยกำหนด temperature คงที่ที่ 0.7)

ยังมีการทดลองเพื่อดูว่ามีโมเดลที่โดดเด่นเป็นพิเศษในบทบาท proposer หรือ aggregator หรือไม่ (ตารางด้านขวาบน) พบว่าโมเดลอย่าง GPT-4o, Qwen และ LLaMA-3 ให้ประสิทธิภาพที่ดีไม่ว่าจะใช้เป็น proposer หรือ aggregator ขณะที่บางโมเดล เช่น WizardLM แสดงผลงานในบทบาท proposer ได้ดีกว่า aggregator

ประสิทธิภาพด้านโทเค็นและต้นทุนของเทคนิค MoA

เมื่อรวมการวิเคราะห์ด้านงบประมาณและโทเค็นแล้ว จะเห็นว่า MoA สามารถให้ประสิทธิภาพสูงกว่าหรือเทียบเท่ากับโมเดลล้ำสมัยอื่น ๆ ได้ด้วยต้นทุนที่ต่ำกว่า นั่นหมายความว่าแนวทางนี้ไม่เพียงมีประสิทธิผล แต่ยังคุ้มค่าด้านต้นทุนด้วย และเป็นทางเลือกเชิงปฏิบัติในการขยายความสามารถของ LLM โดยไม่ต้องแบกรับค่าใช้จ่ายที่สูงเกินไป

ภาพด้านซ้าย (a) ด้านบนแสดงต้นทุนการอนุมานเฉลี่ยต่ออินสแตนซ์ของ benchmark AlpacaEval 2.0 และอัตราชนะ LC โดยคำนวณจากต้นทุนของผู้ให้บริการ API แต่ละราย ซึ่งแสดงให้เห็นว่า MoA เป็นวิธีที่คุ้มค่าด้านต้นทุน สามารถบรรลุประสิทธิภาพสูงโดยไม่ก่อค่าใช้จ่ายที่มากเกินไป โดยเฉพาะอย่างยิ่ง MoA-Lite ทำผลงานได้ดีกว่า GPT-4 Turbo ราว 4% ขณะเดียวกันก็มีความคุ้มค่าด้านต้นทุนมากกว่าสองเท่า ซึ่งนับว่าน่าสนใจมาก

ภาพด้านขวา (b) ด้านบนแสดงความสัมพันธ์ระหว่างอัตราชนะ LC กับจำนวน teraflops โดยใช้จำนวน teraflops เป็นค่าตัวแทนของ latency ที่นี่ก็พบ Pareto frontier เช่นเดียวกับการวิเคราะห์ความคุ้มค่าด้านต้นทุน กล่าวคือ แสดงให้เห็นว่ามีการใช้ทรัพยากรการประมวลผลอย่างมีประสิทธิภาพ พร้อมกับเพิ่มอัตราชนะ LC ให้สูงสุด

ข้อพิจารณาเพิ่มเติมเกี่ยวกับความร่วมมือและความหลากหลาย

จากผลการทดลองหลากหลายแบบในงานวิจัยนี้ ได้ยืนยันว่า LLM สามารถสร้างคำตอบที่ดีขึ้นได้เมื่ออ้างอิงผลลัพธ์ของโมเดลอื่น ความร่วมมือนี้เป็นองค์ประกอบสำคัญที่ทำให้เทคนิค MoA ช่วยเพิ่มประสิทธิภาพได้ นอกจากนี้ยังพิสูจน์ได้ด้วยว่าการใช้ LLM ที่หลากหลายในแต่ละชั้นให้ผลลัพธ์ที่ดีกว่าการพึ่งพาโมเดลเดียวอย่างสม่ำเสมอ กล่าวคือ ความหลากหลายของคำตอบที่เกิดจากความหลากหลายของโมเดลนั้นมีประสิทธิภาพต่อการยกระดับประสิทธิภาพโดยรวม

บทสรุป

จากที่ได้ดูมาทั้งหมด เทคนิค MoA (Mixture-of-Agents) ถือเป็นความก้าวหน้าที่สำคัญในการใช้ประโยชน์จากจุดแข็งร่วมกันของ LLM หลายตัว ผ่านแนวทางแบบลำดับชั้นและแบบร่วมมือ MoA แสดงประสิทธิภาพที่ยอดเยี่ยมใน benchmark หลายชุด และพิสูจน์ให้เห็นถึงคุณค่าของความหลากหลายของโมเดลและการขัดเกลาซ้ำอย่างต่อเนื่อง คาดว่าแนวทางนี้จะนำไปสู่การทดลองใหม่ ๆ เพื่อสร้างระบบ LLM ที่ทรงพลังและมีประสิทธิภาพยิ่งขึ้นได้

งานวิจัยของเทคนิค MoA

https://arxiv.org/abs/2406.04692

ที่เก็บโค้ดของเทคนิค MoA

https://github.com/togethercomputer/moa

OpenPipe ใช้เทคนิค MoA เพื่อให้บริการโมเดลที่เหนือกว่า GPT-4 ด้วยราคาต่ำกว่าถึง 25 เท่า

https://discuss.pytorch.kr/t/openpipe-moa-25-gpt-4/4668

<br /><br />


บทความนี้เรียบเรียงจากข้อความที่สรุปโดยโมเดล GPT ดังนั้นอาจมีบางส่วนที่สรุปคลาดเคลื่อนจากเนื้อหาหรือเจตนาของต้นฉบับได้ หากคุณสนใจหัวข้อนี้ แนะนำให้ดูต้นฉบับควบคู่กันไปด้วย หากพบเนื้อหาที่แปลกหรือผิดพลาดระหว่างอ่าน กรุณาแจ้งในคอมเมนต์ด้วยครับ/ค่ะ 🤗

⚠️โฆษณา⚠️: บทความที่ :pytorch:ชุมชนผู้ใช้ PyTorch เกาหลี🇰🇷 เรียบเรียงนี้มีประโยชน์ไหม? หากสมัครสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล💌! (ค่าเริ่มต้นคือ Weekly แต่สามารถเปลี่ยนเป็น Daily ได้)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น