Magma - โมเดลพื้นฐานสำหรับ AI เอเจนต์แบบมัลติโหมด
(microsoft.github.io)- Magma เป็นโมเดลพื้นฐานตัวแรกที่สามารถตีความอินพุตแบบมัลติโหมดและเชื่อมโยงสิ่งเหล่านี้เข้ากับสภาพแวดล้อมได้ จึงสามารถจัดการปฏิสัมพันธ์ที่ซับซ้อนทั้งในโลกเสมือนและโลกจริงได้
- ไม่ได้ทำได้แค่การทำความเข้าใจภาพและวิดีโอเท่านั้น แต่ยังสามารถสร้างการวางแผนและการปฏิบัติการเชิงภาพที่ขับเคลื่อนด้วยเป้าหมายเพื่อทำงานของ AI เอเจนต์ที่หลากหลาย
- บรรลุประสิทธิภาพระดับล้ำสมัยในงานมัลติโหมดหลายประเภท เช่น การนำทาง UI, การควบคุมหุ่นยนต์, การทำความเข้าใจภาพและวิดีโอ (โดยเฉพาะความเข้าใจเชิงพื้นที่และการให้เหตุผล)
- แนวทางการพรีเทรนที่ขยายได้: ฝึกด้วยข้อมูลวิดีโอที่ไม่มีการติดป้ายกำกับร่วมกับข้อมูลเอเจนต์ที่มีอยู่เดิม ทำให้มีความสามารถในการทำให้ทั่วไปที่แข็งแกร่งและเหมาะกับการใช้งานจริง
- มีแผนเปิดเผยโค้ด โมเดล และเดโมการนำทาง UI ที่ MSR Forum (2025.02.25)
เป้าหมายของ Magma
- สติปัญญาด้านภาษาและเชิงพื้นที่-เวลา:
- สามารถเข้าใจภาพและวิดีโอได้อย่างแม่นยำ และแปลงเป้าหมายไปเป็นแผนการกระทำและการลงมือปฏิบัติบนพื้นฐานนั้น
- การทำงานในสภาพแวดล้อมดิจิทัลและกายภาพ:
- สามารถทำได้ทั้งการนำทางเว็บ (การควบคุม UI) และการควบคุมหุ่นยนต์
- AI ที่สามารถสลับไปมาระหว่างสภาพแวดล้อมดิจิทัลและกายภาพได้อย่างอิสระเหมือนมนุษย์
- เพื่อสิ่งนี้ จึงได้พัฒนาชุดข้อมูลการเรียนรู้แบบใหม่ที่ใช้ข้อมูลวิดีโอที่ไม่มีการติดป้ายกำกับและข้อมูลเอเจนต์ที่มีอยู่เดิม รวมถึงเฟรมเวิร์กการพรีเทรนที่เรียนรู้ข้อความ ภาพ และการกระทำแบบบูรณาการเพื่อฝึก Magma
วิธีพรีเทรนของ Magma
- Magma ได้รับการฝึกผ่านแนวทางหลัก 2 ประการ
- 1️⃣ ใช้ข้อมูลการฝึกที่หลากหลายขนาดใหญ่
- ไม่เพียงแต่ข้อมูลมัลติโหมดที่มีอยู่เดิม, ข้อมูลการนำทาง UI, ข้อมูลการควบคุมหุ่นยนต์เท่านั้น แต่ยังรวบรวมข้อมูลวิดีโอที่ไม่มีการติดป้ายกำกับจำนวนมากมาใช้ฝึกด้วย
- มีการลบการเคลื่อนไหวของกล้องและสกัดข้อมูลการกระทำจริงออกมา เพื่อให้โมเดลสามารถเรียนรู้การคาดการณ์และการวางแผนการกระทำระยะยาวได้
- 2️⃣ กำหนดเป้าหมายการพรีเทรนแบบบูรณาการ
- ข้อความและการกระทำมีความแตกต่างกันโดยธรรมชาติ และความท้าทายคือการเชื่อมสิ่งเหล่านี้เข้าด้วยกันอย่างมีประสิทธิภาพ
- ได้นำเทคนิคการเรียนรู้ใหม่อย่าง Set-of-Mark, Trace-of-Mark มาใช้เพื่อสร้างโครงสร้างการจัดแนว (Alignment) ที่แข็งแกร่งระหว่างข้อความ ภาพ และการกระทำ
- Set-of-Mark (SoM): ทำให้เกิดฐานของการกระทำที่มีประสิทธิภาพในภาพ โดยคาดการณ์มาร์กตัวเลขสำหรับปุ่มที่คลิกได้ในภาพหน้าจอ UI รวมถึงแขนหุ่นยนต์ในงานควบคุมหุ่นยนต์และวิดีโอมนุษย์
- Trace-of-Mark (ToM): ให้การกำกับดูแลสำหรับการควบคุมหุ่นยนต์และพฤติกรรมของมนุษย์ เพื่อให้โมเดลเข้าใจพลวัตของวิดีโอตามเวลาและคาดการณ์สถานะในอนาคตก่อนลงมือกระทำ
วิธีใช้งานโมเดล
ใช้งานโดยตรง (ใช้ได้โดยไม่ต้อง Fine-tuning)
Magma ถูกออกแบบมาเพื่อการวิจัย และสามารถใช้งานได้ในลักษณะต่อไปนี้
- การสร้างข้อความจากภาพ/วิดีโอ: สามารถสร้างคำอธิบายและคำตอบจากภาพและข้อความที่ป้อนเข้าไปได้
- การวางแผนเชิงภาพ (Visual Planning): สามารถคาดการณ์เส้นทางการกระทำในอนาคตเพื่อบรรลุเป้าหมาย เช่น การย้ายวัตถุ
- ความสามารถแบบเอเจนต์:
- การนำทาง UI: เช่น คาดการณ์การควบคุม UI อย่าง "คลิกปุ่มค้นหา"
- การควบคุมหุ่นยนต์: คาดการณ์การควบคุมหุ่นยนต์แบบ 7 DoF (7 องศาอิสระ)
งานดาวน์สตรีม (ใช้ Fine-tuning)
Magma สามารถฝึกเพิ่มเติมให้เหมาะกับงานเฉพาะได้
- การทำ image captioning และ QA: ฝึกด้วยแนวทางเดียวกับมัลติโหมด LLM ที่มีอยู่เดิม เพื่อเสริมความสามารถด้านความเข้าใจเชิงพื้นที่และการให้เหตุผล
- การทำ video captioning และ QA: สามารถเสริมความสามารถด้านความเข้าใจและการให้เหตุผลเชิงเวลาสำหรับข้อมูลวิดีโอได้
- การนำทาง UI: สามารถปรับให้เหมาะกับงานนำทาง UI บนเว็บและมือถือเพื่อให้ได้ประสิทธิภาพสูง
- การควบคุมหุ่นยนต์: ผ่านการฝึกเพิ่มเติมสำหรับการควบคุมหุ่นยนต์ ทำให้แสดงประสิทธิภาพเหนือกว่าโมเดลควบคุมหุ่นยนต์เดิมอย่าง OpenVLA
อคติ (Bias), ความเสี่ยง (Risks), ข้อจำกัด (Limitations)
- โมเดลนี้ไม่ได้ถูกออกแบบมาสำหรับงานดาวน์สตรีมทุกประเภท
- ก่อนนำไปใช้กับกรณีใช้งานเฉพาะ ต้องประเมินและปรับจูนด้านความแม่นยำ ความปลอดภัย และความเป็นธรรม
- โดยเฉพาะในสถานการณ์ที่มีความเสี่ยงสูง ต้องปฏิบัติตามกฎหมายและข้อกำหนดที่เกี่ยวข้อง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News