Magma - โมเดลพื้นฐานสำหรับ AI เอเจนต์แบบมัลติโหมด

(microsoft.github.io)

3 คะแนน โดย GN⁺ 2025-02-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Magma เป็นโมเดลพื้นฐานตัวแรกที่สามารถตีความอินพุตแบบมัลติโหมดและเชื่อมโยงสิ่งเหล่านี้เข้ากับสภาพแวดล้อมได้ จึงสามารถจัดการปฏิสัมพันธ์ที่ซับซ้อนทั้งในโลกเสมือนและโลกจริงได้
ไม่ได้ทำได้แค่การทำความเข้าใจภาพและวิดีโอเท่านั้น แต่ยังสามารถสร้างการวางแผนและการปฏิบัติการเชิงภาพที่ขับเคลื่อนด้วยเป้าหมายเพื่อทำงานของ AI เอเจนต์ที่หลากหลาย
บรรลุประสิทธิภาพระดับล้ำสมัยในงานมัลติโหมดหลายประเภท เช่น การนำทาง UI, การควบคุมหุ่นยนต์, การทำความเข้าใจภาพและวิดีโอ (โดยเฉพาะความเข้าใจเชิงพื้นที่และการให้เหตุผล)
แนวทางการพรีเทรนที่ขยายได้: ฝึกด้วยข้อมูลวิดีโอที่ไม่มีการติดป้ายกำกับร่วมกับข้อมูลเอเจนต์ที่มีอยู่เดิม ทำให้มีความสามารถในการทำให้ทั่วไปที่แข็งแกร่งและเหมาะกับการใช้งานจริง
มีแผนเปิดเผยโค้ด โมเดล และเดโมการนำทาง UI ที่ MSR Forum (2025.02.25)

เป้าหมายของ Magma

สติปัญญาด้านภาษาและเชิงพื้นที่-เวลา:
- สามารถเข้าใจภาพและวิดีโอได้อย่างแม่นยำ และแปลงเป้าหมายไปเป็นแผนการกระทำและการลงมือปฏิบัติบนพื้นฐานนั้น
การทำงานในสภาพแวดล้อมดิจิทัลและกายภาพ:
- สามารถทำได้ทั้งการนำทางเว็บ (การควบคุม UI) และการควบคุมหุ่นยนต์
- AI ที่สามารถสลับไปมาระหว่างสภาพแวดล้อมดิจิทัลและกายภาพได้อย่างอิสระเหมือนมนุษย์
เพื่อสิ่งนี้ จึงได้พัฒนาชุดข้อมูลการเรียนรู้แบบใหม่ที่ใช้ข้อมูลวิดีโอที่ไม่มีการติดป้ายกำกับและข้อมูลเอเจนต์ที่มีอยู่เดิม รวมถึงเฟรมเวิร์กการพรีเทรนที่เรียนรู้ข้อความ ภาพ และการกระทำแบบบูรณาการเพื่อฝึก Magma

วิธีพรีเทรนของ Magma

Magma ได้รับการฝึกผ่านแนวทางหลัก 2 ประการ
1️⃣ ใช้ข้อมูลการฝึกที่หลากหลายขนาดใหญ่
- ไม่เพียงแต่ข้อมูลมัลติโหมดที่มีอยู่เดิม, ข้อมูลการนำทาง UI, ข้อมูลการควบคุมหุ่นยนต์เท่านั้น แต่ยังรวบรวมข้อมูลวิดีโอที่ไม่มีการติดป้ายกำกับจำนวนมากมาใช้ฝึกด้วย
- มีการลบการเคลื่อนไหวของกล้องและสกัดข้อมูลการกระทำจริงออกมา เพื่อให้โมเดลสามารถเรียนรู้การคาดการณ์และการวางแผนการกระทำระยะยาวได้
2️⃣ กำหนดเป้าหมายการพรีเทรนแบบบูรณาการ
- ข้อความและการกระทำมีความแตกต่างกันโดยธรรมชาติ และความท้าทายคือการเชื่อมสิ่งเหล่านี้เข้าด้วยกันอย่างมีประสิทธิภาพ
- ได้นำเทคนิคการเรียนรู้ใหม่อย่าง Set-of-Mark, Trace-of-Mark มาใช้เพื่อสร้างโครงสร้างการจัดแนว (Alignment) ที่แข็งแกร่งระหว่างข้อความ ภาพ และการกระทำ
  - Set-of-Mark (SoM): ทำให้เกิดฐานของการกระทำที่มีประสิทธิภาพในภาพ โดยคาดการณ์มาร์กตัวเลขสำหรับปุ่มที่คลิกได้ในภาพหน้าจอ UI รวมถึงแขนหุ่นยนต์ในงานควบคุมหุ่นยนต์และวิดีโอมนุษย์
  - Trace-of-Mark (ToM): ให้การกำกับดูแลสำหรับการควบคุมหุ่นยนต์และพฤติกรรมของมนุษย์ เพื่อให้โมเดลเข้าใจพลวัตของวิดีโอตามเวลาและคาดการณ์สถานะในอนาคตก่อนลงมือกระทำ

วิธีใช้งานโมเดล

ใช้งานโดยตรง (ใช้ได้โดยไม่ต้อง Fine-tuning)

Magma ถูกออกแบบมาเพื่อการวิจัย และสามารถใช้งานได้ในลักษณะต่อไปนี้

การสร้างข้อความจากภาพ/วิดีโอ: สามารถสร้างคำอธิบายและคำตอบจากภาพและข้อความที่ป้อนเข้าไปได้
การวางแผนเชิงภาพ (Visual Planning): สามารถคาดการณ์เส้นทางการกระทำในอนาคตเพื่อบรรลุเป้าหมาย เช่น การย้ายวัตถุ
ความสามารถแบบเอเจนต์:
- การนำทาง UI: เช่น คาดการณ์การควบคุม UI อย่าง "คลิกปุ่มค้นหา"
- การควบคุมหุ่นยนต์: คาดการณ์การควบคุมหุ่นยนต์แบบ 7 DoF (7 องศาอิสระ)

งานดาวน์สตรีม (ใช้ Fine-tuning)

Magma สามารถฝึกเพิ่มเติมให้เหมาะกับงานเฉพาะได้

การทำ image captioning และ QA: ฝึกด้วยแนวทางเดียวกับมัลติโหมด LLM ที่มีอยู่เดิม เพื่อเสริมความสามารถด้านความเข้าใจเชิงพื้นที่และการให้เหตุผล
การทำ video captioning และ QA: สามารถเสริมความสามารถด้านความเข้าใจและการให้เหตุผลเชิงเวลาสำหรับข้อมูลวิดีโอได้
การนำทาง UI: สามารถปรับให้เหมาะกับงานนำทาง UI บนเว็บและมือถือเพื่อให้ได้ประสิทธิภาพสูง
การควบคุมหุ่นยนต์: ผ่านการฝึกเพิ่มเติมสำหรับการควบคุมหุ่นยนต์ ทำให้แสดงประสิทธิภาพเหนือกว่าโมเดลควบคุมหุ่นยนต์เดิมอย่าง OpenVLA

อคติ (Bias), ความเสี่ยง (Risks), ข้อจำกัด (Limitations)

โมเดลนี้ไม่ได้ถูกออกแบบมาสำหรับงานดาวน์สตรีมทุกประเภท
ก่อนนำไปใช้กับกรณีใช้งานเฉพาะ ต้องประเมินและปรับจูนด้านความแม่นยำ ความปลอดภัย และความเป็นธรรม
โดยเฉพาะในสถานการณ์ที่มีความเสี่ยงสูง ต้องปฏิบัติตามกฎหมายและข้อกำหนดที่เกี่ยวข้อง

1 ความคิดเห็น

GN⁺ 2025-02-21

ความคิดเห็นจาก Hacker News

ขอบคุณสำหรับความสนใจในโปรเจกต์ Magma พวกเราวางแผนจะทยอยเปิดเผยโค้ดสำหรับ inference, training, evaluation และ data preprocessing และน่าจะเสร็จภายในวันอังคารสัปดาห์หน้า
ความเร็วในการพัฒนาของมัลติโหมดัลเอเจนต์น่าประทับใจมาก OpenVLA เปิดตัวในเดือนมิถุนายน 2024 และในตอนนั้นถือว่าล้ำหน้าที่สุด 8 เดือนต่อมา อัตราความสำเร็จในงานอย่าง "Pick Place Hotdog Sausage" เพิ่มจาก 2/10 เป็น 6/10
หุ่นยนต์อุตสาหกรรมมีประสิทธิภาพเพราะไม่ได้เลียนแบบพฤติกรรมของมนุษย์ ดังนั้นจึงยากที่จะเข้าใจว่าข้อเสนอในการสอนพฤติกรรมมนุษย์ให้หุ่นยนต์มีความหมายอย่างไร หุ่นยนต์สำหรับใช้ในบ้านน่าจะต้องการเครื่องมือที่มีประสิทธิภาพ และอาจต้องใช้เครื่องจักรรูปแบบใหม่ที่ต่างจากเครื่องซักผ้า เตาอบ และเครื่องล้างจานที่เราใช้อยู่ทุกวันนี้
ความสามารถแบบมัลติโหมดัล โดยเฉพาะการคาดการณ์การกระทำถัดไป น่าประทับใจมาก กำลังรอดูว่าความสามารถนี้จะถูกเปิดซอร์สบน GitHub หรือไม่ และสงสัยว่าทำไมถึงใช้ชื่อว่า Magma
เป็นโมเดลที่น่าสนใจมาก ตั้งตารอที่จะได้ลองใช้ แต่สิ่งที่ฉันต้องการคือโมเดลมัลติโหมดัลเอเจนต์ที่สามารถสร้าง embedding สำหรับโมเดลควบคุมฮิวแมนนอยด์อย่าง Meta motivo ได้ Meta motivo เป็นโมเดลตัวอย่างที่ฝึกด้วยโครงกระดูก SMPL ซึ่งไม่มีนิ้วมือ จึงมีข้อจำกัดด้านการใช้งาน แม้จะสามารถใช้โมเดลที่ก้าวหน้ากว่าอย่าง SMPL-X ได้ แต่ก็ยากที่จะฝึกโมเดลการควบคุมการหยิบจับที่แข็งแกร่ง เพราะยังขาดข้อมูลการเคลื่อนไหวแบบเปิดที่รวมการเคลื่อนไหวนิ้วอย่างละเอียด
ชุดข้อมูลการเคลื่อนไหวที่มีอยู่ส่วนใหญ่ได้มาจากการตั้งค่า motion capture เชิงวิชาการ และไม่ได้เน้นงานด้านการหยิบจับ ฉันเชื่อว่าความก้าวหน้าของ 3D HPE จากวิดีโอ 2D จะช่วยปิดช่องว่างนี้ได้ หากเข้าถึงวิดีโอได้หลายพันชั่วโมง ก็จะสามารถสร้างชุดข้อมูลการเคลื่อนไหวขนาดใหญ่ที่ครอบคลุมปฏิสัมพันธ์จริงได้อย่างหลากหลาย
สิ่งนี้จะทำให้องค์ประกอบที่จำเป็นสองส่วนเกิดขึ้นได้สำหรับการฝึกโมเดลเอเจนต์ที่สร้าง embedding ซึ่งโมเดลควบคุมสามารถอ่านได้ เพื่อสร้างแบบจำลองการเคลื่อนไหวของมือและข้อนิ้วได้อย่างแม่นยำ เมื่อพิจารณาจากความก้าวหน้าอย่างรวดเร็วของ SoTA 3D HPE จากวิดีโอ 2D และปริมาณวิดีโอออนไลน์มหาศาล จึงคาดหวังได้ว่าในอนาคตอันใกล้เราจะได้เห็นหุ่นยนต์ฮิวแมนนอยด์ที่มีความสามารถในการหยิบจับที่ดี
ในวิดีโอที่เช็ดแก้วมัค คนในวิดีโอดูเหมือนทำท่าล้างแก้ว แต่เหมือนไม่อยากให้มือเปียก สงสัยว่าเมื่อไรโมเดลจะจับรายละเอียดเล็กน้อยแบบนี้ได้
สงสัยว่าทำไมโมเดลมัลติโหมดัลถึงไม่สร้างภาพได้อย่างยืดหยุ่น ดูเหมือนจะส่งต่อให้โมเดลอื่นสร้างภาพขึ้นมา พวกมันอาจไม่ได้รู้ดีนักว่ามีอะไรอยู่ในภาพที่สร้าง และอาจแก้ไขภาพได้
มัลติโหมดัลเอเจนต์ขึ้นชื่อว่าไปไม่รอดกับงานระยะยาว สงสัยว่า Magma ทำได้ดีแค่ไหน
สงสัยว่ามีโมเดลมัลติโหมดัลตัวไหนบ้างที่ผ่านการฝึกด้านการให้เหตุผล
สงสัยว่ามีงานวิจัยเกี่ยวกับการฝึกแบบต่อเนื่องหรือไม่ ซึ่งอาจนำไปใช้กับหุ่นยนต์เป็นทางเลือกแทน RAG ได้