3 คะแนน โดย GN⁺ 2025-02-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Magma เป็นโมเดลพื้นฐานตัวแรกที่สามารถตีความอินพุตแบบมัลติโหมดและเชื่อมโยงสิ่งเหล่านี้เข้ากับสภาพแวดล้อมได้ จึงสามารถจัดการปฏิสัมพันธ์ที่ซับซ้อนทั้งในโลกเสมือนและโลกจริงได้
  • ไม่ได้ทำได้แค่การทำความเข้าใจภาพและวิดีโอเท่านั้น แต่ยังสามารถสร้างการวางแผนและการปฏิบัติการเชิงภาพที่ขับเคลื่อนด้วยเป้าหมายเพื่อทำงานของ AI เอเจนต์ที่หลากหลาย
  • บรรลุประสิทธิภาพระดับล้ำสมัยในงานมัลติโหมดหลายประเภท เช่น การนำทาง UI, การควบคุมหุ่นยนต์, การทำความเข้าใจภาพและวิดีโอ (โดยเฉพาะความเข้าใจเชิงพื้นที่และการให้เหตุผล)
  • แนวทางการพรีเทรนที่ขยายได้: ฝึกด้วยข้อมูลวิดีโอที่ไม่มีการติดป้ายกำกับร่วมกับข้อมูลเอเจนต์ที่มีอยู่เดิม ทำให้มีความสามารถในการทำให้ทั่วไปที่แข็งแกร่งและเหมาะกับการใช้งานจริง
  • มีแผนเปิดเผยโค้ด โมเดล และเดโมการนำทาง UI ที่ MSR Forum (2025.02.25)

เป้าหมายของ Magma

  • สติปัญญาด้านภาษาและเชิงพื้นที่-เวลา:
    • สามารถเข้าใจภาพและวิดีโอได้อย่างแม่นยำ และแปลงเป้าหมายไปเป็นแผนการกระทำและการลงมือปฏิบัติบนพื้นฐานนั้น
  • การทำงานในสภาพแวดล้อมดิจิทัลและกายภาพ:
    • สามารถทำได้ทั้งการนำทางเว็บ (การควบคุม UI) และการควบคุมหุ่นยนต์
    • AI ที่สามารถสลับไปมาระหว่างสภาพแวดล้อมดิจิทัลและกายภาพได้อย่างอิสระเหมือนมนุษย์
  • เพื่อสิ่งนี้ จึงได้พัฒนาชุดข้อมูลการเรียนรู้แบบใหม่ที่ใช้ข้อมูลวิดีโอที่ไม่มีการติดป้ายกำกับและข้อมูลเอเจนต์ที่มีอยู่เดิม รวมถึงเฟรมเวิร์กการพรีเทรนที่เรียนรู้ข้อความ ภาพ และการกระทำแบบบูรณาการเพื่อฝึก Magma

วิธีพรีเทรนของ Magma

  • Magma ได้รับการฝึกผ่านแนวทางหลัก 2 ประการ
  • 1️⃣ ใช้ข้อมูลการฝึกที่หลากหลายขนาดใหญ่
    • ไม่เพียงแต่ข้อมูลมัลติโหมดที่มีอยู่เดิม, ข้อมูลการนำทาง UI, ข้อมูลการควบคุมหุ่นยนต์เท่านั้น แต่ยังรวบรวมข้อมูลวิดีโอที่ไม่มีการติดป้ายกำกับจำนวนมากมาใช้ฝึกด้วย
    • มีการลบการเคลื่อนไหวของกล้องและสกัดข้อมูลการกระทำจริงออกมา เพื่อให้โมเดลสามารถเรียนรู้การคาดการณ์และการวางแผนการกระทำระยะยาวได้
  • 2️⃣ กำหนดเป้าหมายการพรีเทรนแบบบูรณาการ
    • ข้อความและการกระทำมีความแตกต่างกันโดยธรรมชาติ และความท้าทายคือการเชื่อมสิ่งเหล่านี้เข้าด้วยกันอย่างมีประสิทธิภาพ
    • ได้นำเทคนิคการเรียนรู้ใหม่อย่าง Set-of-Mark, Trace-of-Mark มาใช้เพื่อสร้างโครงสร้างการจัดแนว (Alignment) ที่แข็งแกร่งระหว่างข้อความ ภาพ และการกระทำ
      • Set-of-Mark (SoM): ทำให้เกิดฐานของการกระทำที่มีประสิทธิภาพในภาพ โดยคาดการณ์มาร์กตัวเลขสำหรับปุ่มที่คลิกได้ในภาพหน้าจอ UI รวมถึงแขนหุ่นยนต์ในงานควบคุมหุ่นยนต์และวิดีโอมนุษย์
      • Trace-of-Mark (ToM): ให้การกำกับดูแลสำหรับการควบคุมหุ่นยนต์และพฤติกรรมของมนุษย์ เพื่อให้โมเดลเข้าใจพลวัตของวิดีโอตามเวลาและคาดการณ์สถานะในอนาคตก่อนลงมือกระทำ

วิธีใช้งานโมเดล

ใช้งานโดยตรง (ใช้ได้โดยไม่ต้อง Fine-tuning)

Magma ถูกออกแบบมาเพื่อการวิจัย และสามารถใช้งานได้ในลักษณะต่อไปนี้

  • การสร้างข้อความจากภาพ/วิดีโอ: สามารถสร้างคำอธิบายและคำตอบจากภาพและข้อความที่ป้อนเข้าไปได้
  • การวางแผนเชิงภาพ (Visual Planning): สามารถคาดการณ์เส้นทางการกระทำในอนาคตเพื่อบรรลุเป้าหมาย เช่น การย้ายวัตถุ
  • ความสามารถแบบเอเจนต์:
    • การนำทาง UI: เช่น คาดการณ์การควบคุม UI อย่าง "คลิกปุ่มค้นหา"
    • การควบคุมหุ่นยนต์: คาดการณ์การควบคุมหุ่นยนต์แบบ 7 DoF (7 องศาอิสระ)

งานดาวน์สตรีม (ใช้ Fine-tuning)

Magma สามารถฝึกเพิ่มเติมให้เหมาะกับงานเฉพาะได้

  • การทำ image captioning และ QA: ฝึกด้วยแนวทางเดียวกับมัลติโหมด LLM ที่มีอยู่เดิม เพื่อเสริมความสามารถด้านความเข้าใจเชิงพื้นที่และการให้เหตุผล
  • การทำ video captioning และ QA: สามารถเสริมความสามารถด้านความเข้าใจและการให้เหตุผลเชิงเวลาสำหรับข้อมูลวิดีโอได้
  • การนำทาง UI: สามารถปรับให้เหมาะกับงานนำทาง UI บนเว็บและมือถือเพื่อให้ได้ประสิทธิภาพสูง
  • การควบคุมหุ่นยนต์: ผ่านการฝึกเพิ่มเติมสำหรับการควบคุมหุ่นยนต์ ทำให้แสดงประสิทธิภาพเหนือกว่าโมเดลควบคุมหุ่นยนต์เดิมอย่าง OpenVLA

อคติ (Bias), ความเสี่ยง (Risks), ข้อจำกัด (Limitations)

  • โมเดลนี้ไม่ได้ถูกออกแบบมาสำหรับงานดาวน์สตรีมทุกประเภท
  • ก่อนนำไปใช้กับกรณีใช้งานเฉพาะ ต้องประเมินและปรับจูนด้านความแม่นยำ ความปลอดภัย และความเป็นธรรม
  • โดยเฉพาะในสถานการณ์ที่มีความเสี่ยงสูง ต้องปฏิบัติตามกฎหมายและข้อกำหนดที่เกี่ยวข้อง

1 ความคิดเห็น

 
GN⁺ 2025-02-21
ความคิดเห็นจาก Hacker News
  • ขอบคุณสำหรับความสนใจในโปรเจกต์ Magma พวกเราวางแผนจะทยอยเปิดเผยโค้ดสำหรับ inference, training, evaluation และ data preprocessing และน่าจะเสร็จภายในวันอังคารสัปดาห์หน้า
  • ความเร็วในการพัฒนาของมัลติโหมดัลเอเจนต์น่าประทับใจมาก OpenVLA เปิดตัวในเดือนมิถุนายน 2024 และในตอนนั้นถือว่าล้ำหน้าที่สุด 8 เดือนต่อมา อัตราความสำเร็จในงานอย่าง "Pick Place Hotdog Sausage" เพิ่มจาก 2/10 เป็น 6/10
  • หุ่นยนต์อุตสาหกรรมมีประสิทธิภาพเพราะไม่ได้เลียนแบบพฤติกรรมของมนุษย์ ดังนั้นจึงยากที่จะเข้าใจว่าข้อเสนอในการสอนพฤติกรรมมนุษย์ให้หุ่นยนต์มีความหมายอย่างไร หุ่นยนต์สำหรับใช้ในบ้านน่าจะต้องการเครื่องมือที่มีประสิทธิภาพ และอาจต้องใช้เครื่องจักรรูปแบบใหม่ที่ต่างจากเครื่องซักผ้า เตาอบ และเครื่องล้างจานที่เราใช้อยู่ทุกวันนี้
  • ความสามารถแบบมัลติโหมดัล โดยเฉพาะการคาดการณ์การกระทำถัดไป น่าประทับใจมาก กำลังรอดูว่าความสามารถนี้จะถูกเปิดซอร์สบน GitHub หรือไม่ และสงสัยว่าทำไมถึงใช้ชื่อว่า Magma
  • เป็นโมเดลที่น่าสนใจมาก ตั้งตารอที่จะได้ลองใช้ แต่สิ่งที่ฉันต้องการคือโมเดลมัลติโหมดัลเอเจนต์ที่สามารถสร้าง embedding สำหรับโมเดลควบคุมฮิวแมนนอยด์อย่าง Meta motivo ได้ Meta motivo เป็นโมเดลตัวอย่างที่ฝึกด้วยโครงกระดูก SMPL ซึ่งไม่มีนิ้วมือ จึงมีข้อจำกัดด้านการใช้งาน แม้จะสามารถใช้โมเดลที่ก้าวหน้ากว่าอย่าง SMPL-X ได้ แต่ก็ยากที่จะฝึกโมเดลการควบคุมการหยิบจับที่แข็งแกร่ง เพราะยังขาดข้อมูลการเคลื่อนไหวแบบเปิดที่รวมการเคลื่อนไหวนิ้วอย่างละเอียด
  • ชุดข้อมูลการเคลื่อนไหวที่มีอยู่ส่วนใหญ่ได้มาจากการตั้งค่า motion capture เชิงวิชาการ และไม่ได้เน้นงานด้านการหยิบจับ ฉันเชื่อว่าความก้าวหน้าของ 3D HPE จากวิดีโอ 2D จะช่วยปิดช่องว่างนี้ได้ หากเข้าถึงวิดีโอได้หลายพันชั่วโมง ก็จะสามารถสร้างชุดข้อมูลการเคลื่อนไหวขนาดใหญ่ที่ครอบคลุมปฏิสัมพันธ์จริงได้อย่างหลากหลาย
  • สิ่งนี้จะทำให้องค์ประกอบที่จำเป็นสองส่วนเกิดขึ้นได้สำหรับการฝึกโมเดลเอเจนต์ที่สร้าง embedding ซึ่งโมเดลควบคุมสามารถอ่านได้ เพื่อสร้างแบบจำลองการเคลื่อนไหวของมือและข้อนิ้วได้อย่างแม่นยำ เมื่อพิจารณาจากความก้าวหน้าอย่างรวดเร็วของ SoTA 3D HPE จากวิดีโอ 2D และปริมาณวิดีโอออนไลน์มหาศาล จึงคาดหวังได้ว่าในอนาคตอันใกล้เราจะได้เห็นหุ่นยนต์ฮิวแมนนอยด์ที่มีความสามารถในการหยิบจับที่ดี
  • ในวิดีโอที่เช็ดแก้วมัค คนในวิดีโอดูเหมือนทำท่าล้างแก้ว แต่เหมือนไม่อยากให้มือเปียก สงสัยว่าเมื่อไรโมเดลจะจับรายละเอียดเล็กน้อยแบบนี้ได้
  • สงสัยว่าทำไมโมเดลมัลติโหมดัลถึงไม่สร้างภาพได้อย่างยืดหยุ่น ดูเหมือนจะส่งต่อให้โมเดลอื่นสร้างภาพขึ้นมา พวกมันอาจไม่ได้รู้ดีนักว่ามีอะไรอยู่ในภาพที่สร้าง และอาจแก้ไขภาพได้
  • มัลติโหมดัลเอเจนต์ขึ้นชื่อว่าไปไม่รอดกับงานระยะยาว สงสัยว่า Magma ทำได้ดีแค่ไหน
  • สงสัยว่ามีโมเดลมัลติโหมดัลตัวไหนบ้างที่ผ่านการฝึกด้านการให้เหตุผล
  • สงสัยว่ามีงานวิจัยเกี่ยวกับการฝึกแบบต่อเนื่องหรือไม่ ซึ่งอาจนำไปใช้กับหุ่นยนต์เป็นทางเลือกแทน RAG ได้