Moebius: บรรลุประสิทธิภาพระดับ 10B ด้วยโมเดล image inpainting ขนาด 0.2B

(hustvl.github.io)

5 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลผู้เชี่ยวชาญแบบน้ำหนักเบาที่ทำ image inpainting คุณภาพสูง ซึ่งเดิมถูกขับเคลื่อนโดย foundation model ระดับอุตสาหกรรมขนาด 10B โดยบีบอัดพารามิเตอร์ลงเหลือน้อยกว่า 2% แต่ยังคงให้คุณภาพเทียบเท่าหรือดีกว่า
ทำงานด้วยพารามิเตอร์ 0.22B (226M) และทำความเร็วในการอนุมานได้มากกว่า 15 เท่าเมื่อเทียบกับ FLUX.1-Fill-Dev ขนาด 11.9B
ใช้ Local-λ Mix Interaction(LλMI) block ที่ปรับโครงสร้าง diffusion backbone ใหม่ เพื่อบีบอัดบริบทเชิงพื้นที่และข้อมูลความหมายระดับ global ให้เป็นเมทริกซ์เชิงเส้นขนาดคงที่
ใช้กลยุทธ์ adaptive multi-granularity distillation ที่ทำงานเฉพาะใน latent space เพื่อถ่ายทอดความสามารถในการแทนค่าของ teacher model ขนาดใหญ่ไปยังโมเดลขนาดเบา
เป็นแนวทางแบบ task-specific specialist ที่แสดงให้เห็นว่า แทนที่จะเพิ่มขนาดโมเดลแบบไม่ยั้ง หากนิยามงานได้ชัดเจน ก็สามารถสร้างโมเดลที่ฉลาดกว่า เบากว่า และเร็วกว่าได้

พื้นหลังและการนิยามปัญหา

foundation model ระดับอุตสาหกรรมขนาด 10B ได้ผลักดันขีดจำกัดของ image inpainting ให้สูงขึ้น แต่ต้นทุนการประมวลผลมหาศาลทำให้การนำไปใช้งานจริงถูกจำกัดอย่างมาก
การสร้างโมเดลผู้เชี่ยวชาญที่เฉพาะกับงานเป็นทางเลือกที่มีศักยภาพ แต่การบีบอัดสถาปัตยกรรมอย่างรุนแรงทำให้เกิด representation bottleneck อย่างหนัก
เพื่อแก้ปัญหานี้ จึงเสนอเฟรมเวิร์ก inpainting แบบน้ำหนักเบาประสิทธิภาพสูง Moebius

Method — ไปป์ไลน์โดยรวม

ใช้สถาปัตยกรรมที่ผสาน Latent Diffusion Model(LDM) เข้ากับ Latent Categories Guidance(LCG)
ปรับโครงสร้าง denoising U-Net ใหม่อย่างเป็นระบบด้วย LλMI block ที่เสนอขึ้น เพื่อให้ได้ประสิทธิภาพเชิงสถาปัตยกรรมในระดับสุดขั้ว
ในขั้นตอนการฝึก ใช้กลยุทธ์ adaptive multi-granularity distillation เพื่อจัดแนว specialist ขนาดเบาให้สอดคล้องกับ teacher ขนาดใหญ่ บรรเทาการสูญเสียความจุที่เกิดจากการบีบอัดโครงสร้างอย่างรุนแรง

ผลลัพธ์เด่น (Highlights)

ประสิทธิภาพด้านพารามิเตอร์ระดับสุดขั้ว (< 2%)
- ทำงานด้วยพารามิเตอร์เพียง 0.22B (226M) ซึ่งมีขนาดน้อยกว่า 2% ของโมเดลใหญ่ FLUX.1-Fill-Dev (11.9B)
- ทลายความเชื่อเดิมที่ว่าการคำนวณหนักเป็นสิ่งจำเป็น และทำให้การทำ inpainting คุณภาพสูงเป็นไปได้บนอุปกรณ์ระดับผู้บริโภคและ edge device
เร็วขึ้น 15 เท่าในการอนุมาน (26ms/step)
- บน GPU เดี่ยว ทำเวลาแฝงในการอนุมานต่ำมากที่ 26.01ms ต่อ step
- เมื่อผสานกับขั้นตอน sampling ที่ปรับแต่งแล้ว ทำให้ runtime โดยรวม เร็วขึ้นมากกว่า 15 เท่า เมื่อเทียบกับโมเดลระดับ 10B
คุณภาพ inpainting ระดับ 10B
- พิสูจน์ว่า การลดขนาด ไม่ได้หมายถึงความสามารถในการแทนค่าที่ลดลง
- ด้วยการเพิ่มประสิทธิภาพร่วมกันระหว่างสถาปัตยกรรมและ distillation ทำให้ในบางสถานการณ์ เช่น texture ที่ซับซ้อนและความเป็นธรรมชาติของใบหน้า สามารถเหนือกว่าโมเดล SOTA ระดับ 10B (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting) ได้
- ผ่านการตรวจสอบบน 6 benchmark ครอบคลุมทั้งฉากธรรมชาติ (Places2) และฉากบุคคล (CelebA-HQ, FFHQ)
นวัตกรรมหลักที่ขับเคลื่อนด้วย synergy
- การออกแบบสถาปัตยกรรม (LλMI Block): ปรับโครงสร้าง self-attention และ cross-attention ใหม่เพื่อบีบอัดบริบทเชิงพื้นที่และข้อมูลความหมายระดับ global ให้เป็นเมทริกซ์เชิงเส้นขนาดคงที่ หลีกเลี่ยงภาระการคำนวณแบบกำลังสอง
- adaptive multi-granularity distillation: ถ่ายทอดความสามารถในการแทนค่าของ teacher model PixelHacker เฉพาะภายใน latent space เพื่อหลีกเลี่ยงการถอดรหัสใน pixel space ที่มีต้นทุนสูง
  - จัดแนวการกำกับดูแลหลายระดับตั้งแต่คุณลักษณะระดับกลางแบบจุลภาคไปจนถึง trajectory ของ diffusion ระดับมหภาค พร้อมกลไกถ่วงน้ำหนัก loss แบบปรับตัวตาม gradient norm เพื่อสร้างสมดุลการฝึกแบบไดนามิก
- สมดุล synergy ที่เหมาะสมที่สุด: สำรวจข้อจำกัดร่วมกันและขีดจำกัดบนระหว่างโครงสร้างที่ถูกบีบอัดกับ distillation อย่างเป็นระบบ
  - ทำแผนที่ขอบเขตของ synergy ระหว่างสถาปัตยกรรมกับ distillation เพื่อให้ Moebius ขนาด 0.22B (student) ดูดซับความสามารถในการให้เหตุผลเชิงความหมายของ PixelHacker (teacher) ได้สูงสุดโดยไม่เกิดการอิ่มตัวด้านการแทนค่า
ผู้เชี่ยวชาญเฉพาะงานแทนโมเดลทั่วไปที่เทอะทะ
- เป็นแนวทางที่ตอบคำถามพื้นฐานว่า "หากนิยามงานได้ชัดเจน โมเดลจะฉลาดกว่า เบากว่า และเร็วกว่าได้หรือไม่"
- ทำหน้าที่เป็น specialist ที่ได้รับการปรับแต่งอย่างมาก ช่วยปลดปล่อยงาน image inpainting และ AI object removal จากการพึ่งพาการขยายพารามิเตอร์ขนาดใหญ่

การประเมินและการเปรียบเทียบ

มีการทดลองอย่างกว้างขวางทั้งในฉากธรรมชาติ (Places2) และฉากบุคคล (CelebA-HQ, FFHQ)
ยืนยันผลลัพธ์ว่าในด้านคุณภาพการสร้างภาพ เทียบเท่าหรือเหนือกว่า FLUX.1-Fill-Dev ซึ่งเป็นโมเดลทั่วไปเชิงอุตสาหกรรมระดับ 10B
ด้วยขนาดพารามิเตอร์ต่ำกว่า 2% (0.22B เทียบกับ 11.9B) แต่เร่งเวลาอนุมานได้มากกว่า 15 เท่า จึงนำเสนอเกณฑ์ประสิทธิภาพใหม่สำหรับ inpainting ความเที่ยงตรงสูง

1 ความคิดเห็น

GN⁺ 4 시간 전

ความคิดเห็นจาก Hacker News

ทำให้รันบน ONNX ได้แล้ว (ด้วยความช่วยเหลือจาก Claude Opus 4.8) และตอนนี้ก็มีเดโมแบบอินเทอร์แอ็กทีฟที่ให้โมเดลรันทั้งหมดในเบราว์เซอร์เลย ดาวน์โหลดประมาณ 1.3GB: https://simonw.github.io/moebius-web/
โค้ดอยู่ที่นี่: https://github.com/simonw/moebius-web
บันทึก Claude Code: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
เขียนสรุปรายละเอียดไว้ในบล็อกด้วย: https://simonwillison.net/2026/Jun/22/porting-moebius/
- ผมก็พยายามทำแบบเดียวกันเป๊ะ ๆ เหมือนกัน (ใช้ gpt 5.5 + code) แต่ยังทำไม่สำเร็จถึงขั้น รันโมเดลบน ONNX
- ทำได้เยี่ยมเลย เห็นว่า น้ำหนักของ unet เป็น fp32 เลยสงสัยว่าได้ลองลดความแม่นยำลงเป็น fp16 หรืออย่างอื่นบ้างไหม
ลองใช้ดูนิดหน่อยแล้ว สำหรับ โมเดล 0.2B ถือว่าน่าประทับใจมาก แต่ยังยากจะเชื่อว่ามันเทียบชั้นโมเดล 10B ได้จริง
กับภาพธรรมชาติมันทำงานได้ค่อนข้างดี แต่บริเวณที่ถูก inpaint ดูเรียบกว่าส่วนรอบข้างอย่างเห็นได้ชัด และมันอ่อนมากกับการเพิ่มวัตถุใหม่ ๆ แถมเอาต์พุตก็ถูกจำกัดไว้ที่ 512x512 เลยยิ่งลดความใช้งานจริงลง
- อยากรู้ว่าคิดว่าตัวอย่างที่ให้มานั้นเป็นตัวแทนประสิทธิภาพจริง ๆ หรือว่าเป็นตัวอย่างที่ คัดมาเฉพาะที่ออกมาดี
เมื่อหลายปีก่อนผมเคยทำ โปรเจ็กต์ inpainting ให้ลูกค้ารายหนึ่ง เป้าหมายคือ inpaint โฆษณาแบนเนอร์สำหรับโปรโมเตอร์คอนเสิร์ต เพื่อให้ทำโฆษณาหลายขนาดได้ง่ายขึ้นสำหรับสื่อต่าง ๆ และตอนนั้นได้ทำโฆษณาธีมคริสต์มาสให้กับนักร้องดังอยู่ไม่กี่คน
สิ่งที่แปลกที่สุดคือช่วงที่เครื่องมือ inpainting ชอบเพิ่มคนประหลาด ๆ เข้ามาในภาพ นักร้องคนนั้นแต่งด้วยของประดับวิบวับและสีแดง แต่โมเดลกลับใส่ชายชราหน้าบึ้งที่สวมหมวกทรงสูงเข้ามา ผมไม่เคยจำได้ว่าตัวเองกดปุ่ม “เพิ่มชายชราน่าขนลุก” เลย
ตอนนั้นฝั่งแบ็กเอนด์ใช้ Stable Diffusion และผ่านบริการโฮสต์โมเดลมาหลายเจ้า รวมถึง Amazon ด้วย ซึ่งแต่ละเจ้าก็กำหนดข้อกำหนดภาพอินพุตไม่เหมือนกันจนยุ่งมาก บางเจ้าก็ทำอัตราส่วนแบบแบนเนอร์ 200x60 ไม่ได้เลย บางเจ้าก็บังคับให้รีไซซ์ก่อนอินพุต ทำให้สุดท้ายต้องเริ่มจากภาพความละเอียดต่ำตั้งแต่แรก ขยะเข้า ขยะออก
สุดท้ายเลยต้องมีงานเตรียมล่วงหน้าเยอะมาก และลูกค้าก็ไม่ได้ใช้งานที่ผมลองทำจริง
- ถ้านักร้องแต่งด้วยของวิบวับกับสีแดง แล้วโมเดลกลับเพิ่มชายชราหน้าบึ้งใส่หมวกทรงสูงเข้ามา มันชวนให้นึกถึง A Christmas Carol ของ Dickens
  ในอังกฤษคงต้องมีกฎท้องถิ่นแน่ ๆ ว่างานคริสต์มาสต้องมีตัวละครแบบ Scrooge ยืนอยู่ฉากหลังเพื่อกันไม่ให้คนสนุกเกินไป
- โมเดลที่ชุมชนทำกันในยุคนั้น ทั้งโมเดล merge และโมเดล fine-tune ล้วนโอเวอร์ฟิตและถูกปรับให้เหมาะกับ ภาพพอร์ตเทรตและภาพมุมตรง หมด มันพยายามเปลี่ยนทุกอย่างให้เป็นคน
  แม้แต่การ inpaint ใบหน้าก็ยังต้องวนเปลี่ยนเครื่องมือหลายตัวกว่าจะพอใช้ได้ ส่วนการ inpaint อย่างอื่นนี่แทบเป็นไปไม่ได้ โมเดลพวกนั้นยังอ่อนมากในการทำให้วัตถุใหม่กลมกลืนกับฉาก ต่อให้เป็นแค่สร้อยหรือเข็มขัดพอถูไถได้ แต่ทันทีที่ใส่วัตถุใหม่เข้าไปในฉากก็ล้มเหลวได้สารพัดแบบ
  เรื่องความละเอียดก็ทำงานดีกว่ามากที่ 512x512 และยิ่งเบี่ยงไปจากนั้นปัญหาก็ยิ่งเพิ่ม
  ถ้าคุณพยายาม inpaint โฆษณาแบนเนอร์ มันก็น่าจะบิดเบี้ยวหนัก โมเดลพวกนั้นจัดการฟอนต์ไม่ได้ และก็อ่อนเรื่องการถอดความแบบตรงพิกเซลด้วย วิธีที่พอเป็นจริงได้ในตอนนั้นน่าจะเป็นวางแบนเนอร์ด้วยมือ แล้วใช้ AI เก็บขอบให้เรียบเท่านั้น ซึ่งแน่นอนว่าก็ต้องมีเซนส์ทางศิลปะพอสมควร
  ถ้าคุณคาดหวังว่าใส่ภาพสองภาพแล้วให้โมเดลจัดการเองทั้งหมด ความพยายามนั้นถือว่ากล้ามาก แต่เป็นงานที่เป็นไปไม่ได้
- นั่นก็เพราะโมเดลเล็กอย่าง SD ถูกฝึกมาบนความละเอียดที่เฉพาะมาก โมเดลที่ล้ำกว่านั้นจะถูกฝึกด้วยคุณภาพสูงกว่าหรือชุดความละเอียดที่หลากหลายกว่า
  เวลาใช้โมเดลคุณภาพสูงสร้างภาพความละเอียดต่ำ มันให้ความรู้สึกเหมือนจริง ๆ แล้วกำลังครอปบางส่วนออกมาจากภาพที่ใหญ่กว่ามาก นี่เป็นความรู้สึกจากการลองผิดลองถูกมาหลายชั่วโมง และแม้จะพยายามวางวัตถุไว้ตรงกลางในโมเดลใหญ่ มันก็มักไม่ค่อยมาอยู่กลางอย่างที่ต้องการ แถม GPU ของผมก็มีขีดจำกัดเหมือนกัน
มีเดโมสเปซสำหรับตัวนี้อยู่ไม่กี่อัน อันนี้ดูดีที่สุดและสามารถวาดมาสก์เองได้ด้วย แต่ภาพทุกภาพที่ผมลองกลับล้มเหลวหมด: https://huggingface.co/spaces/multimodalart/Moebius
- ผมลองปรับโน่นนี่จนพอทำให้มันทำงานได้แล้ว แต่คุณภาพยังค่อนข้างแย่ ยังทดลองกับค่าที่เปิดให้ปรับอยู่เรื่อย ๆ ดูได้ที่นี่: https://huggingface.co/spaces/jonatei/MoebiusDemo
  ตอนนี้กำลังแก้อยู่แบบจริงจัง เลยอาจพังเป็นช่วง ๆ :)
  รันบน CPU ฟรี เลยใช้เวลาประมาณ 80 วินาที ต่อภาพหนึ่งใบ
ผมทำแอปเล็ก ๆ ที่รันทั้งหมดในเบราว์เซอร์และให้ลอง โมเดล fine-tune ทั้งหมดได้: https://inpaintlab.com/
ผมไม่รู้ว่า inpainting คืออะไร ในคอมเมนต์ทุกคนเหมือนรู้จักคำนี้กันหมด แต่ในหน้าที่ลิงก์มาก็ไม่เห็นมีคำอธิบาย
- ถ้าคลิกภาพตัวอย่างประกอบ จะเห็นการทำงานจริง พื้นที่สีม่วงคือส่วนที่ผู้ใช้ระบุให้ระบบทำ inpainting และเมื่อคลิกภาพก็จะเห็นผลลัพธ์
  โดยพื้นฐานแล้ว โมเดลจะดูบริบทของส่วนที่ไม่ใช่สีม่วง แล้วตัดสินใจว่าอะไรน่าจะเข้ากับพื้นที่สีม่วงที่สุด จากนั้นก็วาดส่วนนั้นของภาพขึ้นใหม่ มักใช้เพื่อลบวัตถุ แต่ก็ทำอย่างอื่นได้เหมือนที่เห็นในตัวอย่าง
ไม่ค่อยดีเท่าไร บริเวณที่ถูก inpaint ยังมีปัญหาเดิมคือมันเรียบเกินไปเมื่อเทียบกับ พื้นผิวรายละเอียดสูงแบบความถี่สูง ของภาพถ่ายธรรมชาติ
พอใช้ได้แค่ระดับลบอะไรบางอย่างออกจากภาพขนาดย่อเท่านั้น
- อันนี้ก็ใช่ แล้วตัวอย่างต่าง ๆ ก็เป็น การคัดเฉพาะที่ออกมาดี ด้วย ตัวอย่างลบสายไฟแรงสูงออกจากภาพธรรมชาตินี่ยิ่งแย่ เห็นเป็นแถบค้างอยู่ตรงตำแหน่งที่ลบชัดมาก
  เครื่องมือซ่อมแซมพื้นฐานของ Photoshop เมื่อหลายปีก่อนก็จัดการได้ระดับคล้าย ๆ กัน
อยากให้มีโมเดลแบบนี้สำหรับการแปลการ์ตูน ตอนนี้ฝั่งอนิเมะกับมังงะ โมเดล inpainting เบา ๆ ดูเหมือนว่า LaMa จะเป็นตัวเลือกมาตรฐานโดยพฤตินัย แต่ก็เป็นโมเดลที่มีอายุหลายปีแล้ว เลยน่าจะยังมีช่องให้ปรับปรุงได้
- ผมกำลังพยายาม outpaint รายการแอนิเมชันให้ลูกชายดู (ถ้าอยากรู้คือ Leapfrog Letter Factory) แล้วค่อยอัปสเกล ซึ่งทำบนเครื่องตัวเองค่อนข้างยาก
  เลยสงสัยว่าโมเดลนี้จะเทรนใหม่หรือ fine-tune ได้ไหม เขาบอกว่าสร้าง “ผู้เชี่ยวชาญ” ได้ แล้วบางทีผู้เชี่ยวชาญนั้นอาจเข้าใจการแปลตัวละครหลายแบบได้ดีขึ้นก็ได้
แบบนี้แหละคือ AI ที่มีประโยชน์ มันเปิด use case ได้เยอะมากจริง ๆ
- ใช่เลย นั่นแหละที่น่าหงุดหงิด มี use case มากมายที่โมเดลซึ่งรันได้ในเครื่อง ปรับมาสำหรับงานเฉพาะ และทำสิ่งเดียวได้อย่างเสถียรจริง ๆ จะสร้างความแตกต่างได้มาก
  แต่คงไม่มีใครทุ่มเงิน 1 พันล้านดอลลาร์เพื่อทำระบบลบฝุ่นสุดมหัศจรรย์หรือแยกฉากได้สมบูรณ์แบบหรอก
  สุดท้ายเลยกลายเป็นว่าต้องอัปโหลดขึ้นคลาวด์ แล้วไปขอร้อง โมเดล frontier แบบมัลติโหมดขนาดมหึมา อย่างสุภาพให้ช่วยทำแค่งานที่เราต้องการ
- สงสัยว่าในช่วง 7 วันที่ผ่านมา คุณได้แก้ไขรูปที่ถ่ายจากมือถือไปกี่ครั้ง
ผมไม่เข้าใจ ไม่รู้ว่ามีที่ไหนให้ลองใช้งาน หรือว่านี่เป็นแค่โฆษณา
- ดูดีนะ แต่ไม่รู้ว่าจะใช้ยังไง
  แก้ไข: เหมือนจะเจอแล้ว
  https://huggingface.co/hustvl/Moebius

Moebius: บรรลุประสิทธิภาพระดับ 10B ด้วยโมเดล image inpainting ขนาด 0.2B

พื้นหลังและการนิยามปัญหา

Method — ไปป์ไลน์โดยรวม

ผลลัพธ์เด่น (Highlights)

ประสิทธิภาพด้านพารามิเตอร์ระดับสุดขั้ว (< 2%)

เร็วขึ้น 15 เท่าในการอนุมาน (26ms/step)

คุณภาพ inpainting ระดับ 10B

นวัตกรรมหลักที่ขับเคลื่อนด้วย synergy

ผู้เชี่ยวชาญเฉพาะงานแทนโมเดลทั่วไปที่เทอะทะ

การประเมินและการเปรียบเทียบ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News