Moebius: บรรลุประสิทธิภาพระดับ 10B ด้วยโมเดล image inpainting ขนาด 0.2B
(hustvl.github.io)- โมเดลผู้เชี่ยวชาญแบบน้ำหนักเบาที่ทำ image inpainting คุณภาพสูง ซึ่งเดิมถูกขับเคลื่อนโดย foundation model ระดับอุตสาหกรรมขนาด 10B โดยบีบอัดพารามิเตอร์ลงเหลือน้อยกว่า 2% แต่ยังคงให้คุณภาพเทียบเท่าหรือดีกว่า
- ทำงานด้วยพารามิเตอร์ 0.22B (226M) และทำความเร็วในการอนุมานได้มากกว่า 15 เท่าเมื่อเทียบกับ FLUX.1-Fill-Dev ขนาด 11.9B
- ใช้ Local-λ Mix Interaction(LλMI) block ที่ปรับโครงสร้าง diffusion backbone ใหม่ เพื่อบีบอัดบริบทเชิงพื้นที่และข้อมูลความหมายระดับ global ให้เป็นเมทริกซ์เชิงเส้นขนาดคงที่
- ใช้กลยุทธ์ adaptive multi-granularity distillation ที่ทำงานเฉพาะใน latent space เพื่อถ่ายทอดความสามารถในการแทนค่าของ teacher model ขนาดใหญ่ไปยังโมเดลขนาดเบา
- เป็นแนวทางแบบ task-specific specialist ที่แสดงให้เห็นว่า แทนที่จะเพิ่มขนาดโมเดลแบบไม่ยั้ง หากนิยามงานได้ชัดเจน ก็สามารถสร้างโมเดลที่ฉลาดกว่า เบากว่า และเร็วกว่าได้
พื้นหลังและการนิยามปัญหา
- foundation model ระดับอุตสาหกรรมขนาด 10B ได้ผลักดันขีดจำกัดของ image inpainting ให้สูงขึ้น แต่ต้นทุนการประมวลผลมหาศาลทำให้การนำไปใช้งานจริงถูกจำกัดอย่างมาก
- การสร้างโมเดลผู้เชี่ยวชาญที่เฉพาะกับงานเป็นทางเลือกที่มีศักยภาพ แต่การบีบอัดสถาปัตยกรรมอย่างรุนแรงทำให้เกิด representation bottleneck อย่างหนัก
- เพื่อแก้ปัญหานี้ จึงเสนอเฟรมเวิร์ก inpainting แบบน้ำหนักเบาประสิทธิภาพสูง Moebius
Method — ไปป์ไลน์โดยรวม
- ใช้สถาปัตยกรรมที่ผสาน Latent Diffusion Model(LDM) เข้ากับ Latent Categories Guidance(LCG)
- ปรับโครงสร้าง denoising U-Net ใหม่อย่างเป็นระบบด้วย LλMI block ที่เสนอขึ้น เพื่อให้ได้ประสิทธิภาพเชิงสถาปัตยกรรมในระดับสุดขั้ว
- ในขั้นตอนการฝึก ใช้กลยุทธ์ adaptive multi-granularity distillation เพื่อจัดแนว specialist ขนาดเบาให้สอดคล้องกับ teacher ขนาดใหญ่ บรรเทาการสูญเสียความจุที่เกิดจากการบีบอัดโครงสร้างอย่างรุนแรง
ผลลัพธ์เด่น (Highlights)
-
ประสิทธิภาพด้านพารามิเตอร์ระดับสุดขั้ว (< 2%)
- ทำงานด้วยพารามิเตอร์เพียง 0.22B (226M) ซึ่งมีขนาดน้อยกว่า 2% ของโมเดลใหญ่ FLUX.1-Fill-Dev (11.9B)
- ทลายความเชื่อเดิมที่ว่าการคำนวณหนักเป็นสิ่งจำเป็น และทำให้การทำ inpainting คุณภาพสูงเป็นไปได้บนอุปกรณ์ระดับผู้บริโภคและ edge device
-
เร็วขึ้น 15 เท่าในการอนุมาน (26ms/step)
- บน GPU เดี่ยว ทำเวลาแฝงในการอนุมานต่ำมากที่ 26.01ms ต่อ step
- เมื่อผสานกับขั้นตอน sampling ที่ปรับแต่งแล้ว ทำให้ runtime โดยรวม เร็วขึ้นมากกว่า 15 เท่า เมื่อเทียบกับโมเดลระดับ 10B
-
คุณภาพ inpainting ระดับ 10B
- พิสูจน์ว่า การลดขนาด ไม่ได้หมายถึงความสามารถในการแทนค่าที่ลดลง
- ด้วยการเพิ่มประสิทธิภาพร่วมกันระหว่างสถาปัตยกรรมและ distillation ทำให้ในบางสถานการณ์ เช่น texture ที่ซับซ้อนและความเป็นธรรมชาติของใบหน้า สามารถเหนือกว่าโมเดล SOTA ระดับ 10B (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting) ได้
- ผ่านการตรวจสอบบน 6 benchmark ครอบคลุมทั้งฉากธรรมชาติ (Places2) และฉากบุคคล (CelebA-HQ, FFHQ)
-
นวัตกรรมหลักที่ขับเคลื่อนด้วย synergy
- การออกแบบสถาปัตยกรรม (LλMI Block): ปรับโครงสร้าง self-attention และ cross-attention ใหม่เพื่อบีบอัดบริบทเชิงพื้นที่และข้อมูลความหมายระดับ global ให้เป็นเมทริกซ์เชิงเส้นขนาดคงที่ หลีกเลี่ยงภาระการคำนวณแบบกำลังสอง
- adaptive multi-granularity distillation: ถ่ายทอดความสามารถในการแทนค่าของ teacher model PixelHacker เฉพาะภายใน latent space เพื่อหลีกเลี่ยงการถอดรหัสใน pixel space ที่มีต้นทุนสูง
- จัดแนวการกำกับดูแลหลายระดับตั้งแต่คุณลักษณะระดับกลางแบบจุลภาคไปจนถึง trajectory ของ diffusion ระดับมหภาค พร้อมกลไกถ่วงน้ำหนัก loss แบบปรับตัวตาม gradient norm เพื่อสร้างสมดุลการฝึกแบบไดนามิก
- สมดุล synergy ที่เหมาะสมที่สุด: สำรวจข้อจำกัดร่วมกันและขีดจำกัดบนระหว่างโครงสร้างที่ถูกบีบอัดกับ distillation อย่างเป็นระบบ
- ทำแผนที่ขอบเขตของ synergy ระหว่างสถาปัตยกรรมกับ distillation เพื่อให้ Moebius ขนาด 0.22B (student) ดูดซับความสามารถในการให้เหตุผลเชิงความหมายของ PixelHacker (teacher) ได้สูงสุดโดยไม่เกิดการอิ่มตัวด้านการแทนค่า
-
ผู้เชี่ยวชาญเฉพาะงานแทนโมเดลทั่วไปที่เทอะทะ
- เป็นแนวทางที่ตอบคำถามพื้นฐานว่า "หากนิยามงานได้ชัดเจน โมเดลจะฉลาดกว่า เบากว่า และเร็วกว่าได้หรือไม่"
- ทำหน้าที่เป็น specialist ที่ได้รับการปรับแต่งอย่างมาก ช่วยปลดปล่อยงาน image inpainting และ AI object removal จากการพึ่งพาการขยายพารามิเตอร์ขนาดใหญ่
การประเมินและการเปรียบเทียบ
- มีการทดลองอย่างกว้างขวางทั้งในฉากธรรมชาติ (Places2) และฉากบุคคล (CelebA-HQ, FFHQ)
- ยืนยันผลลัพธ์ว่าในด้านคุณภาพการสร้างภาพ เทียบเท่าหรือเหนือกว่า FLUX.1-Fill-Dev ซึ่งเป็นโมเดลทั่วไปเชิงอุตสาหกรรมระดับ 10B
- ด้วยขนาดพารามิเตอร์ต่ำกว่า 2% (0.22B เทียบกับ 11.9B) แต่เร่งเวลาอนุมานได้มากกว่า 15 เท่า จึงนำเสนอเกณฑ์ประสิทธิภาพใหม่สำหรับ inpainting ความเที่ยงตรงสูง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ทำให้รันบน ONNX ได้แล้ว (ด้วยความช่วยเหลือจาก Claude Opus 4.8) และตอนนี้ก็มีเดโมแบบอินเทอร์แอ็กทีฟที่ให้โมเดลรันทั้งหมดในเบราว์เซอร์เลย ดาวน์โหลดประมาณ 1.3GB: https://simonw.github.io/moebius-web/
โค้ดอยู่ที่นี่: https://github.com/simonw/moebius-web
บันทึก Claude Code: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
เขียนสรุปรายละเอียดไว้ในบล็อกด้วย: https://simonwillison.net/2026/Jun/22/porting-moebius/
ลองใช้ดูนิดหน่อยแล้ว สำหรับ โมเดล 0.2B ถือว่าน่าประทับใจมาก แต่ยังยากจะเชื่อว่ามันเทียบชั้นโมเดล 10B ได้จริง
กับภาพธรรมชาติมันทำงานได้ค่อนข้างดี แต่บริเวณที่ถูก inpaint ดูเรียบกว่าส่วนรอบข้างอย่างเห็นได้ชัด และมันอ่อนมากกับการเพิ่มวัตถุใหม่ ๆ แถมเอาต์พุตก็ถูกจำกัดไว้ที่ 512x512 เลยยิ่งลดความใช้งานจริงลง
เมื่อหลายปีก่อนผมเคยทำ โปรเจ็กต์ inpainting ให้ลูกค้ารายหนึ่ง เป้าหมายคือ inpaint โฆษณาแบนเนอร์สำหรับโปรโมเตอร์คอนเสิร์ต เพื่อให้ทำโฆษณาหลายขนาดได้ง่ายขึ้นสำหรับสื่อต่าง ๆ และตอนนั้นได้ทำโฆษณาธีมคริสต์มาสให้กับนักร้องดังอยู่ไม่กี่คน
สิ่งที่แปลกที่สุดคือช่วงที่เครื่องมือ inpainting ชอบเพิ่มคนประหลาด ๆ เข้ามาในภาพ นักร้องคนนั้นแต่งด้วยของประดับวิบวับและสีแดง แต่โมเดลกลับใส่ชายชราหน้าบึ้งที่สวมหมวกทรงสูงเข้ามา ผมไม่เคยจำได้ว่าตัวเองกดปุ่ม “เพิ่มชายชราน่าขนลุก” เลย
ตอนนั้นฝั่งแบ็กเอนด์ใช้ Stable Diffusion และผ่านบริการโฮสต์โมเดลมาหลายเจ้า รวมถึง Amazon ด้วย ซึ่งแต่ละเจ้าก็กำหนดข้อกำหนดภาพอินพุตไม่เหมือนกันจนยุ่งมาก บางเจ้าก็ทำอัตราส่วนแบบแบนเนอร์ 200x60 ไม่ได้เลย บางเจ้าก็บังคับให้รีไซซ์ก่อนอินพุต ทำให้สุดท้ายต้องเริ่มจากภาพความละเอียดต่ำตั้งแต่แรก ขยะเข้า ขยะออก
สุดท้ายเลยต้องมีงานเตรียมล่วงหน้าเยอะมาก และลูกค้าก็ไม่ได้ใช้งานที่ผมลองทำจริง
ในอังกฤษคงต้องมีกฎท้องถิ่นแน่ ๆ ว่างานคริสต์มาสต้องมีตัวละครแบบ Scrooge ยืนอยู่ฉากหลังเพื่อกันไม่ให้คนสนุกเกินไป
แม้แต่การ inpaint ใบหน้าก็ยังต้องวนเปลี่ยนเครื่องมือหลายตัวกว่าจะพอใช้ได้ ส่วนการ inpaint อย่างอื่นนี่แทบเป็นไปไม่ได้ โมเดลพวกนั้นยังอ่อนมากในการทำให้วัตถุใหม่กลมกลืนกับฉาก ต่อให้เป็นแค่สร้อยหรือเข็มขัดพอถูไถได้ แต่ทันทีที่ใส่วัตถุใหม่เข้าไปในฉากก็ล้มเหลวได้สารพัดแบบ
เรื่องความละเอียดก็ทำงานดีกว่ามากที่ 512x512 และยิ่งเบี่ยงไปจากนั้นปัญหาก็ยิ่งเพิ่ม
ถ้าคุณพยายาม inpaint โฆษณาแบนเนอร์ มันก็น่าจะบิดเบี้ยวหนัก โมเดลพวกนั้นจัดการฟอนต์ไม่ได้ และก็อ่อนเรื่องการถอดความแบบตรงพิกเซลด้วย วิธีที่พอเป็นจริงได้ในตอนนั้นน่าจะเป็นวางแบนเนอร์ด้วยมือ แล้วใช้ AI เก็บขอบให้เรียบเท่านั้น ซึ่งแน่นอนว่าก็ต้องมีเซนส์ทางศิลปะพอสมควร
ถ้าคุณคาดหวังว่าใส่ภาพสองภาพแล้วให้โมเดลจัดการเองทั้งหมด ความพยายามนั้นถือว่ากล้ามาก แต่เป็นงานที่เป็นไปไม่ได้
เวลาใช้โมเดลคุณภาพสูงสร้างภาพความละเอียดต่ำ มันให้ความรู้สึกเหมือนจริง ๆ แล้วกำลังครอปบางส่วนออกมาจากภาพที่ใหญ่กว่ามาก นี่เป็นความรู้สึกจากการลองผิดลองถูกมาหลายชั่วโมง และแม้จะพยายามวางวัตถุไว้ตรงกลางในโมเดลใหญ่ มันก็มักไม่ค่อยมาอยู่กลางอย่างที่ต้องการ แถม GPU ของผมก็มีขีดจำกัดเหมือนกัน
มีเดโมสเปซสำหรับตัวนี้อยู่ไม่กี่อัน อันนี้ดูดีที่สุดและสามารถวาดมาสก์เองได้ด้วย แต่ภาพทุกภาพที่ผมลองกลับล้มเหลวหมด: https://huggingface.co/spaces/multimodalart/Moebius
ตอนนี้กำลังแก้อยู่แบบจริงจัง เลยอาจพังเป็นช่วง ๆ :)
รันบน CPU ฟรี เลยใช้เวลาประมาณ 80 วินาที ต่อภาพหนึ่งใบ
ผมทำแอปเล็ก ๆ ที่รันทั้งหมดในเบราว์เซอร์และให้ลอง โมเดล fine-tune ทั้งหมดได้: https://inpaintlab.com/
ผมไม่รู้ว่า inpainting คืออะไร ในคอมเมนต์ทุกคนเหมือนรู้จักคำนี้กันหมด แต่ในหน้าที่ลิงก์มาก็ไม่เห็นมีคำอธิบาย
โดยพื้นฐานแล้ว โมเดลจะดูบริบทของส่วนที่ไม่ใช่สีม่วง แล้วตัดสินใจว่าอะไรน่าจะเข้ากับพื้นที่สีม่วงที่สุด จากนั้นก็วาดส่วนนั้นของภาพขึ้นใหม่ มักใช้เพื่อลบวัตถุ แต่ก็ทำอย่างอื่นได้เหมือนที่เห็นในตัวอย่าง
ไม่ค่อยดีเท่าไร บริเวณที่ถูก inpaint ยังมีปัญหาเดิมคือมันเรียบเกินไปเมื่อเทียบกับ พื้นผิวรายละเอียดสูงแบบความถี่สูง ของภาพถ่ายธรรมชาติ
พอใช้ได้แค่ระดับลบอะไรบางอย่างออกจากภาพขนาดย่อเท่านั้น
เครื่องมือซ่อมแซมพื้นฐานของ Photoshop เมื่อหลายปีก่อนก็จัดการได้ระดับคล้าย ๆ กัน
อยากให้มีโมเดลแบบนี้สำหรับการแปลการ์ตูน ตอนนี้ฝั่งอนิเมะกับมังงะ โมเดล inpainting เบา ๆ ดูเหมือนว่า LaMa จะเป็นตัวเลือกมาตรฐานโดยพฤตินัย แต่ก็เป็นโมเดลที่มีอายุหลายปีแล้ว เลยน่าจะยังมีช่องให้ปรับปรุงได้
เลยสงสัยว่าโมเดลนี้จะเทรนใหม่หรือ fine-tune ได้ไหม เขาบอกว่าสร้าง “ผู้เชี่ยวชาญ” ได้ แล้วบางทีผู้เชี่ยวชาญนั้นอาจเข้าใจการแปลตัวละครหลายแบบได้ดีขึ้นก็ได้
แบบนี้แหละคือ AI ที่มีประโยชน์ มันเปิด use case ได้เยอะมากจริง ๆ
แต่คงไม่มีใครทุ่มเงิน 1 พันล้านดอลลาร์เพื่อทำระบบลบฝุ่นสุดมหัศจรรย์หรือแยกฉากได้สมบูรณ์แบบหรอก
สุดท้ายเลยกลายเป็นว่าต้องอัปโหลดขึ้นคลาวด์ แล้วไปขอร้อง โมเดล frontier แบบมัลติโหมดขนาดมหึมา อย่างสุภาพให้ช่วยทำแค่งานที่เราต้องการ
ผมไม่เข้าใจ ไม่รู้ว่ามีที่ไหนให้ลองใช้งาน หรือว่านี่เป็นแค่โฆษณา
แก้ไข: เหมือนจะเจอแล้ว
https://huggingface.co/hustvl/Moebius