- โมเดลสร้างภาพของ Alibaba ที่ให้ ประสิทธิภาพระดับ Nano Banana Pro และเป็นโอเพนซอร์สภายใต้ไลเซนส์ Apache 2.0
- โมเดลสร้างภาพที่มีประสิทธิภาพ ขนาด 6B พารามิเตอร์ โดยอิงสถาปัตยกรรม Single-Stream Diffusion Transformer
- มีทั้งหมดสามเวอร์ชัน โดย Z-Image-Turbo สามารถให้คุณภาพระดับโมเดลคู่แข่งได้ด้วยการอนุมานเพียง 8 ขั้นตอน และทำงานได้แม้ในสภาพแวดล้อม 16GB VRAM
- Z-Image-Edit มอบ ความสามารถในการแก้ไขภาพ ตามคำสั่งภาษาธรรมชาติ และ Z-Image-Base มีกำหนดเปิดเผยเป็นโมเดลพื้นฐานสำหรับการฟाइनจูนโดยชุมชน
- โมเดลใช้ สถาปัตยกรรม S3-DiT เพื่อรวมโทเค็นข้อความ โทเค็นภาพ และโทเค็น VAE ไว้ในลำดับเดียว ทำให้ ประสิทธิภาพด้านพารามิเตอร์ สูงสุด
- ผ่านอัลกอริทึม Decoupled-DMD และ DMDR จึงสร้างภาพคุณภาพสูงได้แม้ใช้เพียงไม่กี่ขั้นตอน และทำสถิติ ประสิทธิภาพระดับแนวหน้าของโมเดลโอเพนซอร์ส
ภาพรวมของ Z-Image
- Z-Image คือ โมเดลสร้างภาพพื้นฐาน ที่มีทั้งประสิทธิภาพและสมรรถนะ โดยใช้โครงสร้าง single-stream diffusion transformer
- มีพื้นฐานบน 6 พันล้านพารามิเตอร์ และมีโมเดลย่อย 3 แบบ ได้แก่ Z-Image-Turbo, Z-Image-Base, Z-Image-Edit
- Z-Image-Turbo: สร้างภาพคุณภาพสูงได้ด้วยการประเมินฟังก์ชัน (NFE) เพียง 8 ครั้ง และมี ค่าหน่วงการอนุมานต่ำกว่า 1 วินาทีบน H800 GPU
- Z-Image-Base: โมเดลพื้นฐานแบบไม่กลั่น สำหรับรองรับ การฟাইনจูนและการพัฒนาแบบคัสตอม โดยชุมชน
- Z-Image-Edit: เวอร์ชันที่ออกแบบเฉพาะสำหรับการแก้ไขภาพ พร้อมความสามารถ แปลงภาพตามภาษาธรรมชาติ
ฟีเจอร์และประสิทธิภาพหลัก
- Z-Image-Turbo สามารถสร้าง ภาพสมจริงระดับภาพถ่าย และเรนเดอร์ข้อความสองภาษา อังกฤษ·จีน ได้อย่างแม่นยำ
- ฟังก์ชัน Prompt Enhancer ช่วยเสริม ความสามารถในการให้คำบรรยายจากการอนุมานและความรู้เกี่ยวกับโลก
- Z-Image-Edit รองรับ การแปลงภาพเชิงสร้างสรรค์ และ ความเข้าใจคำสั่งที่แม่นยำ
- ในการประเมินความชอบของมนุษย์แบบอิง Elo ของ Alibaba AI Arena ทำสถิติ ประสิทธิภาพระดับแนวหน้าของโมเดลโอเพนซอร์ส
สถาปัตยกรรมโมเดล (S3-DiT)
- ใช้โครงสร้าง Scalable Single-Stream DiT(S3-DiT)
- รวมข้อความ โทเค็นความหมายเชิงภาพ และโทเค็น VAE ของภาพ ไว้เป็นลำดับเดียว
- เพิ่ม ประสิทธิภาพด้านพารามิเตอร์สูงสุด เมื่อเทียบกับโครงสร้าง dual-stream แบบเดิม
- โครงสร้างนี้ช่วยให้สามารถเรียนรู้ ตัวแทนร่วมระหว่างข้อความกับภาพ ได้
อัลกอริทึมหลัก
-
Decoupled-DMD
- Decoupled-DMD คือ อัลกอริทึมการกลั่นหลัก ที่ทำให้ Z-Image สามารถอนุมานได้ใน 8 ขั้นตอน
- แยก DMD (Distribution Matching Distillation) แบบเดิมออกเป็น 2 กลไก คือ CFG augmentation(CA) และ distribution matching(DM)
- CA ทำหน้าที่เป็น เอนจินหลัก ของกระบวนการกลั่น
- DM ทำหน้าที่เป็นการทำให้เป็นระเบียบเพื่อ คงเสถียรภาพและคุณภาพของผลลัพธ์
- ด้วยการแยกและปรับให้เหมาะสมทั้งสองกลไก จึงทำให้ การสร้างภาพประสิทธิภาพสูงแม้มีเพียงไม่กี่ขั้นตอน เป็นจริง
-
DMDR
- DMDR(Distribution Matching Distillation with Reinforcement Learning) คือเทคนิค post-training ที่ผสาน DMD เข้ากับ reinforcement learning(RL)
- เป็นโครงสร้างเสริมกันที่ RL ช่วย เพิ่มประสิทธิภาพสูงสุด ให้ DMD และ DMD ช่วย ทำให้ RL มีความเป็นระเบียบ
- ส่งผลให้ ความสอดคล้องเชิงความหมาย คุณภาพเชิงสุนทรียะ และความสม่ำเสมอของโครงสร้าง ดีขึ้น พร้อมเสริม ความสามารถในการแสดงรายละเอียดความถี่สูง
การสนับสนุนจากชุมชนและอีโคซิสเต็ม
- Cache-DiT: รองรับ การเร่งการอนุมาน ผ่าน DBCache, Context Parallelism, Tensor Parallelism
- stable-diffusion.cpp: เอนจินพื้นฐาน C++ ที่ทำให้ สามารถรัน Z-Image ได้แม้ในสภาพแวดล้อม 4GB VRAM
- LeMiCa: มอบ การเร่งการอนุมานระดับ timestep โดยไม่ต้องเทรน
- ComfyUI ZImageLatent: มอบอินเทอร์เฟซ latent ที่ใช้งานง่ายสำหรับ ความละเอียดอย่างเป็นทางการ
สรุป
- Z-Image คือ โมเดลสร้างภาพโอเพนซอร์สสมรรถนะสูง ที่ผสานโครงสร้างที่มีประสิทธิภาพ (S3-DiT) กับเทคนิคการกลั่นแบบนวัตกรรม (Decoupled-DMD, DMDR)
- Z-Image-Turbo ให้ทั้งการอนุมานที่รวดเร็วและคุณภาพสูง พร้อม สามารถทำงานได้บน GPU ระดับผู้บริโภค
- Z-Image-Edit รองรับการแก้ไขภาพอย่างแม่นยำด้วยภาษาธรรมชาติ
- ทำคะแนน ความชอบจากมนุษย์ระดับแนวหน้าของโมเดลโอเพนซอร์ส ใน Alibaba AI Arena
- อีโคซิสเต็มของ Z-Image กำลังขยายไปเป็น แพลตฟอร์มโมเดลสร้างสรรค์อเนกประสงค์ ผ่านการบูรณาการกับโปรเจกต์ชุมชนหลากหลาย
3 ความคิดเห็น
งานสร้างภาพบนเครื่องโลคัลติดอยู่กับ
sdxlมานานมากจริงๆ แต่ดูเหมือนว่าจะมีเบสโมเดลดีๆ ออกมาแล้วเลยน่าคาดหวังมากครับเหนือสิ่งอื่นใด พอ
Stable diffusionโด่งดังขึ้น การเซ็นเซอร์ก็หนักขึ้นจนฝึกโมเดลได้ยากเลยทีเดียว แต่การที่ตัวนี้ไม่มีการเซ็นเซอร์ก็น่าทึ่งมากจริงๆลองรันดูเพราะสงสัย พอไม่มีการเซ็นเซอร์ มันก็คงกลายเป็นมีดคมได้เลย...
ความเห็นจาก Hacker News
สัปดาห์ที่แล้วได้ลองทดสอบ Z-Image Turbo
เป็นความก้าวหน้าที่น่าทึ่งมากที่ได้ผลลัพธ์แบบนี้จาก 6B พารามิเตอร์
เมื่อไม่นานมานี้พอดแคสต์ Pretrained ได้พูดถึงโมเดลนี้
ถ้าดู PDF เดโมอย่างเป็นทางการ จะเห็นว่ามีภาพผู้หญิงเดี่ยวเกือบ 50 ภาพ แต่ภาพผู้ชายเดี่ยวมีเพียง 2 ภาพเท่านั้น
หลังจากลองใช้เอง ผลลัพธ์ค่อนข้างน่าผิดหวัง
Z-Image ถูกประเมินว่าเป็น ผู้สืบทอดที่แท้จริงของ Stable Diffusion 1.5
ได้ทดสอบบน Framework Desktop แต่ ComfyUI ทำให้เกิด ข้อผิดพลาดเคอร์เนล amdgpu แถว ๆ 40 สเต็ป จนต้องเขียนโค้ดเลี่ยงปัญหาด้วยตัวเอง
น่าทึ่งที่ ความรู้เกี่ยวกับโลก ระดับนี้อัดอยู่ใน 16GiB ได้
แต่โมเดลนี้ก็ยังได้รับผลกระทบจาก การเซ็นเซอร์ของจีน
ในฐานะมือใหม่ด้าน AI ก็สงสัยว่ามันจะรันได้ไหมบน MacBook 24GB