Z-Image - โมเดลสร้างภาพที่ทรงพลังและมีประสิทธิภาพ

(github.com/Tongyi-MAI)

23 คะแนน โดย GN⁺ 2025-12-08 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลสร้างภาพของ Alibaba ที่ให้ ประสิทธิภาพระดับ Nano Banana Pro และเป็นโอเพนซอร์สภายใต้ไลเซนส์ Apache 2.0
โมเดลสร้างภาพที่มีประสิทธิภาพ ขนาด 6B พารามิเตอร์ โดยอิงสถาปัตยกรรม Single-Stream Diffusion Transformer
มีทั้งหมดสามเวอร์ชัน โดย Z-Image-Turbo สามารถให้คุณภาพระดับโมเดลคู่แข่งได้ด้วยการอนุมานเพียง 8 ขั้นตอน และทำงานได้แม้ในสภาพแวดล้อม 16GB VRAM
Z-Image-Edit มอบ ความสามารถในการแก้ไขภาพ ตามคำสั่งภาษาธรรมชาติ และ Z-Image-Base มีกำหนดเปิดเผยเป็นโมเดลพื้นฐานสำหรับการฟाइनจูนโดยชุมชน
โมเดลใช้ สถาปัตยกรรม S3-DiT เพื่อรวมโทเค็นข้อความ โทเค็นภาพ และโทเค็น VAE ไว้ในลำดับเดียว ทำให้ ประสิทธิภาพด้านพารามิเตอร์ สูงสุด
ผ่านอัลกอริทึม Decoupled-DMD และ DMDR จึงสร้างภาพคุณภาพสูงได้แม้ใช้เพียงไม่กี่ขั้นตอน และทำสถิติ ประสิทธิภาพระดับแนวหน้าของโมเดลโอเพนซอร์ส

ภาพรวมของ Z-Image

Z-Image คือ โมเดลสร้างภาพพื้นฐาน ที่มีทั้งประสิทธิภาพและสมรรถนะ โดยใช้โครงสร้าง single-stream diffusion transformer
มีพื้นฐานบน 6 พันล้านพารามิเตอร์ และมีโมเดลย่อย 3 แบบ ได้แก่ Z-Image-Turbo, Z-Image-Base, Z-Image-Edit
- Z-Image-Turbo: สร้างภาพคุณภาพสูงได้ด้วยการประเมินฟังก์ชัน (NFE) เพียง 8 ครั้ง และมี ค่าหน่วงการอนุมานต่ำกว่า 1 วินาทีบน H800 GPU
- Z-Image-Base: โมเดลพื้นฐานแบบไม่กลั่น สำหรับรองรับ การฟাইনจูนและการพัฒนาแบบคัสตอม โดยชุมชน
- Z-Image-Edit: เวอร์ชันที่ออกแบบเฉพาะสำหรับการแก้ไขภาพ พร้อมความสามารถ แปลงภาพตามภาษาธรรมชาติ

ฟีเจอร์และประสิทธิภาพหลัก

Z-Image-Turbo สามารถสร้าง ภาพสมจริงระดับภาพถ่าย และเรนเดอร์ข้อความสองภาษา อังกฤษ·จีน ได้อย่างแม่นยำ
ฟังก์ชัน Prompt Enhancer ช่วยเสริม ความสามารถในการให้คำบรรยายจากการอนุมานและความรู้เกี่ยวกับโลก
Z-Image-Edit รองรับ การแปลงภาพเชิงสร้างสรรค์ และ ความเข้าใจคำสั่งที่แม่นยำ
ในการประเมินความชอบของมนุษย์แบบอิง Elo ของ Alibaba AI Arena ทำสถิติ ประสิทธิภาพระดับแนวหน้าของโมเดลโอเพนซอร์ส

สถาปัตยกรรมโมเดล (S3-DiT)

ใช้โครงสร้าง Scalable Single-Stream DiT(S3-DiT)
- รวมข้อความ โทเค็นความหมายเชิงภาพ และโทเค็น VAE ของภาพ ไว้เป็นลำดับเดียว
- เพิ่ม ประสิทธิภาพด้านพารามิเตอร์สูงสุด เมื่อเทียบกับโครงสร้าง dual-stream แบบเดิม
โครงสร้างนี้ช่วยให้สามารถเรียนรู้ ตัวแทนร่วมระหว่างข้อความกับภาพ ได้

อัลกอริทึมหลัก

Decoupled-DMD
- Decoupled-DMD คือ อัลกอริทึมการกลั่นหลัก ที่ทำให้ Z-Image สามารถอนุมานได้ใน 8 ขั้นตอน
- แยก DMD (Distribution Matching Distillation) แบบเดิมออกเป็น 2 กลไก คือ CFG augmentation(CA) และ distribution matching(DM)
  - CA ทำหน้าที่เป็น เอนจินหลัก ของกระบวนการกลั่น
  - DM ทำหน้าที่เป็นการทำให้เป็นระเบียบเพื่อ คงเสถียรภาพและคุณภาพของผลลัพธ์
- ด้วยการแยกและปรับให้เหมาะสมทั้งสองกลไก จึงทำให้ การสร้างภาพประสิทธิภาพสูงแม้มีเพียงไม่กี่ขั้นตอน เป็นจริง
DMDR
- DMDR(Distribution Matching Distillation with Reinforcement Learning) คือเทคนิค post-training ที่ผสาน DMD เข้ากับ reinforcement learning(RL)
- เป็นโครงสร้างเสริมกันที่ RL ช่วย เพิ่มประสิทธิภาพสูงสุด ให้ DMD และ DMD ช่วย ทำให้ RL มีความเป็นระเบียบ
- ส่งผลให้ ความสอดคล้องเชิงความหมาย คุณภาพเชิงสุนทรียะ และความสม่ำเสมอของโครงสร้าง ดีขึ้น พร้อมเสริม ความสามารถในการแสดงรายละเอียดความถี่สูง

การสนับสนุนจากชุมชนและอีโคซิสเต็ม

Cache-DiT: รองรับ การเร่งการอนุมาน ผ่าน DBCache, Context Parallelism, Tensor Parallelism
stable-diffusion.cpp: เอนจินพื้นฐาน C++ ที่ทำให้ สามารถรัน Z-Image ได้แม้ในสภาพแวดล้อม 4GB VRAM
LeMiCa: มอบ การเร่งการอนุมานระดับ timestep โดยไม่ต้องเทรน
ComfyUI ZImageLatent: มอบอินเทอร์เฟซ latent ที่ใช้งานง่ายสำหรับ ความละเอียดอย่างเป็นทางการ

สรุป

Z-Image คือ โมเดลสร้างภาพโอเพนซอร์สสมรรถนะสูง ที่ผสานโครงสร้างที่มีประสิทธิภาพ (S3-DiT) กับเทคนิคการกลั่นแบบนวัตกรรม (Decoupled-DMD, DMDR)
Z-Image-Turbo ให้ทั้งการอนุมานที่รวดเร็วและคุณภาพสูง พร้อม สามารถทำงานได้บน GPU ระดับผู้บริโภค
Z-Image-Edit รองรับการแก้ไขภาพอย่างแม่นยำด้วยภาษาธรรมชาติ
ทำคะแนน ความชอบจากมนุษย์ระดับแนวหน้าของโมเดลโอเพนซอร์ส ใน Alibaba AI Arena
อีโคซิสเต็มของ Z-Image กำลังขยายไปเป็น แพลตฟอร์มโมเดลสร้างสรรค์อเนกประสงค์ ผ่านการบูรณาการกับโปรเจกต์ชุมชนหลากหลาย

3 ความคิดเห็น

crawler 2025-12-09

งานสร้างภาพบนเครื่องโลคัลติดอยู่กับ sdxl มานานมากจริงๆ แต่ดูเหมือนว่าจะมีเบสโมเดลดีๆ ออกมาแล้วเลยน่าคาดหวังมากครับ
เหนือสิ่งอื่นใด พอ Stable diffusion โด่งดังขึ้น การเซ็นเซอร์ก็หนักขึ้นจนฝึกโมเดลได้ยากเลยทีเดียว แต่การที่ตัวนี้ไม่มีการเซ็นเซอร์ก็น่าทึ่งมากจริงๆ

wedding 2025-12-08

ลองรันดูเพราะสงสัย พอไม่มีการเซ็นเซอร์ มันก็คงกลายเป็นมีดคมได้เลย...

GN⁺ 2025-12-08

ความเห็นจาก Hacker News

สัปดาห์ที่แล้วได้ลองทดสอบ Z-Image Turbo
- บน RTX 4090 ใช้เวลาราว 3 วินาทีจึงเร็วมาก และน่าทึ่งที่ยังคง ความสม่ำเสมอของภาพ ได้แม้ที่ความละเอียด 1536x1024~2048x2048
- สำหรับโมเดลขนาด 6B พารามิเตอร์ ความแม่นยำ ถือว่าน่าประทับใจ
- มีประสิทธิภาพเป็นพิเศษเมื่อนำไปโพสต์โปรเซส (refiner) ผลลัพธ์ของ Qwen-Image 20b โดย Qwen เข้าใจพรอมป์ตได้ดีเยี่ยม แต่มีแนวโน้มที่ภาพจะนุ่มและเบลอรวมกัน
- ตัวอย่างการทดสอบ
- ถ้าคิดจาก RTX 4090 คือ 3 วินาที แต่บน M1 Ultra ใช้ 8 วินาทีต่อ 1 สเต็ป และค่าปริยาย 9 สเต็ปก็เกิน 1 นาที
- ทำให้เห็นชัดว่า Apple Silicon ตามหลังมากแค่ไหนในการประมวลผล โมเดลที่ไม่ใช่ภาษา
- บน fal.ai สามารถสร้างได้ในเวลาไม่ถึง 1 วินาที และถ้าผสาน LoRA ก็สร้าง ภาพเฉพาะบุคคล ได้ภายใน 3 วินาที
- แม้เทียบกับ seedream, nanobanana และตัวอื่น ๆ ก็ยังจัดอยู่ในระดับท็อป 5 ในแง่ การผสมผสานระหว่างความเร็วกับคุณภาพ
- แต่ระหว่างการทดสอบผ่านเพียง 2 ใน 4 เคส เช่น แท่ง kitkat มีทั้งรูปทรงและโลโก้ที่ต่างออกไปโดยสิ้นเชิง และ DNA armor ก็ถูกแสดงเป็นเพียงวัสดุโลหะธรรมดา
- มีการพิมพ์ผิดในลิงก์ GitHub (gitub) จึงพาไปยังเว็บไซต์อันตราย ต้องระวัง
- จีนกำลังค้ำจุน ระบบนิเวศ AI แบบโอเพนเวต แทบทั้งหมดอยู่จริง ๆ หากในอนาคตตลาด GPU สำหรับผู้บริโภคยังเหลืออยู่ ก็น่าจะต้องยกความดีให้จีน
เป็นความก้าวหน้าที่น่าทึ่งมากที่ได้ผลลัพธ์แบบนี้จาก 6B พารามิเตอร์
- ชุมชนรับโมเดลนี้ไปใช้อย่างรวดเร็ว และ Flux(2) ก็แทบถูกลืมไปแล้ว
- Z-Image ได้รับความนิยมมากกว่าเพราะเป็น โมเดลที่ไม่ถูกเซ็นเซอร์ ขณะที่ BFL ผู้สร้าง Flux 2 ใช้พื้นที่ในข่าวประชาสัมพันธ์ไปมากกับการเน้นเรื่อง “ความปลอดภัย” (พูดอีกอย่างคือ การเซ็นเซอร์)
- แต่ “ความปลอดภัย” นั้นจริง ๆ แล้วเกี่ยวกับนโยบายของบริการออนไลน์มากกว่าตัวโมเดลเอง ในทางปฏิบัติจึงยังสร้างได้โดยไม่มีข้อจำกัด
- การพูดถึง “ความปลอดภัย” ที่แท้จริงก็เป็นเพียงข้อความถึงนักลงทุนว่า “เรา จะไม่ทำให้คุณเดือดร้อน” เท่านั้น
- คำว่า “lobotomizing” น่าสนใจดี เลยสงสัยว่าถ้านำมาใช้กับโมเดลสร้างภาพมันหมายถึงอะไรกันแน่
- แต่ถ้าโมเดลนี้ มาจากจีน ก็อาจจะสร้างภาพของสีจิ้นผิงไม่ได้
เมื่อไม่นานมานี้พอดแคสต์ Pretrained ได้พูดถึงโมเดลนี้
- มี โครงสร้างที่มีประสิทธิภาพ โดยนำแบ็กโบนเดิมกลับมาใช้ซ้ำกับการเข้ารหัสข้อความและ semantic token
- ฝึกด้วย ข้อมูลแคปชันสังเคราะห์ ที่มีความยาวหลากหลาย จึงมีความสามารถในการเข้าใจข้อความสูง
- มีการนำข้อความ OCR ภายในภาพเข้ามาอยู่ในการฝึก ทำให้คุณภาพการสร้างข้อความดีขึ้น โดย Nano Banana Pro ก็พัฒนาในแนวทางคล้ายกัน
ถ้าดู PDF เดโมอย่างเป็นทางการ จะเห็นว่ามีภาพผู้หญิงเดี่ยวเกือบ 50 ภาพ แต่ภาพผู้ชายเดี่ยวมีเพียง 2 ภาพเท่านั้น
- ตลาดเป้าหมาย ที่ผู้พัฒนาวางไว้ชัดเจนมาก
- ถ้าดูเว็บไซต์อย่าง civitai จริง ๆ แล้วภาพที่ผู้ใช้สร้างและ LoRA ส่วนใหญ่ก็สะท้อนตลาดนั้น
- สุดท้ายแล้วเทคโนโลยีแบบนี้ก็ถูกขับเคลื่อนโดย ความต้องการของผู้ชายวัยหนุ่ม
- ดูจากปฏิกิริยาในชุมชน r/stablediffusion แล้ว Flux 2 ดูเหมือนจะตายไปแล้วในทางปฏิบัติ แม้จะมีความรู้มากกว่ามาก แต่ Z-Image กลับได้รับความนิยมกว่า
- น่าสนใจตรงที่หนึ่งในโมเดลผู้ชายนั้นเป็น Tony Leung แบบไม่ต้องแก้ไขอะไรเลย
- เพราะโมเดลอยู่ในสภาพ ไม่ถูกเซ็นเซอร์ จึงน่าจะเข้ากับตลาดนั้นได้ดีกว่า
หลังจากลองใช้เอง ผลลัพธ์ค่อนข้างน่าผิดหวัง
- ภายนอกดูเหมือนโอเค แต่จริง ๆ แล้ว ความสามารถในการทำตามพรอมป์ต ยังอ่อน และวลีอย่าง “most cultures” ก็กลายเป็นภาพสไตล์การ์ตูนไป
Z-Image ถูกประเมินว่าเป็น ผู้สืบทอดที่แท้จริงของ Stable Diffusion 1.5
- ทั้งคุณภาพ ความสามารถในการขยายต่อ และการรันในเครื่องโลคัลล้วนดีขึ้น และระบบนิเวศก็กำลังก่อตัวอย่างรวดเร็ว
- แต่อยากถามเหมือนกันว่าลืม SDXL กันไปหรือยัง เพราะมันเพิ่งออกมาเมื่อ 2 ปีครึ่งก่อนเอง
ได้ทดสอบบน Framework Desktop แต่ ComfyUI ทำให้เกิด ข้อผิดพลาดเคอร์เนล amdgpu แถว ๆ 40 สเต็ป จนต้องเขียนโค้ดเลี่ยงปัญหาด้วยตัวเอง
- ได้ผลลัพธ์ที่โอเคจาก LoRA และแม้ใช้เพียง 8 สเต็ป (15~20 วินาที) ก็สร้างภาพที่ดูดีได้แล้ว
- ได้สร้าง โหนดเสริมพรอมป์ต บนพื้นฐานของ llama.cpp เพื่อยกระดับคุณภาพ
น่าทึ่งที่ ความรู้เกี่ยวกับโลก ระดับนี้อัดอยู่ใน 16GiB ได้
- แม้ยังอยู่ในระยะแรก แต่ต่อจากนี้ AI แบบรันในเครื่องจะพัฒนาไปในทางที่ เฉพาะบุคคลมากขึ้นและแฮ็กปรับแต่งได้มากขึ้น
- คิดว่าอนาคตจะเป็นแบบ โมเดลอัจฉริยะเป็นศูนย์กลาง อย่าง Nano Banana
- ต้องสามารถฉีดชั้นควบคุมเข้าไปในโมเดลได้โดยตรง ถึงจะใช้งานได้อย่างแท้จริง
- หวังว่าสักวันหนึ่งโมเดลระดับ Nano Banana Pro จะรันบนเครื่องโลคัลได้เช่นกัน
แต่โมเดลนี้ก็ยังได้รับผลกระทบจาก การเซ็นเซอร์ของจีน
- ถ้าขอ “Tank Man” หรือ “Lady Liberty Hong Kong” จะได้เพียงข้อความว่า “Maybe Not Safe” เท่านั้น
ในฐานะมือใหม่ด้าน AI ก็สงสัยว่ามันจะรันได้ไหมบน MacBook 24GB
- ในทางปฏิบัติ บน M5 MacBook Pro ใช้เวลา 399 วินาทีต่อภาพ และระหว่างนั้นระบบค้างไปเลย
- แต่บน replicate.com ใช้ 1.5 วินาทีต่อภาพ และคิดเป็นราคาระดับ 1 ดอลลาร์ต่อ 1000 ภาพ จึงมีประสิทธิภาพกว่ามาก
- สรุปคือ การรันในเครื่องบน Mac ไม่มีประสิทธิภาพ
- ถ้าเป็นมือใหม่ ComfyUI สำหรับ macOS น่าจะง่ายที่สุด แค่นำเข้าเวิร์กโฟลว์ของ Z-Image ก็สามารถติดตั้งโมเดลและรันได้อัตโนมัติ
- ยังมีวิธีรันด้วย koboldcpp ได้ทั้งบน Linux, Windows และ Mac โดยโหลดไฟล์ตั้งค่าแล้วใช้งานได้ทันทีผ่านเซิร์ฟเวอร์โลคัล (http://localhost:5001/sdui)