23 คะแนน โดย GN⁺ 2025-12-08 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลสร้างภาพของ Alibaba ที่ให้ ประสิทธิภาพระดับ Nano Banana Pro และเป็นโอเพนซอร์สภายใต้ไลเซนส์ Apache 2.0
  • โมเดลสร้างภาพที่มีประสิทธิภาพ ขนาด 6B พารามิเตอร์ โดยอิงสถาปัตยกรรม Single-Stream Diffusion Transformer
  • มีทั้งหมดสามเวอร์ชัน โดย Z-Image-Turbo สามารถให้คุณภาพระดับโมเดลคู่แข่งได้ด้วยการอนุมานเพียง 8 ขั้นตอน และทำงานได้แม้ในสภาพแวดล้อม 16GB VRAM
  • Z-Image-Edit มอบ ความสามารถในการแก้ไขภาพ ตามคำสั่งภาษาธรรมชาติ และ Z-Image-Base มีกำหนดเปิดเผยเป็นโมเดลพื้นฐานสำหรับการฟाइनจูนโดยชุมชน
  • โมเดลใช้ สถาปัตยกรรม S3-DiT เพื่อรวมโทเค็นข้อความ โทเค็นภาพ และโทเค็น VAE ไว้ในลำดับเดียว ทำให้ ประสิทธิภาพด้านพารามิเตอร์ สูงสุด
  • ผ่านอัลกอริทึม Decoupled-DMD และ DMDR จึงสร้างภาพคุณภาพสูงได้แม้ใช้เพียงไม่กี่ขั้นตอน และทำสถิติ ประสิทธิภาพระดับแนวหน้าของโมเดลโอเพนซอร์ส

ภาพรวมของ Z-Image

  • Z-Image คือ โมเดลสร้างภาพพื้นฐาน ที่มีทั้งประสิทธิภาพและสมรรถนะ โดยใช้โครงสร้าง single-stream diffusion transformer
  • มีพื้นฐานบน 6 พันล้านพารามิเตอร์ และมีโมเดลย่อย 3 แบบ ได้แก่ Z-Image-Turbo, Z-Image-Base, Z-Image-Edit
    • Z-Image-Turbo: สร้างภาพคุณภาพสูงได้ด้วยการประเมินฟังก์ชัน (NFE) เพียง 8 ครั้ง และมี ค่าหน่วงการอนุมานต่ำกว่า 1 วินาทีบน H800 GPU
    • Z-Image-Base: โมเดลพื้นฐานแบบไม่กลั่น สำหรับรองรับ การฟাইনจูนและการพัฒนาแบบคัสตอม โดยชุมชน
    • Z-Image-Edit: เวอร์ชันที่ออกแบบเฉพาะสำหรับการแก้ไขภาพ พร้อมความสามารถ แปลงภาพตามภาษาธรรมชาติ

ฟีเจอร์และประสิทธิภาพหลัก

  • Z-Image-Turbo สามารถสร้าง ภาพสมจริงระดับภาพถ่าย และเรนเดอร์ข้อความสองภาษา อังกฤษ·จีน ได้อย่างแม่นยำ
  • ฟังก์ชัน Prompt Enhancer ช่วยเสริม ความสามารถในการให้คำบรรยายจากการอนุมานและความรู้เกี่ยวกับโลก
  • Z-Image-Edit รองรับ การแปลงภาพเชิงสร้างสรรค์ และ ความเข้าใจคำสั่งที่แม่นยำ
  • ในการประเมินความชอบของมนุษย์แบบอิง Elo ของ Alibaba AI Arena ทำสถิติ ประสิทธิภาพระดับแนวหน้าของโมเดลโอเพนซอร์ส

สถาปัตยกรรมโมเดล (S3-DiT)

  • ใช้โครงสร้าง Scalable Single-Stream DiT(S3-DiT)
    • รวมข้อความ โทเค็นความหมายเชิงภาพ และโทเค็น VAE ของภาพ ไว้เป็นลำดับเดียว
    • เพิ่ม ประสิทธิภาพด้านพารามิเตอร์สูงสุด เมื่อเทียบกับโครงสร้าง dual-stream แบบเดิม
  • โครงสร้างนี้ช่วยให้สามารถเรียนรู้ ตัวแทนร่วมระหว่างข้อความกับภาพ ได้

อัลกอริทึมหลัก

  • Decoupled-DMD

    • Decoupled-DMD คือ อัลกอริทึมการกลั่นหลัก ที่ทำให้ Z-Image สามารถอนุมานได้ใน 8 ขั้นตอน
    • แยก DMD (Distribution Matching Distillation) แบบเดิมออกเป็น 2 กลไก คือ CFG augmentation(CA) และ distribution matching(DM)
      • CA ทำหน้าที่เป็น เอนจินหลัก ของกระบวนการกลั่น
      • DM ทำหน้าที่เป็นการทำให้เป็นระเบียบเพื่อ คงเสถียรภาพและคุณภาพของผลลัพธ์
    • ด้วยการแยกและปรับให้เหมาะสมทั้งสองกลไก จึงทำให้ การสร้างภาพประสิทธิภาพสูงแม้มีเพียงไม่กี่ขั้นตอน เป็นจริง
  • DMDR

    • DMDR(Distribution Matching Distillation with Reinforcement Learning) คือเทคนิค post-training ที่ผสาน DMD เข้ากับ reinforcement learning(RL)
    • เป็นโครงสร้างเสริมกันที่ RL ช่วย เพิ่มประสิทธิภาพสูงสุด ให้ DMD และ DMD ช่วย ทำให้ RL มีความเป็นระเบียบ
    • ส่งผลให้ ความสอดคล้องเชิงความหมาย คุณภาพเชิงสุนทรียะ และความสม่ำเสมอของโครงสร้าง ดีขึ้น พร้อมเสริม ความสามารถในการแสดงรายละเอียดความถี่สูง

การสนับสนุนจากชุมชนและอีโคซิสเต็ม

  • Cache-DiT: รองรับ การเร่งการอนุมาน ผ่าน DBCache, Context Parallelism, Tensor Parallelism
  • stable-diffusion.cpp: เอนจินพื้นฐาน C++ ที่ทำให้ สามารถรัน Z-Image ได้แม้ในสภาพแวดล้อม 4GB VRAM
  • LeMiCa: มอบ การเร่งการอนุมานระดับ timestep โดยไม่ต้องเทรน
  • ComfyUI ZImageLatent: มอบอินเทอร์เฟซ latent ที่ใช้งานง่ายสำหรับ ความละเอียดอย่างเป็นทางการ

สรุป

  • Z-Image คือ โมเดลสร้างภาพโอเพนซอร์สสมรรถนะสูง ที่ผสานโครงสร้างที่มีประสิทธิภาพ (S3-DiT) กับเทคนิคการกลั่นแบบนวัตกรรม (Decoupled-DMD, DMDR)
  • Z-Image-Turbo ให้ทั้งการอนุมานที่รวดเร็วและคุณภาพสูง พร้อม สามารถทำงานได้บน GPU ระดับผู้บริโภค
  • Z-Image-Edit รองรับการแก้ไขภาพอย่างแม่นยำด้วยภาษาธรรมชาติ
  • ทำคะแนน ความชอบจากมนุษย์ระดับแนวหน้าของโมเดลโอเพนซอร์ส ใน Alibaba AI Arena
  • อีโคซิสเต็มของ Z-Image กำลังขยายไปเป็น แพลตฟอร์มโมเดลสร้างสรรค์อเนกประสงค์ ผ่านการบูรณาการกับโปรเจกต์ชุมชนหลากหลาย

3 ความคิดเห็น

 
crawler 2025-12-09

งานสร้างภาพบนเครื่องโลคัลติดอยู่กับ sdxl มานานมากจริงๆ แต่ดูเหมือนว่าจะมีเบสโมเดลดีๆ ออกมาแล้วเลยน่าคาดหวังมากครับ
เหนือสิ่งอื่นใด พอ Stable diffusion โด่งดังขึ้น การเซ็นเซอร์ก็หนักขึ้นจนฝึกโมเดลได้ยากเลยทีเดียว แต่การที่ตัวนี้ไม่มีการเซ็นเซอร์ก็น่าทึ่งมากจริงๆ

 
wedding 2025-12-08

ลองรันดูเพราะสงสัย พอไม่มีการเซ็นเซอร์ มันก็คงกลายเป็นมีดคมได้เลย...

 
GN⁺ 2025-12-08
ความเห็นจาก Hacker News
  • สัปดาห์ที่แล้วได้ลองทดสอบ Z-Image Turbo

    • บน RTX 4090 ใช้เวลาราว 3 วินาทีจึงเร็วมาก และน่าทึ่งที่ยังคง ความสม่ำเสมอของภาพ ได้แม้ที่ความละเอียด 1536x1024~2048x2048
    • สำหรับโมเดลขนาด 6B พารามิเตอร์ ความแม่นยำ ถือว่าน่าประทับใจ
    • มีประสิทธิภาพเป็นพิเศษเมื่อนำไปโพสต์โปรเซส (refiner) ผลลัพธ์ของ Qwen-Image 20b โดย Qwen เข้าใจพรอมป์ตได้ดีเยี่ยม แต่มีแนวโน้มที่ภาพจะนุ่มและเบลอรวมกัน
    • ตัวอย่างการทดสอบ
    • ถ้าคิดจาก RTX 4090 คือ 3 วินาที แต่บน M1 Ultra ใช้ 8 วินาทีต่อ 1 สเต็ป และค่าปริยาย 9 สเต็ปก็เกิน 1 นาที
    • ทำให้เห็นชัดว่า Apple Silicon ตามหลังมากแค่ไหนในการประมวลผล โมเดลที่ไม่ใช่ภาษา
    • บน fal.ai สามารถสร้างได้ในเวลาไม่ถึง 1 วินาที และถ้าผสาน LoRA ก็สร้าง ภาพเฉพาะบุคคล ได้ภายใน 3 วินาที
    • แม้เทียบกับ seedream, nanobanana และตัวอื่น ๆ ก็ยังจัดอยู่ในระดับท็อป 5 ในแง่ การผสมผสานระหว่างความเร็วกับคุณภาพ
    • แต่ระหว่างการทดสอบผ่านเพียง 2 ใน 4 เคส เช่น แท่ง kitkat มีทั้งรูปทรงและโลโก้ที่ต่างออกไปโดยสิ้นเชิง และ DNA armor ก็ถูกแสดงเป็นเพียงวัสดุโลหะธรรมดา
    • มีการพิมพ์ผิดในลิงก์ GitHub (gitub) จึงพาไปยังเว็บไซต์อันตราย ต้องระวัง
    • จีนกำลังค้ำจุน ระบบนิเวศ AI แบบโอเพนเวต แทบทั้งหมดอยู่จริง ๆ หากในอนาคตตลาด GPU สำหรับผู้บริโภคยังเหลืออยู่ ก็น่าจะต้องยกความดีให้จีน
  • เป็นความก้าวหน้าที่น่าทึ่งมากที่ได้ผลลัพธ์แบบนี้จาก 6B พารามิเตอร์

    • ชุมชนรับโมเดลนี้ไปใช้อย่างรวดเร็ว และ Flux(2) ก็แทบถูกลืมไปแล้ว
    • Z-Image ได้รับความนิยมมากกว่าเพราะเป็น โมเดลที่ไม่ถูกเซ็นเซอร์ ขณะที่ BFL ผู้สร้าง Flux 2 ใช้พื้นที่ในข่าวประชาสัมพันธ์ไปมากกับการเน้นเรื่อง “ความปลอดภัย” (พูดอีกอย่างคือ การเซ็นเซอร์)
    • แต่ “ความปลอดภัย” นั้นจริง ๆ แล้วเกี่ยวกับนโยบายของบริการออนไลน์มากกว่าตัวโมเดลเอง ในทางปฏิบัติจึงยังสร้างได้โดยไม่มีข้อจำกัด
    • การพูดถึง “ความปลอดภัย” ที่แท้จริงก็เป็นเพียงข้อความถึงนักลงทุนว่า “เรา จะไม่ทำให้คุณเดือดร้อน” เท่านั้น
    • คำว่า “lobotomizing” น่าสนใจดี เลยสงสัยว่าถ้านำมาใช้กับโมเดลสร้างภาพมันหมายถึงอะไรกันแน่
    • แต่ถ้าโมเดลนี้ มาจากจีน ก็อาจจะสร้างภาพของสีจิ้นผิงไม่ได้
  • เมื่อไม่นานมานี้พอดแคสต์ Pretrained ได้พูดถึงโมเดลนี้

    • มี โครงสร้างที่มีประสิทธิภาพ โดยนำแบ็กโบนเดิมกลับมาใช้ซ้ำกับการเข้ารหัสข้อความและ semantic token
    • ฝึกด้วย ข้อมูลแคปชันสังเคราะห์ ที่มีความยาวหลากหลาย จึงมีความสามารถในการเข้าใจข้อความสูง
    • มีการนำข้อความ OCR ภายในภาพเข้ามาอยู่ในการฝึก ทำให้คุณภาพการสร้างข้อความดีขึ้น โดย Nano Banana Pro ก็พัฒนาในแนวทางคล้ายกัน
  • ถ้าดู PDF เดโมอย่างเป็นทางการ จะเห็นว่ามีภาพผู้หญิงเดี่ยวเกือบ 50 ภาพ แต่ภาพผู้ชายเดี่ยวมีเพียง 2 ภาพเท่านั้น

    • ตลาดเป้าหมาย ที่ผู้พัฒนาวางไว้ชัดเจนมาก
    • ถ้าดูเว็บไซต์อย่าง civitai จริง ๆ แล้วภาพที่ผู้ใช้สร้างและ LoRA ส่วนใหญ่ก็สะท้อนตลาดนั้น
    • สุดท้ายแล้วเทคโนโลยีแบบนี้ก็ถูกขับเคลื่อนโดย ความต้องการของผู้ชายวัยหนุ่ม
    • ดูจากปฏิกิริยาในชุมชน r/stablediffusion แล้ว Flux 2 ดูเหมือนจะตายไปแล้วในทางปฏิบัติ แม้จะมีความรู้มากกว่ามาก แต่ Z-Image กลับได้รับความนิยมกว่า
    • น่าสนใจตรงที่หนึ่งในโมเดลผู้ชายนั้นเป็น Tony Leung แบบไม่ต้องแก้ไขอะไรเลย
    • เพราะโมเดลอยู่ในสภาพ ไม่ถูกเซ็นเซอร์ จึงน่าจะเข้ากับตลาดนั้นได้ดีกว่า
  • หลังจากลองใช้เอง ผลลัพธ์ค่อนข้างน่าผิดหวัง

    • ภายนอกดูเหมือนโอเค แต่จริง ๆ แล้ว ความสามารถในการทำตามพรอมป์ต ยังอ่อน และวลีอย่าง “most cultures” ก็กลายเป็นภาพสไตล์การ์ตูนไป
  • Z-Image ถูกประเมินว่าเป็น ผู้สืบทอดที่แท้จริงของ Stable Diffusion 1.5

    • ทั้งคุณภาพ ความสามารถในการขยายต่อ และการรันในเครื่องโลคัลล้วนดีขึ้น และระบบนิเวศก็กำลังก่อตัวอย่างรวดเร็ว
    • แต่อยากถามเหมือนกันว่าลืม SDXL กันไปหรือยัง เพราะมันเพิ่งออกมาเมื่อ 2 ปีครึ่งก่อนเอง
  • ได้ทดสอบบน Framework Desktop แต่ ComfyUI ทำให้เกิด ข้อผิดพลาดเคอร์เนล amdgpu แถว ๆ 40 สเต็ป จนต้องเขียนโค้ดเลี่ยงปัญหาด้วยตัวเอง

    • ได้ผลลัพธ์ที่โอเคจาก LoRA และแม้ใช้เพียง 8 สเต็ป (15~20 วินาที) ก็สร้างภาพที่ดูดีได้แล้ว
    • ได้สร้าง โหนดเสริมพรอมป์ต บนพื้นฐานของ llama.cpp เพื่อยกระดับคุณภาพ
  • น่าทึ่งที่ ความรู้เกี่ยวกับโลก ระดับนี้อัดอยู่ใน 16GiB ได้

    • แม้ยังอยู่ในระยะแรก แต่ต่อจากนี้ AI แบบรันในเครื่องจะพัฒนาไปในทางที่ เฉพาะบุคคลมากขึ้นและแฮ็กปรับแต่งได้มากขึ้น
    • คิดว่าอนาคตจะเป็นแบบ โมเดลอัจฉริยะเป็นศูนย์กลาง อย่าง Nano Banana
    • ต้องสามารถฉีดชั้นควบคุมเข้าไปในโมเดลได้โดยตรง ถึงจะใช้งานได้อย่างแท้จริง
    • หวังว่าสักวันหนึ่งโมเดลระดับ Nano Banana Pro จะรันบนเครื่องโลคัลได้เช่นกัน
  • แต่โมเดลนี้ก็ยังได้รับผลกระทบจาก การเซ็นเซอร์ของจีน

    • ถ้าขอ “Tank Man” หรือ “Lady Liberty Hong Kong” จะได้เพียงข้อความว่า “Maybe Not Safe” เท่านั้น
  • ในฐานะมือใหม่ด้าน AI ก็สงสัยว่ามันจะรันได้ไหมบน MacBook 24GB

    • ในทางปฏิบัติ บน M5 MacBook Pro ใช้เวลา 399 วินาทีต่อภาพ และระหว่างนั้นระบบค้างไปเลย
    • แต่บน replicate.com ใช้ 1.5 วินาทีต่อภาพ และคิดเป็นราคาระดับ 1 ดอลลาร์ต่อ 1000 ภาพ จึงมีประสิทธิภาพกว่ามาก
    • สรุปคือ การรันในเครื่องบน Mac ไม่มีประสิทธิภาพ
    • ถ้าเป็นมือใหม่ ComfyUI สำหรับ macOS น่าจะง่ายที่สุด แค่นำเข้าเวิร์กโฟลว์ของ Z-Image ก็สามารถติดตั้งโมเดลและรันได้อัตโนมัติ
    • ยังมีวิธีรันด้วย koboldcpp ได้ทั้งบน Linux, Windows และ Mac โดยโหลดไฟล์ตั้งค่าแล้วใช้งานได้ทันทีผ่านเซิร์ฟเวอร์โลคัล (http://localhost:5001/sdui)