Qwen-Image: โมเดลสร้างภาพที่นำการเรนเดอร์ข้อความแบบเนทีฟมาใช้

(qwenlm.github.io)

1 คะแนน โดย GN⁺ 2025-08-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Qwen-Image เป็นโมเดลสร้างภาพพื้นฐาน MMDiT ขนาด 20B พารามิเตอร์ ที่มีจุดแข็งด้านการเรนเดอร์ข้อความแบบเนทีฟและการแก้ไขภาพที่แม่นยำ
ในการแสดงข้อความที่ซับซ้อนของ ภาษาหลายภาษา เช่น อัลฟาเบตและอักษรจีน ตอบสนองได้ด้วยความแม่นยำสูงและความสมบูรณ์ทางภาพ
ทำคะแนนได้สูงสุดในระดับเดียวกันบน benchmark สาธารณะหลากหลายรายการ (GenEval, DPG, OneIG-Bench ฯลฯ) และแสดงความสามารถในการสร้างข้อความอย่างโดดเด่น
ในเดโมจริง สามารถแสดงเลย์เอาต์ที่ซับซ้อนและสไตล์ที่หลากหลายได้อย่างแม่นยำ เช่น หลายภาษา โปสเตอร์ PPT และอิลลัสเตรชัน
รองรับฟังก์ชันการแก้ไข เช่น การแปลงสไตล์ การเพิ่ม/ลบวัตถุ การอธิบายรายละเอียด และการเปลี่ยนท่า พร้อมมุ่งขยายระบบนิเวศโอเพ่นซอร์ส

บทนำและจุดเด่นหลัก

Qwen-Image เป็นโมเดลพื้นฐานสร้างภาพ MMDiT ขนาด 20B พารามิเตอร์ ที่เชี่ยวชาญด้าน การเรนเดอร์ข้อความซับซ้อน และการแก้ไขภาพอย่างละเอียด
สามารถลองประสบการณ์โมเดลล่าสุดได้ใน Qwen Chat

คุณสมบัติหลัก

การเรนเดอร์ข้อความที่ยอดเยี่ยม: รองรับเลย์เอาต์หลายบรรทัด ความเข้าใจเชิงความหมายระดับย่อหน้า และการแสดงรายละเอียดระดับละเอียด
- รองรับทั้งระบบอักษรแบบอัลฟาเบตและระบบอักขระภาพ (เช่น อักษรจีน) ด้วยความคมชัดสูง
การแก้ไขภาพที่สอดคล้องกัน: การฝึกฝนแบบ multi-task ที่ปรับปรุงแล้วช่วยรักษาความแม่นยำเชิงความหมายและความสมจริงด้านภาพไปพร้อมกัน
ประสิทธิภาพใน benchmark ที่แข็งแกร่ง: ในภารกิจ การสร้างและการแก้ไข บนชุดวัดผลแบบสาธารณะต่าง ๆ ทำได้สูงสุดในระดับเดียวกัน
ในด้านการสร้างและแก้ไขข้อความ ทำได้ดีใน LongText-Bench, ChineseWord, TextCraft
ใช้งานได้อย่างกว้างขวางสำหรับงานเชิงสร้างสรรค์ เช่น การประดิษฐ์ การออกแบบ และการเล่าเรื่อง

ประสิทธิภาพและ benchmark

Qwen-Image ทำผลงานระดับ SOTA (state-of-the-art) ล่าสุดใน GenEval, DPG, OneIG-Bench (การสร้างภาพทั่วไป), GEdit, ImgEdit, GSO (การแก้ไข) และ benchmark อื่น ๆ
โดยเฉพาะด้านการสร้างข้อความภาษาจีน มีความเหนือกว่าโมเดลชั้นนำเดิมอย่างชัดเจน
ผสานความสามารถทั่วไปที่กว้างขวางเข้ากับการเรนเดอร์ข้อความที่แม่นยำ ทำให้กลายเป็นโมเดลนำด้านการสร้างภาพ

ตัวอย่างเดโม

การแสดงข้อความภาษาจีน

จากพรอมต์ตัวอย่าง สามารถถ่ายทอดสไตล์อนิเมชันแบบ Miyazaki ในขณะเดียวกันแสดงข้อความอย่างแม่นยำ เช่น “云存储”“云计算”“云模型” และอักขระจีนพิเศษ (“千问”)
การวางท่าทางและอารมณ์ใบหน้า ตัวละคร ตลอดถึงความลึกของฉากในภาพถูกสร้างอย่างเป็นธรรมชาติ

การแสดงข้อความจีนแบบซับซ้อน

แสดงรายละเอียดได้อย่างประณีต ตั้งแต่บทคู่นิพนธ์ การลายเส้นคัลลิกราฟี ไปจนถึงรายละเอียดเชิงองค์ประกอบเช่น Dae-ryeon, Hwi-ho, Cheong-hwa-ja
ตระกูลฟอนต์ การจัดเลย์เอาต์ และภาพประกอบ (เช่น 岳阳楼) ถูกสร้างได้สมจริงและครบถ้วน

ข้อความภาษาอังกฤษและหลายบรรทัด

สะท้อนข้อความอย่างละเอียดในตำแหน่งต่าง ๆ เช่น ชั้นวางร้านหนังสือ ป้ายประกาศ และโปสเตอร์
ตั้งแต่ข้อความ “New Arrivals This Week” จนถึงประโยคสั้นบนปกหนังสือ มีการนำเสนอฟอนต์และเลย์เอาต์ที่ใกล้เคียงของจริง

อินโฟกราฟิกภาษาอังกฤษที่ซับซ้อน

แยกและจัดวางอย่างแม่นยำในแต่ละโมดูลย่อยถึงระดับไอคอน+หัวข้อ+ย่อหน้าคำอธิบาย
อินโฟกราฟิกซับซ้อนที่เน้นหัวข้อ “Habits for Emotional Wellbeing” ถูกสร้างด้วยงานศิลป์ที่เป็นธรรมชาติและโครงสร้างที่สมดุล

ข้อความสั้นและข้อความยาวขนาดเล็ก

สร้างข้อความลายมือยาวได้อย่างละเอียด แม้ในพื้นที่ขนาดเล็กกว่า 1/10 ของภาพ
สามารถถ่ายทอดจำนวนประโยคจำนวนมากได้อย่างแม่นยำ ทั้งลายมือ การจัดวาง และการตัดบรรทัด

การผสมภาษาหลายภาษา

สร้างข้อความลายมือภาษาอังกฤษและภาษาจีนในภาพเดียวกันได้พร้อมกัน
สามารถสร้างข้อความได้อย่างเป็นธรรมชาติเมื่อมีการสลับภาษาในพรอมต์

การสร้างโปสเตอร์

สร้างโปสเตอร์ภาพยนตร์ รวมถึงซับไตเติล ข้อมูลนักแสดง ผู้กำกับ และข้อมูลการเปิดตัว โดยผสมผสานองค์ประกอบข้อความและภาพได้อย่างอิสระในสไตล์ต่าง ๆ เช่น Sci-Fi และกราฟิกดีไซน์

ตัวอย่าง PPT ภาษาเกาหลี

สร้างสไตล์ PPT AI/ธุรกิจล่าสุดได้อย่างสอดคล้อง ตั้งแต่โลโก้ Alibaba หัวเรื่องหลัก คำอธิบายรอง การจัดวางภาพผลงานศิลปะ ฟอนต์คัลลิกราฟี จนถึงรายละเอียดคำอธิบาย

การสร้างภาพทั่วไปและการแก้ไข

รองรับ สไตล์ศิลป์ที่หลากหลาย เช่น photo-real, impressionism, anime, minimal และอื่น ๆ เพื่อเพิ่มการใช้งานเชิงสร้างสรรค์ที่หลากหลาย
รองรับคำสั่งการแก้ไขภาพเชิงใช้งานจริงหลากหลาย เช่น การแปลงสไตล์ การเพิ่ม/ลบวัตถุ การเพิ่มความคมชัดและรายละเอียด การแก้ไขข้อความ และการปรับเปลี่ยนท่าทางร่างกาย

สรุป

Qwen-Image มุ่งเน้นการขยายขอบเขตการสร้างภาพ การลดอุปสรรคทางเทคโนโลยีในการผลิตเนื้อหาทางภาพ และการกระตุ้นการใช้งานเชิงสร้างสรรค์
ให้ความสำคัญกับความร่วมมือในชุมชน ความเปิดกว้าง และการสร้างระบบนิเวศ AI สร้างสรรค์ที่ยั่งยืน
วางแผนปรับปรุงความสามารถและขยายระบบนิเวศโอเพ่นบนฐานการใช้งานและข้อเสนอแนะจริงของผู้ใช้

1 ความคิดเห็น

GN⁺ 2025-08-05

ความคิดเห็นจาก Hacker News

ไม่แน่ใจว่าทำไมมันยังไม่เป็นกระแสใหญ่ขนาดนี้ —– นี่คือโมเดลโอเพ่นซอร์สตัวแรกที่เหนือกว่า gpt-image-1 ได้ในทุกด้าน และยังเหนือ Flux Kontext ในความสามารถด้านการแก้ไขด้วย เท่าที่เห็น ถือเป็นเรื่องใหญ่เลย
- ผมลองใช้งานโมเดลนี้มาเกือบหนึ่งชั่วโมงแล้ว โดยรวมดีมาก แต่จากการทดสอบรอบแรกของผมแล้ว ในกรณีของ การปฏิบัติตามพรอมต์ที่ซับซ้อน มันยังทำได้ด้อยกว่า gpt-image-1 (หรือ Imagen 3/4) ชัดเจน อัตราความสำเร็จอยู่ราว ~50% ในขณะที่ gpt-image-1 อยู่ที่ ~75% และยังจัดการเรื่องเขาวงกตหรือสมการ Schrödinger ไม่ได้ ผมลองผ่าน genai showdown
- จากหน้ารายการของพวกเขาอย่างเดียวยังไม่แน่ใจว่าโมเดลแก้ไขได้เปิดตัวอย่างเป็นทางการแล้วหรือยัง ดู คอมเมนต์ issue ของ GitHub
- ในมุมมองผม มันทำได้มากกว่า gpt-image-1 แน่นอน ทั้งการแปลงสไตล์, การเพิ่ม/ลบออบเจกต์, การแก้ไขข้อความ, การปรับท่าทางคน ตลอดจนการตรวจจับออบเจกต์, การแบ่งส่วนเชิงความหมาย, การประมาณความลึก/ขอบ, super-resolution และ NVS หรือ novel view synthesis (สร้างภาพจากมุมมองใหม่จากภาพต้นแบบ) ซึ่งเป็นความสามารถที่หลากหลายมาก ตอนเห็นผลลัพธ์รอบแรก คิดว่า gpt-image-1 ดูคมชัดและคมชัดกว่าเล็กน้อย ผมเลยสงสัยว่า OpenAI อาจมีการทำ post-processing แบบง่ายๆ เช่น unsharp mask เพิ่มจากการรันจริง เพราะพื้นที่ที่โฟกัสเบลอก็ยังดูคมชัดแบบสม่ำเสมอและบางครั้งก็มีความรู้สึกว่าเกินพอดี อย่างไรก็ตามภาพรวมแล้วน่าจะอยู่ระดับใกล้เคียงกัน เราคิดมาก่อนว่าทักษะการสร้างภาพแบบเฉพาะของ OpenAI จะคงได้เปรียบตลอดปีนี้ แต่เมื่อเห็นตรงนี้แล้วก็ยิ่งน่าตกตะลึง และ Flux Krea ออกมาได้เพิ่ง 4 วันเท่านั้น ถ้ารุ่นนี้ได้คุณภาพที่แทบเทียบเท่า gpt-image-1 ได้จริง นี่คือการเปลี่ยนเกมที่น่าตื่นตะลึงมาก
- ในความเห็นผมจุดที่ทำให้กระแสไม่ลุกแรงนักน่าจะเป็นเรื่องต้องการ 40GB VRAM โดยเฉพาะ โมเดล LLM แม้จะมีเทคนิคกระจายหลาย GPU ที่ค่อนข้าง mature แล้ว แต่สำหรับโมเดลภาพ แม้ใช้ GGUF format แล้วความก้าวหน้าก็ยังดูช้าจึงไม่ค่อยเข้าใจ เห็นได้ชัดว่าเมื่อโมเดลภาพใหญ่ขึ้น ยิ่งควรต้องมีการกระจายรันมากขึ้น
- ผ่านไปแค่ไม่กี่ชั่วโมงและเดโมยังมีบั๊กซ้ำๆ อยู่ จึงคิดว่าคนยังต้องใช้เวลาเพิ่มเพื่อจะได้ลองเล่นให้เพียงพอ คิดว่าความนิยมของ GGUF quantized และ workflow ของ Comfy ที่หลากหลายจะเป็นปัจจัยสำคัญมากเพราะผู้ใช้ส่วนใหญ่ต้องการรันบนเครื่อง local ของตัวเอง ขนาดของมันก็กว้างกว่าโมเดลอื่นพอสมควร ขีดสุดในการเปรียบเทียบครั้งนี้อาจเป็นอีกฝั่งของ Alibaba มากกว่าฟลักซ์ เช่น Wan 2.2 ที่ใช้สร้างภาพกำลังฮิตอยู่แล้ว ทำให้หลายคนอยากรู้ว่า Qwen-Image กระโดดก้าวหน้าจาก Wan 2.2 มากแค่ไหน โดยทั่วไปการประเมินจริงของโมเดลภาพใหม่ๆ มักชัดสุดประมาณหนึ่งสัปดาห์หลังเปิดตัว เมื่อถึงจุดนั้น ผู้ใช้จะได้ลองมากพอ และข้อดีข้อเสียเชิง 3rd-party ก็จะถูกจัดหน้าออกมา
รีวิวค่อนข้างดีมาก! ผมใส่มันไว้ใน GenAI Showdown แล้ว ได้คะแนนโดยรวมราว 40% และโดยรวมถือว่าเป็นโมเดลที่ดี โดยเฉพาะเมื่อมองจากมุมมองว่าเป็น SOTA ที่รันได้บน GPU สำหรับผู้บริโภค โดยเฉพาะเวอร์ชัน quantized แน่นอน ส่วนเรื่อง txt2img ตามพรอมต์แม่นน้อยกว่าของ OpenAI gpt-image-1 ชัดเจน แต่ในเธรดนี้ก็พูดถึงไว้แล้วว่าข้อได้เปรียบคือความสามารถด้านการแก้ไขที่หลากหลาย ดูได้ที่ genai showdown
- เพิ่มเติม: Imagen 3 กับ Imagen 4 เป็นโมเดลคนละตัวกัน จึงไม่เหมาะกับการเทียบรวมกัน
สำหรับคนที่ลองบ่อยอาจจะธรรมดา แต่ก็บอกว่าอยากรู้สเปกฮาร์ดแวร์ที่รันโมเดลนี้ได้เองได้ ผมลองบน Linux ที่มี GPU 16GB และ RAM 64GB แล้ว SD รันได้ แต่ไม่ว่าจะ GPU หรือ CPU, Qwen-image ก็ขึ้น error หน่วยความจำไม่พอว่ามันคงมีความต้องการมากขนาดไหน ต้องเพิ่มอีกสองเท่าเพียงพอหรือหลายเท่าหรือยังต้อง hardware โหดกว่าเดิม?
- สำหรับคนที่ทำแบบนี้บ่อยๆ อาจรู้สึกว่าความรู้สึกนี้ธรรมดานะ แต่ความจริงการคำนวณ VRAM ของ VLM/LLM ค่อนขับเป็นปัจจัยลึกลับ อย่างน้อยออนไลน์มีเครื่องคำนวณกว่าสิบตัว แต่แทบไม่มีตัวไหนแม่น เพราะขึ้นกับตัวแปรมากมาย เช่น quantization, KV caching, activation, layer ฯลฯ สุดๆ แล้วรุ่นนี้ดูเหมือนต้องการ VRAM เกิน 40GB RAM ระบบทั่วไป (ยกเว้น unified RAM บน Apple Silicon) มักไม่พอ และแม้แต่ Apple Silicon เองก็มี bandwidth หน่วยความจำต่ำ ทำให้ inference ช้ากว่า GPU/TPU อย่างมาก
- ขนาดไฟล์โมเดลคาดว่าใกล้เคียงกัน โดยในโฟลเดอร์ transformers จะเห็นไฟล์ 5GB ประมาณ 9 ไฟล์ สรุปว่าควรเผื่อ GPU 45GB VRAM และคาดว่ารุ่นเล็ก (ยอมลดคุณภาพ) ที่ quantized จะมีออกมาเร็วๆ นี้
- Qwen-Image ต้องการ VRAM อย่างน้อย 24GB ในแบบเต็ม ส่วน 4-bit quantized รุ่นที่ทำด้วย AutoGPTQ น่าจะรันได้ที่ราว 8GB VRAM
- น่าจะต้องรออีกไม่กี่วันถึงเวอร์ชัน quantized 4-bit ส่วนพารามิเตอร์อยู่ที่ 20B
- ใน production inference รันได้ลื่นที่ 1xH100
ต่างจากโมเดลสร้างภาพอื่นๆ ตรงที่ไม่ค่อยเปลี่ยนภาพทั้งหมดแบบไม่จำเป็นแบบ 4o image gen พอจะแก้เฉพาะเสื้อใน 4o ก็ยังเปลี่ยนหน้าถึงแม้แตะตรงนั้น โมเดลนี้เหมือนแทรกรอยเทียมของ AI เฉพาะบริเวณที่ต้องแก้จริงๆ
- เพราะฉะนั้น Flux Kontext จึงฮอตมาก เพราะเป็นแรงผลักดันด้าน img2img inpainting โดยไม่ต้อง mask ด้วยตัวเอง อ่านจาก บล็อกการแก้ไขด้วย Kontext
- ใน 4o ก็เลือกเฉพาะพื้นที่ที่ต้องการแก้และเหลือส่วนอื่นไว้ได้เหมือนเดิม
โมเดลโอเพ่นซอร์สจากจีนช่วงหลังกำลังดีขึ้นแบบผิดปกติ ข้อมูลแบบนี้ทำให้ยังมีความหวังอยู่เสมอ
มีใครรู้มั้ยว่ารุ่นแบบนี้สอนการเรนเดอร์ข้อความกันอย่างไร? ทุกโมเดลที่ผมลอง (รวมทั้ง OpenAI, Flux) มีปัญหาเดียวกัน คือข้อความไม่เนียน และเงา/การสะท้อนของตัวอักษรกับภาพรอบๆ มักไม่เข้ากับต้นฉบับ ราวกับว่าอาจมีเทคนิคที่ใช้ร่วมกันใช่ไหม?
- ในรายงานเทคนิคหน้า 14 อธิบายว่าพวกเขาฝังข้อความลงบนภาพเพื่อสร้างข้อมูลเทรนแบบ synthetic โดยไม่คำนึงถึงเงื่อนไขแสงเดิม จึงเหมือนกับ garbage in, garbage out คิดว่าในอนาคตถ้ามีวิธีสังเคราะห์ข้อความที่สมจริงมากขึ้นและเทรนต่อ โมเดลที่สร้างข้อความได้เป็นธรรมชาติกว่านี้คงเกิดขึ้นได้
แนะนำให้เช็ก Data Filtering ตอน 3.2 ของ paper ด้วย PDF ต้นฉบับ
- จุดที่น่าสนใจคือ มีเพียงภาษาอังกฤษและภาษาจีนที่ถูกกล่าวถึงหรือตัวอย่างปรากฏ ไม่พบการพูดถึงภาษาที่เหลือ
สงสัยว่าสเปกการ์ดขั้นต่ำที่เอาไปโฮสต์ใช้งานเองแล้วได้ผลลัพธ์ในทางปฏิบัติควรเป็นเท่าไหร่
พื้นที่แคนวาสสั้น
อยากรู้ว่าการเซนเซอร์เข้มข้นแค่ไหน
- ทุกครั้งที่มีโมเดลใหม่ คนในชุมชนมักให้ความสำคัญกับจุดนี้ก่อนเสมอ และความจริงแล้วแทบไม่มีองค์กรไหนอยากเผชิญหน้ากับด้านมืดของธรรมชาติคนได้อย่างชัดเจน ในขณะเดียวกัน สังคมและองค์กรของสหรัฐเหมือนจะมีความระแวดระวังและการกดดันแบบเซนซอร์เช่นเดียวกันอยู่เสมอ

Qwen-Image: โมเดลสร้างภาพที่นำการเรนเดอร์ข้อความแบบเนทีฟมาใช้

บทนำและจุดเด่นหลัก

คุณสมบัติหลัก

ประสิทธิภาพและ benchmark

ตัวอย่างเดโม

การแสดงข้อความภาษาจีน

การแสดงข้อความจีนแบบซับซ้อน

ข้อความภาษาอังกฤษและหลายบรรทัด

อินโฟกราฟิกภาษาอังกฤษที่ซับซ้อน

ข้อความสั้นและข้อความยาวขนาดเล็ก

การผสมภาษาหลายภาษา

การสร้างโปสเตอร์

ตัวอย่าง PPT ภาษาเกาหลี

การสร้างภาพทั่วไปและการแก้ไข

สรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News