- เป็นโมเดลสร้างภาพรุ่นถัดไปที่นำ สถาปัตยกรรมเดียวซึ่งรวมการสร้างและแก้ไขข้อความกับภาพเข้าด้วยกัน มาใช้งาน
- รองรับ คำสั่งยาว 1k โทเค็น จึงสร้างอินโฟกราฟิกซับซ้อนอย่าง PPT, โปสเตอร์, การ์ตูน ได้โดยตรง
- ทำได้พร้อมกันทั้ง การบรรยายภาพสมจริงอย่างละเอียดบนความละเอียด 2K และ การเรนเดอร์ตัวอักษรอย่างแม่นยำ
- ด้วย การทำโมเดลให้มีน้ำหนักเบา จึงเพิ่มความเร็วในการอนุมาน และทำผลงานได้โดดเด่นทั้งบนเบนช์มาร์ก text-to-image และ image-to-image
- ด้วยคุณลักษณะสำคัญ 5 ด้าน ได้แก่ ความแม่นยำ (准), ความซับซ้อน (多), สุนทรียภาพ (美), ความสมจริง (真), และการจัดแนว (齐) จึง เพิ่มประสิทธิภาพการสร้างคอนเทนต์ภาพระดับมืออาชีพได้สูงสุด
ภาพรวมของ Qwen-Image-2.0
- Qwen-Image-2.0 เป็น โมเดลพื้นฐานสำหรับการสร้างภาพรุ่นถัดไป ที่ใช้สถาปัตยกรรมเดียวซึ่งรวมการเรนเดอร์ข้อความและการแก้ไขภาพเข้าด้วยกัน
- ประมวลผล คำสั่งยาว 1k โทเค็น เพื่อสร้างอินโฟกราฟิกระดับมืออาชีพอย่าง PPT, โปสเตอร์, การ์ตูน ได้โดยตรง
- แสดงฉากสมจริงอย่างละเอียดของบุคคล ธรรมชาติ และสถาปัตยกรรมด้วย ความละเอียด 2K
- รวมความเข้าใจและการสร้างข้อความ ทำให้สร้างและแก้ไขภาพได้ในโหมดเดียว
- ได้ความเร็วในการอนุมานที่รวดเร็วด้วย โครงสร้างโมเดลแบบน้ำหนักเบา
- ในการทดสอบแบบ blind test ของ AI Arena ทำผลงานได้ ยอดเยี่ยมทั้งงาน text-to-image และ image-to-image
พัฒนาการของโมเดล
- ซีรีส์ Qwen-Image ได้พัฒนา สายงานการสร้างและสายงานการแก้ไข ควบคู่กันมา
- เดือนสิงหาคม 2025 Qwen-Image ได้เพิ่มความแม่นยำของการเรนเดอร์ข้อความ
- เดือนธันวาคม 2025 Qwen-Image-2512 ได้ปรับปรุงรายละเอียดและโฟโตเรียลลิสม์
- ในสายงานการแก้ไข ได้ขยายจากการแก้ไขภาพเดี่ยว (สิงหาคม) → การแก้ไขหลายภาพ (กันยายน) → การปรับปรุงความสอดคล้อง (ธันวาคม)
- Qwen-Image-2.0 รวมสองสายงานนี้เป็น โมเดลแบบรวมหนึ่งเดียว และให้ผลลัพธ์ยอดเยี่ยมทั้งด้านการสร้างและการแก้ไข
ความแม่นยำ (准) และความซับซ้อน (多)
- โมเดลสามารถถ่ายทอด องค์ประกอบแบบ “ภาพซ้อนในภาพ” ที่ซับซ้อน ได้อย่างแม่นยำ ช่วยเพิ่มประสิทธิภาพในการทำ PPT
- ตัวอย่างเช่น สร้างฉากผสมที่วางภาพของบุคคลเดียวกันสองภาพในแนวบนล่าง โดยยังคงความสอดคล้องทางภาพไว้
- ด้วย คำสั่งยาว 1k โทเค็น จึงเรนเดอร์อินโฟกราฟิกแบบหลายชั้นโครงสร้าง (เช่น รายงาน A/B test) ได้ครบถ้วน
- สามารถสร้างสื่อภาพระดับรายงานมืออาชีพที่มีองค์ประกอบซับซ้อน เช่น ตาราง กราฟ ตัวเลข และคำอธิบายประกอบ
- ใช้ความรู้เกี่ยวกับโลกของ LLM เพื่อ ขยายคำขอแบบสั้นให้เป็นพรอมป์ตบรรยายอย่างละเอียดโดยอัตโนมัติ ได้
- ตัวอย่าง: เปลี่ยนคำขอ “โปสเตอร์ท่องเที่ยว 2 วันในหางโจว” ให้เป็นองค์ประกอบละเอียดทั้งด้านสไตล์ ฉากหลัง และข้อความ
สุนทรียภาพ (美)
- สร้าง ความกลมกลืนด้านรูปแบบระหว่างข้อความกับภาพ ได้
- ถอดแบบ สไตล์จิตรกรรมและอักษรจีนดั้งเดิม ที่ผสานบทกวีกับภาพได้อย่างแม่นยำ
- แสดงรูปแบบตัวอักษรหลากหลาย (เช่น 瘦金体, 小字体) ได้อย่างประณีต
- ตัวอย่างเช่น ภาพหมึกจีนที่มีบทกวีสมัยซ่ง หรือ 「兰亭序」 ของหวังซีจือ ก็สามารถ ถ่ายทอดด้วย 小字体 ได้เกือบสมบูรณ์แบบ
ความสมจริง (真)
- แสดง การสะท้อนเชิงแสง วัสดุ และมิติระยะลึก ได้อย่างประณีต เพื่อเพิ่มความรู้สึกสมจริง
- ตัวอย่าง: เรนเดอร์ข้อความบนพื้นผิวที่ต่างกัน เช่น กระดานไวท์บอร์ดกระจก เสื้อผ้า และปกนิตยสาร ได้อย่างแม่นยำ
- สร้าง การถ่ายทอดแบบบูรณาการของแสง พื้นผิว และวัสดุ ในระดับโปสเตอร์ภาพยนตร์
- ตัวอย่าง: ในโปสเตอร์ 「千灯问心」 พื้นผิวโลหะ ฝน และผืนผ้าหลอมรวมกันอย่างเป็นธรรมชาติ
การจัดแนว (齐)
- ปรับการจัดแนวและการวางตำแหน่งโดยอัตโนมัติในโครงสร้างข้อความหลายส่วน เช่น ปฏิทิน การ์ตูน และอินโฟกราฟิก
- ตัวอย่าง: จัดวัน ปฏิทินจันทรคติ และคำอธิบายของปฏิทินเดือนกุมภาพันธ์ 2026 ให้อยู่ในกริดได้อย่างแม่นยำ
- จัดข้อความในบอลลูนคำพูดของการ์ตูนให้อยู่กึ่งกลาง เพื่อให้การไหลของบทสนทนาดูเป็นธรรมชาติ
- ในอินโฟกราฟิก OKR สามารถ จัดแนวบล็อกข้อความและลูกศรอัตโนมัติพร้อมแยกสี
เสริมความแข็งแกร่งด้านโฟโตเรียลลิสม์
- แยกแยะ เฉดสีเขียวมากกว่า 23 แบบ เพื่อถ่ายทอดความสมจริงทางนิเวศของป่าฤดูร้อน
- บรรยายได้ละเอียดแม้กระทั่งพื้นผิวใบไม้ แสงสะท้อน ความชื้น และอนุภาคในอากาศ
- ถ่ายทอด กล้ามเนื้อ สีหน้า และพื้นผิวของมนุษย์และสัตว์ ได้อย่างละเอียดแม่นยำ
- ตัวอย่าง: ในฉากที่ม้าเหยียบคน สามารถแสดงได้ถึงความตึงของกล้ามเนื้อ พื้นผิวผิวหนัง และอนุภาคฝุ่น
ความสามารถในการแก้ไขภาพ
- เป็น โมเดล Omni ที่รวมการสร้างและการแก้ไขเข้าด้วยกัน ทำให้การปรับปรุงฝั่งการสร้างสะท้อนมายังการแก้ไขโดยตรง
- สามารถ แทรกบทกวีและตัวอักษร ลงบนภาพเดิมได้
- ผสานบุคคลจากสองภาพ พร้อมคง ความสอดคล้องของแสงและเงาอย่างเป็นธรรมชาติ
- รองรับ การแก้ไขแบบผสมระหว่างภาพถ่ายจริงกับตัวละครการ์ตูน
- ตัวอย่างเช่น ในภาพผสมของคนสองคน หรือการแทรกตัวละครลงบนภาพเมือง ก็ให้ ผลลัพธ์การผสานที่เป็นธรรมชาติ
ภาพส่วนหัวบล็อก “Qwen Street”
- ใช้ ทิวทัศน์ถนนฤดูหนาวในปักกิ่ง เป็นฉากหลัง โดยมีร้านค้าสองร้านที่สื่อถึงความสามารถหลักของ Qwen-Image-2.0
- ป้ายร้านอักษรวิจิตรทางซ้าย: “文字渲染”, ภายในมี “专业幻灯片 中英文海报 高级信息图”
- ป้ายร้านดอกไม้ทางขวา: “真实质感”, ป้ายเหนือประตู “2k resolution”
- กระดานดำที่ตุ๊กตาหิมะตรงกลางถืออยู่: “Qwen-Image-2.0 正式发布”
- บนถนนมีไรเดอร์ส่งของที่มีข้อความ “更小模型,更快速度” ปรากฏอยู่
บทสรุป
- Qwen-Image-2.0 คือ โมเดลสร้างภาพแบบรวมหนึ่งเดียว ที่มีทั้งความแม่นยำ ความซับซ้อน สุนทรียภาพ ความสมจริง และการจัดแนว
- โมเดลนี้ทำลายเส้นแบ่งระหว่างข้อความกับภาพ และ ยกระดับการทำงานอัตโนมัติของการสร้างอินโฟกราฟิกและคอนเทนต์ภาพระดับมืออาชีพอย่างมาก
- เมื่อนำไปใช้ในการวิจัยหรือการสร้างสรรค์ แนะนำให้อ้างอิง Qwen-Image Technical Report (arXiv:2508.02324)
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
มีมนี้มีที่มาจากเหตุการณ์ที่พิธีกรชื่อดังชาวจีน Tsai Kang-yung (蔡康永) ใส่ชุดที่มีม้าติดอยู่บนหลังในงานประกาศรางวัล
ตอนนั้นเขามีข่าวลือพัวพันกับผู้ชายชื่อ ‘Ma Qiren (马启仁)’ ซึ่งชื่อดังกล่าวออกเสียงเหมือนกับคำว่า ‘คนขี่ม้า(马骑人)’ ในภาษาจีน
เหตุการณ์นี้แพร่กระจายบนอินเทอร์เน็ตจนกลายเป็นมีม ดังนั้นตัวอย่าง “man riding horse” จึงไม่ใช่อะไรที่โผล่มาแบบไร้ที่มาเสียทีเดียว
แต่ตัวภาพเองก็ยังให้บรรยากาศที่ ชวนไม่สบายใจและประหลาด อยู่ดี
ลิงก์รูปภาพ
ปกติฝั่ง ‘คนขี่ม้า’ จะง่ายกว่า แต่ ‘ม้าขี่คน’ เป็น embedding ที่ยากกว่า
พอดูพรอมป์ต์ที่แปลแล้ว ก็มีนัยเชิงเสียดสีประมาณว่า “ปีม้าพิชิตวิศวกรผิวขาว” อยู่ด้วย
ไม่อยากเห็นเลยว่า SD1.5 จะวาดสิ่งนี้ออกมายังไง
หรือก็คือ แม้ชื่อจะฟังคล้าย ‘คนขี่ม้า’ แต่ ไม่ได้แปลตรงตัว
บทความที่เกี่ยวข้อง: Horse Rides Astronaut Redux
อย่างเช่นบริษัทอเมริกันน่าจะกังวลเรื่องกระแสตีกลับ ถ้านำภาพแบบนี้ไปใช้ในตารางงานหรือสื่อประชาสัมพันธ์
ภาพตัวอย่าง
มันสร้างภาพ ‘นักบินอวกาศขี่ม้า’ ได้ดี แต่สุดท้ายก็ยังล้มเหลวกับภาพ ‘ม้าขี่นักบินอวกาศ’
ปัญหานี้ยังคงอยู่แม้ในโมเดลรุ่นใหม่ และทีม Qwen Image ก็น่าจะตระหนักถึง benchmark ที่ยาก นี้
ท้ายที่สุดแล้ว ‘นักบินอวกาศ = คน’ ดังนั้นการทดสอบนี้จึงเชื่อมโยงกลับไปยังมีมจีนดังกล่าว
1️⃣ จากแพตเทิร์นการปล่อยรุ่นก่อนหน้า มีโอกาสสูงว่า open weight จะออกภายใน 3~4 สัปดาห์
2️⃣ ดูเหมือนจะเล็งไปที่ โมเดลที่รันได้บน GPU สเปกไม่สูง แบบ Z‑Image Turbo(6B), Flux.2 Klein(9B)
3️⃣ เป็น โมเดลเดียว ที่รวมทั้งการสร้างและการแก้ไขภาพ จึงไม่จำเป็นต้องแยก Qwen‑Image กับ Qwen‑Edit
4️⃣ ใน GenAI Showdown ของฉัน Qwen‑Image ได้อันดับ 1 ด้านการแก้ไขในบรรดาโมเดลโลคัล และด้านการสร้างก็อยู่ระดับต้น ๆ
ถ้ามีเวอร์ชันโลคัลออกมา จะเพิ่มเข้าไปในเว็บ
ถ้าเป็นโมเดล 20B ก็ใช้ RAM 20GB ก็พอ และขนาดนี้แม้แต่ iGPU ก็ยังพอไหว
เครื่องแบบ unified RAM 128GB ก็จัดได้ราว 2,200 ดอลลาร์
เป็นเซ็ตอัปที่ถูกกว่าการซื้อ GPU แยกมาก
มันใช้ VAE ของตัวเอง แต่มีปัญหา high-frequency artifact
ส่วน Qwen 2 ใหม่ลดเหลือ 7B พารามิเตอร์ เบากว่ามาก และอัปเกรดเป็น Qwen 3 VL
ตอนนี้พัฒนาไปเป็นโมเดล Omni ที่รวมทั้ง Image และ Edit แล้ว
ตอนนี้ Z‑Image, Klein และ Qwen ทั้งสามโมเดลกำลังแข่งกันเพื่อชิงตำแหน่ง “SDXL2”
ถ้า open weight ถูกปล่อยออกมาจริงจะน่าสนใจมาก
ทุก ๆ 3~4 เดือน SOTA ก็เปลี่ยน และนวัตกรรมของไตรมาสก่อนก็กลายเป็นสินค้า API
ตอนนี้คอขวดไม่ใช่โมเดลแล้ว แต่เป็น คนที่ใช้พรอมป์ต์
ในการสร้างโค้ดก็เห็นแพตเทิร์นเดียวกัน
มันประกอบด้วย คำบรรยายที่สมจริงอย่างยิ่ง เช่น ทุ่งหญ้ารกร้าง ฝุ่นคละคลุ้ง และฉากที่ม้าสีน้ำตาลกดทับผู้ชาย
โดยรวมเป็นภาพที่สื่อถึงความตึงเครียดดิบเถื่อนและการปะทะกันของพลังทางชีวภาพ
ลิงก์ที่เกี่ยวข้อง
แต่เพราะมันไม่รองรับการสร้างภาพ เลยสงสัยว่าถ้าจะรัน diffusion model อย่าง Qwen บน Linux คนส่วนใหญ่ใช้เครื่องมืออะไรกัน
ชุมชนช่วยกันทำทุกอย่างตั้งแต่ quantization, แปลงเป็นฟอร์แมต gguf ไปจนถึงการปรับความเร็ว
ส่วนใหญ่ใช้
diffusersซึ่งแม้จะช้าแต่ รองรับสถาปัตยกรรมใหม่ได้เร็วเว็บไซต์ / รีลีสโน้ต
ถ้าใช้เครื่องหมายวรรคตอนสำหรับแนวตั้งโดยเฉพาะ (เช่น ︒) จะดูเป็นธรรมชาติกว่า
LinkedIn เต็มไปด้วยภาพแบบนั้น
แทบไม่มีใครที่ทำหรืออธิบายอินโฟกราฟิกดี ๆ ได้จริง
ดูตัวอย่างอื่นได้ใน เธรด Gas Town
การปล่อยครั้งล่าสุดอยู่ราวเดือน 12 ปี 2025
ถ้าใช้พรอมป์ต์เดียวกับในบล็อกจะทำงานได้ดี แต่ถ้าเปลี่ยนอินพุตนิดหน่อยก็จะ จำนวนแผงเพี้ยน หรือบทพูดภาษาอังกฤษกลายเป็นภาษาจีน
หมายความว่าตอนนี้มันยังเป็น ฟีเจอร์ที่ความสม่ำเสมอยังไม่ดีพอ
แต่ก็นะ ต่างคนต่างเลือก