Qwen-Image-2.0: อินโฟกราฟิกระดับมืออาชีพและโฟโตเรียลลิสม์ที่ประณีต

(qwen.ai)

10 คะแนน โดย GN⁺ 2026-02-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เป็นโมเดลสร้างภาพรุ่นถัดไปที่นำ สถาปัตยกรรมเดียวซึ่งรวมการสร้างและแก้ไขข้อความกับภาพเข้าด้วยกัน มาใช้งาน
รองรับ คำสั่งยาว 1k โทเค็น จึงสร้างอินโฟกราฟิกซับซ้อนอย่าง PPT, โปสเตอร์, การ์ตูน ได้โดยตรง
ทำได้พร้อมกันทั้ง การบรรยายภาพสมจริงอย่างละเอียดบนความละเอียด 2K และ การเรนเดอร์ตัวอักษรอย่างแม่นยำ
ด้วย การทำโมเดลให้มีน้ำหนักเบา จึงเพิ่มความเร็วในการอนุมาน และทำผลงานได้โดดเด่นทั้งบนเบนช์มาร์ก text-to-image และ image-to-image
ด้วยคุณลักษณะสำคัญ 5 ด้าน ได้แก่ ความแม่นยำ (准), ความซับซ้อน (多), สุนทรียภาพ (美), ความสมจริง (真), และการจัดแนว (齐) จึง เพิ่มประสิทธิภาพการสร้างคอนเทนต์ภาพระดับมืออาชีพได้สูงสุด

ภาพรวมของ Qwen-Image-2.0

Qwen-Image-2.0 เป็น โมเดลพื้นฐานสำหรับการสร้างภาพรุ่นถัดไป ที่ใช้สถาปัตยกรรมเดียวซึ่งรวมการเรนเดอร์ข้อความและการแก้ไขภาพเข้าด้วยกัน
- ประมวลผล คำสั่งยาว 1k โทเค็น เพื่อสร้างอินโฟกราฟิกระดับมืออาชีพอย่าง PPT, โปสเตอร์, การ์ตูน ได้โดยตรง
- แสดงฉากสมจริงอย่างละเอียดของบุคคล ธรรมชาติ และสถาปัตยกรรมด้วย ความละเอียด 2K
- รวมความเข้าใจและการสร้างข้อความ ทำให้สร้างและแก้ไขภาพได้ในโหมดเดียว
- ได้ความเร็วในการอนุมานที่รวดเร็วด้วย โครงสร้างโมเดลแบบน้ำหนักเบา
ในการทดสอบแบบ blind test ของ AI Arena ทำผลงานได้ ยอดเยี่ยมทั้งงาน text-to-image และ image-to-image

พัฒนาการของโมเดล

ซีรีส์ Qwen-Image ได้พัฒนา สายงานการสร้างและสายงานการแก้ไข ควบคู่กันมา
- เดือนสิงหาคม 2025 Qwen-Image ได้เพิ่มความแม่นยำของการเรนเดอร์ข้อความ
- เดือนธันวาคม 2025 Qwen-Image-2512 ได้ปรับปรุงรายละเอียดและโฟโตเรียลลิสม์
- ในสายงานการแก้ไข ได้ขยายจากการแก้ไขภาพเดี่ยว (สิงหาคม) → การแก้ไขหลายภาพ (กันยายน) → การปรับปรุงความสอดคล้อง (ธันวาคม)
Qwen-Image-2.0 รวมสองสายงานนี้เป็น โมเดลแบบรวมหนึ่งเดียว และให้ผลลัพธ์ยอดเยี่ยมทั้งด้านการสร้างและการแก้ไข

ความแม่นยำ (准) และความซับซ้อน (多)

โมเดลสามารถถ่ายทอด องค์ประกอบแบบ “ภาพซ้อนในภาพ” ที่ซับซ้อน ได้อย่างแม่นยำ ช่วยเพิ่มประสิทธิภาพในการทำ PPT
- ตัวอย่างเช่น สร้างฉากผสมที่วางภาพของบุคคลเดียวกันสองภาพในแนวบนล่าง โดยยังคงความสอดคล้องทางภาพไว้
ด้วย คำสั่งยาว 1k โทเค็น จึงเรนเดอร์อินโฟกราฟิกแบบหลายชั้นโครงสร้าง (เช่น รายงาน A/B test) ได้ครบถ้วน
- สามารถสร้างสื่อภาพระดับรายงานมืออาชีพที่มีองค์ประกอบซับซ้อน เช่น ตาราง กราฟ ตัวเลข และคำอธิบายประกอบ
ใช้ความรู้เกี่ยวกับโลกของ LLM เพื่อ ขยายคำขอแบบสั้นให้เป็นพรอมป์ตบรรยายอย่างละเอียดโดยอัตโนมัติ ได้
- ตัวอย่าง: เปลี่ยนคำขอ “โปสเตอร์ท่องเที่ยว 2 วันในหางโจว” ให้เป็นองค์ประกอบละเอียดทั้งด้านสไตล์ ฉากหลัง และข้อความ

สุนทรียภาพ (美)

สร้าง ความกลมกลืนด้านรูปแบบระหว่างข้อความกับภาพ ได้
- ถอดแบบ สไตล์จิตรกรรมและอักษรจีนดั้งเดิม ที่ผสานบทกวีกับภาพได้อย่างแม่นยำ
- แสดงรูปแบบตัวอักษรหลากหลาย (เช่น 瘦金体, 小字体) ได้อย่างประณีต
ตัวอย่างเช่น ภาพหมึกจีนที่มีบทกวีสมัยซ่ง หรือ 「兰亭序」 ของหวังซีจือ ก็สามารถ ถ่ายทอดด้วย 小字体 ได้เกือบสมบูรณ์แบบ

ความสมจริง (真)

แสดง การสะท้อนเชิงแสง วัสดุ และมิติระยะลึก ได้อย่างประณีต เพื่อเพิ่มความรู้สึกสมจริง
- ตัวอย่าง: เรนเดอร์ข้อความบนพื้นผิวที่ต่างกัน เช่น กระดานไวท์บอร์ดกระจก เสื้อผ้า และปกนิตยสาร ได้อย่างแม่นยำ
สร้าง การถ่ายทอดแบบบูรณาการของแสง พื้นผิว และวัสดุ ในระดับโปสเตอร์ภาพยนตร์
- ตัวอย่าง: ในโปสเตอร์ 「千灯问心」 พื้นผิวโลหะ ฝน และผืนผ้าหลอมรวมกันอย่างเป็นธรรมชาติ

การจัดแนว (齐)

ปรับการจัดแนวและการวางตำแหน่งโดยอัตโนมัติในโครงสร้างข้อความหลายส่วน เช่น ปฏิทิน การ์ตูน และอินโฟกราฟิก
- ตัวอย่าง: จัดวัน ปฏิทินจันทรคติ และคำอธิบายของปฏิทินเดือนกุมภาพันธ์ 2026 ให้อยู่ในกริดได้อย่างแม่นยำ
- จัดข้อความในบอลลูนคำพูดของการ์ตูนให้อยู่กึ่งกลาง เพื่อให้การไหลของบทสนทนาดูเป็นธรรมชาติ
- ในอินโฟกราฟิก OKR สามารถ จัดแนวบล็อกข้อความและลูกศรอัตโนมัติพร้อมแยกสี

เสริมความแข็งแกร่งด้านโฟโตเรียลลิสม์

แยกแยะ เฉดสีเขียวมากกว่า 23 แบบ เพื่อถ่ายทอดความสมจริงทางนิเวศของป่าฤดูร้อน
- บรรยายได้ละเอียดแม้กระทั่งพื้นผิวใบไม้ แสงสะท้อน ความชื้น และอนุภาคในอากาศ
ถ่ายทอด กล้ามเนื้อ สีหน้า และพื้นผิวของมนุษย์และสัตว์ ได้อย่างละเอียดแม่นยำ
- ตัวอย่าง: ในฉากที่ม้าเหยียบคน สามารถแสดงได้ถึงความตึงของกล้ามเนื้อ พื้นผิวผิวหนัง และอนุภาคฝุ่น

ความสามารถในการแก้ไขภาพ

เป็น โมเดล Omni ที่รวมการสร้างและการแก้ไขเข้าด้วยกัน ทำให้การปรับปรุงฝั่งการสร้างสะท้อนมายังการแก้ไขโดยตรง
- สามารถ แทรกบทกวีและตัวอักษร ลงบนภาพเดิมได้
- ผสานบุคคลจากสองภาพ พร้อมคง ความสอดคล้องของแสงและเงาอย่างเป็นธรรมชาติ
- รองรับ การแก้ไขแบบผสมระหว่างภาพถ่ายจริงกับตัวละครการ์ตูน
ตัวอย่างเช่น ในภาพผสมของคนสองคน หรือการแทรกตัวละครลงบนภาพเมือง ก็ให้ ผลลัพธ์การผสานที่เป็นธรรมชาติ

ภาพส่วนหัวบล็อก “Qwen Street”

ใช้ ทิวทัศน์ถนนฤดูหนาวในปักกิ่ง เป็นฉากหลัง โดยมีร้านค้าสองร้านที่สื่อถึงความสามารถหลักของ Qwen-Image-2.0
- ป้ายร้านอักษรวิจิตรทางซ้าย: “文字渲染”, ภายในมี “专业幻灯片中英文海报高级信息图”
- ป้ายร้านดอกไม้ทางขวา: “真实质感”, ป้ายเหนือประตู “2k resolution”
- กระดานดำที่ตุ๊กตาหิมะตรงกลางถืออยู่: “Qwen-Image-2.0 正式发布”
- บนถนนมีไรเดอร์ส่งของที่มีข้อความ “更小模型，更快速度” ปรากฏอยู่

บทสรุป

Qwen-Image-2.0 คือ โมเดลสร้างภาพแบบรวมหนึ่งเดียว ที่มีทั้งความแม่นยำ ความซับซ้อน สุนทรียภาพ ความสมจริง และการจัดแนว
โมเดลนี้ทำลายเส้นแบ่งระหว่างข้อความกับภาพ และ ยกระดับการทำงานอัตโนมัติของการสร้างอินโฟกราฟิกและคอนเทนต์ภาพระดับมืออาชีพอย่างมาก
เมื่อนำไปใช้ในการวิจัยหรือการสร้างสรรค์ แนะนำให้อ้างอิง Qwen-Image Technical Report (arXiv:2508.02324)

1 ความคิดเห็น

GN⁺ 2026-02-11

ความคิดเห็นจาก Hacker News

มีหลายคนมองว่าตัวอย่าง “man riding horse” แปลกประหลาดเกินไป เลยอยากอธิบายที่มา
มีมนี้มีที่มาจากเหตุการณ์ที่พิธีกรชื่อดังชาวจีน Tsai Kang-yung (蔡康永) ใส่ชุดที่มีม้าติดอยู่บนหลังในงานประกาศรางวัล
ตอนนั้นเขามีข่าวลือพัวพันกับผู้ชายชื่อ ‘Ma Qiren (马启仁)’ ซึ่งชื่อดังกล่าวออกเสียงเหมือนกับคำว่า ‘คนขี่ม้า(马骑人)’ ในภาษาจีน
เหตุการณ์นี้แพร่กระจายบนอินเทอร์เน็ตจนกลายเป็นมีม ดังนั้นตัวอย่าง “man riding horse” จึงไม่ใช่อะไรที่โผล่มาแบบไร้ที่มาเสียทีเดียว
แต่ตัวภาพเองก็ยังให้บรรยากาศที่ ชวนไม่สบายใจและประหลาด อยู่ดี
ลิงก์รูปภาพ
- เป็นที่มาที่น่าสนใจ และพรอมป์ต์แบบนี้ยังทำหน้าที่ทดสอบ latent space ของตัวสร้างภาพด้วย
  ปกติฝั่ง ‘คนขี่ม้า’ จะง่ายกว่า แต่ ‘ม้าขี่คน’ เป็น embedding ที่ยากกว่า
  พอดูพรอมป์ต์ที่แปลแล้ว ก็มีนัยเชิงเสียดสีประมาณว่า “ปีม้าพิชิตวิศวกรผิวขาว” อยู่ด้วย
  ไม่อยากเห็นเลยว่า SD1.5 จะวาดสิ่งนี้ออกมายังไง
- ตามบทความ ชื่อจริงคือ 马启仁 ไม่ใช่ 马骑人
  หรือก็คือ แม้ชื่อจะฟังคล้าย ‘คนขี่ม้า’ แต่ ไม่ได้แปลตรงตัว
- ในวงการสร้างภาพก็มีปัญหา “astronaut riding a horse” เหมือนกัน
  บทความที่เกี่ยวข้อง: Horse Rides Astronaut Redux
- สงสัยว่าในจีนเองมี กระแสต้าน AI สร้างภาพ แบบในอเมริกาหรือเปล่า
  อย่างเช่นบริษัทอเมริกันน่าจะกังวลเรื่องกระแสตีกลับ ถ้านำภาพแบบนี้ไปใช้ในตารางงานหรือสื่อประชาสัมพันธ์
  ภาพตัวอย่าง
- อีกอิทธิพลหนึ่งคือปัญหาชื่อดังของ DALL‑E 2
  มันสร้างภาพ ‘นักบินอวกาศขี่ม้า’ ได้ดี แต่สุดท้ายก็ยังล้มเหลวกับภาพ ‘ม้าขี่นักบินอวกาศ’
  ปัญหานี้ยังคงอยู่แม้ในโมเดลรุ่นใหม่ และทีม Qwen Image ก็น่าจะตระหนักถึง benchmark ที่ยาก นี้
  ท้ายที่สุดแล้ว ‘นักบินอวกาศ = คน’ ดังนั้นการทดสอบนี้จึงเชื่อมโยงกลับไปยังมีมจีนดังกล่าว
ขอสรุปความคิดบางอย่าง
1️⃣ จากแพตเทิร์นการปล่อยรุ่นก่อนหน้า มีโอกาสสูงว่า open weight จะออกภายใน 3~4 สัปดาห์
2️⃣ ดูเหมือนจะเล็งไปที่ โมเดลที่รันได้บน GPU สเปกไม่สูง แบบ Z‑Image Turbo(6B), Flux.2 Klein(9B)
3️⃣ เป็น โมเดลเดียว ที่รวมทั้งการสร้างและการแก้ไขภาพ จึงไม่จำเป็นต้องแยก Qwen‑Image กับ Qwen‑Edit
4️⃣ ใน GenAI Showdown ของฉัน Qwen‑Image ได้อันดับ 1 ด้านการแก้ไขในบรรดาโมเดลโลคัล และด้านการสร้างก็อยู่ระดับต้น ๆ
ถ้ามีเวอร์ชันโลคัลออกมา จะเพิ่มเข้าไปในเว็บ
- ถ้าอธิบายให้คนที่ไม่ค่อยเชี่ยวชาญเทคนิคเข้าใจง่าย ๆ คือ ถ้าทำ quantization ได้ดี LLM สามารถรันได้ที่ประมาณ 1 ไบต์ต่อพารามิเตอร์
  ถ้าเป็นโมเดล 20B ก็ใช้ RAM 20GB ก็พอ และขนาดนี้แม้แต่ iGPU ก็ยังพอไหว
  เครื่องแบบ unified RAM 128GB ก็จัดได้ราว 2,200 ดอลลาร์
  เป็นเซ็ตอัปที่ถูกกว่าการซื้อ GPU แยกมาก
- ถ้ามองเชิงเทคนิค Qwen 2512 มี 19B พารามิเตอร์ ใช้ 40GB ใน FP16 และย่อเป็น FP8 ให้พอดีกับ 3090 ได้
  มันใช้ VAE ของตัวเอง แต่มีปัญหา high-frequency artifact
  ส่วน Qwen 2 ใหม่ลดเหลือ 7B พารามิเตอร์ เบากว่ามาก และอัปเกรดเป็น Qwen 3 VL
  ตอนนี้พัฒนาไปเป็นโมเดล Omni ที่รวมทั้ง Image และ Edit แล้ว
  ตอนนี้ Z‑Image, Klein และ Qwen ทั้งสามโมเดลกำลังแข่งกันเพื่อชิงตำแหน่ง “SDXL2”
  ถ้า open weight ถูกปล่อยออกมาจริงจะน่าสนใจมาก
มีช่วงหนึ่งสั้น ๆ ที่ Midjourney ให้ความรู้สึกเหมือนเป็นจุดสูงสุดของการสร้างภาพ
- ตอนนี้ยังไม่ใช่อย่างนั้นเหรอ? ครีเอเตอร์หลายคนที่ฉันรู้จักยังชอบ Midjourney เพราะ รสนิยมด้านภาพแบบ主観 ของมัน
- สงสัยว่าเดี๋ยวนี้ Midjourney เป็นยังไงบ้าง
- ความเร็วของ การทำให้กลายเป็นสินค้าโภคภัณฑ์ ในวงการสร้างภาพมันเร็วมาก
  ทุก ๆ 3~4 เดือน SOTA ก็เปลี่ยน และนวัตกรรมของไตรมาสก่อนก็กลายเป็นสินค้า API
  ตอนนี้คอขวดไม่ใช่โมเดลแล้ว แต่เป็น คนที่ใช้พรอมป์ต์
  ในการสร้างโค้ดก็เห็นแพตเทิร์นเดียวกัน
เนื้อหาของพรอมป์ต์ “man riding horse” นั้นรุนแรงสะดุดตามาก
มันประกอบด้วย คำบรรยายที่สมจริงอย่างยิ่ง เช่น ทุ่งหญ้ารกร้าง ฝุ่นคละคลุ้ง และฉากที่ม้าสีน้ำตาลกดทับผู้ชาย
โดยรวมเป็นภาพที่สื่อถึงความตึงเครียดดิบเถื่อนและการปะทะกันของพลังทางชีวภาพ
- สำหรับคนที่ยังงง ๆ มีข้อมูลอ้างอิงคือรูปสลักสมัยราชวงศ์ฮั่น “ม้าเหยียบย่ำซยงหนู”
  ลิงก์ที่เกี่ยวข้อง
เมื่อไม่นานมานี้ได้ลองใช้โมเดลโลคัลบน Linux ผ่าน LMStudio แล้วพบว่าง่ายมาก
แต่เพราะมันไม่รองรับการสร้างภาพ เลยสงสัยว่าถ้าจะรัน diffusion model อย่าง Qwen บน Linux คนส่วนใหญ่ใช้เครื่องมืออะไรกัน
- คนที่ใช้งานโมเดลตระกูลนี้จริง ๆ ส่วนมากใช้ ComfyUI
  ชุมชนช่วยกันทำทุกอย่างตั้งแต่ quantization, แปลงเป็นฟอร์แมต gguf ไปจนถึงการปรับความเร็ว
- ความเปลี่ยนแปลงมันเร็วมากจนฉันทำ Python HTTP server เองเพื่อ route ไปยังแต่ละ implementation ผ่าน JSON interface
  ส่วนใหญ่ใช้ diffusers ซึ่งแม้จะช้าแต่ รองรับสถาปัตยกรรมใหม่ได้เร็ว
- ComfyUI ดีที่สุดสำหรับ Stable Diffusion
- แนะนำให้ลองสักครั้ง ช่วงหลังมันใช้ง่ายขึ้นมากเพราะมี ฟีเจอร์เทมเพลต
- ถ้าเป็นแพลตฟอร์ม AMD, Lemonade รองรับการสร้างภาพตั้งแต่เวอร์ชัน 9.2
  เว็บไซต์ / รีลีสโน้ต
การจัดวาง ตัวอักษรจีนแบบแนวตั้ง (Vertical Typography) ดูแปลก ๆ เล็กน้อย
ถ้าใช้เครื่องหมายวรรคตอนสำหรับแนวตั้งโดยเฉพาะ (เช่น ︒) จะดูเป็นธรรมชาติกว่า
ฉันทำ อินโฟกราฟิกด้วย generative AI ทุกวัน แต่พูดตรง ๆ ว่า 99% นั้นแย่มาก
LinkedIn เต็มไปด้วยภาพแบบนั้น
- แต่ LinkedIn ก็แย่อยู่แล้วแต่เดิม ดังนั้นมันไม่ได้แย่ลงไปกว่าเดิม
- อินโฟกราฟิกกับงานพรีเซนเทชันยังเป็น ฟีเจอร์เฉพาะของ NanoBananaPro
- คุณภาพของอินโฟกราฟิกสุดท้ายก็ขึ้นอยู่กับ ความสามารถของคนทำ
  แทบไม่มีใครที่ทำหรืออธิบายอินโฟกราฟิกดี ๆ ได้จริง
- เหมือนไดอะแกรม ASCII ไร้ประโยชน์บน GitHub การทำภาพแบบนี้ก็เป็นเพียง noise ทางการรับรู้
  ดูตัวอย่างอื่นได้ใน เธรด Gas Town
น่าเสียดายที่ครั้งนี้ ดูเหมือนจะไม่มีการปล่อย open weight
- แต่เมื่อประมาณหนึ่งเดือนก่อนพวกเขาก็เพิ่งปล่อยโมเดลภาพแบบ open weight ออกมา ดังนั้นครั้งนี้ก็ยังพอมีความเป็นไปได้
  การปล่อยครั้งล่าสุดอยู่ราวเดือน 12 ปี 2025
ฉันชอบ ตัวอย่างแผงการ์ตูน ของพวกเขา เลยลองเองใน Qwen Chat
ถ้าใช้พรอมป์ต์เดียวกับในบล็อกจะทำงานได้ดี แต่ถ้าเปลี่ยนอินพุตนิดหน่อยก็จะ จำนวนแผงเพี้ยน หรือบทพูดภาษาอังกฤษกลายเป็นภาษาจีน
หมายความว่าตอนนี้มันยังเป็น ฟีเจอร์ที่ความสม่ำเสมอยังไม่ดีพอ
“ภาพตัวอย่างการใช้งานขี่ม้า” น่าสนใจดี
- แต่ก็ค่อนข้างเหนือความคาดหมายที่พวกเขาเลือกเดโมเป็น “ฉากที่ม้าถาโถมใส่คน”
  แต่ก็นะ ต่างคนต่างเลือก

Qwen-Image-2.0: อินโฟกราฟิกระดับมืออาชีพและโฟโตเรียลลิสม์ที่ประณีต

ภาพรวมของ Qwen-Image-2.0

พัฒนาการของโมเดล

ความแม่นยำ (准) และความซับซ้อน (多)

สุนทรียภาพ (美)

ความสมจริง (真)

การจัดแนว (齐)

เสริมความแข็งแกร่งด้านโฟโตเรียลลิสม์

ความสามารถในการแก้ไขภาพ

ภาพส่วนหัวบล็อก “Qwen Street”

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News