10 คะแนน โดย GN⁺ 2026-02-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็นโมเดลสร้างภาพรุ่นถัดไปที่นำ สถาปัตยกรรมเดียวซึ่งรวมการสร้างและแก้ไขข้อความกับภาพเข้าด้วยกัน มาใช้งาน
  • รองรับ คำสั่งยาว 1k โทเค็น จึงสร้างอินโฟกราฟิกซับซ้อนอย่าง PPT, โปสเตอร์, การ์ตูน ได้โดยตรง
  • ทำได้พร้อมกันทั้ง การบรรยายภาพสมจริงอย่างละเอียดบนความละเอียด 2K และ การเรนเดอร์ตัวอักษรอย่างแม่นยำ
  • ด้วย การทำโมเดลให้มีน้ำหนักเบา จึงเพิ่มความเร็วในการอนุมาน และทำผลงานได้โดดเด่นทั้งบนเบนช์มาร์ก text-to-image และ image-to-image
  • ด้วยคุณลักษณะสำคัญ 5 ด้าน ได้แก่ ความแม่นยำ (准), ความซับซ้อน (多), สุนทรียภาพ (美), ความสมจริง (真), และการจัดแนว (齐) จึง เพิ่มประสิทธิภาพการสร้างคอนเทนต์ภาพระดับมืออาชีพได้สูงสุด

ภาพรวมของ Qwen-Image-2.0

  • Qwen-Image-2.0 เป็น โมเดลพื้นฐานสำหรับการสร้างภาพรุ่นถัดไป ที่ใช้สถาปัตยกรรมเดียวซึ่งรวมการเรนเดอร์ข้อความและการแก้ไขภาพเข้าด้วยกัน
    • ประมวลผล คำสั่งยาว 1k โทเค็น เพื่อสร้างอินโฟกราฟิกระดับมืออาชีพอย่าง PPT, โปสเตอร์, การ์ตูน ได้โดยตรง
    • แสดงฉากสมจริงอย่างละเอียดของบุคคล ธรรมชาติ และสถาปัตยกรรมด้วย ความละเอียด 2K
    • รวมความเข้าใจและการสร้างข้อความ ทำให้สร้างและแก้ไขภาพได้ในโหมดเดียว
    • ได้ความเร็วในการอนุมานที่รวดเร็วด้วย โครงสร้างโมเดลแบบน้ำหนักเบา
  • ในการทดสอบแบบ blind test ของ AI Arena ทำผลงานได้ ยอดเยี่ยมทั้งงาน text-to-image และ image-to-image

พัฒนาการของโมเดล

  • ซีรีส์ Qwen-Image ได้พัฒนา สายงานการสร้างและสายงานการแก้ไข ควบคู่กันมา
    • เดือนสิงหาคม 2025 Qwen-Image ได้เพิ่มความแม่นยำของการเรนเดอร์ข้อความ
    • เดือนธันวาคม 2025 Qwen-Image-2512 ได้ปรับปรุงรายละเอียดและโฟโตเรียลลิสม์
    • ในสายงานการแก้ไข ได้ขยายจากการแก้ไขภาพเดี่ยว (สิงหาคม) → การแก้ไขหลายภาพ (กันยายน) → การปรับปรุงความสอดคล้อง (ธันวาคม)
  • Qwen-Image-2.0 รวมสองสายงานนี้เป็น โมเดลแบบรวมหนึ่งเดียว และให้ผลลัพธ์ยอดเยี่ยมทั้งด้านการสร้างและการแก้ไข

ความแม่นยำ (准) และความซับซ้อน (多)

  • โมเดลสามารถถ่ายทอด องค์ประกอบแบบ “ภาพซ้อนในภาพ” ที่ซับซ้อน ได้อย่างแม่นยำ ช่วยเพิ่มประสิทธิภาพในการทำ PPT
    • ตัวอย่างเช่น สร้างฉากผสมที่วางภาพของบุคคลเดียวกันสองภาพในแนวบนล่าง โดยยังคงความสอดคล้องทางภาพไว้
  • ด้วย คำสั่งยาว 1k โทเค็น จึงเรนเดอร์อินโฟกราฟิกแบบหลายชั้นโครงสร้าง (เช่น รายงาน A/B test) ได้ครบถ้วน
    • สามารถสร้างสื่อภาพระดับรายงานมืออาชีพที่มีองค์ประกอบซับซ้อน เช่น ตาราง กราฟ ตัวเลข และคำอธิบายประกอบ
  • ใช้ความรู้เกี่ยวกับโลกของ LLM เพื่อ ขยายคำขอแบบสั้นให้เป็นพรอมป์ตบรรยายอย่างละเอียดโดยอัตโนมัติ ได้
    • ตัวอย่าง: เปลี่ยนคำขอ “โปสเตอร์ท่องเที่ยว 2 วันในหางโจว” ให้เป็นองค์ประกอบละเอียดทั้งด้านสไตล์ ฉากหลัง และข้อความ

สุนทรียภาพ (美)

  • สร้าง ความกลมกลืนด้านรูปแบบระหว่างข้อความกับภาพ ได้
    • ถอดแบบ สไตล์จิตรกรรมและอักษรจีนดั้งเดิม ที่ผสานบทกวีกับภาพได้อย่างแม่นยำ
    • แสดงรูปแบบตัวอักษรหลากหลาย (เช่น 瘦金体, 小字体) ได้อย่างประณีต
  • ตัวอย่างเช่น ภาพหมึกจีนที่มีบทกวีสมัยซ่ง หรือ 「兰亭序」 ของหวังซีจือ ก็สามารถ ถ่ายทอดด้วย 小字体 ได้เกือบสมบูรณ์แบบ

ความสมจริง (真)

  • แสดง การสะท้อนเชิงแสง วัสดุ และมิติระยะลึก ได้อย่างประณีต เพื่อเพิ่มความรู้สึกสมจริง
    • ตัวอย่าง: เรนเดอร์ข้อความบนพื้นผิวที่ต่างกัน เช่น กระดานไวท์บอร์ดกระจก เสื้อผ้า และปกนิตยสาร ได้อย่างแม่นยำ
  • สร้าง การถ่ายทอดแบบบูรณาการของแสง พื้นผิว และวัสดุ ในระดับโปสเตอร์ภาพยนตร์
    • ตัวอย่าง: ในโปสเตอร์ 「千灯问心」 พื้นผิวโลหะ ฝน และผืนผ้าหลอมรวมกันอย่างเป็นธรรมชาติ

การจัดแนว (齐)

  • ปรับการจัดแนวและการวางตำแหน่งโดยอัตโนมัติในโครงสร้างข้อความหลายส่วน เช่น ปฏิทิน การ์ตูน และอินโฟกราฟิก
    • ตัวอย่าง: จัดวัน ปฏิทินจันทรคติ และคำอธิบายของปฏิทินเดือนกุมภาพันธ์ 2026 ให้อยู่ในกริดได้อย่างแม่นยำ
    • จัดข้อความในบอลลูนคำพูดของการ์ตูนให้อยู่กึ่งกลาง เพื่อให้การไหลของบทสนทนาดูเป็นธรรมชาติ
    • ในอินโฟกราฟิก OKR สามารถ จัดแนวบล็อกข้อความและลูกศรอัตโนมัติพร้อมแยกสี

เสริมความแข็งแกร่งด้านโฟโตเรียลลิสม์

  • แยกแยะ เฉดสีเขียวมากกว่า 23 แบบ เพื่อถ่ายทอดความสมจริงทางนิเวศของป่าฤดูร้อน
    • บรรยายได้ละเอียดแม้กระทั่งพื้นผิวใบไม้ แสงสะท้อน ความชื้น และอนุภาคในอากาศ
  • ถ่ายทอด กล้ามเนื้อ สีหน้า และพื้นผิวของมนุษย์และสัตว์ ได้อย่างละเอียดแม่นยำ
    • ตัวอย่าง: ในฉากที่ม้าเหยียบคน สามารถแสดงได้ถึงความตึงของกล้ามเนื้อ พื้นผิวผิวหนัง และอนุภาคฝุ่น

ความสามารถในการแก้ไขภาพ

  • เป็น โมเดล Omni ที่รวมการสร้างและการแก้ไขเข้าด้วยกัน ทำให้การปรับปรุงฝั่งการสร้างสะท้อนมายังการแก้ไขโดยตรง
    • สามารถ แทรกบทกวีและตัวอักษร ลงบนภาพเดิมได้
    • ผสานบุคคลจากสองภาพ พร้อมคง ความสอดคล้องของแสงและเงาอย่างเป็นธรรมชาติ
    • รองรับ การแก้ไขแบบผสมระหว่างภาพถ่ายจริงกับตัวละครการ์ตูน
  • ตัวอย่างเช่น ในภาพผสมของคนสองคน หรือการแทรกตัวละครลงบนภาพเมือง ก็ให้ ผลลัพธ์การผสานที่เป็นธรรมชาติ

ภาพส่วนหัวบล็อก “Qwen Street”

  • ใช้ ทิวทัศน์ถนนฤดูหนาวในปักกิ่ง เป็นฉากหลัง โดยมีร้านค้าสองร้านที่สื่อถึงความสามารถหลักของ Qwen-Image-2.0
    • ป้ายร้านอักษรวิจิตรทางซ้าย: “文字渲染”, ภายในมี “专业幻灯片 中英文海报 高级信息图”
    • ป้ายร้านดอกไม้ทางขวา: “真实质感”, ป้ายเหนือประตู “2k resolution”
    • กระดานดำที่ตุ๊กตาหิมะตรงกลางถืออยู่: “Qwen-Image-2.0 正式发布”
    • บนถนนมีไรเดอร์ส่งของที่มีข้อความ “更小模型,更快速度” ปรากฏอยู่

บทสรุป

  • Qwen-Image-2.0 คือ โมเดลสร้างภาพแบบรวมหนึ่งเดียว ที่มีทั้งความแม่นยำ ความซับซ้อน สุนทรียภาพ ความสมจริง และการจัดแนว
  • โมเดลนี้ทำลายเส้นแบ่งระหว่างข้อความกับภาพ และ ยกระดับการทำงานอัตโนมัติของการสร้างอินโฟกราฟิกและคอนเทนต์ภาพระดับมืออาชีพอย่างมาก
  • เมื่อนำไปใช้ในการวิจัยหรือการสร้างสรรค์ แนะนำให้อ้างอิง Qwen-Image Technical Report (arXiv:2508.02324)

1 ความคิดเห็น

 
GN⁺ 2026-02-11
ความคิดเห็นจาก Hacker News
  • มีหลายคนมองว่าตัวอย่าง “man riding horse” แปลกประหลาดเกินไป เลยอยากอธิบายที่มา
    มีมนี้มีที่มาจากเหตุการณ์ที่พิธีกรชื่อดังชาวจีน Tsai Kang-yung (蔡康永) ใส่ชุดที่มีม้าติดอยู่บนหลังในงานประกาศรางวัล
    ตอนนั้นเขามีข่าวลือพัวพันกับผู้ชายชื่อ ‘Ma Qiren (马启仁)’ ซึ่งชื่อดังกล่าวออกเสียงเหมือนกับคำว่า ‘คนขี่ม้า(马骑人)’ ในภาษาจีน
    เหตุการณ์นี้แพร่กระจายบนอินเทอร์เน็ตจนกลายเป็นมีม ดังนั้นตัวอย่าง “man riding horse” จึงไม่ใช่อะไรที่โผล่มาแบบไร้ที่มาเสียทีเดียว
    แต่ตัวภาพเองก็ยังให้บรรยากาศที่ ชวนไม่สบายใจและประหลาด อยู่ดี
    ลิงก์รูปภาพ
    • เป็นที่มาที่น่าสนใจ และพรอมป์ต์แบบนี้ยังทำหน้าที่ทดสอบ latent space ของตัวสร้างภาพด้วย
      ปกติฝั่ง ‘คนขี่ม้า’ จะง่ายกว่า แต่ ‘ม้าขี่คน’ เป็น embedding ที่ยากกว่า
      พอดูพรอมป์ต์ที่แปลแล้ว ก็มีนัยเชิงเสียดสีประมาณว่า “ปีม้าพิชิตวิศวกรผิวขาว” อยู่ด้วย
      ไม่อยากเห็นเลยว่า SD1.5 จะวาดสิ่งนี้ออกมายังไง
    • ตามบทความ ชื่อจริงคือ 马启仁 ไม่ใช่ 马骑人
      หรือก็คือ แม้ชื่อจะฟังคล้าย ‘คนขี่ม้า’ แต่ ไม่ได้แปลตรงตัว
    • ในวงการสร้างภาพก็มีปัญหา “astronaut riding a horse” เหมือนกัน
      บทความที่เกี่ยวข้อง: Horse Rides Astronaut Redux
    • สงสัยว่าในจีนเองมี กระแสต้าน AI สร้างภาพ แบบในอเมริกาหรือเปล่า
      อย่างเช่นบริษัทอเมริกันน่าจะกังวลเรื่องกระแสตีกลับ ถ้านำภาพแบบนี้ไปใช้ในตารางงานหรือสื่อประชาสัมพันธ์
      ภาพตัวอย่าง
    • อีกอิทธิพลหนึ่งคือปัญหาชื่อดังของ DALL‑E 2
      มันสร้างภาพ ‘นักบินอวกาศขี่ม้า’ ได้ดี แต่สุดท้ายก็ยังล้มเหลวกับภาพ ‘ม้าขี่นักบินอวกาศ’
      ปัญหานี้ยังคงอยู่แม้ในโมเดลรุ่นใหม่ และทีม Qwen Image ก็น่าจะตระหนักถึง benchmark ที่ยาก นี้
      ท้ายที่สุดแล้ว ‘นักบินอวกาศ = คน’ ดังนั้นการทดสอบนี้จึงเชื่อมโยงกลับไปยังมีมจีนดังกล่าว
  • ขอสรุปความคิดบางอย่าง
    1️⃣ จากแพตเทิร์นการปล่อยรุ่นก่อนหน้า มีโอกาสสูงว่า open weight จะออกภายใน 3~4 สัปดาห์
    2️⃣ ดูเหมือนจะเล็งไปที่ โมเดลที่รันได้บน GPU สเปกไม่สูง แบบ Z‑Image Turbo(6B), Flux.2 Klein(9B)
    3️⃣ เป็น โมเดลเดียว ที่รวมทั้งการสร้างและการแก้ไขภาพ จึงไม่จำเป็นต้องแยก Qwen‑Image กับ Qwen‑Edit
    4️⃣ ใน GenAI Showdown ของฉัน Qwen‑Image ได้อันดับ 1 ด้านการแก้ไขในบรรดาโมเดลโลคัล และด้านการสร้างก็อยู่ระดับต้น ๆ
    ถ้ามีเวอร์ชันโลคัลออกมา จะเพิ่มเข้าไปในเว็บ
    • ถ้าอธิบายให้คนที่ไม่ค่อยเชี่ยวชาญเทคนิคเข้าใจง่าย ๆ คือ ถ้าทำ quantization ได้ดี LLM สามารถรันได้ที่ประมาณ 1 ไบต์ต่อพารามิเตอร์
      ถ้าเป็นโมเดล 20B ก็ใช้ RAM 20GB ก็พอ และขนาดนี้แม้แต่ iGPU ก็ยังพอไหว
      เครื่องแบบ unified RAM 128GB ก็จัดได้ราว 2,200 ดอลลาร์
      เป็นเซ็ตอัปที่ถูกกว่าการซื้อ GPU แยกมาก
    • ถ้ามองเชิงเทคนิค Qwen 2512 มี 19B พารามิเตอร์ ใช้ 40GB ใน FP16 และย่อเป็น FP8 ให้พอดีกับ 3090 ได้
      มันใช้ VAE ของตัวเอง แต่มีปัญหา high-frequency artifact
      ส่วน Qwen 2 ใหม่ลดเหลือ 7B พารามิเตอร์ เบากว่ามาก และอัปเกรดเป็น Qwen 3 VL
      ตอนนี้พัฒนาไปเป็นโมเดล Omni ที่รวมทั้ง Image และ Edit แล้ว
      ตอนนี้ Z‑Image, Klein และ Qwen ทั้งสามโมเดลกำลังแข่งกันเพื่อชิงตำแหน่ง “SDXL2”
      ถ้า open weight ถูกปล่อยออกมาจริงจะน่าสนใจมาก
  • มีช่วงหนึ่งสั้น ๆ ที่ Midjourney ให้ความรู้สึกเหมือนเป็นจุดสูงสุดของการสร้างภาพ
    • ตอนนี้ยังไม่ใช่อย่างนั้นเหรอ? ครีเอเตอร์หลายคนที่ฉันรู้จักยังชอบ Midjourney เพราะ รสนิยมด้านภาพแบบ主観 ของมัน
    • สงสัยว่าเดี๋ยวนี้ Midjourney เป็นยังไงบ้าง
    • ความเร็วของ การทำให้กลายเป็นสินค้าโภคภัณฑ์ ในวงการสร้างภาพมันเร็วมาก
      ทุก ๆ 3~4 เดือน SOTA ก็เปลี่ยน และนวัตกรรมของไตรมาสก่อนก็กลายเป็นสินค้า API
      ตอนนี้คอขวดไม่ใช่โมเดลแล้ว แต่เป็น คนที่ใช้พรอมป์ต์
      ในการสร้างโค้ดก็เห็นแพตเทิร์นเดียวกัน
  • เนื้อหาของพรอมป์ต์ “man riding horse” นั้นรุนแรงสะดุดตามาก
    มันประกอบด้วย คำบรรยายที่สมจริงอย่างยิ่ง เช่น ทุ่งหญ้ารกร้าง ฝุ่นคละคลุ้ง และฉากที่ม้าสีน้ำตาลกดทับผู้ชาย
    โดยรวมเป็นภาพที่สื่อถึงความตึงเครียดดิบเถื่อนและการปะทะกันของพลังทางชีวภาพ
    • สำหรับคนที่ยังงง ๆ มีข้อมูลอ้างอิงคือรูปสลักสมัยราชวงศ์ฮั่น “ม้าเหยียบย่ำซยงหนู”
      ลิงก์ที่เกี่ยวข้อง
  • เมื่อไม่นานมานี้ได้ลองใช้โมเดลโลคัลบน Linux ผ่าน LMStudio แล้วพบว่าง่ายมาก
    แต่เพราะมันไม่รองรับการสร้างภาพ เลยสงสัยว่าถ้าจะรัน diffusion model อย่าง Qwen บน Linux คนส่วนใหญ่ใช้เครื่องมืออะไรกัน
    • คนที่ใช้งานโมเดลตระกูลนี้จริง ๆ ส่วนมากใช้ ComfyUI
      ชุมชนช่วยกันทำทุกอย่างตั้งแต่ quantization, แปลงเป็นฟอร์แมต gguf ไปจนถึงการปรับความเร็ว
    • ความเปลี่ยนแปลงมันเร็วมากจนฉันทำ Python HTTP server เองเพื่อ route ไปยังแต่ละ implementation ผ่าน JSON interface
      ส่วนใหญ่ใช้ diffusers ซึ่งแม้จะช้าแต่ รองรับสถาปัตยกรรมใหม่ได้เร็ว
    • ComfyUI ดีที่สุดสำหรับ Stable Diffusion
    • แนะนำให้ลองสักครั้ง ช่วงหลังมันใช้ง่ายขึ้นมากเพราะมี ฟีเจอร์เทมเพลต
    • ถ้าเป็นแพลตฟอร์ม AMD, Lemonade รองรับการสร้างภาพตั้งแต่เวอร์ชัน 9.2
      เว็บไซต์ / รีลีสโน้ต
  • การจัดวาง ตัวอักษรจีนแบบแนวตั้ง (Vertical Typography) ดูแปลก ๆ เล็กน้อย
    ถ้าใช้เครื่องหมายวรรคตอนสำหรับแนวตั้งโดยเฉพาะ (เช่น ︒) จะดูเป็นธรรมชาติกว่า
  • ฉันทำ อินโฟกราฟิกด้วย generative AI ทุกวัน แต่พูดตรง ๆ ว่า 99% นั้นแย่มาก
    LinkedIn เต็มไปด้วยภาพแบบนั้น
    • แต่ LinkedIn ก็แย่อยู่แล้วแต่เดิม ดังนั้นมันไม่ได้แย่ลงไปกว่าเดิม
    • อินโฟกราฟิกกับงานพรีเซนเทชันยังเป็น ฟีเจอร์เฉพาะของ NanoBananaPro
    • คุณภาพของอินโฟกราฟิกสุดท้ายก็ขึ้นอยู่กับ ความสามารถของคนทำ
      แทบไม่มีใครที่ทำหรืออธิบายอินโฟกราฟิกดี ๆ ได้จริง
    • เหมือนไดอะแกรม ASCII ไร้ประโยชน์บน GitHub การทำภาพแบบนี้ก็เป็นเพียง noise ทางการรับรู้
      ดูตัวอย่างอื่นได้ใน เธรด Gas Town
  • น่าเสียดายที่ครั้งนี้ ดูเหมือนจะไม่มีการปล่อย open weight
    • แต่เมื่อประมาณหนึ่งเดือนก่อนพวกเขาก็เพิ่งปล่อยโมเดลภาพแบบ open weight ออกมา ดังนั้นครั้งนี้ก็ยังพอมีความเป็นไปได้
      การปล่อยครั้งล่าสุดอยู่ราวเดือน 12 ปี 2025
  • ฉันชอบ ตัวอย่างแผงการ์ตูน ของพวกเขา เลยลองเองใน Qwen Chat
    ถ้าใช้พรอมป์ต์เดียวกับในบล็อกจะทำงานได้ดี แต่ถ้าเปลี่ยนอินพุตนิดหน่อยก็จะ จำนวนแผงเพี้ยน หรือบทพูดภาษาอังกฤษกลายเป็นภาษาจีน
    หมายความว่าตอนนี้มันยังเป็น ฟีเจอร์ที่ความสม่ำเสมอยังไม่ดีพอ
  • “ภาพตัวอย่างการใช้งานขี่ม้า” น่าสนใจดี
    • แต่ก็ค่อนข้างเหนือความคาดหมายที่พวกเขาเลือกเดโมเป็น “ฉากที่ม้าถาโถมใส่คน”
      แต่ก็นะ ต่างคนต่างเลือก