• Qwen-Image เป็นโมเดลสร้างภาพพื้นฐาน MMDiT ขนาด 20B พารามิเตอร์ ที่มีจุดแข็งด้านการเรนเดอร์ข้อความแบบเนทีฟและการแก้ไขภาพที่แม่นยำ
  • ในการแสดงข้อความที่ซับซ้อนของ ภาษาหลายภาษา เช่น อัลฟาเบตและอักษรจีน ตอบสนองได้ด้วยความแม่นยำสูงและความสมบูรณ์ทางภาพ
  • ทำคะแนนได้สูงสุดในระดับเดียวกันบน benchmark สาธารณะหลากหลายรายการ (GenEval, DPG, OneIG-Bench ฯลฯ) และแสดงความสามารถในการสร้างข้อความอย่างโดดเด่น
  • ในเดโมจริง สามารถแสดงเลย์เอาต์ที่ซับซ้อนและสไตล์ที่หลากหลายได้อย่างแม่นยำ เช่น หลายภาษา โปสเตอร์ PPT และอิลลัสเตรชัน
  • รองรับฟังก์ชันการแก้ไข เช่น การแปลงสไตล์ การเพิ่ม/ลบวัตถุ การอธิบายรายละเอียด และการเปลี่ยนท่า พร้อมมุ่งขยายระบบนิเวศโอเพ่นซอร์ส

บทนำและจุดเด่นหลัก

  • Qwen-Image เป็นโมเดลพื้นฐานสร้างภาพ MMDiT ขนาด 20B พารามิเตอร์ ที่เชี่ยวชาญด้าน การเรนเดอร์ข้อความซับซ้อน และการแก้ไขภาพอย่างละเอียด
  • สามารถลองประสบการณ์โมเดลล่าสุดได้ใน Qwen Chat

คุณสมบัติหลัก

  • การเรนเดอร์ข้อความที่ยอดเยี่ยม: รองรับเลย์เอาต์หลายบรรทัด ความเข้าใจเชิงความหมายระดับย่อหน้า และการแสดงรายละเอียดระดับละเอียด
    • รองรับทั้งระบบอักษรแบบอัลฟาเบตและระบบอักขระภาพ (เช่น อักษรจีน) ด้วยความคมชัดสูง
  • การแก้ไขภาพที่สอดคล้องกัน: การฝึกฝนแบบ multi-task ที่ปรับปรุงแล้วช่วยรักษาความแม่นยำเชิงความหมายและความสมจริงด้านภาพไปพร้อมกัน
  • ประสิทธิภาพใน benchmark ที่แข็งแกร่ง: ในภารกิจ การสร้างและการแก้ไข บนชุดวัดผลแบบสาธารณะต่าง ๆ ทำได้สูงสุดในระดับเดียวกัน
  • ในด้านการสร้างและแก้ไขข้อความ ทำได้ดีใน LongText-Bench, ChineseWord, TextCraft
  • ใช้งานได้อย่างกว้างขวางสำหรับงานเชิงสร้างสรรค์ เช่น การประดิษฐ์ การออกแบบ และการเล่าเรื่อง

ประสิทธิภาพและ benchmark

  • Qwen-Image ทำผลงานระดับ SOTA (state-of-the-art) ล่าสุดใน GenEval, DPG, OneIG-Bench (การสร้างภาพทั่วไป), GEdit, ImgEdit, GSO (การแก้ไข) และ benchmark อื่น ๆ
  • โดยเฉพาะด้านการสร้างข้อความภาษาจีน มีความเหนือกว่าโมเดลชั้นนำเดิมอย่างชัดเจน
  • ผสานความสามารถทั่วไปที่กว้างขวางเข้ากับการเรนเดอร์ข้อความที่แม่นยำ ทำให้กลายเป็นโมเดลนำด้านการสร้างภาพ

ตัวอย่างเดโม

การแสดงข้อความภาษาจีน

  • จากพรอมต์ตัวอย่าง สามารถถ่ายทอดสไตล์อนิเมชันแบบ Miyazaki ในขณะเดียวกันแสดงข้อความอย่างแม่นยำ เช่น “云存储”“云计算”“云模型” และอักขระจีนพิเศษ (“千问”)
  • การวางท่าทางและอารมณ์ใบหน้า ตัวละคร ตลอดถึงความลึกของฉากในภาพถูกสร้างอย่างเป็นธรรมชาติ

การแสดงข้อความจีนแบบซับซ้อน

  • แสดงรายละเอียดได้อย่างประณีต ตั้งแต่บทคู่นิพนธ์ การลายเส้นคัลลิกราฟี ไปจนถึงรายละเอียดเชิงองค์ประกอบเช่น Dae-ryeon, Hwi-ho, Cheong-hwa-ja
  • ตระกูลฟอนต์ การจัดเลย์เอาต์ และภาพประกอบ (เช่น 岳阳楼) ถูกสร้างได้สมจริงและครบถ้วน

ข้อความภาษาอังกฤษและหลายบรรทัด

  • สะท้อนข้อความอย่างละเอียดในตำแหน่งต่าง ๆ เช่น ชั้นวางร้านหนังสือ ป้ายประกาศ และโปสเตอร์
  • ตั้งแต่ข้อความ “New Arrivals This Week” จนถึงประโยคสั้นบนปกหนังสือ มีการนำเสนอฟอนต์และเลย์เอาต์ที่ใกล้เคียงของจริง

อินโฟกราฟิกภาษาอังกฤษที่ซับซ้อน

  • แยกและจัดวางอย่างแม่นยำในแต่ละโมดูลย่อยถึงระดับไอคอน+หัวข้อ+ย่อหน้าคำอธิบาย
  • อินโฟกราฟิกซับซ้อนที่เน้นหัวข้อ “Habits for Emotional Wellbeing” ถูกสร้างด้วยงานศิลป์ที่เป็นธรรมชาติและโครงสร้างที่สมดุล

ข้อความสั้นและข้อความยาวขนาดเล็ก

  • สร้างข้อความลายมือยาวได้อย่างละเอียด แม้ในพื้นที่ขนาดเล็กกว่า 1/10 ของภาพ
  • สามารถถ่ายทอดจำนวนประโยคจำนวนมากได้อย่างแม่นยำ ทั้งลายมือ การจัดวาง และการตัดบรรทัด

การผสมภาษาหลายภาษา

  • สร้างข้อความลายมือภาษาอังกฤษและภาษาจีนในภาพเดียวกันได้พร้อมกัน
  • สามารถสร้างข้อความได้อย่างเป็นธรรมชาติเมื่อมีการสลับภาษาในพรอมต์

การสร้างโปสเตอร์

  • สร้างโปสเตอร์ภาพยนตร์ รวมถึงซับไตเติล ข้อมูลนักแสดง ผู้กำกับ และข้อมูลการเปิดตัว โดยผสมผสานองค์ประกอบข้อความและภาพได้อย่างอิสระในสไตล์ต่าง ๆ เช่น Sci-Fi และกราฟิกดีไซน์

ตัวอย่าง PPT ภาษาเกาหลี

  • สร้างสไตล์ PPT AI/ธุรกิจล่าสุดได้อย่างสอดคล้อง ตั้งแต่โลโก้ Alibaba หัวเรื่องหลัก คำอธิบายรอง การจัดวางภาพผลงานศิลปะ ฟอนต์คัลลิกราฟี จนถึงรายละเอียดคำอธิบาย

การสร้างภาพทั่วไปและการแก้ไข

  • รองรับ สไตล์ศิลป์ที่หลากหลาย เช่น photo-real, impressionism, anime, minimal และอื่น ๆ เพื่อเพิ่มการใช้งานเชิงสร้างสรรค์ที่หลากหลาย
  • รองรับคำสั่งการแก้ไขภาพเชิงใช้งานจริงหลากหลาย เช่น การแปลงสไตล์ การเพิ่ม/ลบวัตถุ การเพิ่มความคมชัดและรายละเอียด การแก้ไขข้อความ และการปรับเปลี่ยนท่าทางร่างกาย

สรุป

  • Qwen-Image มุ่งเน้นการขยายขอบเขตการสร้างภาพ การลดอุปสรรคทางเทคโนโลยีในการผลิตเนื้อหาทางภาพ และการกระตุ้นการใช้งานเชิงสร้างสรรค์
  • ให้ความสำคัญกับความร่วมมือในชุมชน ความเปิดกว้าง และการสร้างระบบนิเวศ AI สร้างสรรค์ที่ยั่งยืน
  • วางแผนปรับปรุงความสามารถและขยายระบบนิเวศโอเพ่นบนฐานการใช้งานและข้อเสนอแนะจริงของผู้ใช้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น