- Qwen-Image เป็นโมเดลสร้างภาพพื้นฐาน MMDiT ขนาด 20B พารามิเตอร์ ที่มีจุดแข็งด้านการเรนเดอร์ข้อความแบบเนทีฟและการแก้ไขภาพที่แม่นยำ
- ในการแสดงข้อความที่ซับซ้อนของ ภาษาหลายภาษา เช่น อัลฟาเบตและอักษรจีน ตอบสนองได้ด้วยความแม่นยำสูงและความสมบูรณ์ทางภาพ
- ทำคะแนนได้สูงสุดในระดับเดียวกันบน benchmark สาธารณะหลากหลายรายการ (GenEval, DPG, OneIG-Bench ฯลฯ) และแสดงความสามารถในการสร้างข้อความอย่างโดดเด่น
- ในเดโมจริง สามารถแสดงเลย์เอาต์ที่ซับซ้อนและสไตล์ที่หลากหลายได้อย่างแม่นยำ เช่น หลายภาษา โปสเตอร์ PPT และอิลลัสเตรชัน
- รองรับฟังก์ชันการแก้ไข เช่น การแปลงสไตล์ การเพิ่ม/ลบวัตถุ การอธิบายรายละเอียด และการเปลี่ยนท่า พร้อมมุ่งขยายระบบนิเวศโอเพ่นซอร์ส
บทนำและจุดเด่นหลัก
- Qwen-Image เป็นโมเดลพื้นฐานสร้างภาพ MMDiT ขนาด 20B พารามิเตอร์ ที่เชี่ยวชาญด้าน การเรนเดอร์ข้อความซับซ้อน และการแก้ไขภาพอย่างละเอียด
- สามารถลองประสบการณ์โมเดลล่าสุดได้ใน Qwen Chat
คุณสมบัติหลัก
- การเรนเดอร์ข้อความที่ยอดเยี่ยม: รองรับเลย์เอาต์หลายบรรทัด ความเข้าใจเชิงความหมายระดับย่อหน้า และการแสดงรายละเอียดระดับละเอียด
- รองรับทั้งระบบอักษรแบบอัลฟาเบตและระบบอักขระภาพ (เช่น อักษรจีน) ด้วยความคมชัดสูง
- การแก้ไขภาพที่สอดคล้องกัน: การฝึกฝนแบบ multi-task ที่ปรับปรุงแล้วช่วยรักษาความแม่นยำเชิงความหมายและความสมจริงด้านภาพไปพร้อมกัน
- ประสิทธิภาพใน benchmark ที่แข็งแกร่ง: ในภารกิจ การสร้างและการแก้ไข บนชุดวัดผลแบบสาธารณะต่าง ๆ ทำได้สูงสุดในระดับเดียวกัน
- ในด้านการสร้างและแก้ไขข้อความ ทำได้ดีใน LongText-Bench, ChineseWord, TextCraft
- ใช้งานได้อย่างกว้างขวางสำหรับงานเชิงสร้างสรรค์ เช่น การประดิษฐ์ การออกแบบ และการเล่าเรื่อง
ประสิทธิภาพและ benchmark
- Qwen-Image ทำผลงานระดับ SOTA (state-of-the-art) ล่าสุดใน GenEval, DPG, OneIG-Bench (การสร้างภาพทั่วไป), GEdit, ImgEdit, GSO (การแก้ไข) และ benchmark อื่น ๆ
- โดยเฉพาะด้านการสร้างข้อความภาษาจีน มีความเหนือกว่าโมเดลชั้นนำเดิมอย่างชัดเจน
- ผสานความสามารถทั่วไปที่กว้างขวางเข้ากับการเรนเดอร์ข้อความที่แม่นยำ ทำให้กลายเป็นโมเดลนำด้านการสร้างภาพ
ตัวอย่างเดโม
การแสดงข้อความภาษาจีน
- จากพรอมต์ตัวอย่าง สามารถถ่ายทอดสไตล์อนิเมชันแบบ Miyazaki ในขณะเดียวกันแสดงข้อความอย่างแม่นยำ เช่น “云存储”“云计算”“云模型” และอักขระจีนพิเศษ (“千问”)
- การวางท่าทางและอารมณ์ใบหน้า ตัวละคร ตลอดถึงความลึกของฉากในภาพถูกสร้างอย่างเป็นธรรมชาติ
การแสดงข้อความจีนแบบซับซ้อน
- แสดงรายละเอียดได้อย่างประณีต ตั้งแต่บทคู่นิพนธ์ การลายเส้นคัลลิกราฟี ไปจนถึงรายละเอียดเชิงองค์ประกอบเช่น Dae-ryeon, Hwi-ho, Cheong-hwa-ja
- ตระกูลฟอนต์ การจัดเลย์เอาต์ และภาพประกอบ (เช่น 岳阳楼) ถูกสร้างได้สมจริงและครบถ้วน
ข้อความภาษาอังกฤษและหลายบรรทัด
- สะท้อนข้อความอย่างละเอียดในตำแหน่งต่าง ๆ เช่น ชั้นวางร้านหนังสือ ป้ายประกาศ และโปสเตอร์
- ตั้งแต่ข้อความ “New Arrivals This Week” จนถึงประโยคสั้นบนปกหนังสือ มีการนำเสนอฟอนต์และเลย์เอาต์ที่ใกล้เคียงของจริง
อินโฟกราฟิกภาษาอังกฤษที่ซับซ้อน
- แยกและจัดวางอย่างแม่นยำในแต่ละโมดูลย่อยถึงระดับไอคอน+หัวข้อ+ย่อหน้าคำอธิบาย
- อินโฟกราฟิกซับซ้อนที่เน้นหัวข้อ “Habits for Emotional Wellbeing” ถูกสร้างด้วยงานศิลป์ที่เป็นธรรมชาติและโครงสร้างที่สมดุล
ข้อความสั้นและข้อความยาวขนาดเล็ก
- สร้างข้อความลายมือยาวได้อย่างละเอียด แม้ในพื้นที่ขนาดเล็กกว่า 1/10 ของภาพ
- สามารถถ่ายทอดจำนวนประโยคจำนวนมากได้อย่างแม่นยำ ทั้งลายมือ การจัดวาง และการตัดบรรทัด
การผสมภาษาหลายภาษา
- สร้างข้อความลายมือภาษาอังกฤษและภาษาจีนในภาพเดียวกันได้พร้อมกัน
- สามารถสร้างข้อความได้อย่างเป็นธรรมชาติเมื่อมีการสลับภาษาในพรอมต์
การสร้างโปสเตอร์
- สร้างโปสเตอร์ภาพยนตร์ รวมถึงซับไตเติล ข้อมูลนักแสดง ผู้กำกับ และข้อมูลการเปิดตัว โดยผสมผสานองค์ประกอบข้อความและภาพได้อย่างอิสระในสไตล์ต่าง ๆ เช่น Sci-Fi และกราฟิกดีไซน์
ตัวอย่าง PPT ภาษาเกาหลี
- สร้างสไตล์ PPT AI/ธุรกิจล่าสุดได้อย่างสอดคล้อง ตั้งแต่โลโก้ Alibaba หัวเรื่องหลัก คำอธิบายรอง การจัดวางภาพผลงานศิลปะ ฟอนต์คัลลิกราฟี จนถึงรายละเอียดคำอธิบาย
การสร้างภาพทั่วไปและการแก้ไข
- รองรับ สไตล์ศิลป์ที่หลากหลาย เช่น photo-real, impressionism, anime, minimal และอื่น ๆ เพื่อเพิ่มการใช้งานเชิงสร้างสรรค์ที่หลากหลาย
- รองรับคำสั่งการแก้ไขภาพเชิงใช้งานจริงหลากหลาย เช่น การแปลงสไตล์ การเพิ่ม/ลบวัตถุ การเพิ่มความคมชัดและรายละเอียด การแก้ไขข้อความ และการปรับเปลี่ยนท่าทางร่างกาย
สรุป
- Qwen-Image มุ่งเน้นการขยายขอบเขตการสร้างภาพ การลดอุปสรรคทางเทคโนโลยีในการผลิตเนื้อหาทางภาพ และการกระตุ้นการใช้งานเชิงสร้างสรรค์
- ให้ความสำคัญกับความร่วมมือในชุมชน ความเปิดกว้าง และการสร้างระบบนิเวศ AI สร้างสรรค์ที่ยั่งยืน
- วางแผนปรับปรุงความสามารถและขยายระบบนิเวศโอเพ่นบนฐานการใช้งานและข้อเสนอแนะจริงของผู้ใช้
ยังไม่มีความคิดเห็น