- Qwen-Image-Edit เป็นโมเดลขยายที่พัฒนาจากโมเดล Qwen-Image สำหรับงานแก้ไขภาพโดยเฉพาะ
- ใช้โครงสร้างที่ส่งภาพอินพุตไปยัง Qwen2.5-VL และ VAE Encoder พร้อมกัน เพื่อรองรับทั้งการแก้ไขเชิงความหมายและการแก้ไขรูปลักษณ์
- มีความสามารถด้าน การแก้ไขข้อความ ที่โดดเด่น โดยสามารถแก้ไขข้อความภาษาจีนและอังกฤษได้โดยตรง พร้อมคงฟอนต์ ขนาด และสไตล์เดิมไว้
- ทำผลงานได้ในระดับ ล้ำสมัย (SOTA) บนเบนช์มาร์กหลากหลายชุด และกลายเป็นโมเดลพื้นฐานที่แข็งแกร่งสำหรับงานแก้ไขภาพ
- เปิดซอร์สภายใต้สัญญาอนุญาต Apache 2.0 ทำให้นักพัฒนาและนักวิจัยนำไปใช้งานได้อย่างอิสระ
บทนำ
- Qwen-Image-Edit เป็นโมเดลที่ขยายความสามารถด้านการเรนเดอร์ข้อความของ Qwen-Image เพื่อรองรับการแก้ไขภาพ
- ใช้โครงสร้างที่ส่งอินพุตภาพไปยังส่วนควบคุมเชิงความหมาย (Qwen2.5-VL) และส่วนควบคุมรูปลักษณ์ (VAE Encoder) พร้อมกัน
- จุดเด่นคือรองรับทั้งการแก้ไขข้อความอย่างแม่นยำ และการแก้ไขเชิงความหมายกับรูปลักษณ์
ฟีเจอร์หลัก
- การแก้ไขเชิงความหมาย & รูปลักษณ์: รองรับการเปลี่ยนแปลงเชิงความหมาย เช่น การเพิ่ม ลบ หมุนวัตถุ และแปลงสไตล์ รวมถึงการแก้ไขรูปลักษณ์ที่เปลี่ยนเฉพาะบางพื้นที่
- การแก้ไขข้อความอย่างแม่นยำ: สามารถแก้ไขภาษาอังกฤษและภาษาจีนได้โดยตรง พร้อมคงฟอนต์และสไตล์เดิมไว้
- ประสิทธิภาพเหนือกว่า: ทำผลงานระดับล้ำสมัยบนเบนช์มาร์กสาธารณะหลายชุด
เริ่มต้นใช้งานอย่างรวดเร็ว
- สามารถใช้งานผ่านไลบรารี
diffusers ของ Hugging Face ได้
- ในโค้ดตัวอย่าง มีการเปลี่ยนสีกระต่ายเป็นสีม่วง และเปลี่ยนพื้นหลังเป็นแสงแฟลชไลต์
- ทำงานได้อย่างมีประสิทธิภาพด้วยการเร่งความเร็วผ่าน CUDA และการรองรับ
torch.bfloat16
ตัวอย่างเดโม (Showcase)
- การแก้ไขเชิงความหมาย: สามารถสร้างคาแรกเตอร์ IP, หมุนวัตถุ (90 องศา, 180 องศา) และแปลงสไตล์ (เช่น สไตล์ Ghibli) ได้
- การแก้ไขรูปลักษณ์: เพิ่มป้าย ลบเส้นผม เปลี่ยนสีข้อความบางส่วน เปลี่ยนพื้นหลัง และเปลี่ยนเสื้อผ้าได้อย่างแม่นยำ
- การแก้ไขข้อความ: สามารถแก้ไขได้อย่างแม่นยำทั้งข้อความขนาดใหญ่และเล็กบนโปสเตอร์ภาษาอังกฤษและภาษาจีน
- เชนการแก้ไขต่อเนื่อง: สาธิตกรณีแก้ข้อผิดพลาดของตัวอักษรในงานคัดพู่กันทีละขั้น จนได้เวอร์ชันสมบูรณ์ในที่สุด
สถานการณ์การประยุกต์ใช้งาน
- การขยายแบรนด์ IP: มีการนำเสนอตัวอย่างการสร้างอีโมติคอน MBTI จากคาแรกเตอร์ Capybara
- ศิลปะและการสร้างสรรค์: เปิดโอกาสในการสร้างอวตารเสมือนผ่านการแปลงสไตล์ภาพพอร์ตเทรตที่หลากหลาย
- การใช้งานในอุตสาหกรรม: รองรับการแก้ไขอย่างละเอียด เช่น การแทรกป้ายบอกทางพร้อมสร้างเอฟเฟกต์สะท้อนอย่างเป็นธรรมชาติ
สัญญาอนุญาต
- เปิดเผยภายใต้สัญญาอนุญาต Apache 2.0 จึงสามารถใช้งาน แก้ไข และเผยแพร่ต่อได้อย่างอิสระ
ยังไม่มีความคิดเห็น