• Qwen-Image-Edit เป็นโมเดลขยายที่พัฒนาจากโมเดล Qwen-Image สำหรับงานแก้ไขภาพโดยเฉพาะ
  • ใช้โครงสร้างที่ส่งภาพอินพุตไปยัง Qwen2.5-VL และ VAE Encoder พร้อมกัน เพื่อรองรับทั้งการแก้ไขเชิงความหมายและการแก้ไขรูปลักษณ์
  • มีความสามารถด้าน การแก้ไขข้อความ ที่โดดเด่น โดยสามารถแก้ไขข้อความภาษาจีนและอังกฤษได้โดยตรง พร้อมคงฟอนต์ ขนาด และสไตล์เดิมไว้
  • ทำผลงานได้ในระดับ ล้ำสมัย (SOTA) บนเบนช์มาร์กหลากหลายชุด และกลายเป็นโมเดลพื้นฐานที่แข็งแกร่งสำหรับงานแก้ไขภาพ
  • เปิดซอร์สภายใต้สัญญาอนุญาต Apache 2.0 ทำให้นักพัฒนาและนักวิจัยนำไปใช้งานได้อย่างอิสระ

บทนำ

  • Qwen-Image-Edit เป็นโมเดลที่ขยายความสามารถด้านการเรนเดอร์ข้อความของ Qwen-Image เพื่อรองรับการแก้ไขภาพ
  • ใช้โครงสร้างที่ส่งอินพุตภาพไปยังส่วนควบคุมเชิงความหมาย (Qwen2.5-VL) และส่วนควบคุมรูปลักษณ์ (VAE Encoder) พร้อมกัน
  • จุดเด่นคือรองรับทั้งการแก้ไขข้อความอย่างแม่นยำ และการแก้ไขเชิงความหมายกับรูปลักษณ์

ฟีเจอร์หลัก

  • การแก้ไขเชิงความหมาย & รูปลักษณ์: รองรับการเปลี่ยนแปลงเชิงความหมาย เช่น การเพิ่ม ลบ หมุนวัตถุ และแปลงสไตล์ รวมถึงการแก้ไขรูปลักษณ์ที่เปลี่ยนเฉพาะบางพื้นที่
  • การแก้ไขข้อความอย่างแม่นยำ: สามารถแก้ไขภาษาอังกฤษและภาษาจีนได้โดยตรง พร้อมคงฟอนต์และสไตล์เดิมไว้
  • ประสิทธิภาพเหนือกว่า: ทำผลงานระดับล้ำสมัยบนเบนช์มาร์กสาธารณะหลายชุด

เริ่มต้นใช้งานอย่างรวดเร็ว

  • สามารถใช้งานผ่านไลบรารี diffusers ของ Hugging Face ได้
  • ในโค้ดตัวอย่าง มีการเปลี่ยนสีกระต่ายเป็นสีม่วง และเปลี่ยนพื้นหลังเป็นแสงแฟลชไลต์
  • ทำงานได้อย่างมีประสิทธิภาพด้วยการเร่งความเร็วผ่าน CUDA และการรองรับ torch.bfloat16

ตัวอย่างเดโม (Showcase)

  • การแก้ไขเชิงความหมาย: สามารถสร้างคาแรกเตอร์ IP, หมุนวัตถุ (90 องศา, 180 องศา) และแปลงสไตล์ (เช่น สไตล์ Ghibli) ได้
  • การแก้ไขรูปลักษณ์: เพิ่มป้าย ลบเส้นผม เปลี่ยนสีข้อความบางส่วน เปลี่ยนพื้นหลัง และเปลี่ยนเสื้อผ้าได้อย่างแม่นยำ
  • การแก้ไขข้อความ: สามารถแก้ไขได้อย่างแม่นยำทั้งข้อความขนาดใหญ่และเล็กบนโปสเตอร์ภาษาอังกฤษและภาษาจีน
  • เชนการแก้ไขต่อเนื่อง: สาธิตกรณีแก้ข้อผิดพลาดของตัวอักษรในงานคัดพู่กันทีละขั้น จนได้เวอร์ชันสมบูรณ์ในที่สุด

สถานการณ์การประยุกต์ใช้งาน

  • การขยายแบรนด์ IP: มีการนำเสนอตัวอย่างการสร้างอีโมติคอน MBTI จากคาแรกเตอร์ Capybara
  • ศิลปะและการสร้างสรรค์: เปิดโอกาสในการสร้างอวตารเสมือนผ่านการแปลงสไตล์ภาพพอร์ตเทรตที่หลากหลาย
  • การใช้งานในอุตสาหกรรม: รองรับการแก้ไขอย่างละเอียด เช่น การแทรกป้ายบอกทางพร้อมสร้างเอฟเฟกต์สะท้อนอย่างเป็นธรรมชาติ

สัญญาอนุญาต

  • เปิดเผยภายใต้สัญญาอนุญาต Apache 2.0 จึงสามารถใช้งาน แก้ไข และเผยแพร่ต่อได้อย่างอิสระ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น