สรุปการวิเคราะห์เปรียบเทียบประสิทธิภาพของโมเดลแก้ไขภาพด้วยข้อความ

  • ประเด็นสำคัญ:
    • ประเมินความสามารถของโมเดลแก้ไขภาพด้วยข้อความรุ่นใหม่ล่าสุด 7 รุ่นในการทำภารกิจแก้ไข 12 แบบ
    • Seedream 4 ทำผลงานได้ดีที่สุด โดยสำเร็จ 9 จาก 12 งาน ขณะที่ Gemini 2.5 Flash ตามมาเป็นอันดับถัดไปด้วย 7 งาน
    • การประเมินดำเนินการภายใต้กติกาที่เข้มงวด ได้แก่ การใช้พรอมป์ต์เดียว (One-shot) และการแก้ไขแบบไม่มีการมาสก์ด้วยมือ (Non-masked)
    • โมเดลต่าง ๆ มีอัตราความสำเร็จต่ำกับคำสั่งที่ซับซ้อน เช่น การสลับตำแหน่งเชิงพื้นที่ และ การลบองค์ประกอบเฉพาะแบบเลือกได้

Ⅰ. บทนำ

  • เป้าหมายการประเมิน: วิเคราะห์เปรียบเทียบประสิทธิภาพของโมเดลแก้ไขภาพสมัยใหม่ระดับแนวหน้า (SOTA) หลายรุ่น โดยเน้นการปรับแก้ภาพตามคำสั่งข้อความ (Text-instructed)
  • โมเดลที่ประเมิน (7 รุ่น): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (มีโมเดลเพิ่มเติมอีก 1 รุ่นแต่ไม่รวมในรายการ)
  • ภารกิจที่ใช้ประเมิน: นำเสนอพรอมป์ต์และโจทย์ท้าทายการแก้ไขทั้งหมด 12 แบบ ที่มีระดับความยากและประเภทแตกต่างกัน
  • กติกาการแข่งขัน:
    • หลักการพยายามเพียงครั้งเดียว (Single-attempt): ไม่อนุญาตให้แก้ไขภาพเดิมซ้ำหลายรอบด้วยพรอมป์ต์ปรับแก้ต่อเนื่อง และต้องบรรลุเป้าหมายภายในความพยายามครั้งเดียว
    • การแก้ไขด้วยคำสั่งข้อความล้วน (Purely text-based): การแก้ไขภาพต้องทำผ่านคำสั่งข้อความเท่านั้น ดังนั้นฟังก์ชันอย่าง img2img หรือการมาสก์ด้วยมือ (Manual Masking) เพื่อ inpainting จึงไม่อนุญาต

Ⅱ. เนื้อหา: วิเคราะห์ประสิทธิภาพรายโมเดลและโจทย์สำคัญ

1. เปรียบเทียบอัตราความสำเร็จโดยรวมของโมเดล

  • ผลงานดีที่สุด: Seedream 4 แสดงผลงานโดดเด่นที่สุดด้วยการสำเร็จ 9 จาก 12 ภารกิจ
  • อันดับรองลงมา: Gemini 2.5 Flash อยู่ถัดมาด้วย 7 งานที่สำเร็จ
  • กลุ่มกลาง: Qwen-Image-Edit สำเร็จ 6 งาน และ FLUX.1 Kontext [dev] สำเร็จ 5 งาน
  • กลุ่มล่าง: OpenAI gpt-image-1 สำเร็จ 4 งาน และ OmniGen2 สำเร็จเพียง 1 งาน

2. วิเคราะห์ประสิทธิภาพของโมเดลต่อประเภทการแก้ไขเฉพาะ

2.1. งานด้านการรับรู้เชิงพื้นที่และการปรับตำแหน่ง: อัตราความสำเร็จต่ำ
  • 'SHRDLU' (สลับตำแหน่งบล็อก): โมเดลทั้ง 6 ล้มเหลวทั้งหมด (0/6). โมเดลส่วนใหญ่สลับเพียงสีของบล็อกแทนที่จะสลับตำแหน่ง โดย Gemini 2.5 Flash และ Seedream 4 ก็สลับแค่สีเท่านั้น
  • 'ตั้งหอเอนปิซาให้ตรง': สำเร็จ 2 จาก 6 (2/6). งานนี้ต้องใช้การรับรู้เชิงพื้นที่พื้นฐาน และโมเดลที่เหลือมีปัญหาในการปรับให้วัตถุเฉพาะตั้งตรงโดยยังคงสภาพแวดล้อมที่เหลือไว้
2.2. งานเปลี่ยนและคงรายละเอียดเฉพาะจุด: ผลลัพธ์แบบผสม
  • 'เปลี่ยน Jaws เป็น Paws และแก้ไขหลายจุดพร้อมกัน': สำเร็จ 5 จาก 6 (5/6). ต้องทำการเปลี่ยนหลายอย่างพร้อมกัน โดย OmniGen2 แม้จะแก้ไขสำเร็จ แต่ล้มเหลวในการรักษาสไตล์ความงามของต้นฉบับ
  • 'เพิ่มผมให้ชายมีเครา': สำเร็จ 4 จาก 6 (4/6). ผลลัพธ์ของ Gemini 2.5 Flash ถือว่าใช้ได้ แต่มีปัญหาที่เส้นผมดูแหลมคมเกินไป ส่วน OpenAI gpt-image-1 เปลี่ยนภาพทั้งภาพ
  • 'เปลี่ยนไพ่ฮวาตู': สำเร็จ 3 จาก 6 (3/6). ในการทดสอบความสามารถด้าน การแก้ไขแบบเลือกเฉพาะ ที่ต้องเปลี่ยนเฉพาะไพ่ใบหนึ่ง (King of Spades) และคงอีกใบ (Ace of Spades) ไว้เหมือนเดิมนั้น Qwen-Image-Edit กลับแก้ไข Ace of Spades ที่ไม่ต้องการด้วย
2.3. งานคงรายละเอียดและจัดการวัตถุซับซ้อน: อุปสรรคใหญ่ที่สุด
  • 'ทำคอยีราฟให้สั้นลง': สำเร็จ 1 จาก 6 (1/6). โมเดลส่วนใหญ่ล้มเหลวในการทำให้คอยีราฟสั้นลง หรือในกรณีของ Qwen-Image-Edit กลับลบคอทั้งหมดออกไป ทำให้ตีความพรอมป์ต์อย่างผิดปกติ
  • 'ลบลูกอม M&M สีน้ำตาล': สำเร็จ 1 จาก 6 (1/6). โมเดลมีปัญหาในการลบแบบเลือกเฉพาะ (หรือเปลี่ยนสี) เฉพาะลูกอมสีที่กำหนด โดย Gemini 2.5 Flash สร้างการจัดวางลูกอมขึ้นมาใหม่
  • 'เปลี่ยนจิงโจ้บนป้ายเก่าให้เป็นเงารูปหนอนทราย': สำเร็จ 1 จาก 6 (1/6). โมเดลยังขาดความสามารถในการใส่องค์ประกอบใหม่เข้าไปพร้อมกับ คงพื้นผิวความเก่า เช่น รอยขีดข่วนและสนิมของป้ายเดิมไว้

Ⅲ. บทสรุป

  • ลักษณะของโมเดลที่ดีที่สุด: Seedream 4 และ Gemini 2.5 Flash แสดงประสิทธิภาพโดยรวมที่ยอดเยี่ยม แต่ก็ยังมีข้อจำกัดในการทำความเข้าใจและสะท้อนคำสั่งข้อความที่ซับซ้อนและละเอียดอ่อนได้อย่างสมบูรณ์
  • รูปแบบความล้มเหลวหลัก: โมเดลมีอัตราความสำเร็จต่ำอย่างต่อเนื่องในงานที่ต้องอาศัย ความเข้าใจความสัมพันธ์เชิงพื้นที่อย่างแม่นยำ และ การแก้ไขพร้อมคงองค์ประกอบจิ๋วเฉพาะจุดในภาพแบบเลือกได้
  • ทิศทางการพัฒนาในอนาคต:
    • GPT-image-1 มักมีแนวโน้มเปลี่ยนทั้งภาพโดยไม่ตั้งใจ จึงจำเป็นต้องปรับปรุงความแม่นยำในการจำกัดขอบเขตพื้นที่แก้ไขให้เฉพาะจุด
    • สำหรับบางโมเดล เช่น 'FLUX.1 Kontext [dev]' และ 'Kontext Max' พบผลลัพธ์ที่ผิดคาดคือโมเดลขนาดใหญ่กลับมีประสิทธิภาพต่ำกว่าโมเดลรุ่นพัฒนาขนาดเล็กกว่า จึงจำเป็นต้องวิเคราะห์ผลกระทบของประเภทข้อมูลฝึก (ภาพถ่าย vs. ภาพประกอบ) ต่อประสิทธิภาพ
    • สำหรับโจทย์ที่ทำได้ยากด้วยพรอมป์ต์เดียว (เช่น การเปลี่ยนดีไซน์ไพ่) อาจต้องพัฒนาวิธีทดสอบให้รองรับการอ้างอิงจาก การป้อนหลายภาพ เป็นอินพุต

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น