สรุปการวิเคราะห์เปรียบเทียบประสิทธิภาพของโมเดลแก้ไขภาพด้วยข้อความ
- ประเด็นสำคัญ:
- ประเมินความสามารถของโมเดลแก้ไขภาพด้วยข้อความรุ่นใหม่ล่าสุด 7 รุ่นในการทำภารกิจแก้ไข 12 แบบ
- Seedream 4 ทำผลงานได้ดีที่สุด โดยสำเร็จ 9 จาก 12 งาน ขณะที่ Gemini 2.5 Flash ตามมาเป็นอันดับถัดไปด้วย 7 งาน
- การประเมินดำเนินการภายใต้กติกาที่เข้มงวด ได้แก่ การใช้พรอมป์ต์เดียว (One-shot) และการแก้ไขแบบไม่มีการมาสก์ด้วยมือ (Non-masked)
- โมเดลต่าง ๆ มีอัตราความสำเร็จต่ำกับคำสั่งที่ซับซ้อน เช่น การสลับตำแหน่งเชิงพื้นที่ และ การลบองค์ประกอบเฉพาะแบบเลือกได้
Ⅰ. บทนำ
- เป้าหมายการประเมิน: วิเคราะห์เปรียบเทียบประสิทธิภาพของโมเดลแก้ไขภาพสมัยใหม่ระดับแนวหน้า (SOTA) หลายรุ่น โดยเน้นการปรับแก้ภาพตามคำสั่งข้อความ (Text-instructed)
- โมเดลที่ประเมิน (7 รุ่น): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (มีโมเดลเพิ่มเติมอีก 1 รุ่นแต่ไม่รวมในรายการ)
- ภารกิจที่ใช้ประเมิน: นำเสนอพรอมป์ต์และโจทย์ท้าทายการแก้ไขทั้งหมด 12 แบบ ที่มีระดับความยากและประเภทแตกต่างกัน
- กติกาการแข่งขัน:
- หลักการพยายามเพียงครั้งเดียว (Single-attempt): ไม่อนุญาตให้แก้ไขภาพเดิมซ้ำหลายรอบด้วยพรอมป์ต์ปรับแก้ต่อเนื่อง และต้องบรรลุเป้าหมายภายในความพยายามครั้งเดียว
- การแก้ไขด้วยคำสั่งข้อความล้วน (Purely text-based): การแก้ไขภาพต้องทำผ่านคำสั่งข้อความเท่านั้น ดังนั้นฟังก์ชันอย่าง img2img หรือการมาสก์ด้วยมือ (Manual Masking) เพื่อ inpainting จึงไม่อนุญาต
Ⅱ. เนื้อหา: วิเคราะห์ประสิทธิภาพรายโมเดลและโจทย์สำคัญ
1. เปรียบเทียบอัตราความสำเร็จโดยรวมของโมเดล
- ผลงานดีที่สุด: Seedream 4 แสดงผลงานโดดเด่นที่สุดด้วยการสำเร็จ 9 จาก 12 ภารกิจ
- อันดับรองลงมา: Gemini 2.5 Flash อยู่ถัดมาด้วย 7 งานที่สำเร็จ
- กลุ่มกลาง: Qwen-Image-Edit สำเร็จ 6 งาน และ FLUX.1 Kontext [dev] สำเร็จ 5 งาน
- กลุ่มล่าง: OpenAI gpt-image-1 สำเร็จ 4 งาน และ OmniGen2 สำเร็จเพียง 1 งาน
2. วิเคราะห์ประสิทธิภาพของโมเดลต่อประเภทการแก้ไขเฉพาะ
2.1. งานด้านการรับรู้เชิงพื้นที่และการปรับตำแหน่ง: อัตราความสำเร็จต่ำ
- 'SHRDLU' (สลับตำแหน่งบล็อก): โมเดลทั้ง 6 ล้มเหลวทั้งหมด (0/6). โมเดลส่วนใหญ่สลับเพียงสีของบล็อกแทนที่จะสลับตำแหน่ง โดย Gemini 2.5 Flash และ Seedream 4 ก็สลับแค่สีเท่านั้น
- 'ตั้งหอเอนปิซาให้ตรง': สำเร็จ 2 จาก 6 (2/6). งานนี้ต้องใช้การรับรู้เชิงพื้นที่พื้นฐาน และโมเดลที่เหลือมีปัญหาในการปรับให้วัตถุเฉพาะตั้งตรงโดยยังคงสภาพแวดล้อมที่เหลือไว้
2.2. งานเปลี่ยนและคงรายละเอียดเฉพาะจุด: ผลลัพธ์แบบผสม
- 'เปลี่ยน Jaws เป็น Paws และแก้ไขหลายจุดพร้อมกัน': สำเร็จ 5 จาก 6 (5/6). ต้องทำการเปลี่ยนหลายอย่างพร้อมกัน โดย OmniGen2 แม้จะแก้ไขสำเร็จ แต่ล้มเหลวในการรักษาสไตล์ความงามของต้นฉบับ
- 'เพิ่มผมให้ชายมีเครา': สำเร็จ 4 จาก 6 (4/6). ผลลัพธ์ของ Gemini 2.5 Flash ถือว่าใช้ได้ แต่มีปัญหาที่เส้นผมดูแหลมคมเกินไป ส่วน OpenAI gpt-image-1 เปลี่ยนภาพทั้งภาพ
- 'เปลี่ยนไพ่ฮวาตู': สำเร็จ 3 จาก 6 (3/6). ในการทดสอบความสามารถด้าน การแก้ไขแบบเลือกเฉพาะ ที่ต้องเปลี่ยนเฉพาะไพ่ใบหนึ่ง (King of Spades) และคงอีกใบ (Ace of Spades) ไว้เหมือนเดิมนั้น Qwen-Image-Edit กลับแก้ไข Ace of Spades ที่ไม่ต้องการด้วย
2.3. งานคงรายละเอียดและจัดการวัตถุซับซ้อน: อุปสรรคใหญ่ที่สุด
- 'ทำคอยีราฟให้สั้นลง': สำเร็จ 1 จาก 6 (1/6). โมเดลส่วนใหญ่ล้มเหลวในการทำให้คอยีราฟสั้นลง หรือในกรณีของ Qwen-Image-Edit กลับลบคอทั้งหมดออกไป ทำให้ตีความพรอมป์ต์อย่างผิดปกติ
- 'ลบลูกอม M&M สีน้ำตาล': สำเร็จ 1 จาก 6 (1/6). โมเดลมีปัญหาในการลบแบบเลือกเฉพาะ (หรือเปลี่ยนสี) เฉพาะลูกอมสีที่กำหนด โดย Gemini 2.5 Flash สร้างการจัดวางลูกอมขึ้นมาใหม่
- 'เปลี่ยนจิงโจ้บนป้ายเก่าให้เป็นเงารูปหนอนทราย': สำเร็จ 1 จาก 6 (1/6). โมเดลยังขาดความสามารถในการใส่องค์ประกอบใหม่เข้าไปพร้อมกับ คงพื้นผิวความเก่า เช่น รอยขีดข่วนและสนิมของป้ายเดิมไว้
Ⅲ. บทสรุป
- ลักษณะของโมเดลที่ดีที่สุด: Seedream 4 และ Gemini 2.5 Flash แสดงประสิทธิภาพโดยรวมที่ยอดเยี่ยม แต่ก็ยังมีข้อจำกัดในการทำความเข้าใจและสะท้อนคำสั่งข้อความที่ซับซ้อนและละเอียดอ่อนได้อย่างสมบูรณ์
- รูปแบบความล้มเหลวหลัก: โมเดลมีอัตราความสำเร็จต่ำอย่างต่อเนื่องในงานที่ต้องอาศัย ความเข้าใจความสัมพันธ์เชิงพื้นที่อย่างแม่นยำ และ การแก้ไขพร้อมคงองค์ประกอบจิ๋วเฉพาะจุดในภาพแบบเลือกได้
- ทิศทางการพัฒนาในอนาคต:
- GPT-image-1 มักมีแนวโน้มเปลี่ยนทั้งภาพโดยไม่ตั้งใจ จึงจำเป็นต้องปรับปรุงความแม่นยำในการจำกัดขอบเขตพื้นที่แก้ไขให้เฉพาะจุด
- สำหรับบางโมเดล เช่น 'FLUX.1 Kontext [dev]' และ 'Kontext Max' พบผลลัพธ์ที่ผิดคาดคือโมเดลขนาดใหญ่กลับมีประสิทธิภาพต่ำกว่าโมเดลรุ่นพัฒนาขนาดเล็กกว่า จึงจำเป็นต้องวิเคราะห์ผลกระทบของประเภทข้อมูลฝึก (ภาพถ่าย vs. ภาพประกอบ) ต่อประสิทธิภาพ
- สำหรับโจทย์ที่ทำได้ยากด้วยพรอมป์ต์เดียว (เช่น การเปลี่ยนดีไซน์ไพ่) อาจต้องพัฒนาวิธีทดสอบให้รองรับการอ้างอิงจาก การป้อนหลายภาพ เป็นอินพุต
ยังไม่มีความคิดเห็น