Vision Language Models ทำงานกับโจทย์ด้านการมองเห็นได้ไม่ดี
สรุป
- Vision Language Models (VLMs) แสดงประสิทธิภาพสูงในแอปพลิเคชันประมวลผลภาพ-ข้อความ แต่ล้มเหลวกับโจทย์ด้านการมองเห็น 7 แบบที่ง่ายมากสำหรับมนุษย์
- งานวิจัยนี้แสดงให้เห็นว่าความสามารถในการรับรู้ทางสายตาของ VLMs มีข้อจำกัด
Task 1: นับจุดตัดของเส้น
- ภาพ: สร้างกราฟเส้น 2D จำนวน 150 ภาพที่มีเส้นตรงสองเส้นตัดกัน
- คำถาม: "เส้นสีน้ำเงินและเส้นสีแดงตัดกันกี่ครั้ง?"
- ผลลัพธ์: โมเดลไม่สามารถนับจุดตัดได้อย่างถูกต้อง
Task 2: วงกลมสองวง
- ภาพ: สร้างภาพ 672 ภาพที่มีวงกลมสองวงซึ่งมีขนาด ระยะห่าง และทิศทางที่หลากหลาย
- คำถาม: "วงกลมสองวงสัมผัสกันหรือไม่?" หรือ "วงกลมสองวงซ้อนทับกันหรือไม่?"
- ผลลัพธ์: โมเดลล้มเหลวอย่างสม่ำเสมอเมื่อระยะห่างมีน้อย
Task 3: ตัวอักษรที่ถูกวงกลมล้อมไว้
- ภาพ: สร้างภาพที่ล้อมตัวอักษรแต่ละตัวของคำด้วยวงกลมสีแดง
- คำถาม: "ตัวอักษรใดถูกวงกลมล้อมไว้?"
- ผลลัพธ์: โมเดลมีแนวโน้มจะทำนายตัวอักษรที่อยู่ติดกัน
Task 4: นับรูปทรงที่ซ้อนทับกัน
- ภาพ: สร้างภาพที่มีวงกลมและรูปห้าเหลี่ยมซ้อนทับกันคล้ายโลโก้โอลิมปิก
- คำถาม: "ในภาพมีรูปทรงทั้งหมดกี่รูป?"
- ผลลัพธ์: โมเดลไม่สามารถนับจำนวนรูปทรงได้อย่างถูกต้อง
Task 5: นับสี่เหลี่ยมที่ซ้อนกัน
- ภาพ: สร้างภาพที่มีสี่เหลี่ยมซ้อนกัน
- คำถาม: "ในภาพมีสี่เหลี่ยมทั้งหมดกี่รูป?"
- ผลลัพธ์: โมเดลไม่สามารถนับจำนวนสี่เหลี่ยมที่ซ้อนกันได้อย่างถูกต้อง
Task 6: นับแถวและคอลัมน์ของกริด
- ภาพ: สร้างภาพที่มีกริดพร้อมข้อความและกริดว่าง
- คำถาม: "กริดนี้มีทั้งหมดกี่แถวและกี่คอลัมน์?"
- ผลลัพธ์: ประสิทธิภาพดีขึ้นในกริดที่มีข้อความ แต่ล้มเหลวกับกริดว่าง
Task 7: ติดตามเส้นทางสีเดียว
- ภาพ: สร้างภาพที่มีแผนที่เส้นทางรถไฟใต้ดิน
- คำถาม: "มีเส้นทางสีเดียวจาก A ไป C ทั้งหมดกี่เส้นทาง?"
- ผลลัพธ์: โมเดลไม่สามารถนับจำนวนเส้นทางได้อย่างถูกต้อง
สรุปโดย GN⁺
- งานวิจัยนี้แสดงให้เห็นว่าความสามารถในการรับรู้ทางสายตาของ Vision Language Models (VLMs) มีข้อจำกัด
- VLMs ล้มเหลวอย่างสม่ำเสมอกับโจทย์ด้านการมองเห็นที่ง่ายสำหรับมนุษย์
- สิ่งนี้บ่งชี้ว่ายังจำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อปรับปรุงความสามารถในการรับรู้ทางสายตาของ VLMs
- โปรเจ็กต์อื่นที่มีความสามารถคล้ายกัน ได้แก่ OpenAI GPT-4 และ Google Gemini-1.5 Pro
1 ความคิดเห็น
ความเห็นจาก Hacker News
คิดว่าข้อสรุปนั้นผิด
แชร์ประสบการณ์เกี่ยวกับ Captcha
ปัญหาของ VLM ในการนับจำนวนวัตถุและการรับรู้ความสัมพันธ์เชิงพื้นที่
วิจารณ์ประสิทธิภาพของโมเดล SOTA ในปัจจุบัน
ความเห็นเกี่ยวกับวิธีประมวลผลภาพของ VLM
คิดว่าชื่อ "Vision language models are blind" เป็นการพูดเกินจริง
ความเข้าใจเกี่ยวกับวิธีที่โมเดลตีความข้อมูลอินพุต
ความเห็นเกี่ยวกับระดับความสามารถของ GPT-4
AI มีปัญหาในการอ่านภาพตารางเรียนของโรงเรียน