2 คะแนน โดย GN⁺ 2024-07-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Vision Language Models ทำงานกับโจทย์ด้านการมองเห็นได้ไม่ดี

สรุป

  • Vision Language Models (VLMs) แสดงประสิทธิภาพสูงในแอปพลิเคชันประมวลผลภาพ-ข้อความ แต่ล้มเหลวกับโจทย์ด้านการมองเห็น 7 แบบที่ง่ายมากสำหรับมนุษย์
  • งานวิจัยนี้แสดงให้เห็นว่าความสามารถในการรับรู้ทางสายตาของ VLMs มีข้อจำกัด

Task 1: นับจุดตัดของเส้น

  • ภาพ: สร้างกราฟเส้น 2D จำนวน 150 ภาพที่มีเส้นตรงสองเส้นตัดกัน
  • คำถาม: "เส้นสีน้ำเงินและเส้นสีแดงตัดกันกี่ครั้ง?"
  • ผลลัพธ์: โมเดลไม่สามารถนับจุดตัดได้อย่างถูกต้อง

Task 2: วงกลมสองวง

  • ภาพ: สร้างภาพ 672 ภาพที่มีวงกลมสองวงซึ่งมีขนาด ระยะห่าง และทิศทางที่หลากหลาย
  • คำถาม: "วงกลมสองวงสัมผัสกันหรือไม่?" หรือ "วงกลมสองวงซ้อนทับกันหรือไม่?"
  • ผลลัพธ์: โมเดลล้มเหลวอย่างสม่ำเสมอเมื่อระยะห่างมีน้อย

Task 3: ตัวอักษรที่ถูกวงกลมล้อมไว้

  • ภาพ: สร้างภาพที่ล้อมตัวอักษรแต่ละตัวของคำด้วยวงกลมสีแดง
  • คำถาม: "ตัวอักษรใดถูกวงกลมล้อมไว้?"
  • ผลลัพธ์: โมเดลมีแนวโน้มจะทำนายตัวอักษรที่อยู่ติดกัน

Task 4: นับรูปทรงที่ซ้อนทับกัน

  • ภาพ: สร้างภาพที่มีวงกลมและรูปห้าเหลี่ยมซ้อนทับกันคล้ายโลโก้โอลิมปิก
  • คำถาม: "ในภาพมีรูปทรงทั้งหมดกี่รูป?"
  • ผลลัพธ์: โมเดลไม่สามารถนับจำนวนรูปทรงได้อย่างถูกต้อง

Task 5: นับสี่เหลี่ยมที่ซ้อนกัน

  • ภาพ: สร้างภาพที่มีสี่เหลี่ยมซ้อนกัน
  • คำถาม: "ในภาพมีสี่เหลี่ยมทั้งหมดกี่รูป?"
  • ผลลัพธ์: โมเดลไม่สามารถนับจำนวนสี่เหลี่ยมที่ซ้อนกันได้อย่างถูกต้อง

Task 6: นับแถวและคอลัมน์ของกริด

  • ภาพ: สร้างภาพที่มีกริดพร้อมข้อความและกริดว่าง
  • คำถาม: "กริดนี้มีทั้งหมดกี่แถวและกี่คอลัมน์?"
  • ผลลัพธ์: ประสิทธิภาพดีขึ้นในกริดที่มีข้อความ แต่ล้มเหลวกับกริดว่าง

Task 7: ติดตามเส้นทางสีเดียว

  • ภาพ: สร้างภาพที่มีแผนที่เส้นทางรถไฟใต้ดิน
  • คำถาม: "มีเส้นทางสีเดียวจาก A ไป C ทั้งหมดกี่เส้นทาง?"
  • ผลลัพธ์: โมเดลไม่สามารถนับจำนวนเส้นทางได้อย่างถูกต้อง

สรุปโดย GN⁺

  • งานวิจัยนี้แสดงให้เห็นว่าความสามารถในการรับรู้ทางสายตาของ Vision Language Models (VLMs) มีข้อจำกัด
  • VLMs ล้มเหลวอย่างสม่ำเสมอกับโจทย์ด้านการมองเห็นที่ง่ายสำหรับมนุษย์
  • สิ่งนี้บ่งชี้ว่ายังจำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อปรับปรุงความสามารถในการรับรู้ทางสายตาของ VLMs
  • โปรเจ็กต์อื่นที่มีความสามารถคล้ายกัน ได้แก่ OpenAI GPT-4 และ Google Gemini-1.5 Pro

1 ความคิดเห็น

 
GN⁺ 2024-07-11
ความเห็นจาก Hacker News
  • คิดว่าข้อสรุปนั้นผิด

    • อุปมาเรื่อง "มุมมองของคนสายตาสั้น" เป็นการพูดเกินจริง
    • มีตัวอย่างที่ GPT-4v ทำงานด้านการมองเห็นที่ละเอียดได้ดี
    • โมเดล GenAI ขนาดใหญ่ให้ผลลัพธ์ดีเมื่อฝึกด้วยข้อมูลจำนวนมาก
    • หลักฐานที่ผู้เขียนนำเสนอยังไม่เพียงพอ
  • แชร์ประสบการณ์เกี่ยวกับ Captcha

    • GPT-4o ช่วยแก้ปัญหาเรื่องประตูโรงรถได้
    • ระบุการติดตั้งที่ผิดพลาดจากภาพได้ แต่พลาดน็อตที่หายไป
  • ปัญหาของ VLM ในการนับจำนวนวัตถุและการรับรู้ความสัมพันธ์เชิงพื้นที่

    • Set of Marks ของ Microsoft อาจช่วยได้
    • การให้เลเบลที่ "พูดออกมาได้" ช่วยเพิ่มประสิทธิภาพ
  • วิจารณ์ประสิทธิภาพของโมเดล SOTA ในปัจจุบัน

    • ล้มเหลวในงานที่ง่ายสำหรับมนุษย์
    • เช่น การนับจำนวนครั้งที่เส้นตัดกัน, การตรวจจับการทับซ้อนของวงกลม เป็นต้น
  • ความเห็นเกี่ยวกับวิธีประมวลผลภาพของ VLM

    • มนุษย์สามารถโฟกัสไปที่พื้นที่ที่สนใจได้ แต่ VLM ประมวลผลทั้งภาพด้วยความละเอียดเท่ากัน
    • สงสัยว่ามีวิธีฝึกโมเดลด้วยข้อมูลเชิงโต้ตอบอย่างไร
  • คิดว่าชื่อ "Vision language models are blind" เป็นการพูดเกินจริง

    • วิธีที่ VLM ประมวลผลอินพุตภาพนั้นแตกต่างออกไป
    • อาจพลาดรายละเอียดในความละเอียดต่ำ
    • ตัวอย่างเช่น คำตอบของ Sonnet 3.5 โดยรวมค่อนข้างถูกต้อง แต่ยังมีข้อผิดพลาดบางส่วน
  • ความเข้าใจเกี่ยวกับวิธีที่โมเดลตีความข้อมูลอินพุต

    • LLM และโมเดลมัลติโหมดขาดความสามารถในการให้เหตุผลแบบเฉพาะเจาะจง
    • เช่น ChatGPT สรุปข้อความได้ดี แต่กลับนับจำนวนคำได้ไม่ดี
    • ปัญหาหลักของการพัฒนา AGI คือการผสานปัญญาระดับสูงและระดับต่ำเข้าด้วยกัน
  • ความเห็นเกี่ยวกับระดับความสามารถของ GPT-4

    • อ้างคำพูดของ Mira Murati ที่บอกว่า GPT-4 อยู่ในระดับมัธยมปลาย
  • AI มีปัญหาในการอ่านภาพตารางเรียนของโรงเรียน

    • เมื่อถามถึงวันที่เฉพาะเจาะจง บางส่วนตอบถูก แต่บางส่วนตกหล่นหรือแต่งวันที่ใหม่ขึ้นมา
    • เมื่อลดสัญญาณรบกวนแล้ว ประสิทธิภาพดีขึ้นเล็กน้อย แต่ยังไม่น่าเชื่อถือ