[แปล] VLMs are blind: งานวิจัยว่าด้วยงานด้านการมองเห็นที่โมเดลวิชวล-ภาษาไม่ผ่าน (ทั้งที่มนุษย์ทำได้ง่าย) (feat. BlindTest)

(discuss.pytorch.kr)

8 คะแนน โดย ninebow 2024-07-13 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

แนะนำงานวิจัย VLMs(Vision-Language Models) are Blind

ในช่วง 8 เดือนที่ผ่านมา การมาถึงของโมเดลวิชวล-ภาษา (VLM) เช่น GPT-4V(ision) ทำให้แอปพลิเคชันด้านการประมวลผลภาพ-ข้อความเพิ่มขึ้นอย่างรวดเร็ว VLM (Vision-Language Model หรือโมเดลวิชวล-ภาษา) สามารถระบุวัตถุในฉากได้อย่างแม่นยำ และนำไปใช้ทำงานที่ซับซ้อนได้ ตัวอย่างเช่น งานอย่างการคำนวณราคาเบียร์บนโต๊ะจากภาพฉากและภาพเมนู อย่างไรก็ตาม VLM แสดงข้อจำกัดที่น่าประหลาดใจในงานบางประเภท ซึ่งทำให้เกิดคำถามว่าพวกมันรับรู้ภาพได้เหมือนมนุษย์หรือไม่ งานวิจัยนี้เสนอชุดงานด้านการมองเห็น 7 แบบชื่อ BlindTest เพื่อประเมินข้อจำกัดเหล่านี้ โดย BlindTest เป็นงานที่ง่ายมากสำหรับมนุษย์ แต่เป็นความท้าทายใหญ่สำหรับ VLM รุ่นล้ำสมัย

ประเด็นหลักที่งานวิจัยนี้พูดถึงคือช่องว่างระหว่างความสามารถที่ผู้คนรับรู้ว่ามีใน VLM กับประสิทธิภาพจริงในงานด้านการมองเห็นพื้นฐาน แม้ VLM จะทำผลงานได้ยอดเยี่ยมในเบนช์มาร์กระดับสูงด้านวิชัน แต่กลับมีปัญหาในงานง่าย ๆ ที่ต้องการความเข้าใจเชิงพื้นที่อย่างแม่นยำและการนับจำนวน การแก้ปัญหานี้เป็นสิ่งจำเป็นต่อการผลักดันการนำ VLM ไปใช้จริงในสถานการณ์ชีวิตประจำวัน

VLM บางรุ่นที่พัฒนาขึ้นในช่วงหลังมีการผสานวิชันและภาษาเข้าด้วยกันตั้งแต่ต้นในสถาปัตยกรรมโมเดล ทำให้ข้อมูลภาพและข้อความโต้ตอบกันได้อย่างลื่นไหลมากขึ้น ขณะที่อีกแนวทางหนึ่งคือแยกองค์ประกอบด้านวิชันและภาษาออกจากกันก่อน แล้วค่อยรวมกันภายหลัง ซึ่งแม้จะแข็งแกร่งด้านความเข้าใจภาษา แต่ให้ประสิทธิภาพด้านการรับรู้ภาพที่อ่อนกว่า เบนช์มาร์กปัจจุบันมักประเมิน VLM จากงานให้เหตุผลเชิงภาพที่ซับซ้อน เช่น MMMU และ AI2D แต่ก็มักมองข้ามงานด้านการมองเห็นระดับล่าง

งานวิจัยนี้นำเสนอเบนช์มาร์กใหม่ชื่อ BlindTest เพื่อสำรวจข้อจำกัดของโมเดลวิชวล-ภาษา (VLM) ในปัจจุบัน BlindTest ประกอบด้วยงานด้านการมองเห็นที่เป็นธรรมชาติและง่ายสำหรับมนุษย์ เช่น การตรวจว่ามีวงกลมสองวงซ้อนทับกันหรือไม่ หรือการนับจำนวนรูปทรงในภาพ

โมเดลวิชวล-ภาษา (VLM, Vision-Language Model)

ผู้เขียนได้ทดสอบ VLM รุ่นล่าสุด 4 รุ่น ได้แก่ GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet และ Claude-3.5 Sonnet โมเดลเหล่านี้ติดอันดับสูงในมัลติโหมดวิชันเบนช์มาร์กช่วงหลัง และแสดงประสิทธิภาพยอดเยี่ยมในหัวข้อต่าง ๆ ตัวอย่างเช่น ทำคะแนนได้ดีในเบนช์มาร์กอย่าง MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA และ EgoSchema อย่างไรก็ตาม เบนช์มาร์กที่มีอยู่เดิมวัดได้เพียงประสิทธิภาพโดยรวมของ VLM เท่านั้น และยังไม่สามารถชี้ข้อจำกัดเฉพาะได้อย่างชัดเจน ดังนั้นเราจึงออกแบบเบนช์มาร์กใหม่เพื่อประเมินว่า VLM ตอบสนองต่อโจทย์ภาพอย่างง่ายอย่างไร เบนช์มาร์กนี้ประกอบด้วยรูปทรงเรขาคณิต 2D พื้นฐาน และต้องการความรู้พื้นฐานน้อยมาก

เบนช์มาร์ก BlindTest

BlindTest ประกอบด้วยงานด้านการมองเห็นอย่างง่าย 7 งาน โดยแต่ละงานใช้ประเมินว่า VLM ทำการรับรู้ภาพพื้นฐานได้อย่างไร

Task 1. นับจำนวนจุดตัด 📈📉

งานนี้ทดสอบกรณีที่ฟังก์ชันเชิงเส้นแบบ 2 เซกเมนต์สองเส้นมีจุดตัด 0, 1 หรือ 2 จุด เพื่อการนี้ มีการสร้างภาพกราฟเส้น 2D จำนวน 150 ภาพ กราฟเส้นแต่ละภาพนิยามจากพิกัด x คงที่ 3 ค่าและพิกัด y ที่สุ่มเลือก แล้ววาดลงบนผืนผ้าใบสีขาว โดยในกระบวนการนี้ได้กำหนดให้เส้นมีจุดตัดเท่ากับ 0, 1 หรือ 2 จุดอย่างพอดี

แต่ละคำถามจะถามด้วยถ้อยคำ 2 แบบ แบบแรกคือ "กราฟเส้นสีน้ำเงินและสีแดงตัดกันกี่ครั้ง?(How many times do the blue and red line plots cross each other?)" และแบบที่สองคือ "เส้นสีน้ำเงินและสีแดงตัดกันกี่ครั้ง?(How many times do the blue and red lines intersect?)" จุดประสงค์คือเพื่อประเมินว่า VLM สามารถรับรู้ความแตกต่างเล็กน้อยของถ้อยคำและดึงความหมายเดียวกันออกมาได้หรือไม่ การใช้คำถามหลายรูปแบบเช่นนี้มีประโยชน์ต่อการทดสอบความสามารถด้านความเข้าใจของโมเดลจากหลายมุม

ประสิทธิภาพของทั้ง 4 โมเดลในงานนับจำนวนครั้งที่เส้นตัดกันเป็นดังนี้ GPT-4o มีความแม่นยำ 48.67%, Gemini-1.5 Pro 69.67%, Sonnet-3 64.00% และ Sonnet-3.5 77.33% ผลลัพธ์นี้แสดงให้เห็นว่า VLM มีความยากลำบากในการตัดสินว่าเส้นตัดกันหรือไม่ โดยเฉพาะอย่างยิ่ง ความต่างของประสิทธิภาพระหว่างโมเดลบ่งชี้ว่าความสามารถในการประมวลผลภาพของแต่ละโมเดลแตกต่างกัน ผลลัพธ์นี้ตอกย้ำว่ายังจำเป็นต้องมีงานวิจัยเพิ่มเติมเพื่อยกระดับความสามารถในการเข้าใจภาพของ VLM

Task 2. ตรวจสอบสถานะของวงกลมสองวง 🔴🔵

งานนี้ประเมินว่าวงกลมทึบขนาดเท่ากันสองวงสัมผัสกันหรือซ้อนทับกันหรือไม่ เพื่อการนี้ มีการสร้างภาพจำนวน 672 ภาพ โดยตั้งค่าขนาด ระยะห่าง และทิศทางของวงกลมอย่างหลากหลาย และกำหนดขนาดผืนผ้าใบไว้ที่ 384, 769 และ 1155 พิกเซล เส้นผ่านศูนย์กลางของวงกลมถูกกำหนดให้เป็น 1/4, 1/5, 1/6 และ 1/7 ของขนาดผืนผ้าใบ ส่วนระยะห่างและทิศทางของวงกลมถูกสุ่มกำหนด

แต่ละคำถามจะถามด้วยถ้อยคำ 2 แบบ แบบแรกคือ "วงกลมทั้งสองสัมผัสกันหรือไม่? กรุณาตอบ Yes/No.(Are the two circles touching each other? Answer with Yes/No)" และแบบที่สองคือ "วงกลมทั้งสองซ้อนทับกันหรือไม่? กรุณาตอบ Yes/No.(Are the two circles overlapping? Answer with Yes/No.)" จุดประสงค์คือเพื่อประเมินว่าโมเดลสามารถรับรู้ความแตกต่างเล็กน้อยของถ้อยคำและดึงความหมายเดียวกันออกมาได้หรือไม่ การใช้คำถามหลายรูปแบบเช่นนี้มีประโยชน์ต่อการทดสอบความสามารถด้านความเข้าใจของโมเดลจากหลายมุม

ประสิทธิภาพของทั้ง 4 โมเดลในการตัดสินว่าวงกลมสองวงสัมผัสกันหรือไม่เป็นดังนี้ GPT-4o เฉลี่ย 72.69%, Gemini-1.5 Pro เฉลี่ย 92.78%, Sonnet-3 เฉลี่ย 84.52% และ Sonnet-3.5 เฉลี่ย 91.66% ผลลัพธ์นี้แสดงให้เห็นว่า VLM มีประสิทธิภาพในระดับหนึ่งในการตัดสินการซ้อนทับของวงกลม แต่ก็ยังต้องปรับปรุงต่อไป โดยเฉพาะอย่างยิ่ง ความต่างของประสิทธิภาพระหว่างโมเดลบ่งชี้ว่าความสามารถในการประมวลผลภาพของแต่ละโมเดลแตกต่างกัน

Task 3. ระบุตัวอักษรที่ถูกวงไว้ 🔤⭕

งานนี้สร้างภาพที่วงตัวอักษรแต่ละตัวตามลำดับในสตริงหลากหลายแบบ เพื่อประเมินว่า VLM สามารถรับรู้ได้ว่าตัวอักษรใดถูกทำเครื่องหมายด้วยวงกลม สตริงที่เลือกใช้คือ Acknowledgement, Subdermatoglyphic และ tHyUiKaRbNqWeOpXcZvM โดยจะวงตัวอักษรแต่ละตัวของแต่ละสตริงตามลำดับ วิธีนี้ใช้ประเมินว่า VLM สามารถรับรู้ช่องว่างเล็ก ๆ ระหว่างตัวอักษรได้หรือไม่

มีการถามด้วยพรอมป์ต์ 2 แบบ แบบแรกคือ "ตัวอักษรใดถูกวงไว้?(Which letter is being circled?)" และแบบที่สองคือ "อักขระใดถูกเน้นด้วยวงรีสีแดง?(Which character is being highlighted with a red oval?)" จุดประสงค์คือเพื่อประเมินว่าโมเดลสามารถรับรู้ความแตกต่างเล็กน้อยของถ้อยคำและดึงความหมายเดียวกันออกมาได้หรือไม่ การใช้คำถามหลายรูปแบบเช่นนี้มีประโยชน์ต่อการทดสอบความสามารถด้านความเข้าใจของโมเดลจากหลายมุม

ประสิทธิภาพของทั้ง 4 โมเดลในการระบุตัวอักษรที่ถูกวงไว้เป็นดังนี้ GPT-4o เฉลี่ย 70.18%, Gemini-1.5 Pro เฉลี่ย 92.81%, Sonnet-3 เฉลี่ย 73.34% และ Sonnet-3.5 เฉลี่ย 89.22% ผลลัพธ์นี้แสดงให้เห็นว่า VLM มีความยากลำบากในการรับรู้ตัวอักษรที่ถูกวงไว้

กล่าวคือ VLM ทุกตัวมีปัญหาในการระบุตัวอักษรได้อย่างแม่นยำ โดยเฉพาะเมื่อวงกลมซ้อนทับตัวอักษรเล็กน้อย มักเกิดข้อผิดพลาดจำนวนมาก สิ่งนี้แสดงให้เห็นว่า VLM ยังไม่สามารถประมวลผลข้อมูลภาพที่ละเอียดได้อย่างแม่นยำ และความต่างของประสิทธิภาพระหว่างโมเดลก็ยังบ่งชี้ว่าความสามารถในการประมวลผลภาพของแต่ละโมเดลแตกต่างกัน

Task 4. นับจำนวนรูปทรงที่ซ้อนกัน ∞

งานนี้เป็นการนับจำนวนวงกลมที่ซ้อนกันในลักษณะคล้ายโลโก้โอลิมปิก เพื่อการนี้ มีการสร้างภาพ 120 ภาพ และทำการทดลองทั้งกับวงกลมและรูปห้าเหลี่ยม แต่ละภาพประกอบด้วยรูปทรงซ้อนกัน 5, 6, 7, 8 และ 9 รูป จัดเรียงเป็นสองแถว โดยกำหนดขนาดและสีของรูปทรงให้หลากหลาย

ในโจทย์นี้จะถามด้วยพรอมป์ต์ 2 แบบ แบบแรกคือ "ในภาพมี {shape} กี่อัน? ให้ตอบเป็นตัวเลขเท่านั้น (How many {shapes} are in the image? Answer with only the number in numerical format)" และแบบที่สองคือ "นับจำนวน {shape} ที่อยู่ในภาพ ตอบเป็นตัวเลขในวงเล็บปีกกา เช่น {3} (Count the {shapes} in the image. Answer with a number in curly brackets e.g. {3}.)" โดย {shape} หมายถึงวงกลมหรือห้าเหลี่ยม ทั้งนี้เพื่อประเมินว่าโมเดลสามารถรับรู้ความแตกต่างเล็กน้อยของถ้อยคำและดึงความหมายเดียวกันออกมาได้หรือไม่

ประสิทธิภาพในการนับรูปทรงที่ซ้อนทับกันของทั้ง 4 โมเดลมีดังนี้ GPT-4o มีความแม่นยำ 42.50% สำหรับวงกลม และ 19.16% สำหรับห้าเหลี่ยม ขณะที่ Gemini-1.5 Pro มีความแม่นยำ 20.83% สำหรับวงกลม และ 9.16% สำหรับห้าเหลี่ยม Sonnet-3 มีความแม่นยำ 31.66% สำหรับวงกลม และ 11.66% สำหรับห้าเหลี่ยม และ Sonnet-3.5 มีความแม่นยำ 44.16% สำหรับวงกลม และ 75.83% สำหรับห้าเหลี่ยม

โมเดลส่วนใหญ่ทำผลงานได้ต่ำในงานนี้ โดยเฉพาะเมื่อมีวงกลม 5 วงจะมีความแม่นยำสูง แต่เมื่อมากกว่านั้น ประสิทธิภาพจะลดลงอย่างรวดเร็ว สิ่งนี้แสดงให้เห็นว่า VLM ไม่สามารถรับรู้รูปทรงที่ทับซ้อนกันได้อย่างแม่นยำ

Task 5. การนับสี่เหลี่ยมซ้อนกัน 🔳🔲

ในโจทย์นี้จะสร้างภาพโดยซ้อนสี่เหลี่ยมหลายชั้น แต่ละภาพประกอบด้วยสี่เหลี่ยมหลายขนาด โดยกำหนดขนาดและตำแหน่งของสี่เหลี่ยมแบบสุ่ม แต่ละภาพมีสี่เหลี่ยมซ้อนกันจำนวนหนึ่ง ซึ่งจำนวนสี่เหลี่ยมจะเป็น 2, 3, 4 หรือ 5 งานนี้มีไว้เพื่อประเมินว่า VLM สามารถนับจำนวนรูปทรงที่ซ้อนกันได้อย่างแม่นยำหรือไม่

ในโจทย์นี้จะถามว่า "จงนับจำนวนสี่เหลี่ยมทั้งหมดในภาพ (Count the total number of squares in the image)" ทั้งนี้เพื่อประเมินว่า VLM สามารถนับจำนวนรูปทรงที่ซ้อนกันได้อย่างแม่นยำหรือไม่ และเพื่อประเมินว่าโมเดลสามารถรับรู้ความแตกต่างเล็กน้อยของถ้อยคำและดึงความหมายเดียวกันออกมาได้หรือไม่

ประสิทธิภาพในการนับสี่เหลี่ยมซ้อนกันของทั้ง 4 โมเดลมีดังนี้ GPT-4o ได้ 48.33%, Gemini-1.5 Pro ได้ 80.00%, Sonnet-3 ได้ 55.00% และ Sonnet-3.5 ได้ 87.50% ซึ่งแสดงให้เห็นว่า VLM ยังประสบความยากลำบากในการนับจำนวนสี่เหลี่ยมที่ซ้อนกัน

ดังที่เห็นจากผลลัพธ์ ทุกโมเดลยังคงมีความแม่นยำต่ำอย่างสม่ำเสมอในงานนี้เช่นกัน โดยเฉพาะเมื่อจำนวนสี่เหลี่ยมเพิ่มขึ้น ความผิดพลาดก็เพิ่มขึ้นตามไปด้วย สิ่งนี้แสดงให้เห็นว่า VLM มีความยากลำบากในการรับรู้รูปทรงที่ซ้อนกันอย่างแม่นยำ นอกจากนี้ ความแตกต่างด้านประสิทธิภาพระหว่างโมเดลยังบ่งชี้ว่าความสามารถในการประมวลผลเชิงภาพของแต่ละโมเดลนั้นแตกต่างกัน

Task 6. การนับเมทริกซ์กริด ▦

ในโจทย์นี้จะสร้างภาพกริดที่มีขนาดหลากหลายเพื่อทำงานนับจำนวนแถวและคอลัมน์ แต่ละภาพประกอบด้วยกริดที่มีจำนวนแถวและคอลัมน์ตามที่กำหนดไว้ และบางภาพมีข้อความอยู่ในแต่ละเซลล์ นอกจากนี้ ยังมีการกำหนดขนาดและรูปแบบของกริดให้หลากหลายอีกด้วย ทั้งนี้เพื่อประเมินว่า VLM สามารถนับจำนวนแถวและคอลัมน์ของกริดได้อย่างแม่นยำหรือไม่

แต่ละคำถามประกอบด้วยถ้อยคำ 2 แบบที่ต่างกัน แบบแรกคือ "นับจำนวนแถวและคอลัมน์ แล้วตอบเป็นตัวเลขในวงเล็บปีกกา ตัวอย่าง: rows={5} columns={6} (Count the number of rows and columns and answer with numbers in curly brackets. For example, rows={5} columns={6})" และแบบที่สองคือ "จงนับจำนวนแถวและคอลัมน์ของตาราง ตอบเป็นคู่ตัวเลข ตัวอย่าง: (5,6) (How many rows and columns are in the table? Answer with only the numbers in a pair (row, column), e.g., (5,6))" ทั้งนี้เพื่อประเมินว่าโมเดลสามารถรับรู้ความแตกต่างเล็กน้อยของถ้อยคำและดึงความหมายเดียวกันออกมาได้หรือไม่

ประสิทธิภาพในการนับแถวและคอลัมน์ของทั้ง 4 โมเดลมีดังนี้ GPT-4o มีความแม่นยำเฉลี่ย 39.58%, Gemini-1.5 Pro มีความแม่นยำเฉลี่ย 35.79%, Sonnet-3 มีความแม่นยำเฉลี่ย 36.17% และ Sonnet-3.5 มีความแม่นยำเฉลี่ย 74.26%

ผลการทดลองพบว่า ในกริดที่มีข้อความรวมอยู่ด้วย ประสิทธิภาพดีขึ้น แต่ก็ยังไม่แสดงความแม่นยำในระดับสูงอยู่ดี สิ่งนี้แสดงให้เห็นว่า VLM ไม่สามารถรับรู้โครงสร้างรายละเอียดของกริดได้อย่างแม่นยำ จึงมีความยากลำบากในการนับจำนวนแถวและคอลัมน์ โดยเฉพาะอย่างยิ่ง ความแตกต่างด้านประสิทธิภาพระหว่างโมเดลที่มาก ยังบ่งชี้ว่าความสามารถในการประมวลผลเชิงภาพของแต่ละโมเดลนั้นแตกต่างกัน

Task 7. การตามเส้นทางสีเดียว 🔂

ในโจทย์นี้จะทำงานอ่านแผนที่เส้นทางรถไฟใต้ดินโดยตามเส้นทางสีเดียว แต่ละภาพประกอบด้วยสถานีคงที่ 4 แห่ง (A, B, C, D) และเส้นทางที่เชื่อมต่อระหว่างสถานีเหล่านี้ ทั้งนี้เพื่อประเมินว่า VLM สามารถตามเส้นทางสีเดียวได้หรือไม่

แต่ละคำถามประกอบด้วยพรอมป์ต์ 2 แบบที่ต่างกัน แบบแรกคือ "มีเส้นทางสีเดียวจาก A ไป C กี่เส้นทาง? ตอบเป็นตัวเลขในวงเล็บปีกกา เช่น {3} (How many single-colored paths go from A to C? Answer with a number in curly brackets, e.g., {3})" และแบบที่สองคือ "จงนับเส้นทางสีเดียวที่ไปจาก A ถึง C ตอบเป็นตัวเลขในวงเล็บปีกกา เช่น {3} (Count the one-colored routes that go from A to C. Answer with a number in curly brackets, e.g., {3}.)" ทั้งนี้เพื่อประเมินว่าโมเดลสามารถรับรู้ความแตกต่างเล็กน้อยของถ้อยคำและดึงความหมายเดียวกันออกมาได้หรือไม่

ประสิทธิภาพในการตามเส้นทางสีเดียวของทั้ง 4 โมเดลมีดังนี้ GPT-4o มีความแม่นยำเฉลี่ย 45.89%, Gemini-1.5 Pro มีความแม่นยำเฉลี่ย 40.01%, Sonnet-3 มีความแม่นยำเฉลี่ย 23.78% และ Sonnet-3.5 มีความแม่นยำเฉลี่ย 50.18% กล่าวคือ ทุกโมเดลทำผลงานได้ต่ำในงานนี้

โดยเฉพาะเมื่อจำนวนเส้นทางเพิ่มขึ้น ประสิทธิภาพจะลดลงอย่างรวดเร็ว สิ่งนี้แสดงให้เห็นว่า VLM มีความยากลำบากในการตามเส้นทางสีเดียว ความแตกต่างด้านประสิทธิภาพระหว่างโมเดลที่มากเช่นนี้ยังบ่งชี้ว่าความสามารถในการประมวลผลเชิงภาพของแต่ละโมเดลนั้นแตกต่างกัน

ผลการทดลอง

VLM ทุกตัวแสดงความแม่นยำต่ำแม้ในงานด้านการมองเห็นที่เรียบง่าย โดยเฉพาะงานอย่างการนับจุดตัดของเส้นตรง การตรวจสอบสถานะของวงกลมสองวง และการตรวจสอบตัวอักษรที่ถูกวงไว้ ล้วนแสดงประสิทธิภาพต่ำอย่างชัดเจน สิ่งนี้บ่งชี้ว่า VLM ไม่สามารถรับรู้ข้อมูลเชิงภาพที่ละเอียดได้อย่างแม่นยำ นอกจากนี้ ในงานอย่างการนับรูปทรงที่ทับซ้อนกัน การนับสี่เหลี่ยมซ้อนกัน การนับเมทริกซ์กริด และการตามเส้นทางสีเดียว ก็ยังแสดงประสิทธิภาพต่ำอย่างสม่ำเสมอเช่นกัน

โดยรวมแล้ว การทดลองนี้ยืนยันได้ว่าความสามารถด้านการรับรู้ภาพของ VLM ยังมีข้อจำกัด ผลลัพธ์เหล่านี้หมายความว่า VLM ยังต้องได้รับการปรับปรุงอีกมาก หากต้องการมีความสามารถในการรับรู้ภาพในระดับใกล้เคียงมนุษย์

งานวิจัยที่เกี่ยวข้องและข้อสรุป

เบนช์มาร์ก VLM ที่มีอยู่เดิมมักมุ่งเน้นไปที่การประเมินความสามารถด้านความเข้าใจภาพในระดับสูงเป็นหลัก แต่ BlindTest เป็นเบนช์มาร์กแรกที่ประเมินความสามารถการรับรู้ภาพขั้นพื้นฐาน และแสดงให้เห็นอย่างชัดเจนว่า VLM มีข้อจำกัดอะไรบ้างในงานภาพที่เรียบง่าย

ตัวอย่างเช่น เบนช์มาร์กอย่าง MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA และ EgoSchema วัดได้เพียงประสิทธิภาพโดยรวมของ VLM เท่านั้น แต่ไม่สามารถเปิดเผยข้อจำกัดเฉพาะได้อย่างชัดเจน ดังนั้น BlindTest จึงเป็นเครื่องมือสำคัญสำหรับการประเมินความสามารถด้านการรับรู้ภาพของ VLM ได้อย่างแม่นยำยิ่งขึ้น นอกจากนี้ BlindTest ยังจะเป็นเกณฑ์สำคัญในการประเมินด้วยว่า VLM ยังไม่สามารถรับรู้ภาพได้เหมือนมนุษย์หรือไม่

ประสิทธิภาพที่ย่ำแย่ในโจทย์ของ BlindTest ชี้ให้เห็นว่า VLM ในปัจจุบันยังไม่เชี่ยวชาญงานการรับรู้ภาพพื้นฐานที่ต้องอาศัยความเข้าใจเชิงพื้นที่อย่างแม่นยำ ข้อจำกัดนี้สะท้อนให้เห็นว่าโมเดลมีแนวโน้มพึ่งพาความสามารถด้านการประมวลผลภาษา ซึ่งอาจไม่เหมาะกับการรับรู้ภาพ ผลลัพธ์เหล่านี้ตอกย้ำถึงความจำเป็นของการวิจัยและพัฒนาเพิ่มเติมเพื่อยกระดับความสามารถเชิงภาพของ VLM

ในการวิจัยต่อจากนี้ จำเป็นต้องมีแนวทางใหม่เพื่อปรับปรุงความสามารถในการรับรู้เชิงภาพของ VLM ตัวอย่างเช่น สามารถปรับปรุงโมดูลวิชันได้ด้วยแนวทาง early fusion นอกจากนี้ ยังจำเป็นต้องทำให้ข้อมูลฝึกมีความหลากหลายมากขึ้น เพื่อให้ VLM ทำงานได้ดีขึ้นในงานด้านการมองเห็นพื้นฐาน ความพยายามเหล่านี้น่าจะช่วยยกระดับความสามารถในการรับรู้เชิงภาพของ VLM ได้

อ่านเพิ่มเติม

บทความนี้เรียบเรียงจากเนื้อหาที่สรุปด้วยโมเดล GPT จึงอาจมีบางส่วนที่สรุปแตกต่างไปจากเนื้อหาหรือเจตนาของต้นฉบับ หากคุณสนใจหัวข้อนี้ โปรดอ่านต้นฉบับประกอบไปด้วย! หากพบข้อความที่ดูแปลกหรือไม่ถูกต้องระหว่างอ่าน รบกวนแจ้งผ่านคอมเมนต์ด้วย 🤗

⚠️โฆษณา⚠️: บทความนี้ที่เรียบเรียงโดย 🔥ชุมชนผู้ใช้ PyTorch เกาหลี🇰🇷 มีประโยชน์ไหม? หาก สมัครสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล💌! (ค่าเริ่มต้นคือ Weekly แต่สามารถ เปลี่ยนเป็น Daily ได้)