ข้อจำกัดด้านการมองเห็นของโมเดลภาษาเชิงภาพ

(vlmsareblind.github.io)

2 คะแนน โดย GN⁺ 2024-07-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลภาษาเชิงภาพ (VLM) เช่น GPT-4o, Gemini-1.5 Pro, Sonnet-3 และ Sonnet-3.5 ทำคะแนนได้สูงในเบนช์มาร์กความเข้าใจภาพ แต่ในงานด้านการมองเห็นระดับต่ำที่มนุษย์แก้ได้ง่าย กลับมี ความแม่นยำเฉลี่ย 58.57% เท่านั้น
BlindTest ตรวจสอบการรับรู้เชิงพื้นที่อย่างละเอียดผ่าน 7 งานง่าย ๆ เช่น จำนวนจุดตัดของเส้น การสัมผัส·การทับซ้อนของวงกลมสองวง การหาตัวอักษรที่ถูกทำเครื่องหมาย การนับรูปทรงที่ทับซ้อนกัน สี่เหลี่ยมซ้อนกัน แถว·คอลัมน์ของตาราง และเส้นทางรถไฟใต้ดิน
ค่าเฉลี่ยรวมสูงกว่าเส้นฐานแบบสุ่มที่ 24% แต่แม้แต่โมเดลที่ดีที่สุดอย่าง Sonnet-3.5 ก็หยุดอยู่ที่ 74.94% ซึ่งต่างจาก 100% ที่มนุษย์คาดหวังมาก
แม้จะเปลี่ยนความละเอียดและความหนาของเส้น โมเดลก็ยังจัดการ องค์ประกอบพื้นฐานทางเรขาคณิต ที่อยู่ใกล้กันหรือทับซ้อนกัน และความสัมพันธ์ตำแหน่งที่ละเอียดอ่อนได้อย่างไม่เสถียร
เมื่อมีข้อความในตาราง ประสิทธิภาพการนับแถว·คอลัมน์ดีขึ้น แต่ในอินพุตที่ต้องใช้ การติดตามเชิงพื้นที่ เช่น แผนที่รถไฟใต้ดินที่มีจำนวนเส้นทางเพิ่มขึ้น ประสิทธิภาพลดลงอย่างมาก

การตั้งโจทย์และผลลัพธ์โดยรวมของ BlindTest

มีการเผยแพร่ Paper (ArXiv), Code, Dataset
เป้าหมายการประเมินคือ VLM 4 ตัว ได้แก่ GPT-4o, Gemini-1.5 Pro, Sonnet-3 และ Sonnet-3.5
BlindTest ตรวจสอบ การรับรู้เชิงพื้นที่อย่างละเอียด ของ VLM ด้วยงานด้านการมองเห็นระดับต่ำที่มนุษย์แก้ได้ง่าย
ความแม่นยำเฉลี่ยรวมอยู่ที่ 58.57% ซึ่งสูงกว่าเส้นฐานแบบสุ่มที่ 24% แต่ยังไม่ถึงความแม่นยำที่คาดหวัง 100%
ในค่าเฉลี่ยรวมรายโมเดล Sonnet-3.5 สูงสุดที่ 74.94%
ความล้มเหลวหลักเกิดซ้ำในด้านความสัมพันธ์ตำแหน่งที่ละเอียดอ่อน ระยะห่างใกล้กัน การทับซ้อน การติดตามเส้นทาง และการรับรู้องค์ประกอบพื้นฐานทางเรขาคณิต

การนับจำนวนจุดตัดของเส้น

เป็นงานให้นับว่าเส้นหักสีน้ำเงินและสีแดงที่ประกอบด้วยช่วงเส้น 2 ช่วงตัดกัน 0, 1, 2 ครั้ง หรือไม่
รูปภาพถูกสร้างเป็นกราฟเส้น 2D บนแคนวาสสีขาวจำนวน 1,800 ภาพ
- แต่ละเส้นถูกกำหนดด้วยจุดสามจุดที่มีพิกัด x คงที่และเว้นระยะเท่ากัน
- สุ่มตัวอย่างพิกัด y เพื่อให้เกิดจุดตัดอย่างแม่นยำ 0, 1 หรือ 2 จุด
ตัวเลือกคำตอบคือ {0, 1, 2} และเส้นฐานแบบสุ่มคือ 33%
ความแม่นยำเฉลี่ยคือ GPT-4o 41.61%, Gemini-1.5 Pro 66.94%, Sonnet-3 43.41%, Sonnet-3.5 75.36%
จากผลตัวอย่าง VLM ไม่สามารถนับจุดตัดได้อย่างเสถียร

การตัดสินการสัมผัสและการทับซ้อนของวงกลมสองวง

เป็นงานถามแบบ Yes/No ว่าวงกลมทึบขนาดเท่ากัน 2 วง สัมผัสกัน หรือ ทับซ้อนกัน หรือไม่
มีรูปภาพ 672 ภาพ สร้างขึ้นโดยปรับขนาดวงกลม ระยะห่าง ทิศทาง และขนาดแคนวาส
- เส้นผ่านศูนย์กลางวงกลมคือ 1/4, 1/5, 1/6, 1/7 ของขนาดแคนวาส
- ระยะห่างระหว่างเส้นรอบวงตั้งแต่ -0.15 เท่าถึง 0.5 เท่าของเส้นผ่านศูนย์กลาง
- ทิศทางคือ 90°, 0°, -45°, 45°
- ขนาดแคนวาสคือ 384, 769, 1155 พิกเซล
คำตอบที่ถูกต้องถูกกำหนดด้วยระยะ d ระหว่างเส้นรอบวงของวงกลม
- d < 0: ทับซ้อนและสัมผัสกัน
- d = 0: ไม่ทับซ้อนแต่สัมผัสกัน
- d > 0: ไม่ทับซ้อนและไม่สัมผัสกัน
ความแม่นยำเฉลี่ยคือ GPT-4o 72.69%, Gemini-1.5 Pro 92.78%, Sonnet-3 84.52%, Sonnet-3.5 91.66%
VLM ล้มเหลวอย่างต่อเนื่องเมื่อช่องว่างเล็ก และมีกรณีที่ GPT-4o ไม่เสถียรแม้ช่องว่างจะใหญ่

การหาตัวอักษรที่ถูกทำเครื่องหมายด้วยวงรีสีแดง

VLM สามารถระบุรูปทรงพื้นฐานอย่างวงกลมสีแดงและอ่านข้อความภาษาอังกฤษได้เมื่อแยกกัน แต่เมื่อซ้อนวงรีสีแดงบนตัวอักษรเฉพาะในคำ จะหาว่าเป็น ตัวอักษรใดแน่ชัด ได้ยาก
สตริงที่ใช้คือ Acknowledgement, Subdermatoglyphic, tHyUiKaRbNqWeOpXcZvM
- สตริงทั้งสามมีความกว้างและความสูงของตัวอักษรหลากหลาย
- ทั้งสี่โมเดลสามารถอ่านข้อความทั้งหมดได้เมื่อป้อนเฉพาะสตริงเป็นรูปภาพ
- มีการรวมสตริงสุ่มไว้เพื่อประเมินผลของความคุ้นเคยกับคำต่อความแม่นยำ
สร้างภาพ 512×512 สำหรับแต่ละชุดสตริง·ตัวอักษรที่ทำเครื่องหมาย โดยผสมความหนาเส้นวงรีสีแดง 3 แบบ ขนาดฟอนต์ 2 แบบ และตำแหน่งในแคนวาส 4 แบบ
- Acknowledgement มี 360 ภาพ
- Subdermatoglyphic มี 408 ภาพ
- tHyUiKaRbNqWeOpXcZvM มี 480 ภาพ
ความแม่นยำเฉลี่ยคือ GPT-4o 70.18%, Gemini-1.5 Pro 92.81%, Sonnet-3 73.34%, Sonnet-3.5 89.22%
เมื่อโมเดลตอบผิด มีแนวโน้มทำนายเป็น ตัวอักษรที่อยู่ติดกัน กับตัวที่ถูกทำเครื่องหมาย

การนับรูปทรงที่ทับซ้อนกันและสี่เหลี่ยมซ้อนกัน

งานนับวงกลมหรือห้าเหลี่ยมที่ทับซ้อนกันคล้ายโลโก้โอลิมปิก ตรวจสอบว่า VLM ที่นับวงกลมแยกกันได้จะประสบปัญหาใน รูปทรงที่มีการทับซ้อน หรือไม่
งานรูปทรงทับซ้อนวางรูปทรงขนาดเท่ากัน 5~9 รูปเป็นสองแถวบนแคนวาส 384, 769, 1155 พิกเซล
- เส้นผ่านศูนย์กลางวงกลมคือ C/5 หรือ C/10
- ความยาวด้านของห้าเหลี่ยมคือ C/5 หรือ C/10
- สร้างรูปภาพรวม 120 ภาพ
- คำตอบคือ {5, 6, 7, 8, 9} และเส้นฐานแบบสุ่มคือ 20%
ความแม่นยำของวงกลมที่ทับซ้อนกันคือ GPT-4o 42.50%, Gemini-1.5 Pro 20.83%, Sonnet-3 31.66%, Sonnet-3.5 44.16%
ความแม่นยำของห้าเหลี่ยมที่ทับซ้อนกันคือ GPT-4o 19.16%, Gemini-1.5 Pro 9.16%, Sonnet-3 11.66%, Sonnet-3.5 75.83%
งานสี่เหลี่ยมซ้อนกันให้นับ 2~5 รูป โดยใส่สี่เหลี่ยมอื่นไว้ภายในสี่เหลี่ยมชั้นนอกสุดโดยไม่ให้สัมผัสกัน
- สร้างรูปภาพรวม 120 ภาพ
- ความแม่นยำคือ GPT-4o 55.83%, Gemini-1.5 Pro 87.08%, Sonnet-3 65.00%, Sonnet-3.5 92.08%
- ในตัวอย่าง มีเพียง Sonnet-3.5 ที่นับสี่เหลี่ยมในหลายภาพได้สำเร็จ

การนับแถว·คอลัมน์ของตารางและการติดตามเส้นทางรถไฟใต้ดิน

งานนับแถว·คอลัมน์ของตารางตรวจสอบว่า แม้ในสถานการณ์ที่ VLM แสดงประสิทธิภาพสูงกับอินพุตที่มีตาราง โมเดลจะนับ โครงสร้างกริด ง่าย ๆ ได้ถูกต้องหรือไม่
กริดมีรูปแบบ N×N, N×N', N'×N โดย N คือ 3~9 และ N' คือ N+1
- ขนาดแคนวาสคือ 500, 1250, 2000 พิกเซล
- ความหนาเส้นมี 2 แบบ
- รวมทั้งกริดว่างและกริดที่แต่ละเซลล์มีคำสุ่ม รวมทั้งหมด 444 ภาพ
ต้องตอบถูกทั้งแถวและคอลัมน์จึงนับว่าถูกต้อง โดยความแม่นยำเฉลี่ยคือ GPT-4o 39.58%, Gemini-1.5 Pro 39.39%, Sonnet-3 36.17%, Sonnet-3.5 74.26%
- ค่าเฉลี่ยกริดว่างคือ 34.37%
- ค่าเฉลี่ยกริดที่มีข้อความคือ 60.33%
- เมื่อมีข้อความในเซลล์ ประสิทธิภาพของ VLM ทุกตัวดีขึ้น โดยเฉพาะ Sonnet-3.5 ที่ดีขึ้นมาก
งานแผนที่รถไฟใต้ดินให้นับ จำนวนเส้นทางสีเดียว ที่เชื่อมสถานีสองแห่งที่กำหนดระหว่างสถานี A, B, C, D สี่แห่ง
- ใช้แคนวาส 512 หรือ 1024 พิกเซล
- สร้างเส้นทางด้วยการค้นหาแบบ depth-first search บนกริด 18×18 ที่มองไม่เห็น
- แต่ละสถานีมีเส้นทางขาออกจำนวน N∈{1, 2, 3} เส้นพอดี
- สร้างแผนที่รวม 180 แผนที่
ความแม่นยำเฉลี่ยของเส้นทางรถไฟใต้ดินคือ GPT-4o 47.89%, Gemini-1.5 Pro 41.60%, Sonnet-3 23.24%, Sonnet-3.5 55.53%
- เมื่อแต่ละสถานีมี 1 เส้นทาง ค่าเฉลี่ยคือ 59.16%
- เมื่อมี 2 เส้นทาง ค่าเฉลี่ยคือ 40.69%
- เมื่อมี 3 เส้นทาง ค่าเฉลี่ยคือ 26.35%
เมื่อจำนวนเส้นทางขาออกจากสถานีเพิ่มขึ้น ประสิทธิภาพของ VLM มีแนวโน้มแย่ลง

1 ความคิดเห็น

GN⁺ 2024-07-11

ความคิดเห็นบน Hacker News

สนุกดี แต่ข้อสรุปดูจะคลาดเคลื่อนไปพอสมควร การเขียนในบทคัดย่อว่า “การมองเห็นของพวกมันอย่างดีที่สุดก็คล้ายกับ สายตาสั้น ที่เห็นรายละเอียดพร่าเลือน” นั้นเป็นคำพูดที่แรงเกินไป และยังน่าสงสัยด้วยว่าได้ทดสอบสมมติฐานนั้นอย่างเหมาะสมหรือไม่
ถ้าสามารถแชร์ตัวอย่างจากงานจริงที่ GPT-4v ทำ งานด้านภาพที่ละเอียด และค่อนข้างยากได้ ก็พอจะใช้โต้แย้งข้อสรุปนี้ได้ โดยส่วนตัวผมให้ค่าน้ำหนักกับบทความนี้ https://arxiv.org/abs/2404.04125 มากกว่า ซึ่งมีใจความว่าโมเดล generative AI ขนาดใหญ่นั้นทำได้ค่อนข้างดี ภายใต้เงื่อนไขว่าระหว่างฝึกมันได้เห็นข้อมูลประเภทนั้นมาเป็นจำนวนมาก ถ้าจงใจสร้างโจทย์แปลก ๆ ขึ้นมา มันก็อาจทำได้แย่มาก และความประทับใจแรกว่าเป็น AGI ก็จะลดลง แต่ในโลกจริง เราไม่ได้ใช้แต่โจทย์ที่สร้างมาเพื่อทำให้โมเดลล้มเท่านั้น ในบางงานประสิทธิภาพอาจดีได้ แต่บทความนี้ยังไม่ได้ให้หลักฐานเชิงปฏิบัติที่เพียงพอสำหรับทั้งสองด้านนั้น
- ในคอมเมนต์เห็น “ฝ่ายแก้ต่างให้ AI” อยู่พอสมควร แต่เมื่อโมเดลเหล่านี้ถูกทำการตลาดเหมือนเป็นตัวแทนการมองเห็นของมนุษย์ สำหรับการใช้งานอย่าง Be My Eyes เพื่อผู้มีสายตาเลือนราง ผมคิดว่าชื่อเรื่องก็ยุติธรรมแล้ว: https://www.youtube.com/watch?v=Zq710AKC1gg
  โมเดลเหล่านี้ถูกบอกเป็นนัยเหมือนว่าใกล้เคียงระดับมนุษย์ ทั้งที่จริง ๆ ยังไม่ใช่ บทความแสดงให้เห็นว่ายังมีช่องว่างขนาดใหญ่ที่โมเดลสับสนอย่างคาดไม่ถึง แม้กับปัญหาง่าย ๆ ควรทำให้งานลักษณะนี้ปรากฏชัดขึ้น เพื่อให้ผู้คนตระหนักว่าจำเป็นต้องมีมาตรการป้องกันและคำเตือนที่เพียงพอ ก่อนจะเชื่อว่ามันเหมาะกับการใช้งานทั่วไป
- คำว่า “สนุกดี” นั่นแหละถูกแล้ว งานนี้หา กรณีขอบ ในการประมวลผลภาพของโมเดลได้ดี และน่าสนใจที่ในเชิงแนวคิดก็ไม่ได้ไกลจากภาพลวงตาบางแบบที่มนุษย์ถูกหลอกได้ง่ายนัก
  แต่การเรียกโมเดลว่า “ตาบอด” หรือสื่อเป็นนัยว่าโดยทั่วไปมีประสิทธิภาพต่ำ เป็นสิ่งที่โต้แย้งได้ง่ายมาก แค่หยิบมือถือขึ้นมาแล้วใส่รูปหนึ่งรูปในแอป ChatGPT ก็พอ มีคนพูดถึง BeMyEyes แล้วตำหนิ “ฝ่ายแก้ต่างให้ AI” ด้วย แต่ถ้ามีค่าสมาชิกเดือนละ 20 ดอลลาร์กับมือถือก็ทดลองได้ทันที ในงานโลกจริง มันทำงานได้ดีอย่างน่าทึ่ง และแม้จะไม่สมบูรณ์แบบ แต่ก็มีประโยชน์ในเชิงปฏิบัติเพียงพอ อีกทั้งหลายกรณีก็ดีกว่าทางเลือกอื่น หรือไม่มีทางเลือกอื่นเลย
- คำว่า “สายตาสั้นที่เห็นรายละเอียดพร่าเลือน” ก็ไม่ได้ห่างจากความจริงมากนัก โมเดลส่วนใหญ่มองภาพด้วย ความละเอียดต่ำ และจำนวนสีที่จำกัด จึงค่อนข้างใกล้กับคำบรรยายนั้น
- “โมเดล generative AI ขนาดใหญ่ทำได้ค่อนข้างดี” นี่เป็นสโลแกนขายจริง ๆ เหรอ? เมื่อ 15 ปีก่อนก็มีสแกนเนอร์ที่มาพร้อมแอปบน Windows สำหรับสแกนเอกสารแล้วดึงข้อความออกมาได้ และ RAM ของเครื่องนั้นก็น่าจะราว ๆ 256MB
  เทคโนโลยีสามารถทำได้ดีมากในงานเฉพาะทางที่แยกเป็นช่องแคบ ๆ ระบบ OCR เมื่อ 10 ปีก่อนก็เชื่อถือได้มากในงานเดี่ยวที่ถูกตั้งค่าไว้ สิ่งที่ AI สัญญาไว้คือ พาราไดม์ใหม่ ที่ไม่ถูกขังอยู่ในงานเฉพาะแคบ ๆ ที่นักพัฒนากำหนดไว้ แต่ถ้ามันพลาดสิ่งง่าย ๆ ที่คนทั่วไปไม่น่าจะพลาดได้อย่างสม่ำเสมอ คุณค่าทั้งหมดที่เสนอมาก็พังลง
- เงื่อนไขว่า “แชร์ไม่ได้ แต่...” น่าสนใจดี ฟังดูเหมือนกำลังบอกว่าโมเดลเก่งมากในการประมวลผลภาพบางอย่างที่เฉพาะเจาะจงและเป็นความลับ จนเราไม่ควรสนใจการประเมินอย่าง การนับรูปทรง หรือความแม่นยำที่ดีกว่าการโยนเหรียญ
เมื่อวานมีประสบการณ์ที่ค่อนข้างน่าทึ่งกับ GPT-4o ประตูโรงรถเริ่มตกลงมาเมื่อเร็ว ๆ นี้ พอตรวจดูพบว่าเจ้าของบ้านติดตั้ง wire rope clip ผิด ทำให้แรงตึงของสายเคเบิลบิดตัวคลายออก
ผมไม่รู้ชื่อชิ้นส่วนนั้นจึงถาม ChatGPT และมันก็ระบุชิ้นส่วนได้ตามคาด พอลองถามว่ามีอะไรน่าสังเกตในรูปไหม มันระบุได้ถูกต้องว่าสายเคเบิลถูกติดตั้งกลับด้าน โดยด้านที่ควรถูกดึงตึงไม่ได้ถูกปลายสายที่หลวมกดทับให้แน่น แต่กลับวางอยู่ด้านบน การวินิจฉัยแบบนี้ต้องไล่ตามสายเคเบิลในเชิงพื้นที่ และอนุมานจากโครงสร้างเรขาคณิตว่าด้านไหนเป็นด้านที่รับแรงตึง แน่นอนว่าไม่อาจตัดความเป็นไปได้ว่าเป็นการเดาโชคดี สิ่งที่น่าทึ่งจริง ๆ คือมีน็อตหนึ่งตัวในสองตัวที่หายไปอย่างชัดเจน แต่แม้หลังจากที่ผมบอกว่ามีปัญหาการติดตั้งอย่างที่สอง มันก็ยังสังเกตไม่เห็น ภาพหน้าจอ: https://imgur.com/a/QqCNzOM
- ถ้าเป็นมนุษย์ก็ต้องไล่ตามสายเคเบิล แต่ LLM อาจตอบโดยอาศัยข้อเท็จจริงที่ว่า การถามถึงคลิปตั้งแต่แรกมักเกิดขึ้นเมื่อมีบางอย่างผิดปกติ และนี่เป็น รูปแบบความเสียหาย ที่พบได้บ่อยมาก
  การที่มันหยิบมุกช่วยจำ “never saddle a dead horse” ออกมาก็เป็นหลักฐานว่าปัญหานี้พบได้บ่อย น่าลองถามคำถามเดิมอีกครั้งหลังซ่อมเสร็จ
- ด้วยสายตาของผมในฐานะมนุษย์ ผมมองจากรูปนั้นไม่เห็นข้อมูลเพียงพอที่จะอนุมานว่าด้านไหนควรรับแรงตึง แม้ผมจะไม่ใช่คนที่ผ่านการฝึกมา แต่หลังอ่านคำอธิบายแล้วก็รู้ว่าควรคาดหวังภาพแบบไหน
  เช่นเดียวกับคำตอบอื่น ๆ ผมสงสัยว่าความเป็นไปได้ที่ LLM แค่เดาถูกโดยบังเอิญนั้นมีน้อย
- การไล่ตามในเชิงพื้นที่ต้องใช้ ความจำระยะสั้น และความสามารถในการคิด โมเดลไม่มีสิ่งนั้น ดังนั้นสุดท้ายก็คงเป็นการเดา
จนถึงตอนนี้ VLM ยังทำงานอย่าง การนับวัตถุ หรือความสัมพันธ์เชิงพื้นที่ เช่น กาแฟอยู่ทางขวาของไมโครเวฟหรือไม่ ได้ไม่ดีนัก
มีวิธีช่วย VLM อยู่ โดยตัวอย่างที่เด่นคือ Set of Marks ของ Microsoft https://github.com/microsoft/SoM วิธีนี้คือก่อนส่งภาพให้ VLM จะใช้การแบ่งส่วนเพื่อขีดเส้นขอบบริเวณต่าง ๆ แล้วติดป้ายกำกับ หากให้ป้ายกำกับที่ “อธิบายเป็นคำพูดได้” กับบริเวณเหล่านั้น ก็ช่วยวางฐานให้ความสามารถด้านการมองเห็นของ VLM ได้ และในบทความนี้ก็เป็นเหตุผลที่ทำให้ประสิทธิภาพใน “Task 6: Counting the rows and columns of a grid” ดีขึ้นมากเมื่อมีคำอยู่ในตาราง
- ไม่รู้มาก่อนว่าการนับวัตถุเป็นปัญหา น่าขันอยู่นะ เพราะเท่าที่รู้ การสร้างโครงข่ายประสาทเทียมครั้งแรกคือ เรตินาเทียม numa-rete ที่ Biological Computer Lab สร้างขึ้นราวปี 1960
  มันเป็นคอมพิวเตอร์แอนะล็อกแบบขนานที่จัดวาง “นิวรอน” ซึ่งมีเซลล์โฟโตอิเล็กทริกเป็นตาราง และว่ากันว่าสามารถนับ “จำนวนวัตถุโดยไม่ขึ้นกับขนาด ตำแหน่ง รูปร่าง และความเข้มของแสง” ได้ คนในสายนี้อาจสนใจบทความปี 1962 ของ Heinz Von Foerster เรื่อง “Perception of Form in Biological and Man Made Systems”: https://distributedmuseum.illinois.edu/exhibit/biological_computer_laboratory/, https://sites.evergreen.edu/arunchandra/wp-content/uploads/sites/395/2018/05/bcl082.pdf
- โมเดลภาพใช้ CLIP หรือสิ่งที่คล้ายกัน แต่ไม่มีแนวคิดในการเข้าใจวัตถุเฉพาะในภาพ มันแค่ดู embedding ที่สัมพันธ์กัน คล้ายกับ text embedding
  เช่น อธิบายภาพหนึ่งว่า “มีนกเกาะอยู่บนสายไฟหน้าท้องฟ้าสีฟ้าและเมฆ” แล้วจับคู่ embedding ของคำอธิบายนั้นกับ embedding ของภาพ หากถามว่ามีนกอยู่ไหมก็อาจรู้ได้ แต่ไม่รู้ว่ามีกี่ตัว หมายความว่าจะเป็นแบบนั้น เว้นแต่ว่าในข้อมูลฝึกจะมีการบรรยายจำนวนของนกที่เกาะบนวัตถุบ่อย ๆ และตัวเลขนั้นตรงกับจำนวนจริงในคำอธิบายภาพบ่อยพอ หากอยากนับวัตถุก็ต้องใช้สิ่งอย่าง YOLO
Vision Transformer ทำ การบีบอัด ใน tokenizer มากอย่างน่าทึ่ง ใน Chameleon paper ระบุว่า tokenizer “เข้ารหัสภาพ 512 × 512 เป็นโทเค็นแบบไม่ต่อเนื่อง 1024 โทเค็นจาก codebook ขนาด 8192”
นั่นเท่ากับ 256 พิกเซลต่อหนึ่งโทเค็น และถ้าถือว่าพิกเซลเป็น 24 บิต ก็เท่ากับบีบอัด 256 * 24 = 6144 บิตให้เหลือ 13 บิต ซึ่งคือ log2(8192) ส่วน An Image is Worth 32 Tokens for Reconstruction and Generation ก็ผลักแนวทางนี้ไปไกลกว่าเดิม หากโมเดลเหล่านี้ทำงานคล้ายกัน ก็ไม่แปลกที่มันจะลำบากกับงานด้านภาพบางอย่าง
- แต่ก็ไม่ได้เรียบง่ายขนาดนั้น ถ้าขอให้ GPT-4o สร้างสำเนาของภาพแบบนี้ โดยมากมันก็สร้างได้ค่อนข้างตรง เช่น ภาพที่มีสี่เหลี่ยม 5 รูป มันก็สร้างออกมาได้
  ดังนั้นในระดับหนึ่งมันก็ “มองเห็น” อยู่ เพียงแต่ดูเหมือนจะขาด ตรรกะ สำหรับตอบคำถามแบบนี้ สามารถลองทดสอบชุดข้อมูลทั้งหมดได้โดยตรงที่นี่: https://huggingface.co/datasets/XAI/vlmsareblind/viewer/default/train
- GPT-4o เก่งมากกับงานภาพบางอย่าง เช่น OCR ดังนั้นอาการตาบอดแบบเลือกเป็นบางอย่างอาจเป็นผลจากการที่ความจุทั้งหมดถูกทุ่มไปลด loss ของงานแคบ ๆ ไม่กี่ประเภทที่มีข้อมูลฝึกมากที่สุด ตามที่กล่าวไว้
  มันอาจเป็น ปัญหาด้านความจุ มากกว่าความล้มเหลวเชิงโครงสร้างของการ generalize และอาจแก้ได้เองตามธรรมชาติเมื่อขยายสเกลให้ใหญ่ขึ้น
- พอนึกถึงตัวอย่างคล้าย ๆ กันในมิติประสาทสัมผัสของมนุษย์ที่ไม่ใช่การมองเห็น ก็คิดถึงสถานการณ์ที่ต้องอธิบาย รสชาติของผลไม้ ให้คนที่ไม่เคยกินฟัง
ถ้าโมเดลระดับแนวหน้าในปัจจุบันอย่าง GPT-4o, Gemini-1.5 Pro, Sonnet-3, Sonnet-3.5 ได้แค่นี้ ก็ถือว่าประสิทธิภาพแย่อย่างน่าอายทีเดียว โมเดลเหล่านี้ถูกโฆษณาและขายว่าเข้าใจภาพได้ เช่น ใช้นำทางคนตาบอด หรือสอนเรขาคณิตให้เด็ก
งานที่มันทำพลาดนั้นสำหรับมนุษย์แล้วเรียบง่ายจนน่าเหลือเชื่อ เช่น นับว่าเส้นสองเส้นตัดกันกี่ครั้ง ตรวจว่ามีวงกลมสองวงซ้อนทับกันหรือไม่ เลือกตัวอักษรที่ถูกวงกลมไว้ในคำ หรือนับจำนวนวงกลมในภาพที่คล้ายโลโก้โอลิมปิก บทความนี้ควรอยู่บนสุดของหน้าแรก
- ไม่เข้าใจว่าทำไมเรื่องนี้ถึง “น่าอาย” แม้แต่น้อย โมเดลเหล่านี้ไม่ใช่สมองมนุษย์ และคนที่เหมารวมว่ามันเหมือนสมองมนุษย์ต่างหากที่ล้มเหลวอย่างน่าอายยิ่งกว่าโมเดล
  ไม่แปลกเลยที่โมเดลจะจัดการกรณีจำนวนมากที่ “ชัดเจนสำหรับมนุษย์” ไม่ได้ Machine learning มีลักษณะเช่นนี้มาตั้งแต่ต้น และเป็นความผิดพลาดคลาสสิกที่คนทำเมื่อรับมือกับระบบแบบนี้ มนุษย์มักเห็นว่าเมื่อโมเดล machine learning ใด ๆ มีความแม่นยำสูงกว่ามนุษย์ในงาน X ก็จะสมมติว่ามันมีความสามารถนั้นในงานอื่นทั้งหมดด้วย หากเป็นคนที่มีความสามารถสูง ก็อาจมีแนวโน้มว่าจะเก่งในงานอื่นด้วย แต่ใช้กับโมเดล machine learning ไม่ได้ ในทางกลับกัน การมองว่าเพราะโมเดลทำงาน Y ได้ไม่ดี ความสามารถของมันในงาน X จึงเป็นภาพลวงตาและเชื่อถือไม่ได้ ก็ผิดเช่นกัน
- ปฏิกิริยาแบบนี้อ่านแล้วเหมือน “สุนัขพูดได้ของฉันทำโจทย์แคลคูลัสผิดตลอด น่าอายขนาดไหน!”
  สายพานความคาดหวังเร่งเร็วขึ้นขนาดนั้นจริงหรือ จนถ้าประสิทธิภาพ ต่ำกว่ามนุษย์ ในปัญหาประเภทไหนก็ตาม ตอนนี้ก็กลายเป็นเรื่องน่าอายไปแล้วหรือ?
แม้การค้นพบเองจะน่าสนใจ แต่ชื่อเรื่อง “Vision language models are blind” นั้นเกินจริงและทำให้ผลลัพธ์ชวนเข้าใจผิด เป็นความจริงที่วิธีที่ VLM ตรวจจับและประมวลผลอินพุตภาพนั้นต่างจากมนุษย์มาก และที่ความละเอียดต่ำ ภาพจะถูกแบ่งเป็นบล็อกแล้วแมปเป็นโทเค็นแบบไม่ต่อเนื่อง
การแมปนี้สูญเสียข้อมูลค่อนข้างมาก จึงเข้าถึงรายละเอียดปลีกย่อยไม่ได้จริง ๆ ในแง่นั้นผลลัพธ์จึงสมเหตุสมผลโดยสิ้นเชิงและไม่น่าแปลกใจ แต่คำว่า “ตาบอด” มีนัยที่แรง และงานวิจัยนี้ก็ไม่ได้รองรับนัยนั้น แค่ดูตัวอย่างแรกที่เป็นกราฟเส้น 2 มิติ 4 กราฟ เมื่อถาม Sonnet 3.5 จำนวน 5 ครั้ง มี 2 ครั้งที่ให้คำตอบค่อนข้างดี แม้จะผิดตรงที่บอกว่าจุดตัดของกราฟที่สามมี 1 จุด ทั้งที่จริงมี 2 จุด แต่โดยรวมก็ทำได้ค่อนข้างดี และอีก 3 ครั้งที่เหลือก็ตอบว่ากราฟที่สามมี 1 จุดเหมือนกัน
จากมุมมองของคนที่รู้แบบผิวเผินว่า VLM ทำงานอย่างไร ตรงนี้ทำให้รู้สึกว่าคนที่พูดเรื่อง การมีร่างกายเป็นฐาน อาจมีส่วนถูกอยู่บ้าง มนุษย์สามารถปรับการรับรู้ภาพซ้ำ ๆ และโฟกัสไปยังบริเวณที่สนใจได้ แต่ VLM ต้องประมวลผลทั้งภาพด้วยระดับความเที่ยงตรงเท่ากัน
จึงสงสัยว่าจะมีวิธีเลียนแบบสิ่งนี้ไหม เช่น เริ่มด้วยโทเค็นภาพที่มีความเที่ยงตรงต่ำ แล้วให้ VLM ส่งโทเค็นที่ “โฟกัส” ไปยังบางบริเวณของภาพด้วยความละเอียดสูงขึ้นได้ เพียงแต่ไม่แน่ใจว่าจะฝึกโมเดลด้วยข้อมูลแบบ “โต้ตอบ” เช่นนั้นได้อย่างมีประสิทธิภาพหรือไม่
- นี่ก็คือ กลไก Attention ไม่ใช่หรือ? เลยคิดว่านี่คือเหตุผลที่ใช้ Transformer กับงานแบบนี้
  ถึงจะไม่จำเป็นต้องเป็นความละเอียดที่สูงขึ้น แต่เป็นการโฟกัสไปยังบางบริเวณด้วยการเชื่อมต่อทางประสาทที่แรงกว่า
- จริง ๆ แล้วดวงตาของมนุษย์ต้องใช้เวลาในการพัฒนา เราเกิดมาพร้อม การมองเห็นที่พร่ามัว ดังนั้นการเรียนรู้ของมนุษย์จึงเริ่มจากภาพความละเอียดต่ำ มีทฤษฎีด้วยว่านี่อาจไม่ใช่ข้อจำกัด แต่เป็นข้อได้เปรียบต่อการพัฒนาระบบประมวลผลภาพ
  คนในประเทศยากจนที่ได้รับการผ่าตัดต้อกระจกช้ากว่าเล็กน้อย แม้ตามฮาร์ดแวร์ ณ เวลานั้นควรมีสายตาสมบูรณ์แบบ แต่ก็ดูเหมือนว่ายังมีความบกพร่องที่ติดตัวไปตลอดชีวิต เรายังไม่รู้แน่ชัดว่าการเรียนรู้จากความละเอียดต่ำในช่วงต้นส่งผลต่อมนุษย์มากแค่ไหน และนี่อาจเกี่ยวข้องกับชีวประสาทวิทยาเฉพาะของมนุษย์มากกว่าจะเป็นความจริงทั่วไปของระบบแบบ connectionist ถึงอย่างนั้น แนวคิดที่ว่าผลลัพธ์บางส่วนของโครงข่ายประสาทเทียมอาจขึ้นกับพาราไดม์การฝึกอย่างมาก และไม่ใช่ทุกข้อบกพร่องจะแก้ได้ด้วยการอัปเดตโครงสร้างหลักเพียงอย่างเดียว ก็เป็นเรื่องน่าสนใจ
- หากต้องการเลียนแบบการประมวลผลความสนใจของมนุษย์ จุดปรับปรุงที่อาจเก็บได้ค่อนข้างง่ายคือข้อมูล การติดตามสายตา จำนวนมากที่จับคู่กับสิ่งที่กำลังมองอยู่
- โมเดลเหล่านี้เรียนรู้วิธีโฟกัสไปยังส่วนเฉพาะของภาพอยู่แล้ว จุดประสงค์ที่ชัดเจนของ Transformer ก็คือสิ่งนั้นตั้งแต่แรก
- ความสามารถของมนุษย์ในการ “ปรับละเอียด” การรับรู้ซ้ำ ๆ ไม่เกี่ยวข้องกับ ปัญญาการรู้คิดแบบมีร่างกายเป็นฐาน
น่าขันที่มันล้มเหลวกับการทดสอบง่าย ๆ ที่เด็กก็น่าจะแก้ได้ แต่พอให้ Gemini อ่านโปสการ์ดลายมือ ตัวเขียนภาษารัสเซีย ที่มีสัญญาณรบกวนทางภาพมาก มันกลับอ่านข้อความและแปลเป็นอังกฤษได้ด้วย
ไม่จำเป็นต้องบอกด้วยซ้ำว่าข้อความนั้นเป็นภาษารัสเซีย ด้านหนึ่ง สิ่งที่ LLM ทำได้ช่างยอดเยี่ยมจนน่าเหลือเชื่อ แต่อีกด้านหนึ่ง มันก็มักสะดุดอย่างหนักกับปัญหาที่ดูเหมือนง่ายแบบนี้ เราเห็นรูปแบบคล้ายกันในรถยนต์ไร้คนขับ ที่เกิดอุบัติเหตุในสถานการณ์ซึ่งแทบทุกคนขับมนุษย์หลีกเลี่ยงได้ง่าย
- สำหรับเด็กมันง่าย เพราะ การมองเห็นได้วิวัฒนาการ มาเพื่อจดจำรูปแบบเหล่านี้ เนื่องจากมันสำคัญต่อการอยู่รอด แต่การอ่านภาษารัสเซียไม่ใช่เช่นนั้น
  จากมุมมองเชิงอัลกอริทึม งานด้านภาพแบบนี้จริง ๆ แล้วโปรแกรมให้ชัดเจนได้ค่อนข้างยาก
เคยสอนเรขาคณิตเชิงคำนวณอยู่หลายครั้ง และการคำนวณจุดตัดของส่วนของเส้นตรง N เส้นอย่างมีประสิทธิภาพนั้นไม่ง่ายอย่างที่คิดตอนแรก ต้องมีการคำนวณที่ไหนสักแห่งเพื่อรับรู้สิ่งนี้ และเนื่องจาก LLM ไม่ได้ถูกฝึกมาโดยเฉพาะสำหรับงานนี้ จึงไม่น่าแปลกใจที่มันจะลำบาก
โดยรวมแล้ว เรขาคณิตพื้นฐาน ดูเหมือนเป็นพื้นที่ที่ยังถูกสำรวจน้อยจากมุมมองการเรียนรู้
- การตัดสินว่ามีสุนัขอยู่ในภาพหรือไม่ หรือเข้าใจอารมณ์ของย่อหน้า ก็ไม่ได้ง่ายเช่นกัน ดูเหมือนความซับซ้อนเองจะไม่ใช่ประเด็นหลัก
  น่าจะมีความแตกต่างระหว่างประเภทการให้เหตุผลที่โมเดลเหล่านี้เรียนรู้ กับประเภทการให้เหตุผลที่จำเป็นสำหรับ การให้เหตุผลทางคณิตศาสตร์ โดยเฉพาะ
- มนุษย์เองก็ไม่ได้มีความสามารถ “คำนวณจุดตัด” เช่นกัน นอกจากบางส่วนที่เรียนอย่างยากลำบากผ่านพีชคณิตแล้ว เรามีกลไก “มองแล้วนับ”
  เราไม่ได้รับเส้นในระนาบด้วยสายตาแล้วคำนวณว่ามันตัดกันตรงไหน เรารู้ว่าจุดตัดหน้าตาเป็นอย่างไร เห็นหนึ่งจุด เพิ่มตัวนับ แล้วมองหาจุดถัดไป ถ้าน้อยกว่าประมาณ 5 จุด เราจัดการได้ในคราวเดียว แต่ถ้ามากกว่านั้นเราจะนับจริง ๆ บางครั้งนับเป็นกลุ่มเล็ก ๆ บางครั้งนับทีละจุด
โมเดลทั้งหมด โดยเฉพาะ Claude 3.5 Sonnet ดูเหมือนทำได้ดีกว่าการสุ่มมาก จึงแน่นอนว่าไม่ได้ตาบอด งานเดียวที่ Claude Sonnet 3.5 ไม่ได้ดีกว่าการสุ่มคือโจทย์ที่ต้องตามเส้นทางหลายเส้น หรือกรณีที่คำตอบจาก A ถึง C คือ 3 ซึ่งแม้แต่ผมเองก็ใช้เวลาหลายวินาทีในการแก้
รู้สึกเหมือนตั้งชื่อบทความไว้ก่อน แล้วค่อยประเมิน Claude 3.5 Sonnet รุ่นใหม่ด้วยภาพนามธรรม ประโยคที่ว่า “การมองเห็นของพวกมันอย่างมากก็เหมือนสายตาสั้นที่เห็นรายละเอียดพร่ามัว” ก็ไม่สมเหตุสมผล ภาพเหล่านี้กำลังประเมิน ความสามารถเชิงนามธรรม ของโมเดล ไม่ใช่ประเมินสายตา
- งั้นก็ถือว่าเป็นผู้พิการทางสายตาตามกฎหมายแล้วกัน

ข้อจำกัดด้านการมองเห็นของโมเดลภาษาเชิงภาพ

การตั้งโจทย์และผลลัพธ์โดยรวมของ BlindTest

การนับจำนวนจุดตัดของเส้น

การตัดสินการสัมผัสและการทับซ้อนของวงกลมสองวง

การหาตัวอักษรที่ถูกทำเครื่องหมายด้วยวงรีสีแดง

การนับรูปทรงที่ทับซ้อนกันและสี่เหลี่ยมซ้อนกัน

การนับแถว·คอลัมน์ของตารางและการติดตามเส้นทางรถไฟใต้ดิน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News