Vision Transformers (ViT) เริ่มชี้ให้เห็นถึงความจำเป็นของ Registers
(openreview.net)Vision Transformer จำเป็นต้องมี Registers
- ผู้เขียน: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
- นำเสนอแบบปากเปล่าใน ICLR 2024
- เผยแพร่เมื่อ 16 มกราคม 2024, แก้ไขครั้งสุดท้าย 12 เมษายน 2024
สรุป
- ค้นพบและจำแนกลักษณะของอาร์ติแฟกต์ใน feature map ของโมเดล Vision Transformer (ViT) ที่ฝึกด้วยการเรียนรู้แบบมีผู้สอนและการเรียนรู้แบบกำกับตนเอง
- อาร์ติแฟกต์นี้สอดคล้องกับการที่โทเคนที่มี norm สูง ซึ่งมักปรากฏในบริเวณพื้นหลังที่มีข้อมูลน้อยระหว่างการอนุมาน ถูกนำกลับมาใช้ซ้ำสำหรับการคำนวณภายใน
- เสนอวิธีแก้ที่เรียบง่ายแต่มีประสิทธิภาพ โดยเพิ่มโทเคนพิเศษเข้าไปในลำดับอินพุตของ ViT (เรียกว่า "registers")
- วิธีนี้แก้ปัญหาได้อย่างสมบูรณ์ทั้งในโมเดลแบบมีผู้สอนและแบบกำกับตนเอง, สร้าง SOTA ใหม่ให้กับโมเดลภาพแบบกำกับตนเองในงานทำนายเชิงภาพแบบหนาแน่น, ทำให้วิธีการตรวจจับวัตถุใช้กับโมเดลขนาดใหญ่ได้ และที่สำคัญคือทำให้ได้ feature map และ attention map ที่เรียบลื่นขึ้นสำหรับการประมวลผลภาพปลายทาง
การทดลองและการวิเคราะห์
- การตรวจสอบอาร์ติแฟกต์มีความแปลกใหม่และรอบด้านอย่างมาก กราฟและคำอธิบายให้ข้อมูลเชิงลึก และการทดลองก็ครอบคลุม
- การเพิ่ม register token ที่เสนอมาเรียบง่ายและสวยงามมาก พร้อมให้ attention mask ที่ตีความได้ง่ายขึ้น
- ชื่นชมการระบุข้อจำกัดไว้อย่างชัดเจน
- ตัวบทติดตามได้ง่าย และภาพประกอบช่วยสร้างความเข้าใจเชิงสัญชาตญาณได้ดี
จุดที่ควรปรับปรุง
- ยังขาดการทดลองที่แสดงให้เห็นว่าเมื่อเพิ่ม register token แล้ว พฤติกรรมของโทเคน outlier ถูกกำจัดไปจริง เป็นเรื่องน่าสนใจหากตรวจสอบได้ว่าในโมเดลที่เสนอ ข้อมูลถูกส่งผ่านไปยัง image/register token อย่างไร
- การอภิปรายประสิทธิภาพของโมเดลต่อการตรวจจับวัตถุแบบไม่มีผู้สอนยังมีจำกัด และไม่สอดคล้องกับผลลัพธ์
- แม้ผลลัพธ์ของ DINOv2+reg จะน่าประทับใจ แต่ยังต้องการการอภิปรายเพิ่มเติมหรือยกตัวอย่างเชิงคุณภาพว่าทำไม DINO จึงไม่แสดงผลสอดคล้องกัน
- แม้จะกล่าวว่า registers ช่วยเพิ่มประสิทธิภาพการตรวจจับวัตถุแบบไม่มีผู้สอนในทุกโมเดล แต่ประสิทธิภาพของ OpenCLIP กลับลดลงแทน
ความเห็นของ GN⁺
-
นอกจาก registers แล้ว อาจมีวิธีอื่นเพื่อลดความซ้ำซ้อนระดับ patch ที่มีอยู่อย่างจำกัด น่าสนใจว่าจะสังเกตเห็นผลคล้ายกันในโมเดลกำกับตนเองอื่นที่ควรบรรเทาความซ้ำซ้อนของตัวแทนผ่านการสร้าง patch-level reconstruction เช่น MAE หรือไม่
-
ดูเหมือนว่ายังต้องมีคำอธิบายเพิ่มเติมเกี่ยวกับการที่ OpenCLIP มีประสิทธิภาพลดลง และยังอธิบายไม่เพียงพอว่าทำไม LOST ของ DINO จึงทำได้ดีกว่า DINOv2
-
เป็นเรื่องน่าประหลาดใจที่ DINOv2 ซึ่งใช้ objective function แบบ dense masked-image-modeling ยังแสดงพฤติกรรมนี้อยู่ ชวนให้สงสัยว่าทำไม objective ของภาพที่ถูก mask ซึ่งควรบังคับให้เก็บรักษาข้อมูลใน patch feature จึงไม่สามารถป้องกันพฤติกรรมนี้ได้
-
ดูเหมือนว่าควรแยกความเอนเอียงของตัวชุดข้อมูลออกจากความเอนเอียงของเลเบลเอง SSL ได้รับผลกระทบจาก label bias น้อยกว่า แต่ความเอนเอียงจากแหล่งข้อมูลอย่าง Instagram เทียบกับ iNaturalist ก็ยังอาจคงอยู่
-
แม้จะเสนอว่าโทเคน outlier ปรากฏในโมเดลขนาดใหญ่ แต่ในโมเดลฐานของ CLIP/DEIT กลับไม่เป็นเช่นนั้น น่าจะดีถ้ามีความเห็นเกี่ยวกับประเด็นนี้ไว้ช่วงท้ายของหัวข้อ 2.2
-
น่าสนใจว่าประสิทธิภาพการตรวจจับวัตถุแบบไม่มีผู้สอนของ DINO ที่เพิ่ม registers แล้ว จะเป็นอย่างไรเมื่อเทียบกับโมเดลอื่นที่มีความสามารถคล้ายกัน เช่น CLIP ของ OpenAI หรือ LiT ของ Google
-
น่าจะดีหากมีการวิเคราะห์ว่าปรากฏการณ์โทเคน outlier ที่พบในโมเดลตระกูล ViT เกิดขึ้นในโมเดลตระกูล CNN ด้วยหรือไม่ หรือเป็นลักษณะเฉพาะของสถาปัตยกรรมทรานส์ฟอร์เมอร์
-
ในการใช้งานจริง หากใช้ register token จะมีผลกระทบด้านประสิทธิภาพจากภาระการคำนวณที่เพิ่มขึ้นหรือไม่ และถ้ามีแนวทางกำหนดจำนวน registers ที่เหมาะสมก็จะเป็นประโยชน์
ยังไม่มีความคิดเห็น