Vision Transformer จำเป็นต้องมี Registers

  • ผู้เขียน: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
  • นำเสนอแบบปากเปล่าใน ICLR 2024
  • เผยแพร่เมื่อ 16 มกราคม 2024, แก้ไขครั้งสุดท้าย 12 เมษายน 2024

สรุป

  • ค้นพบและจำแนกลักษณะของอาร์ติแฟกต์ใน feature map ของโมเดล Vision Transformer (ViT) ที่ฝึกด้วยการเรียนรู้แบบมีผู้สอนและการเรียนรู้แบบกำกับตนเอง
  • อาร์ติแฟกต์นี้สอดคล้องกับการที่โทเคนที่มี norm สูง ซึ่งมักปรากฏในบริเวณพื้นหลังที่มีข้อมูลน้อยระหว่างการอนุมาน ถูกนำกลับมาใช้ซ้ำสำหรับการคำนวณภายใน
  • เสนอวิธีแก้ที่เรียบง่ายแต่มีประสิทธิภาพ โดยเพิ่มโทเคนพิเศษเข้าไปในลำดับอินพุตของ ViT (เรียกว่า "registers")
  • วิธีนี้แก้ปัญหาได้อย่างสมบูรณ์ทั้งในโมเดลแบบมีผู้สอนและแบบกำกับตนเอง, สร้าง SOTA ใหม่ให้กับโมเดลภาพแบบกำกับตนเองในงานทำนายเชิงภาพแบบหนาแน่น, ทำให้วิธีการตรวจจับวัตถุใช้กับโมเดลขนาดใหญ่ได้ และที่สำคัญคือทำให้ได้ feature map และ attention map ที่เรียบลื่นขึ้นสำหรับการประมวลผลภาพปลายทาง

การทดลองและการวิเคราะห์

  • การตรวจสอบอาร์ติแฟกต์มีความแปลกใหม่และรอบด้านอย่างมาก กราฟและคำอธิบายให้ข้อมูลเชิงลึก และการทดลองก็ครอบคลุม
  • การเพิ่ม register token ที่เสนอมาเรียบง่ายและสวยงามมาก พร้อมให้ attention mask ที่ตีความได้ง่ายขึ้น
  • ชื่นชมการระบุข้อจำกัดไว้อย่างชัดเจน
  • ตัวบทติดตามได้ง่าย และภาพประกอบช่วยสร้างความเข้าใจเชิงสัญชาตญาณได้ดี

จุดที่ควรปรับปรุง

  • ยังขาดการทดลองที่แสดงให้เห็นว่าเมื่อเพิ่ม register token แล้ว พฤติกรรมของโทเคน outlier ถูกกำจัดไปจริง เป็นเรื่องน่าสนใจหากตรวจสอบได้ว่าในโมเดลที่เสนอ ข้อมูลถูกส่งผ่านไปยัง image/register token อย่างไร
  • การอภิปรายประสิทธิภาพของโมเดลต่อการตรวจจับวัตถุแบบไม่มีผู้สอนยังมีจำกัด และไม่สอดคล้องกับผลลัพธ์
  • แม้ผลลัพธ์ของ DINOv2+reg จะน่าประทับใจ แต่ยังต้องการการอภิปรายเพิ่มเติมหรือยกตัวอย่างเชิงคุณภาพว่าทำไม DINO จึงไม่แสดงผลสอดคล้องกัน
  • แม้จะกล่าวว่า registers ช่วยเพิ่มประสิทธิภาพการตรวจจับวัตถุแบบไม่มีผู้สอนในทุกโมเดล แต่ประสิทธิภาพของ OpenCLIP กลับลดลงแทน

ความเห็นของ GN⁺

  • นอกจาก registers แล้ว อาจมีวิธีอื่นเพื่อลดความซ้ำซ้อนระดับ patch ที่มีอยู่อย่างจำกัด น่าสนใจว่าจะสังเกตเห็นผลคล้ายกันในโมเดลกำกับตนเองอื่นที่ควรบรรเทาความซ้ำซ้อนของตัวแทนผ่านการสร้าง patch-level reconstruction เช่น MAE หรือไม่

  • ดูเหมือนว่ายังต้องมีคำอธิบายเพิ่มเติมเกี่ยวกับการที่ OpenCLIP มีประสิทธิภาพลดลง และยังอธิบายไม่เพียงพอว่าทำไม LOST ของ DINO จึงทำได้ดีกว่า DINOv2

  • เป็นเรื่องน่าประหลาดใจที่ DINOv2 ซึ่งใช้ objective function แบบ dense masked-image-modeling ยังแสดงพฤติกรรมนี้อยู่ ชวนให้สงสัยว่าทำไม objective ของภาพที่ถูก mask ซึ่งควรบังคับให้เก็บรักษาข้อมูลใน patch feature จึงไม่สามารถป้องกันพฤติกรรมนี้ได้

  • ดูเหมือนว่าควรแยกความเอนเอียงของตัวชุดข้อมูลออกจากความเอนเอียงของเลเบลเอง SSL ได้รับผลกระทบจาก label bias น้อยกว่า แต่ความเอนเอียงจากแหล่งข้อมูลอย่าง Instagram เทียบกับ iNaturalist ก็ยังอาจคงอยู่

  • แม้จะเสนอว่าโทเคน outlier ปรากฏในโมเดลขนาดใหญ่ แต่ในโมเดลฐานของ CLIP/DEIT กลับไม่เป็นเช่นนั้น น่าจะดีถ้ามีความเห็นเกี่ยวกับประเด็นนี้ไว้ช่วงท้ายของหัวข้อ 2.2

  • น่าสนใจว่าประสิทธิภาพการตรวจจับวัตถุแบบไม่มีผู้สอนของ DINO ที่เพิ่ม registers แล้ว จะเป็นอย่างไรเมื่อเทียบกับโมเดลอื่นที่มีความสามารถคล้ายกัน เช่น CLIP ของ OpenAI หรือ LiT ของ Google

  • น่าจะดีหากมีการวิเคราะห์ว่าปรากฏการณ์โทเคน outlier ที่พบในโมเดลตระกูล ViT เกิดขึ้นในโมเดลตระกูล CNN ด้วยหรือไม่ หรือเป็นลักษณะเฉพาะของสถาปัตยกรรมทรานส์ฟอร์เมอร์

  • ในการใช้งานจริง หากใช้ register token จะมีผลกระทบด้านประสิทธิภาพจากภาระการคำนวณที่เพิ่มขึ้นหรือไม่ และถ้ามีแนวทางกำหนดจำนวน registers ที่เหมาะสมก็จะเป็นประโยชน์

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น