- เรียนรู้โดยสร้างโมเดลภายในที่เปรียบเทียบการแทนภาพเชิงนามธรรม แทนการเปรียบเทียบพิกเซลโดยตรง
- ให้ประสิทธิภาพที่แข็งแกร่งในงานคอมพิวเตอร์วิชันและมีประสิทธิภาพสูงกว่ามาก สามารถนำไปใช้ได้หลากหลายแม้ไม่มีการ fine-tuning อย่างกว้างขวาง
- สามารถฝึกโมเดล visual transformer ขนาด 632M พารามิเตอร์ได้ภายใน 72 ชั่วโมง โดยใช้ A100 GPU เพียง 16 ตัว
- แสดงประสิทธิภาพระดับ SOTA ในการจำแนกแบบ low-shot บน ImageNet ด้วยตัวอย่างที่มีการติดป้ายกำกับเพียง 12 ตัวอย่างต่อคลาส
- จะนำเสนอ paper นี้ในงาน CVPR 2023 และจะเปิดซอร์สโค้ดสำหรับการฝึกพร้อม model checkpoint เป็นโอเพนซอร์ส
- Image Joint Embedding Predictive Architecture
1 ความคิดเห็น
ดูเหมือนว่าคำว่า 'กวังบอมวี' จะพิมพ์ไม่ถูกต้องเนื่องจากการสะกดผิด