5 คะแนน โดย xguru 2023-06-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เรียนรู้โดยสร้างโมเดลภายในที่เปรียบเทียบการแทนภาพเชิงนามธรรม แทนการเปรียบเทียบพิกเซลโดยตรง
  • ให้ประสิทธิภาพที่แข็งแกร่งในงานคอมพิวเตอร์วิชันและมีประสิทธิภาพสูงกว่ามาก สามารถนำไปใช้ได้หลากหลายแม้ไม่มีการ fine-tuning อย่างกว้างขวาง
  • สามารถฝึกโมเดล visual transformer ขนาด 632M พารามิเตอร์ได้ภายใน 72 ชั่วโมง โดยใช้ A100 GPU เพียง 16 ตัว
    • แสดงประสิทธิภาพระดับ SOTA ในการจำแนกแบบ low-shot บน ImageNet ด้วยตัวอย่างที่มีการติดป้ายกำกับเพียง 12 ตัวอย่างต่อคลาส
  • จะนำเสนอ paper นี้ในงาน CVPR 2023 และจะเปิดซอร์สโค้ดสำหรับการฝึกพร้อม model checkpoint เป็นโอเพนซอร์ส
  • Image Joint Embedding Predictive Architecture

1 ความคิดเห็น

 
libner 2023-06-16

ดูเหมือนว่าคำว่า 'กวังบอมวี' จะพิมพ์ไม่ถูกต้องเนื่องจากการสะกดผิด