- "ConvNets Match Vision Transformers at Scale"
- โดยทั่วไปมีการรับรู้กันว่า ConvNet ให้ประสิทธิภาพดีในชุดข้อมูลขนาดเล็กถึงกลาง แต่เมื่อเป็นชุดข้อมูลขนาดใหญ่มาก จะสู้ทรานส์ฟอร์เมอร์ โดยเฉพาะ Vision Transformer (ViT) ไม่ได้
- งานวิจัยล่าสุดของ DeepMind ท้าทายแนวคิดนี้
- เดิมเชื่อกันว่าความสามารถในการขยายของทรานส์ฟอร์เมอร์เหนือกว่าของ ConvNets แต่หลักฐานที่รองรับยังมีไม่มาก
- ผู้เขียนใช้ตระกูล NFNet (Normalizer-Free ResNets) เพื่อค่อยๆ เพิ่มความกว้าง/ความลึกของโครงข่าย
- พรีเทรนบน JFT-4B และใช้ SAM (Sharpness-Aware Minimization) เพื่อไฟน์จูนบน ImageNet
- ผลลัพธ์แสดงประสิทธิภาพที่เทียบเท่ากับโมเดล ViT
- ทุกโมเดลยังคงดีขึ้นอย่างต่อเนื่องเมื่อเพิ่มทรัพยากรการคำนวณ
ยังไม่มีความคิดเห็น