• "ConvNets Match Vision Transformers at Scale"
  • โดยทั่วไปมีการรับรู้กันว่า ConvNet ให้ประสิทธิภาพดีในชุดข้อมูลขนาดเล็กถึงกลาง แต่เมื่อเป็นชุดข้อมูลขนาดใหญ่มาก จะสู้ทรานส์ฟอร์เมอร์ โดยเฉพาะ Vision Transformer (ViT) ไม่ได้
  • งานวิจัยล่าสุดของ DeepMind ท้าทายแนวคิดนี้
    • เดิมเชื่อกันว่าความสามารถในการขยายของทรานส์ฟอร์เมอร์เหนือกว่าของ ConvNets แต่หลักฐานที่รองรับยังมีไม่มาก
    • ผู้เขียนใช้ตระกูล NFNet (Normalizer-Free ResNets) เพื่อค่อยๆ เพิ่มความกว้าง/ความลึกของโครงข่าย
    • พรีเทรนบน JFT-4B และใช้ SAM (Sharpness-Aware Minimization) เพื่อไฟน์จูนบน ImageNet
    • ผลลัพธ์แสดงประสิทธิภาพที่เทียบเท่ากับโมเดล ViT
    • ทุกโมเดลยังคงดีขึ้นอย่างต่อเนื่องเมื่อเพิ่มทรัพยากรการคำนวณ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น