การโต้กลับของจักรวรรดิ Convolution

xguru · 2023-10-31T10:03:01+09:00

"ConvNets Match Vision Transformers at Scale" โดยทั่วไปมีการรับรู้กันว่า ConvNet ให้ประสิทธิภาพดีในชุดข้อมูลขนาดเล็กถึงกลาง แต่เมื่อเป็นชุดข้อมูลขนาดใหญ่มาก จะสู้ทรานส์ฟอร์เมอร์ โดยเฉพาะ Vision Transformer (ViT) ไม่ได้ งานวิจัยล่าสุดของ DeepMind ท้าทายแนวคิดนี้ เดิมเชื่อกันว่าความสามารถในการขยายของทรานส์ฟอร์เมอร์เหนือกว่าของ ConvNets แต่หลักฐานที่รองรับยังมีไม่มาก ผู้เขียนใช้ตระกูล NFNet (Normalizer-Free ResNets) เพื่อค่อยๆ เพิ่มความกว้าง/ความลึกของโครงข่าย พรีเทรนบน JFT-4B และใช้ SAM (Sharpness-Aware Minimization) เพื่อไฟน์จูนบน ImageNet ผลลัพธ์แสดงประสิทธิภาพที่เทียบเท่ากับโมเดล ViT ทุกโมเดลยังคงดีขึ้นอย่างต่อเนื่องเมื่อเพิ่มทรัพยากรการคำนวณ

(gonzoml.substack.com)

6 คะแนน โดย xguru 2023-10-31 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

"ConvNets Match Vision Transformers at Scale"
โดยทั่วไปมีการรับรู้กันว่า ConvNet ให้ประสิทธิภาพดีในชุดข้อมูลขนาดเล็กถึงกลาง แต่เมื่อเป็นชุดข้อมูลขนาดใหญ่มาก จะสู้ทรานส์ฟอร์เมอร์ โดยเฉพาะ Vision Transformer (ViT) ไม่ได้
งานวิจัยล่าสุดของ DeepMind ท้าทายแนวคิดนี้
- เดิมเชื่อกันว่าความสามารถในการขยายของทรานส์ฟอร์เมอร์เหนือกว่าของ ConvNets แต่หลักฐานที่รองรับยังมีไม่มาก
- ผู้เขียนใช้ตระกูล NFNet (Normalizer-Free ResNets) เพื่อค่อยๆ เพิ่มความกว้าง/ความลึกของโครงข่าย
- พรีเทรนบน JFT-4B และใช้ SAM (Sharpness-Aware Minimization) เพื่อไฟน์จูนบน ImageNet
- ผลลัพธ์แสดงประสิทธิภาพที่เทียบเท่ากับโมเดล ViT
- ทุกโมเดลยังคงดีขึ้นอย่างต่อเนื่องเมื่อเพิ่มทรัพยากรการคำนวณ

การโต้กลับของจักรวรรดิ Convolution

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น