Highlights
- เครื่องมือกำลังบรรจบไปที่ Python, PyData, Pytorch และ Gradient-boosted Decision Tree (GBDT)
- ดีปเลิร์นนิงยังไม่สามารถแทนที่ GBDT ได้สำหรับข้อมูลแบบตาราง
- Transformer เป็นผู้นำใน NLP และเริ่มแข่งขันกับ Convolutional Neural Network (CNN) ในงานคอมพิวเตอร์วิทัศน์
- การแข่งขันครอบคลุมสาขาวิจัยที่หลากหลาย เช่น คอมพิวเตอร์วิทัศน์, NLP, ข้อมูลแบบตาราง, หุ่นยนต์, และการวิเคราะห์อนุกรมเวลา
- บางครั้งโซลูชันแบบโมเดลเดี่ยวก็ชนะได้ แต่โดยทั่วไปแล้ว ensemble ขนาดใหญ่จะเป็นผู้ชนะ
- มีหลายแพลตฟอร์มสำหรับการแข่งขันแมชชีนเลิร์นนิง และยังมีอีกหลายสิบเว็บไซต์ที่สร้างขึ้นเพื่อการแข่งขันเฉพาะรายการ
- Competitive machine learning ยังคงได้รับความนิยมเพิ่มขึ้นอย่างต่อเนื่อง รวมถึงในแวดวงวิชาการ
- 50% ของผู้ชนะเป็นผู้ชนะเดี่ยว และ 50% ของผู้ชนะเป็นผู้ชนะครั้งแรก ขณะที่ 30% เคยชนะมาแล้วสองครั้งขึ้นไป
- ผู้เข้าแข่งขันบางรายสามารถลงทุนด้านฮาร์ดแวร์อย่างมากเพื่อฝึกโซลูชันของตน แต่ผู้เข้าแข่งขันที่ใช้ฮาร์ดแวร์ฟรีอย่าง Google Colab ก็ยังสามารถชนะได้
Competitive ML Landscape
- การแข่งขันและแนวโน้มที่น่าสนใจ
- ในด้านมูลค่ารางวัล คือ Snowcast Showdown ของ DrivenData (สนับสนุนโดยกระทรวงการพัฒนาที่ดินของสหรัฐฯ) เงินรางวัล $500k
- รายการที่ได้รับความนิยมมากที่สุดคือ American Express Default Prediction ของ Kaggle มีทีมเข้าร่วมมากกว่า 4000 ทีม เงินรางวัล $100k อันดับ 1 คือผู้เข้าแข่งขันเดี่ยวที่เข้าร่วมครั้งแรก (Neural Net + LightGBM)
- การแข่งขันอิสระที่ใหญ่ที่สุดคือ AI Audit Challenge ของ Stanford
- สาขาที่ใหญ่ที่สุดคือคอมพิวเตอร์วิทัศน์: สิ่งแวดล้อม, การแพทย์
- สาขาที่ใหญ่เป็นอันดับสองคือ NLP: NLP + search, NLP + Reinforcement Learning
- สาขา Sequential Decision-Making ก็กำลังเติบโต
- แพลตฟอร์ม
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- แพลตฟอร์มอื่นที่น่าสนใจ: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
- วัตถุประสงค์
- การแข่งขันที่ดำเนินการได้ดีจะ
- มอบปัญหาที่น่าสนใจให้อยากลองแก้ พร้อมข้อมูลสำหรับการเรียนรู้
- มีแหล่งรวมของผู้เข้าร่วมที่มีศักยภาพและความสามารถ
- มีกลไกที่ลงโทษผู้เข้าร่วมที่ทำ overfitting
- มีแรงจูงใจ (ทางการเงิน) มากพอให้ผู้เข้าร่วมทุ่มเทความพยายามอย่างจริงจังในการแก้ปัญหา
- มีการรีวิวโซลูชันที่ชนะอย่างเปิดเผย (หลังจบการแข่งขัน)
Winning Solutions
- ชุดเครื่องมือของผู้ชนะ: Python, อันดับสองคือ C++
- แพ็กเกจ Python ที่ใช้เป็นหลัก
- PyData: Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT: LightGBM, XGBoost, CatBoost
- Hyperparameter Optimisation: Optuna
- Experiment Tracking: W&B
- Visualization: matplotlib, seaborn
- NLP Toolkit: Transformers
- Computer Vision Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm
ยังไม่มีความคิดเห็น