สถานะของ Competitive Machine Learning ปี 2022

xguru · 2023-03-22T11:05:02+09:00

Highlights เครื่องมือกำลังบรรจบไปที่ Python, PyData, Pytorch และ Gradient-boosted Decision Tree (GBDT) ดีปเลิร์นนิงยังไม่สามารถแทนที่ GBDT ได้สำหรับข้อมูลแบบตาราง Transformer เป็นผู้นำใน NLP และเริ่มแข่งขันกับ Convolutional Neural Network (CNN) ในงานคอมพิวเตอร์วิทัศน์ การแข่งขันครอบคลุมสาขาวิจัยที่หลากหลาย เช่น คอมพิวเตอร์วิทัศน์, NLP, ข้อมูลแบบตาราง, หุ่นยนต์, และการวิเคราะห์อนุกรมเวลา บางครั้งโซลูชันแบบโมเดลเดี่ยวก็ชนะได้ แต่โดยทั่วไปแล้ว ensemble ขนาดใหญ่จะเป็นผู้ชนะ มีหลายแพลตฟอร์มสำหรับการแข่งขันแมชชีนเลิร์นนิง และยังมีอีกหลายสิบเว็บไซต์ที่สร้างขึ้นเพื่อการแข่งขันเฉพาะรายการ Competitive machine learning ยังคงได้รับความนิยมเพิ่มขึ้นอย่างต่อเนื่อง รวมถึงในแวดวงวิชาการ 50% ของผู้ชนะเป็นผู้ชนะเดี่ยว และ 50% ของผู้ชนะเป็นผู้ชนะครั้งแรก ขณะที่ 30% เคยชนะมาแล้วสองครั้งขึ้นไป ผู้เข้าแข่งขันบางรายสามารถลงทุนด้านฮาร์ดแวร์อย่างมากเพื่อฝึกโซลูชันของตน แต่ผู้เข้าแข่งขันที่ใช้ฮาร์ดแวร์ฟรีอย่าง Google Colab ก็ยังสามารถชนะได้ Competitive ML Landscape การแข่งขันและแนวโน้มที่น่าสนใจ ในด้านมูลค่ารางวัล คือ Snowcast Showdown ของ DrivenData (สนับสนุนโดยกระทรวงการพัฒนาที่ดินของสหรัฐฯ) เงินรางวัล $500k รายการที่ได้รับความนิยมมากที่สุดคือ American Express Default Prediction ของ Kaggle มีทีมเข้าร่วมมากกว่า 4000 ทีม เงินรางวัล $100k อันดับ 1 คือผู้เข้าแข่งขันเดี่ยวที่เข้าร่วมครั้งแรก (Neural Net + LightGBM) การแข่งขันอิสระที่ใหญ่ที่สุดคือ AI Audit Challenge ของ Stanford สาขาที่ใหญ่ที่สุดคือคอมพิวเตอร์วิทัศน์: สิ่งแวดล้อม, การแพทย์ สาขาที่ใหญ่เป็นอันดับสองคือ NLP: NLP + search, NLP + Reinforcement Learning สาขา Sequential Decision-Making ก็กำลังเติบโต แพลตฟอร์ม Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,.. แพลตฟอร์มอื่นที่น่าสนใจ: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,.. วัตถุประสงค์ การแข่งขันที่ดำเนินการได้ดีจะ มอบปัญหาที่น่าสนใจให้อยากลองแก้ พร้อมข้อมูลสำหรับการเรียนรู้ มีแหล่งรวมของผู้เข้าร่วมที่มีศักยภาพและความสามารถ มีกลไกที่ลงโทษผู้เข้าร่วมที่ทำ overfitting มีแรงจูงใจ (ทางการเงิน) มากพอให้ผู้เข้าร่วมทุ่มเทความพยายามอย่างจริงจังในการแก้ปัญหา มีการรีวิวโซลูชันที่ชนะอย่างเปิดเผย (หลังจบการแข่งขัน) Winning Solutions ชุดเครื่องมือของผู้ชนะ: Python, อันดับสองคือ C++ แพ็กเกจ Python ที่ใช้เป็นหลัก PyData: Numpy, Pandas, SciPy, Scikit Learn Deep Learning: PyTorch GBDT: LightGBM, XGBoost, CatBoost Hyperparameter Optimisation: Optuna Experiment Tracking: W&B Visualization: matplotlib, seaborn NLP Toolkit: Transformers Computer Vision Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm

(mlcontests.com)

21 คะแนน โดย xguru 2023-03-22 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

Highlights

เครื่องมือกำลังบรรจบไปที่ Python, PyData, Pytorch และ Gradient-boosted Decision Tree (GBDT)
ดีปเลิร์นนิงยังไม่สามารถแทนที่ GBDT ได้สำหรับข้อมูลแบบตาราง
Transformer เป็นผู้นำใน NLP และเริ่มแข่งขันกับ Convolutional Neural Network (CNN) ในงานคอมพิวเตอร์วิทัศน์
การแข่งขันครอบคลุมสาขาวิจัยที่หลากหลาย เช่น คอมพิวเตอร์วิทัศน์, NLP, ข้อมูลแบบตาราง, หุ่นยนต์, และการวิเคราะห์อนุกรมเวลา
บางครั้งโซลูชันแบบโมเดลเดี่ยวก็ชนะได้ แต่โดยทั่วไปแล้ว ensemble ขนาดใหญ่จะเป็นผู้ชนะ
มีหลายแพลตฟอร์มสำหรับการแข่งขันแมชชีนเลิร์นนิง และยังมีอีกหลายสิบเว็บไซต์ที่สร้างขึ้นเพื่อการแข่งขันเฉพาะรายการ
Competitive machine learning ยังคงได้รับความนิยมเพิ่มขึ้นอย่างต่อเนื่อง รวมถึงในแวดวงวิชาการ
50% ของผู้ชนะเป็นผู้ชนะเดี่ยว และ 50% ของผู้ชนะเป็นผู้ชนะครั้งแรก ขณะที่ 30% เคยชนะมาแล้วสองครั้งขึ้นไป
ผู้เข้าแข่งขันบางรายสามารถลงทุนด้านฮาร์ดแวร์อย่างมากเพื่อฝึกโซลูชันของตน แต่ผู้เข้าแข่งขันที่ใช้ฮาร์ดแวร์ฟรีอย่าง Google Colab ก็ยังสามารถชนะได้

Competitive ML Landscape

การแข่งขันและแนวโน้มที่น่าสนใจ
- ในด้านมูลค่ารางวัล คือ Snowcast Showdown ของ DrivenData (สนับสนุนโดยกระทรวงการพัฒนาที่ดินของสหรัฐฯ) เงินรางวัล $500k
- รายการที่ได้รับความนิยมมากที่สุดคือ American Express Default Prediction ของ Kaggle มีทีมเข้าร่วมมากกว่า 4000 ทีม เงินรางวัล $100k อันดับ 1 คือผู้เข้าแข่งขันเดี่ยวที่เข้าร่วมครั้งแรก (Neural Net + LightGBM)
- การแข่งขันอิสระที่ใหญ่ที่สุดคือ AI Audit Challenge ของ Stanford
- สาขาที่ใหญ่ที่สุดคือคอมพิวเตอร์วิทัศน์: สิ่งแวดล้อม, การแพทย์
- สาขาที่ใหญ่เป็นอันดับสองคือ NLP: NLP + search, NLP + Reinforcement Learning
- สาขา Sequential Decision-Making ก็กำลังเติบโต
แพลตฟอร์ม
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- แพลตฟอร์มอื่นที่น่าสนใจ: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
วัตถุประสงค์
- การแข่งขันที่ดำเนินการได้ดีจะ
  - มอบปัญหาที่น่าสนใจให้อยากลองแก้ พร้อมข้อมูลสำหรับการเรียนรู้
  - มีแหล่งรวมของผู้เข้าร่วมที่มีศักยภาพและความสามารถ
  - มีกลไกที่ลงโทษผู้เข้าร่วมที่ทำ overfitting
  - มีแรงจูงใจ (ทางการเงิน) มากพอให้ผู้เข้าร่วมทุ่มเทความพยายามอย่างจริงจังในการแก้ปัญหา
  - มีการรีวิวโซลูชันที่ชนะอย่างเปิดเผย (หลังจบการแข่งขัน)

Winning Solutions

ชุดเครื่องมือของผู้ชนะ: Python, อันดับสองคือ C++
แพ็กเกจ Python ที่ใช้เป็นหลัก
- PyData: Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT: LightGBM, XGBoost, CatBoost
- Hyperparameter Optimisation: Optuna
- Experiment Tracking: W&B
- Visualization: matplotlib, seaborn
- NLP Toolkit: Transformers
- Computer Vision Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm

สถานะของ Competitive Machine Learning ปี 2022

Highlights

Competitive ML Landscape

Winning Solutions

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น