Highlights

  • เครื่องมือกำลังบรรจบไปที่ Python, PyData, Pytorch และ Gradient-boosted Decision Tree (GBDT)
  • ดีปเลิร์นนิงยังไม่สามารถแทนที่ GBDT ได้สำหรับข้อมูลแบบตาราง
  • Transformer เป็นผู้นำใน NLP และเริ่มแข่งขันกับ Convolutional Neural Network (CNN) ในงานคอมพิวเตอร์วิทัศน์
  • การแข่งขันครอบคลุมสาขาวิจัยที่หลากหลาย เช่น คอมพิวเตอร์วิทัศน์, NLP, ข้อมูลแบบตาราง, หุ่นยนต์, และการวิเคราะห์อนุกรมเวลา
  • บางครั้งโซลูชันแบบโมเดลเดี่ยวก็ชนะได้ แต่โดยทั่วไปแล้ว ensemble ขนาดใหญ่จะเป็นผู้ชนะ
  • มีหลายแพลตฟอร์มสำหรับการแข่งขันแมชชีนเลิร์นนิง และยังมีอีกหลายสิบเว็บไซต์ที่สร้างขึ้นเพื่อการแข่งขันเฉพาะรายการ
  • Competitive machine learning ยังคงได้รับความนิยมเพิ่มขึ้นอย่างต่อเนื่อง รวมถึงในแวดวงวิชาการ
  • 50% ของผู้ชนะเป็นผู้ชนะเดี่ยว และ 50% ของผู้ชนะเป็นผู้ชนะครั้งแรก ขณะที่ 30% เคยชนะมาแล้วสองครั้งขึ้นไป
  • ผู้เข้าแข่งขันบางรายสามารถลงทุนด้านฮาร์ดแวร์อย่างมากเพื่อฝึกโซลูชันของตน แต่ผู้เข้าแข่งขันที่ใช้ฮาร์ดแวร์ฟรีอย่าง Google Colab ก็ยังสามารถชนะได้

Competitive ML Landscape

  • การแข่งขันและแนวโน้มที่น่าสนใจ
    • ในด้านมูลค่ารางวัล คือ Snowcast Showdown ของ DrivenData (สนับสนุนโดยกระทรวงการพัฒนาที่ดินของสหรัฐฯ) เงินรางวัล $500k
    • รายการที่ได้รับความนิยมมากที่สุดคือ American Express Default Prediction ของ Kaggle มีทีมเข้าร่วมมากกว่า 4000 ทีม เงินรางวัล $100k อันดับ 1 คือผู้เข้าแข่งขันเดี่ยวที่เข้าร่วมครั้งแรก (Neural Net + LightGBM)
    • การแข่งขันอิสระที่ใหญ่ที่สุดคือ AI Audit Challenge ของ Stanford
    • สาขาที่ใหญ่ที่สุดคือคอมพิวเตอร์วิทัศน์: สิ่งแวดล้อม, การแพทย์
    • สาขาที่ใหญ่เป็นอันดับสองคือ NLP: NLP + search, NLP + Reinforcement Learning
    • สาขา Sequential Decision-Making ก็กำลังเติบโต
  • แพลตฟอร์ม
    • Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
    • แพลตฟอร์มอื่นที่น่าสนใจ: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
  • วัตถุประสงค์
    • การแข่งขันที่ดำเนินการได้ดีจะ
      • มอบปัญหาที่น่าสนใจให้อยากลองแก้ พร้อมข้อมูลสำหรับการเรียนรู้
      • มีแหล่งรวมของผู้เข้าร่วมที่มีศักยภาพและความสามารถ
      • มีกลไกที่ลงโทษผู้เข้าร่วมที่ทำ overfitting
      • มีแรงจูงใจ (ทางการเงิน) มากพอให้ผู้เข้าร่วมทุ่มเทความพยายามอย่างจริงจังในการแก้ปัญหา
      • มีการรีวิวโซลูชันที่ชนะอย่างเปิดเผย (หลังจบการแข่งขัน)

Winning Solutions

  • ชุดเครื่องมือของผู้ชนะ: Python, อันดับสองคือ C++
  • แพ็กเกจ Python ที่ใช้เป็นหลัก
    • PyData: Numpy, Pandas, SciPy, Scikit Learn
    • Deep Learning: PyTorch
    • GBDT: LightGBM, XGBoost, CatBoost
    • Hyperparameter Optimisation: Optuna
    • Experiment Tracking: W&B
    • Visualization: matplotlib, seaborn
    • NLP Toolkit: Transformers
    • Computer Vision Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น