4 คะแนน โดย GN⁺ 2024-05-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

หลักสูตรแนะนำการเรียนรู้เสริมแรงเชิงลึก

  • หลักสูตรนี้เป็นคอร์สแนะนำแบบปฏิบัติการสำหรับอัลกอริทึม Deep Reinforcement Learning แบบพื้นฐานและแบบคลาสสิก
  • เมื่อจบหลักสูตรแล้ว คุณจะสามารถสร้างอัลกอริทึมอย่าง DQN, SAC, PPO ได้ด้วยตัวเอง และทำความเข้าใจพื้นฐานเชิงทฤษฎีของอัลกอริทึมเหล่านี้ในระดับสูงได้
  • คุณจะสามารถฝึก AI ให้เล่นเกม Atari หรือให้ลงจอดบนดวงจันทร์ได้

การตั้งค่าสภาพแวดล้อม

  • แนะนำวิธีการตั้งค่าเพื่อให้สามารถโฟกัสที่การเรียนรู้ได้
    • ติดตั้ง Miniconda (ตัวจัดการสภาพแวดล้อมที่สามารถเลือกเวอร์ชัน Python ได้)
    • เช็คเอาต์ Git repository นี้และย้ายไปยังโฟลเดอร์ดังกล่าว
    • สร้างและเปิดใช้งานสภาพแวดล้อมเสมือน drlzh
      conda create --name drlzh python=3.11
      conda activate drlzh  
      
    • ติดตั้ง Poetry และติดตั้ง dependencies (รวมถึง gymnasium[accept-rom-license] สำหรับ Atari)
      pip install poetry
      poetry install
      
    • ติดตั้ง Visual Studio Code

วิธีเริ่มต้น

  • เปิดโฟลเดอร์ repository นี้ใน Visual Studio Code (เก็บโฟลเดอร์ .vscode ไว้)
  • เปิดสมุดโน้ต 00_Intro.ipynb ตัวแรกและทำตาม
  • ย้ายไปยังสมุดโน้ตถัดไปต่อไป
  • หากติดขัดให้ไปที่โฟลเดอร์ /solution
  • ดูวิดีโอ YouTube เพื่ออ่านคำอธิบายโดยละเอียดของการเขียนโค้ดรายขั้น

ความคิดเห็นของ GN⁺

  • Reinforcement Learning เป็นหนึ่งในเทคโนโลยี AI ที่ประสบความสำเร็จอย่างมากในด้านเกมและหุ่นยนต์ แต่การประยุกต์ใช้งานกับปัญหาจริงยังคงมีความท้าทาย เช่น การฝึกใช้เวลาเป็นเวลานาน และในสถานการณ์ที่ความปลอดภัยสำคัญไม่สามารถทดลองผิดพลาดได้ง่าย
  • หลักสูตรนี้ครอบคลุมปัญหาง่าย ๆ เช่นเกม Atari หรือการจำลองการลงจอดบนดวงจันทร์ ทำให้เหมาะกับผู้เริ่มต้น แต่ในการใช้งานจริงคาดว่าจำเป็นต้องมีการเรียนรู้เพิ่มเติม
  • เมื่อมีการเพิ่มทรัพยากรการสอนแบบโอเพนซอร์สเหล่านี้มากขึ้น ผู้พัฒนามากขึ้นสามารถเรียนรู้และใช้เทคโนโลยี AI ได้มากขึ้น โดยเฉพาะอย่างยิ่งการเรียนรู้เสริมแรงคาดว่าจะเป็นทักษะสำคัญของวิศวกรด้านหุ่นยนต์หรือรถยนต์ไร้คนขับ
  • การสร้างสภาพแวดล้อมทดลองได้ใช้งานผ่าน Conda, Poetry และเครื่องมือหลากหลายอื่น ๆ ซึ่งอาจเป็นภาระสำหรับผู้เริ่มต้น หากมีการจัดเตรียมสภาพแวดล้อมฝึกงานบนคลาวด์ จะช่วยลดข้อจำกัดในการเริ่มต้นได้

1 ความคิดเห็น

 
GN⁺ 2024-05-06
ความคิดเห็นจาก Hacker News

ขอสรุปดังนี้:

  • ขณะพยายามเรียนรู้ Deep Reinforcement Learning (การเรียนรู้เสริมกำลังเชิงลึก) ได้ใช้ทรัพยากรที่ยอดเยี่ยมได้มากมาย แต่ขาดแคลนแหล่งข้อมูลที่ให้สมดุลที่เหมาะสมระหว่างทฤษฎีและการปฏิบัติ
  • จึงตัดสินใจสร้างสรรค์แล้วแชร์เป็นโอเพ่นซอร์สด้วยตนเอง โดยเขียนอัลกอริทึมใหม่ทั้งหมดในโน้ตบุ๊ก Python ตั้งแต่ต้นด้วยแนวทางเชิงการสอน
  • เป็นบทสอนแบบก้าวหน้าเชิงปฏิบัติที่ชี้แจงทั้งด้านทฤษฎีและการฝึกเขียนโค้ดสำหรับอัลกอริทึมยอดนิยม เช่น QLearning, DQN, SAC, PPO เป็นต้น

ข้อเสนอแนะ

  • มีตัวอย่างแบบง่ายที่ใช้งานได้จริงจำนวนมาก แต่ขาดแหล่งข้อมูลเชิงปฏิบัติที่ช่วยแนะนำว่าควรทำอย่างไรเมื่อเกิดปัญหา เช่น ปัญหาการติดขอบบนของ action หรือการสำรวจที่ไม่เป็นไปอย่างเหมาะสม
  • เทคโนโลยี RL ล่าสุดก็มีปัญหาว่าบนเกม Tetris ประสิทธิภาพไม่เหนือกว่าเพียงกลวิธีแบบหยาบๆ มากนัก
  • แชร์เฟรมเวิร์ก DRL สำหรับการสร้างเพลงที่คล้าย Gym ชื่อ RaveForce สามารถใช้ในการทดสอบอัลกอริทึมต่างๆ ได้
  • คงเป็นประโยชน์สำหรับผู้ที่มีพื้นฐานสถิติ/ML ไม่มากนักในการทำความเข้าใจว่าตัวเอเจนต์เรียนรู้อย่างไร
  • ควรมีการเพิ่มลิงก์วิดีโอ YouTube
  • ระบุว่าหยิบเอาชื่อจาก "Neural Network: Zero To Hero" ของ Andrej Karpathy มาใช้ในชื่อเรื่อง และยังมีการชี้ให้เห็นว่าอาจเกิดความสับสนเรื่องการสะกดแบรนด์ส่วนตัวได้