การเรียนรู้แบบเสริมกำลังเชิงลึก: ก้าวกระโดดจากมือใหม่สู่ผู้เชี่ยวชาญ

(github.com/alessiodm)

4 คะแนน โดย GN⁺ 2024-05-06 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

drlzh.ai เป็นคอร์สแบบลงมือปฏิบัติที่ให้ผู้เรียนนำอัลกอริทึมไป implement เอง แทนที่จะอ่านเกี่ยวกับ deep reinforcement learning เพียงอย่างเดียว ครอบคลุมตั้งแต่ MDP และ RL แบบตาราง ไปจนถึง RLHF, Decision Transformers, Dreamer และ meta-learning
โน้ตบุ๊กใน root เป็นแทร็กฝึกปฏิบัติที่บางส่วนของโค้ดถูกแทนที่ด้วย TODO แบบมีคำแนะนำ ส่วนโน้ตบุ๊กใน solution/ มีเวอร์ชันที่รันได้ครบถ้วนให้ตรวจดูเมื่อทำต่อไม่ออก
หลักสูตรประกอบด้วยโน้ตบุ๊กหมายเลข 00-18 โดยแทร็กพื้นฐานออกแบบให้เรียนตามลำดับ ส่วนโน้ตบุ๊กขั้นสูงเป็นแบบ จบในตัวเอง แต่หมายเลขยังให้เส้นทางการเรียนรู้พื้นฐานไว้
Docker workspace ให้ code-server, โน้ตบุ๊ก, Python >=3.13,<3.14, Jupyter kernel, dependencies และส่วนขยาย VS Code DRL-ZH AI Companion มาพร้อมกันในครั้งเดียว
ผู้เรียนควรคุ้นเคยกับ Python, พื้นฐาน PyTorch และคณิตศาสตร์สำหรับ ML เช่น ความน่าจะเป็น สถิติ พีชคณิตเชิงเส้น และแคลคูลัสเชิงอนุพันธ์ โดยโน้ตบุ๊กตั้งสมมติฐานว่าผู้เรียนสามารถอ่านและแก้ไขโค้ดฝึกโมเดลจริงได้

ภาพรวมโครงการ

drlzh.ai เป็น คอร์ส deep reinforcement learning ที่เน้นการปฏิบัติจริง โดยออกแบบให้ผู้เรียนสร้างอัลกอริทึมด้วยตัวเอง
ขอบเขตการเรียนเริ่มจาก MDP และ RL แบบตาราง แล้วขยายไปสู่หัวข้อต่อไปนี้
- อัลกอริทึมที่ใช้เอเจนต์ Atari
- หุ่นยนต์ควบคุมต่อเนื่อง
- การวางแผนสไตล์ AlphaZero
- RLHF สำหรับโมเดลภาษา
- Decision Transformers
- policy สไตล์ VLA
- world models
- Dreamer
- meta-learning
โน้ตบุ๊กใน root เป็น แทร็กแบบฝึกหัด โดยตั้งใจแทนที่โค้ดด้วยส่วน TODO แบบมีคำแนะนำ
โน้ตบุ๊ก solution/ ให้เวอร์ชันที่สมบูรณ์และรันได้ เพื่อให้ผู้เรียนแก้จุดที่ติดขัดได้โดยไม่ต้องออกนอกคอร์ส

โครงสร้างหลักสูตร

คอร์สประกอบด้วยโน้ตบุ๊กตั้งแต่ 00 ถึง 18
00-07 Foundations
- implement MDPs, tabular RL, DQN, REINFORCE, actor-critic methods, DDPG, TD3, SAC, PPO
08-10 Breaking assumptions
- ครอบคลุม RND curiosity, multi-agent RL, offline RL ที่ใช้ BC และ IQL
11 Planning
- ครอบคลุม Monte Carlo Tree Search, self-play และการเรียนรู้ policy/value สไตล์ AlphaZero
12-13 Modern AI stack
- ครอบคลุม RLHF บนพื้นฐาน PPO, DPO, GRPO, Decision Transformers, NanoVLA(DTVLA)
14 Production
- ครอบคลุม TensorBoard, checkpoints, debugging, multiple seeds, Ray, Optuna
15-16 World models
- ครอบคลุม MBPO บนพื้นฐาน SAC และ DR3AM/Dreamer ที่ใช้ RSSM latent imagination
17-18 Meta + wrap-up
- ประกอบด้วย MAML, FOMAML, fast adaptation และการปิดท้ายคอร์ส
โน้ตบุ๊กพื้นฐานตั้งใจให้ เรียนตามลำดับ
โน้ตบุ๊กขั้นสูงเป็นแบบจบในตัวเอง แต่หมายเลขให้เส้นทางพื้นฐานตั้งแต่การสำรวจไปจนถึง capstone ของคอร์ส

DRL-ZH AI Companion

Docker workspace มี DRL-ZH AI Companion ซึ่งเป็นส่วนขยาย VS Code สำหรับคอร์สนี้รวมอยู่ด้วย
ส่วนขยายรับรู้โน้ตบุ๊กและ TODO ที่ผู้ใช้กำลังทำงานอยู่
แทนที่จะให้คำตอบทันที จะให้ คำใบ้แบบโสเครตีส
รองรับทั้งโหมดข้อความและโหมดเสียง
ผู้ใช้ต้องนำคีย์ LLM มาเอง
- Gemini เป็นค่าเริ่มต้น
- รองรับ OpenAI, Anthropic และ Groq ด้วย

สภาพแวดล้อมสำหรับรันและวิธีเริ่มต้น

การตั้งค่าที่แนะนำคือ Docker
Docker ให้สิ่งต่อไปนี้ใน workspace ที่ทำซ้ำได้ชุดเดียว
- code-server
- โน้ตบุ๊ก
- Python >=3.13,<3.14
- Jupyter kernel
- dependencies
- AI Companion
ขั้นตอนเริ่มต้นพื้นฐาน
- ติดตั้ง Docker และ Git จากนั้น clone repository แล้วเข้าไปยังไดเรกทอรีนั้น
- บน Linux/macOS ให้รัน printf "UID=$(id -u)\nGID=$(id -g)\n" > .env เพื่อปรับความเป็นเจ้าของไฟล์ให้ตรงกับผู้ใช้
- เริ่มสภาพแวดล้อมเริ่มต้น

docker compose up --build -d

เปิด http://localhost:8080 ในเบราว์เซอร์ที่ใช้ Chromium แล้วเลือก kernel Python (drl-zh)
เปิด 00_Intro.ipynb แล้วเริ่มเติม TODO
หากต้องการเข้าถึง NVIDIA GPU ให้ใช้คำสั่งต่อไปนี้

docker compose -f docker-compose.yml -f docker-compose.gpu.yml up --build -d

สำหรับ image ที่เล็กกว่าและใช้ CPU เท่านั้น ให้ใช้คำสั่งต่อไปนี้

docker compose -f docker-compose.yml -f docker-compose.cpu.yml up --build -d

หากต้องการตั้งค่าแบบ native สามารถดูคำแนะนำสำหรับ Python, Poetry, VS Code และ Companion ได้ใน MANUAL.md

ความรู้ที่ต้องมีและสัญญาอนุญาต

ผู้เรียนควรคุ้นเคยกับสิ่งต่อไปนี้
- Python
- พื้นฐาน PyTorch
- ความน่าจะเป็น สถิติ พีชคณิตเชิงเส้น และแคลคูลัสเชิงอนุพันธ์ที่จำเป็นสำหรับ ML
โน้ตบุ๊กสอน RL เอง แต่ตั้งสมมติฐานว่าผู้เรียนสามารถอ่านและแก้ไข โค้ดฝึกโมเดล จริงได้
ใช้สัญญาอนุญาต MIT รายละเอียดอยู่ใน LICENSE

การเรียนรู้แบบเสริมกำลังเชิงลึก: ก้าวกระโดดจากมือใหม่สู่ผู้เชี่ยวชาญ

ภาพรวมโครงการ

โครงสร้างหลักสูตร

DRL-ZH AI Companion

สภาพแวดล้อมสำหรับรันและวิธีเริ่มต้น

ความรู้ที่ต้องมีและสัญญาอนุญาต

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น