Q-learning ยังขยายสเกลไม่ได้

(seohong.me)

1 คะแนน โดย GN⁺ 2025-06-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

RL สร้างผลงานใหญ่ใน Go, Chess และการฝึกต่อยอด LLM แต่ส่วนใหญ่พึ่งพา on-policy RL ที่ต้องมี rollout ใหม่ จึงมีเงื่อนไขต่างจาก off-policy RL ซึ่งนำข้อมูลเก่ากลับมาใช้ซ้ำได้อย่างอิสระ
Q-learning ซึ่งเป็น off-policy RL ตัวแทน มีประสิทธิภาพด้านตัวอย่างสูง แต่ยังขยายสเกลได้ไม่เพียงพอสำหรับงานระยะยาวที่ต้องมีขั้นตอนการตัดสินใจที่มีความหมายมากกว่า 100 ขั้นขึ้นไป
คอขวดคือ bootstrap target ที่มีอคติ ของ TD learning สะสมมากขึ้นเมื่อ horizon ยาวขึ้น ซึ่งเป็นข้อจำกัดที่ต่างจาก next-token prediction, diffusion model และ contrastive learning
ในการทดลอง OGBench, flow BC, IQL, CRL, SAC+BC ไม่สามารถแก้งานระยะยาวทั้งหมดได้ แม้ใช้ ชุดข้อมูล 1B ที่ใหญ่กว่าชุดข้อมูล offline RL ทั่วไป 1000 เท่า และประสิทธิภาพหยุดนิ่งต่ำกว่าระดับที่เหมาะสมที่สุด
horizon reduction เช่น n-step returns และ hierarchical RL ช่วยปรับปรุงความสามารถในการขยายสเกลและประสิทธิภาพสุดท้าย แต่เทคนิคปัจจุบันเพียงบรรเทาปัญหาในระดับค่าคงที่เท่านั้น ยังไม่พอสำหรับแก้งานระยะยาวที่ซับซ้อนตามอำเภอใจ

ตำแหน่งปัจจุบันของความสามารถในการขยายสเกลของ RL

next-token prediction, denoising diffusion และ contrastive learning แสดงให้เห็นว่าเป็น objective function ที่ขยายสเกลได้กับข้อมูลขนาดใหญ่และโมเดลระดับหลายพันล้านพารามิเตอร์
RL เองก็บรรลุประสิทธิภาพเหนือมนุษย์ใน Go และ Chess และใน LLM ก็กำลังแก้งาน reasoning ที่ซับซ้อน เช่น คณิตศาสตร์และการเขียนโค้ด
อย่างไรก็ตาม ความสำเร็จจริงส่วนใหญ่ในปัจจุบันอิงกับอัลกอริทึม on-policy RL
- ตัวอย่างสำคัญคือ REINFORCE, PPO, GRPO เป็นต้น
- ต้องมี rollout ที่สุ่มตัวอย่างใหม่จาก policy ปัจจุบันเสมอ
- ไม่สามารถนำข้อมูลเก่ากลับมาใช้ซ้ำได้
- วิธีตระกูล PPO สามารถนำข้อมูลกลับมาใช้ซ้ำได้อย่างจำกัด แต่ตามการจัดประเภทเช่นในเอกสารของ OpenAI จะถือว่าเป็น on-policy RL
ในสภาพแวดล้อมอย่างเกมกระดานหรือ LLM ที่สร้าง rollout ได้จำนวนมากด้วยต้นทุนต่ำ ข้อจำกัดนี้อาจไม่เป็นปัญหาใหญ่
ในงานหุ่นยนต์ การสร้างตัวอย่างในโลกจริงระดับเดียวกับที่ใช้ฝึกต่อยอดโมเดลภาษาโดย RL ต้องใช้เวลา หลายเดือนขึ้นไป และระหว่างการฝึกต้องมีคนอยู่ข้าง ๆ ตลอด 24 ชั่วโมงเพื่อรีเซ็ตหุ่นยนต์

Off-policy RL และ Q-learning

โดยหลักการแล้ว off-policy RL สามารถใช้ข้อมูลที่ถูกรวบรวมมาเมื่อใดและด้วยวิธีใดก็ได้
สามารถนำข้อมูลชุดเดิมกลับมาใช้ซ้ำได้หลายครั้ง จึงมักมีประสิทธิภาพด้านตัวอย่างดีกว่า
มีกรณีที่ฝึกหุ่นยนต์สุนัขในสภาพแวดล้อมจริงให้ เดินได้ภายใน 20 นาที ตั้งแต่เริ่มต้น
- กรณีที่เกี่ยวข้อง: walk in the park
Q-learning เป็นอัลกอริทึม off-policy RL ที่ใช้กันแพร่หลายที่สุด
อัลกอริทึม model-free off-policy RL เชิงปฏิบัติส่วนใหญ่ตั้งอยู่บนรูปแบบดัดแปลงของ TD loss
หากต้องการนำ RL ไปใช้กับปัญหาจริงมากขึ้น คำถามหลักจึงเป็นว่า “Q-learning หรือ TD learning ขยายสเกลได้หรือไม่”
หากทำได้ ก็จะสามารถแก้งานจริงที่หลากหลายและซับซ้อนขึ้น เช่น หุ่นยนต์และเอเจนต์ใช้งานคอมพิวเตอร์ ได้อย่างมีประสิทธิภาพ

ความหมายของ “ขยายสเกลได้”: ไม่ใช่ความกว้าง แต่เป็นความลึก

ความสามารถในการขยายสเกลในที่นี้หมายถึงความสามารถในการแก้ปัญหาที่ ยากขึ้นและมี horizon ยาวขึ้น เมื่อเพิ่มข้อมูลที่มี coverage เพียงพอ, compute และเวลา
สิ่งนี้ต่างจากความสามารถในการแก้งานจำนวนมากขึ้นด้วยโมเดลเดียว
- จำนวนงานที่เพิ่มขึ้นไม่ได้แปลว่ากำลังแก้งานที่ยากขึ้นเสมอไป
- งานวิจัย scaling หลายชิ้นก่อนหน้านี้แสดงความเป็นไปได้ตามแกน “ความกว้าง (width)” นี้
แกนที่สำคัญและยากกว่าคือ ความลึก (depth)
- เพราะต้องการความสามารถในการตัดสินใจที่สูงกว่า
Q-learning ในรูปแบบปัจจุบันยังไม่สามารถขยายสเกลได้สูงในแกนความลึก
หากต้องการขยาย Q-learning และ off-policy RL ไปสู่ปัญหาระยะยาวที่ซับซ้อน จำเป็นต้องมี ความก้าวหน้าทะลุขีดจำกัดด้านอัลกอริทึม

Q-learning ที่หายไปจากกรณีความสำเร็จ RL ขนาดใหญ่

ความสำเร็จจริงจำนวนมากของ RL อิงกับวิธีอื่นที่ไม่ใช่ Q-learning แบบ TD-based
AlphaGo, AlphaZero, MuZero ใช้ model-based RL และ Monte Carlo tree search และไม่ได้ใช้ TD learning ในเกมกระดาน
- อ้างอิง: หน้า 15 ของงานวิจัย MuZero
OpenAI Five บรรลุประสิทธิภาพเหนือมนุษย์ใน Dota 2 ด้วย PPO
- อ้างอิง: เชิงอรรถ 6 ของงานวิจัย OpenAI Five
RL สำหรับ LLM ในปัจจุบันถูกครอบงำโดยกลุ่ม on-policy policy gradient เช่น PPO, GRPO
ยังไม่มีกรณีจริงที่แสดงความสำเร็จของ off-policy RL โดยเฉพาะ 1-step TD learning ในสเกลใกล้เคียง AlphaGo หรือ LLM
การประเมินนี้ไม่ใช่การปฏิเสธ off-policy RL แต่ใกล้เคียงกับการชี้ว่าจำเป็นต้องมีงานวิจัยด้านอัลกอริทึม RL เพิ่มเติม

เหตุผลที่ Q-learning สั่นคลอนในงานระยะยาว

TD loss ของ Q-learning เรียนรู้ให้ค่า Q ปัจจุบันสอดคล้องกับ target ที่เป็นผลรวมของ reward และค่า Q สูงสุดของสถานะถัดไป
target นี้เป็น bootstrap target ที่มีอคติ ซึ่งอาจไม่เท่ากับค่า Q ที่เหมาะสมที่สุดจริง
เหตุผลหลักที่ Q-learning ประสบปัญหาในการขยายสเกล คืออคติของ target สำหรับการทำนายสะสมไปตาม horizon
การสะสมของอคติ นี้ทำหน้าที่เป็นข้อจำกัดพื้นฐานของ TD learning
- objective function อย่าง next-token prediction, denoising diffusion และ contrastive learning ไม่มีอคติของ target สำหรับการทำนายแบบนี้
- BYOL, DINO แม้จะมีอคติ แต่ก็ไม่ได้สะสมไปตาม horizon
ยิ่งปัญหาซับซ้อนขึ้นและ horizon ยาวขึ้น อคติของ bootstrap target ก็ยิ่งสะสมรุนแรงขึ้น
การเพิ่มข้อมูลและโมเดลที่ใหญ่ขึ้นเพียงอย่างเดียวช่วยบรรเทาปัญหานี้ได้ยาก
ในทางปฏิบัติ เหตุผลสำคัญที่แทบไม่ใช้ discount factor ที่สูงกว่าอย่าง (\gamma > 0.999) ก็เกี่ยวข้องกับเรื่องนี้
วิธี policy gradient ประสบปัญหานี้น้อยกว่าโดยเปรียบเทียบ
- เทคนิคการประมาณค่าแบบ on-policy เช่น GAE จัดการ horizon ยาวได้ค่อนข้างง่ายกว่า แม้ต้องยอมรับ variance ที่สูงขึ้น
- ไม่ถูกผูกไว้กับการเรียกซ้ำแบบ 1-step อย่างเข้มงวด

การทดลองความสามารถในการขยายสเกลบน OGBench

งานวิจัยล่าสุด Horizon Reduction Makes RL Scalable ตรวจสอบสมมติฐานข้างต้นด้วยการศึกษา scaling แบบควบคุมหลายรูปแบบ
เป้าหมายคือดูว่าวิธี off-policy RL ปัจจุบันสามารถแก้งานที่ยากมากได้หรือไม่ ด้วยการเพิ่มข้อมูลและ compute เท่านั้น
การทดลองใช้โจทย์ที่ซับซ้อนและก่อนหน้านี้ยังแก้ไม่ได้จาก OGBench
เงื่อนไขของงานมีดังนี้
- เอเจนต์ต้องเรียนรู้พฤติกรรม goal-reaching ที่ซับซ้อนจากเดโมแบบ play-style สุ่มที่ไม่มีโครงสร้าง
- ตอนทดสอบต้องทำการควบคุมที่แม่นยำ การแก้ปริศนาเชิงประกอบ และการนำทางระยะยาว
- งานดำเนินไปตลอด 1,000 environment steps
การทดลองถูกออกแบบมาเพื่อลดตัวแปรกวน
- รวบรวม ข้อมูลใกล้ไร้ขีดจำกัด (near-infinite data) จนแทบเป็นไปไม่ได้ที่จะ overfit
- มุ่งที่ offline RL เพื่อตัดปัญหาการสำรวจออกไป
- รับประกันว่าชุดข้อมูลมี coverage เพียงพอ และงานทั้งหมดสามารถแก้ได้จากชุดข้อมูลที่ให้มา
- ให้ ground-truth state observation โดยตรงเพื่อลดภาระด้าน representation learning
หาก Q-learning ยังไม่ขยายสเกลได้แม้ในสภาพแวดล้อมที่ควบคุมนี้ โอกาสในสภาพแวดล้อมจริงที่มีข้อมูลจำกัดและ observation ที่มี noise ก็ยิ่งต่ำลง

ผลลัพธ์ของอัลกอริทึม offline RL มาตรฐาน

อัลกอริทึม offline RL มาตรฐานที่ใช้กันแพร่หลายไม่สามารถแก้งานทั้งหมดได้
อัลกอริทึมที่พิจารณาคือ flow BC, IQL, CRL, SAC+BC
การทดลองทำกับ ชุดข้อมูลขนาด 1B ด้วย
- ซึ่งใหญ่กว่าชุดข้อมูล offline RL ทั่วไป (1000 \times)
จุดที่สำคัญกว่าคือประสิทธิภาพมักไปถึง plateau ในระดับที่ต่ำกว่าประสิทธิภาพที่เหมาะสมที่สุดมาก
การทำ ablation และการทดลองควบคุมหลายแบบ เช่น โมเดลใหญ่ขึ้น การฝึกนานขึ้น และ hyperparameter อื่น ๆ ก็ไม่ได้ผล
วิธีเดียวที่ได้ผลอย่างเป็นข้อยกเว้นคือ horizon reduction

การปรับปรุงที่เกิดจาก Horizon reduction

สมมติฐานก่อนหน้าคือ horizon และการสะสมของอคติที่ตามมาเป็นอุปสรรคหลักต่อการขยายสเกลของ off-policy RL
เพื่อตรวจสอบเรื่องนี้ ได้ลองเทคนิค horizon reduction หลายแบบที่ลดจำนวน TD backup ที่มีอคติ
- ตัวอย่างเช่น n-step returns, hierarchical RL เป็นต้น
ผลลัพธ์เป็นบวก
- แม้เทคนิคง่าย ๆ อย่าง n-step returns ก็ช่วยปรับปรุงความสามารถในการขยายสเกลและประสิทธิภาพสุดท้ายอย่างมาก
- ไม่ใช่แค่ trick ที่ทำให้ฝึกเร็วขึ้น แต่ยังปรับปรุง asymptotic performance ด้วย
- วิธี hierarchical แบบเต็มทำงานได้ดีกว่า
เทคนิคเดียวที่ทำงานได้อย่างสม่ำเสมอตลอดการทดลองคือ horizon reduction
การเพิ่มข้อมูลและ compute เพียงอย่างเดียวไม่เพียงพอสำหรับแก้ คำสาปของ horizon
จำเป็นต้องมีอัลกอริทึมที่ดีกว่าซึ่งเล็งเป้าปัญหานี้โดยตรง

ทิศทางวิจัยสู่ objective function ของ off-policy RL ที่ขยายสเกลได้

horizon reduction เปิดความสามารถในการขยายสเกลของ Q-learning แต่เทคนิคปัจจุบันยังไม่ได้แก้ปัญหาอย่างรากฐาน
วิธีปัจจุบันอย่าง n-step returns และ hierarchical RL ส่วนใหญ่เพียงบรรเทาปัญหาในระดับ ค่าคงที่
ยังขาดอัลกอริทึม off-policy RL ที่ขยายสเกลไปถึงปัญหาระยะยาวที่ซับซ้อนตามอำเภอใจได้
ทิศทางวิจัยที่เป็นไปได้สรุปได้เป็นสามข้อ
- หาลำดับชั้นแบบ recursive ที่เรียบง่ายและขยายสเกลได้ ซึ่งไปไกลกว่าลำดับชั้น 2 ระดับ เพื่อจัดการ horizon ที่มีความยาวตามอำเภอใจ
- เนื่องจากการเรียนรู้โมเดลเป็น supervised learning และ on-policy RL ก็ขยายสเกลได้ จึงใช้แนวทาง model-based RL ที่เรียนรู้โมเดลก่อน แล้วจึงรัน on-policy RL ภายในโมเดลนั้น
- หลีกเลี่ยง TD learning โดยสิ้นเชิง
  - ตัวอย่างเช่น quasimetric RL อิงกับ LP formulation ของ RL
  - วิธี MC-based อย่าง contrastive RL ก็สามารถตรวจสอบได้ว่ามีโอกาสขยายสเกลได้ดีกว่าวิธี TD-based หรือไม่
การตั้งค่าการทดลองข้างต้นสามารถเป็นจุดเริ่มต้นสำหรับทดสอบแนวคิดเหล่านี้ได้
- มีงานหุ่นยนต์และชุดข้อมูลที่ซับซ้อนออกแบบไว้แล้ว
- ตรวจสอบแล้วว่างานสามารถแก้ได้จากข้อมูลที่ให้มา
- สามารถทำให้งานยากขึ้นตามอำเภอใจ เช่น เพิ่ม cube เข้าไป เพื่อ stress test ความสามารถในการขยายสเกลของอัลกอริทึมในรูปแบบควบคุมได้
- เผยแพร่โค้ด: horizon-reduction

1 ความคิดเห็น

GN⁺ 2025-06-16

ความคิดเห็นบน Hacker News

บทความนี้ดูเหมือนจะตกหล่น เหตุผลที่ใหญ่กว่าว่าทำไม Q-learning ถึงขยายสเกลได้ยาก
ยิ่ง horizon ยาวขึ้น จำนวนสถานะที่เป็นไปได้มักเพิ่มขึ้นแบบเอ็กซ์โปเนนเชียล และถ้าจะเรียนรู้ Q ที่จัดการสถานะเหล่านั้นได้ ข้อมูลก็ต้องเพิ่มขึ้นแบบเอ็กซ์โปเนนเชียลเช่นกัน
ในการเรียนรู้แบบ on-policy ปัญหานี้จะเบากว่า เพราะสิ่งสำคัญมีแค่สถานะใกล้กับนโยบายปัจจุบัน และในทางปฏิบัติก็สุ่มตัวอย่างเฉพาะสถานะแบบนั้น
- ผมคิดว่าการวิเคราะห์ อคติจากการประเมินค่าสูงเกินไป ในบทความนั้นถูกต้อง
  ประเด็นหลักคือการดำเนินการ max ของ Q-learning ทำให้ noise ถูกขยายเมื่อเวลาผ่านไปตาม time step และเทคนิคบรรเทา bias อย่าง https://arxiv.org/abs/1509.06461 ก็ประสบความสำเร็จในการปรับปรุงประสิทธิภาพของเอเจนต์ reinforcement learning
  งานวิจัยระบุว่าปรากฏการณ์นี้ยิ่งรุนแรงในสถานะที่เครือข่ายไม่ได้เข้าชมบ่อย
  การที่จำนวนสถานะมีมากแบบเอ็กซ์โปเนนเชียลจะเป็นปัจจัยชี้ขาดก็ต่อเมื่อไม่มีแพตเทิร์นระหว่างสถานะเหล่านั้น หากมีโครงสร้างที่เรียนรู้ได้ มันก็อาจทำงานได้ดี และนี่ไม่ใช่จุดอ่อนของ deep learning แต่เป็นจุดแข็ง
  ประเด็นสำคัญคือการตั้งเป้าหมายการเรียนรู้ให้ถูกต้อง ซึ่งบทความนี้ก็เหมือนกำลังโต้แย้งว่า Q-learning ไม่ใช่เป้าหมายนั้น
  ผมสงสัยว่า model-based reinforcement learning อย่าง MuZero อาจเป็นทางออกต่อข้อกังวลของผู้เขียนหรือไม่ MuZero สามารถวิเคราะห์ trajectory ก่อนหน้าใหม่เพื่อเพิ่มประสิทธิภาพการเรียนรู้ได้ และ Monte Carlo Tree Search (MCTS) ก็เป็นวิธีที่มีหลักการในการลด horizon โดยคลี่โมเดลออกไปหลายขั้น
  การดำเนินการ max ของ MCTS ก็อาจสร้างปัญหาคล้ายกัน แต่กระบวนการที่การค้นหาลึกขึ้นอาจช่วยชดเชยได้
- เธรดนี้ https://news.ycombinator.com/item?id=44280505 อาจเป็นประโยชน์
  ในฐานะคนนอกวงการโดยสิ้นเชิง ผมคิดว่าบางโจทย์แม้จะเป็นโจทย์ “ลึก” ก็อาจ “สม่ำเสมอ” พอจนตัวอย่างที่แย่ก็เพียงพอได้ ผมอยากเรียกโจทย์แบบนั้นว่า โจทย์แบบ ergodic
  แน่นอนว่าน่าจะมีโจทย์ที่ไม่เป็นแบบนั้นอยู่ด้วย
- ความแตกต่างนี้โดยพื้นฐานแล้วเหมือนความต่างระหว่าง การอินทิเกรตแบบ Monte Carlo บนกริดทั่วไป กับการอินทิเกรตแบบ Monte Carlo ด้วย importance sampling หรือเปล่า?
เปเปอร์นี้ตั้งสมมติฐานไว้แล้วว่าผู้อ่านรู้จัก reinforcement learning ค่อนข้างดี
ถ้าอยากเจาะลึก reinforcement learning อย่างจริงจัง คอร์สเบื้องต้นของ David Silver (DeepMind) ยอดเยี่ยมมาก: https://youtu.be/2pWv7GOvuf0?si=CmFJHNnNqraL5i0s
เห็นด้วยเต็มที่ และคิดว่าเป็นสรุปที่ดีมาก
พูดให้สั้นมาก ๆ คือเป็นปัญหาการไล่ตาม เป้าหมายที่เคลื่อนที่ โดยเป้าหมายนั้นเปลี่ยนไปตามว่าผมขยับอย่างไร
reinforcement learning แบบ value-based ไม่มีคำตอบจริงที่ให้ลู่เข้าได้ สิ่งที่ทำอยู่คือการลดความต่างที่ทั้งสองฝั่งของสมการต่างก็มี ค่าประมาณ ของตัวเองอยู่
ถึงอย่างนั้นผมก็ไม่ได้มองว่าสิ้นหวัง ผมคิดว่า reinforcement learning เข้าใกล้การใช้งานได้จริงมากแล้ว สิ่งที่ขาดมาจนถึงตอนนี้คือ world model / ฟังก์ชัน forward dynamics ที่เชื่อถือได้
ถ้ามีสิ่งนั้นก็สามารถวางแผนโดยไม่ต้องสำรวจได้ และตอนนี้เราก็มีโมเดลแบบนั้นแล้ว
ประโยชน์ของการเรียนรู้แบบ off-policy ถูกจำกัดโดยพื้นฐานจากข้อเท็จจริงที่ว่า ข้อมูลไร้ประสิทธิภาพจากการสำรวจช่วงต้น ไม่ได้มีประโยชน์มากนักในการปรับปรุงนโยบายที่ขัดเกลามากขึ้นในภายหลัง
ลองนึกถึงการเดินหมากผิดในหมากรุก การเคลื่อนไหวกระตุก ๆ หรือความล้มเหลวในการแก้ปริศนา ก็จะเห็นชัด
จะยิ่งชัดขึ้นเมื่อรู้ว่าข้อมูลจะเป็น off-policy ก็ต่อเมื่อข้อมูลนั้นบรรยายสิ่งที่นโยบายปัจจุบันจะไม่ทำ
ผมคิดว่าทางออกของปัญหานี้ น่าเสียดายที่เกี่ยวข้องกับความจำเป็นต้องมี generalization และ sample efficiency ที่ดีกว่า
- ข้ออ้างนี้พิสูจน์อะไรเกินไปหรือเปล่า?
  แล้วจะอธิบาย สุนัขที่ถูกอ้างถึงว่าเรียนรู้การเดินได้ใน 20 นาทีด้วยการเรียนรู้แบบ off-policy อย่างไร? หรือคุณกำลังเสนอข้ออ้างที่ละเอียดกว่านั้น?
แปลกใจที่ไม่ได้พูดถึง Decision Transformer หรือ Trajectory Transformer
ทั้งสองเป็นแนวทางแบบ offline และด้วย กลไก attention จึงค่อนข้างทำงานได้ดีในโจทย์ horizon ยาว โดยเลี่ยงปัญหา credit assignment
นักวิจัย reinforcement learning ส่วนใหญ่ไม่มองแนวทางเหล่านี้ว่าเป็น “reinforcement learning จริง ๆ” เพราะไม่สามารถ assign credit ออกไปนอก context window ได้ จึงเรียนรู้โจทย์ infinite horizon ไม่ได้
แต่ถ้ามี context window มากกว่า 1 ล้านโทเค็น ในทางปฏิบัติมันอาจเป็นปัญหาน้อยลงหรือเปล่า? อยากฟังความเห็นอื่น
DT: https://arxiv.org/abs/2106.01345
TT: https://arxiv.org/abs/2106.02039
- TFP อ้างถึง Decision Transformer
  การใช้ Transformer อย่างเดียวไม่ได้ เลี่ยงปัญหา credit assignment
  Transformer เป็นสถาปัตยกรรมสำหรับแก้ปัญหา sequential modeling และปัญหา credit assignment ที่เกิดใน reinforcement learning ก็เป็นตัวอย่างหนึ่งของปัญหาแบบนั้น สถาปัตยกรรมลักษณะนี้มีอยู่มาก่อนหน้านี้เยอะแล้ว
  การบอกว่าปัญหา credit assignment ยาก เป็นข้อความเกี่ยวกับความขาดแคลนของข้อมูล ไม่สามารถ “เลี่ยง” ได้ด้วยการเลือกสถาปัตยกรรมเพียงอย่างเดียว
มนุษย์ทำทั้งสองอย่างจริง ๆ
เราเรียนรู้แบบ on-policy จากการสำรวจผลของการกระทำของตัวเอง และเรียนรู้แบบ off-policy จากการสาธิตของผู้เชี่ยวชาญด้วย
ความต่างคือมนุษย์สามารถแยกแยะการกระทำที่ดีและไม่ดีได้ และสามารถคัดกรองมาเรียนรู้เฉพาะการกระทำที่ตัดสินว่าดี
ใน off-policy reinforcement learning ส่วนใหญ่มีการกระทำที่ไม่ดีจำนวนมากปะปนอยู่ และเมื่อมันถูกรวมในชุดเรียนรู้ ก็ทำให้การเรียนรู้ช้าลง
- “สามารถแยกแยะการกระทำที่ดีและไม่ดีได้” ไม่ได้ถูกเสมอไป
  นั่นจึงเป็นเหตุผลที่การสาธิตของผู้เชี่ยวชาญบางอย่างน่าสนใจ เราอาจเห็นวิธีที่ถ้ามองจาก “best practice” ระดับมือใหม่แล้วผิดโดยสิ้นเชิง แต่กลับให้ผลลัพธ์ดีกว่า
  แน่นอนว่าบางครั้งมันก็แค่หมายความว่า เมื่อเก่งถึงระดับนั้นแล้วก็สามารถรับมือกับเทคนิคหรือความผิดพลาดแบบนั้นได้
น่าชี้ให้เห็นว่า โจทย์ horizon ยาว ที่มนุษย์เรียนรู้ผ่านการฝึกซ้ำ ๆ นั้น เราเรียนรู้โดยแยกเป็นโจทย์ horizon สั้นกว่า แล้วค่อยประกอบรวมแบบลำดับชั้นในภายหลัง
- อาจเป็นความคิดซื่อ ๆ แต่เรื่องนี้ดูใกล้กับปัญหาของ แนวทาง มากกว่าอัลกอริทึม
  โมเดลอาจจัดการโจทย์ horizon ยาวตั้งแต่แรกไม่ได้ แต่สามารถเรียนรู้ทักษะ horizon สั้นก่อน แล้วใช้ชุดทักษะเล็ก ๆ เหล่านั้นเพื่อเรียนรู้ horizon ที่ยาวขึ้น
  เหมือน chunking ที่เราทุกคนทำ
  ไม่มีใครเรียนรู้การขับเครื่องบินพาณิชย์ข้ามทวีปในรูปของลำดับการเคลื่อนไหวเล็ก ๆ ของมือและแขน
  ตอนเด็ก ๆ เราเรียนรู้การหยิบลูกบอลแบบนั้น แต่การบินหรือกีฬาประกอบด้วยลำดับชั้นของทักษะและแผนที่เรียนรู้มาแล้ว
ผมชอบบทความนี้ แต่คิดว่าการใช้ตัวย่อโดยไม่อธิบายทำให้พลาดโอกาสที่จะเป็นประโยชน์ต่อผู้อ่านวงกว้างขึ้น
เป็นข้อสังเกตเล็ก ๆ แต่ถ้าอธิบาย ตัวย่อและศัพท์เทคนิค ไว้ด้วยก็คงดี
- สำหรับบทความที่เนื้อหาดีมากแต่สมมติฐานว่าผู้อ่านมีความรู้พื้นฐานมหาศาลจนเข้าถึงยาก เครื่องมือ AI ที่ช่วยอธิบายและทำให้ง่ายขึ้นค่อนข้างมีประโยชน์
  ผมเพิ่งลองกับเบราว์เซอร์ใหม่ Dia แล้วทำงานได้ดี จะคัดลอกไปวางในผู้ให้บริการโมเดลที่ชอบก็ได้
  แบบนี้ทำให้บทความยังคงกระชับ ขณะเดียวกันก็ถามและทำความเข้าใจกับเครื่องมือ AI ได้
- เมื่อดูจากข้อสรุปที่ว่า “ใครก็ได้ช่วยสร้าง วิธี Q-learning ที่ขยายสเกลได้ ที” ก็ชัดเจนว่าเขียนถึงนักวิจัย reinforcement learning คนอื่น ๆ
จุดที่เหมือนเวทมนตร์ของ เทคนิค off-policy อย่าง Q-Learning คือ แม้จะเห็นเฉพาะข้อมูลฝึกที่ไม่ใช่แบบ optimal ก็ยังลู่เข้าไปสู่ผลลัพธ์ optimal ได้
เช่น ต่อให้ใช้ชุดข้อมูลเกมหมากรุกของเอเจนต์ที่เดินแบบสุ่มล้วน ๆ โดยไม่มีกลยุทธ์ใด ๆ เป็นอินพุตให้ Q-Learning มันก็จะลู่เข้าสู่นโยบาย optimal ในท้ายที่สุด แค่ช้ากว่าตอนมีอินพุตคุณภาพสูง
- ถ้านั่นเป็นจริง ผมคิดว่านั่นใกล้เคียงกับนิยามว่าโจทย์นั้นเป็น ergodic
  อาจเป็นการใช้คำที่บิดไปเล็กน้อย แต่ผมคิดว่าน่าจะมีโจทย์ที่ไม่เป็น ergodic อยู่ด้วย

Q-learning ยังขยายสเกลไม่ได้

ตำแหน่งปัจจุบันของความสามารถในการขยายสเกลของ RL

Off-policy RL และ Q-learning

ความหมายของ “ขยายสเกลได้”: ไม่ใช่ความกว้าง แต่เป็นความลึก

Q-learning ที่หายไปจากกรณีความสำเร็จ RL ขนาดใหญ่

เหตุผลที่ Q-learning สั่นคลอนในงานระยะยาว

การทดลองความสามารถในการขยายสเกลบน OGBench

ผลลัพธ์ของอัลกอริทึม offline RL มาตรฐาน

การปรับปรุงที่เกิดจาก Horizon reduction

ทิศทางวิจัยสู่ objective function ของ off-policy RL ที่ขยายสเกลได้

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News