1 คะแนน โดย GN⁺ 2025-06-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ช่วงหลังมานี้ ความสามารถในการสเกลของการเรียนรู้แบบเสริมกำลัง (RL) ได้รับความสนใจมากขึ้น เช่นเดียวกับกรณีของโมเดลภาษาขนาดใหญ่ (LLM)
  • ในทางปฏิบัติ AlphaGo, LLM ฯลฯ แสดงประสิทธิภาพที่ทรงพลัง แต่ ส่วนใหญ่ใช้อัลกอริทึม RL แบบ on-policy
  • Q-learning ซึ่งเป็นอัลกอริทึมตัวแทนของ Off-policy RL มีข้อจำกัดด้านการสเกลในปัญหาที่มี horizon ยาว เนื่องจากปัญหา อคติสะสม
  • ผลการทดลองพบว่า แม้จะเพิ่มข้อมูลและคอมพิวต์อย่างมาก อัลกอริทึมตระกูล Q-learning มาตรฐานก็ยังมีเพดานประสิทธิภาพในงานระยะยาวที่ซับซ้อน
  • ปัจจุบันมีเพียงแนวทางแก้เฉพาะจุด เช่น วิธีแบบลำดับชั้น (hierarchy) ที่ช่วยบรรเทาปัญหา horizon ดังนั้นจึงจำเป็นต้องมี เป้าหมายใหม่ของ off-policy RL ที่สเกลได้ในระดับพื้นฐาน

RL สเกลได้หรือไม่?

  • ช่วงหลังมานี้ การทำนายโทเคนถัดไปของโมเดลภาษา, diffusion model, และการเรียนรู้แบบ contrastive ล้วนเป็นเป้าหมายที่สเกลได้ดีเมื่อเพิ่มข้อมูลและคอมพิวต์
  • RL ก็สร้างผลงานที่ทรงพลังในเกม คณิตศาสตร์ การเขียนโค้ด ฯลฯ เช่นกัน และในหลายกรณีมีการใช้อัลกอริทึม on-policy RL (เช่น PPO, REINFORCE)
  • On-policy RL ใช้ได้เฉพาะ roll-out ใหม่เท่านั้น กล่าวคือ ข้อมูลที่สร้างขึ้นโดยตรงจากนโยบายล่าสุด
  • วิธีนี้ไม่ใช่ปัญหาใหญ่นักในงานจำลองหรือ LLM แต่ ไม่มีประสิทธิภาพอย่างมากในสภาพแวดล้อมจริง เช่น หุ่นยนต์
  • ตัวอย่างเช่น ในการทดลองหุ่นยนต์ อาจต้องใช้เวลา หลายเดือน กว่าจะเก็บข้อมูลได้เพียงพอ และยังต้องอาศัยการแทรกแซงด้วยมือจากมนุษย์

การมาของ Off-policy RL

  • Off-policy RL มีประสิทธิภาพด้าน sample efficiency สูง เพราะสามารถนำ ข้อมูลทั้งหมดในอดีต กลับมาใช้ซ้ำได้
  • โดยเฉพาะ Q-learning ถูกใช้อย่างแพร่หลาย และมีผลงานอย่างการทำให้หุ่นยนต์สุนัขเดินแบบเรียลไทม์
  • Q-learning อาศัยการทำให้ temporal difference (TD) loss ต่ำที่สุด และ RL แบบ off-policy เกือบทั้งหมดก็ยึดหลักการนี้
  • หากต้องการนำ RL ไปใช้กับปัญหาในโลกจริง คำถามสำคัญก็คือ Q-learning เองสเกลได้หรือไม่?

ข้อจำกัดด้านการสเกลของ Q-learning

  • ผู้เขียนเสนอว่า Q-learning ในปัจจุบันยังสเกลได้ไม่ดีเมื่อเจอกับปัญหาที่มี horizon ยาว (มากกว่า 100 decision steps)
  • ในที่นี้ “การสเกล” หมายถึง เมื่อความลึก/ความยากของปัญหา (‘depth’) เพิ่มขึ้น จะยังแก้ได้เพียงแค่เพิ่มข้อมูลและทรัพยากรการคำนวณหรือไม่
  • ดังที่มีการพิสูจน์เชิงทดลองในหลายงานวิจัย นี่ ไม่ใช่แค่การเพิ่มจำนวนปัญหาที่จัดการได้ (‘width’) เท่านั้น
  • ข้อเสนอของผู้เขียนคือ อัลกอริทึมตระกูล Q-learning มีความสามารถในการสเกลต่ำบนแกนความลึก (difficulty) และจำเป็นต้องมีนวัตกรรมด้านอัลกอริทึม
  • หลักฐานสำคัญมีสองข้อ: หนึ่งคือการไม่มีตัวอย่างความสำเร็จเชิงประจักษ์ และอีกหนึ่งคือการทดลองเชิงระบบล่าสุด

หลักฐานเชิงประจักษ์

  • AlphaGo, AlphaZero, MuZero ล้วนเป็น model-based, on-policy RL ไม่ใช่ตระกูล TD-learning
  • OpenAI Five ก็ใช้วิธีแบบ on-policy เช่น PPO
  • RL สำหรับ LLM ส่วนใหญ่ก็ยังเป็นสาย on-policy แบบ policy gradient เป็นหลัก
  • แทบไม่มีกรณีความสำเร็จขนาดใหญ่ระดับ AlphaGo หรือ LLM ที่ใช้ Q-learning หรือ off-policy RL ใกล้เคียงกัน
  • ผู้เขียนระบุว่าจากการสำรวจทั้งงานวิจัยและกรณีใช้งานจริง ยังไม่พบตัวอย่างความสำเร็จขนาดใหญ่ที่อิง Q-learning

สาเหตุของข้อจำกัดใน Q-learning: Horizon และอคติสะสม

  • Q-learning ใช้ TD target ที่เกิดจากการ bootstrap (สร้างค่าทำนายจากค่าประมาณ) ซึ่งมีอคติเสมอ และ อคตินี้จะสะสมไปตาม time-horizon
  • ในทางกลับกัน เป้าหมายที่สเกลได้ดีประเภทอื่น เช่น การทำนายโทเคน, diffusion, contrastive learning ไม่มีอคติสะสมใน target ที่ใช้ทำนาย
  • ยิ่ง horizon (ความยาวของการตัดสินใจ) มากขึ้น การสเกลของ Q-learning ก็ยิ่งถูกจำกัดด้วยความคลาดเคลื่อนที่สะสม
  • ด้วยเหตุนี้จึงมักมีการตั้งค่า discount factor ให้เล็กลงเพื่อบรรเทาปัญหา
  • วิธีประมาณค่าแบบ on-policy เช่น policy gradient ได้รับผลกระทบจากปัญหา horizon น้อยกว่าเมื่อใช้เทคนิคอย่าง GAE

การตรวจสอบข้อจำกัดด้านการสเกลผ่านการทดลอง

  • ในงานวิจัยล่าสุด มีการออกแบบงานที่มี ultra-long horizon หลายพันสเต็ปบนชุดอย่าง OGBench เพื่อทดสอบโจทย์ที่ยาก
  • ในสภาพแวดล้อมทดลองมีการลดปัจจัยรบกวนให้ต่ำที่สุด เช่น มีข้อมูลเกือบ "ไร้ขีดจำกัด" ใช้โมเดลที่ทรงพลัง และลดภาระของเครือข่ายด้านการแทนค่า
  • วิธี offline RL เดิมทั้งหมด (BC, IQL, CRL, SAC+BC ฯลฯ) ไม่สามารถเรียนรู้งานซับซ้อนได้ แม้ใช้ชุดข้อมูลขนาดใหญ่มาก
  • มีการทำ ablation test กับทุกตัวแปร ทั้งขนาดข้อมูล ขนาดโมเดล เวลาเรียนรู้ และไฮเปอร์พารามิเตอร์ แต่ก็ยังไม่สามารถทะลุข้อจำกัดด้านประสิทธิภาพได้
  • อย่างไรก็ตาม มีเพียง เทคนิคที่ลด horizon (ความยาวของการตัดสินใจ) เท่านั้นที่ให้ผลชัดเจนต่อการสเกลของประสิทธิภาพ

ผลของเทคนิคลด Horizon

  • มีเพียง การลด horizon เช่น n-step return และ RL แบบลำดับชั้น (hierarchical RL) เท่านั้นที่แสดงผลอย่างชี้ขาดต่อการสเกลของ RL
  • การลด horizon ไม่ได้ช่วยแค่เร่งการเรียนรู้ แต่ยัง ยกระดับประสิทธิภาพสุดท้ายอย่างมาก
  • แต่แนวทางเหล่านี้ ยังไม่ใช่การแก้ปัญหาที่ต้นเหตุ เพราะเพียงแค่ลด horizon ลงด้วยตัวคูณค่าคงที่เท่านั้น
  • จึงจำเป็นต้องมี แนวทางอัลกอริทึมใหม่ เพื่อแก้คำสาปของ horizon

ความจำเป็นของเป้าหมาย off-policy RL แบบใหม่ที่สเกลได้

  • งานวิจัยจนถึงตอนนี้พิสูจน์แล้วว่า การเพิ่มเพียงขนาดข้อมูลหรือขนาดโมเดล ไม่สามารถเอาชนะคำสาปของ horizon ได้อย่างเป็นพื้นฐาน
  • ในท้ายที่สุด จำเป็นต้องมี off-policy RL รูปแบบใหม่ที่สเกลได้แม้กับปัญหาระยะยาวที่มีความยาวตามอำเภอใจ
  • หากทำได้สำเร็จ ก็จะเปิดทางให้แก้ปัญหาในโลกจริงได้กว้างขึ้น ทั้งหุ่นยนต์ LLM และ agent สำหรับการตัดสินใจหลากหลายประเภท

แนวคิดและข้อเสนอสำหรับงานวิจัยต่อไป

  • นอกเหนือจากลำดับชั้นแบบสองระดับ อาจเสนอ โครงสร้างลำดับชั้นแบบใหม่ที่เรียบง่ายและสเกลได้ เพื่อรองรับ horizon ที่ยาวได้ตามอำเภอใจ
  • Model-based RL อาจมีศักยภาพในการสเกลได้ ผ่านการผสานระหว่างการสร้างแบบจำลองที่อิง supervised learning กับ on-policy RL
  • การสำรวจแนวทางใหม่ เช่น quasimetric RL หรือ contrastive RL ที่ ตัด TD learning ออกไปทั้งหมด ก็อาจเป็นประโยชน์
  • สภาพแวดล้อมประเมินและโค้ดที่เปิดเผยสามารถนำไปใช้เป็น benchmark สำหรับทดสอบการสเกล ของอัลกอริทึม RL แบบใหม่ได้

คำขอบคุณ

  • ผู้เขียนขอบคุณนักวิจัยหลายท่านที่ให้ความร่วมมือและข้อเสนอแนะต่อบทความและโพสต์นี้
  • เนื้อหานี้อ้างอิงจากงานอย่าง [Horizon Reduction Makes RL Scalable] และเป็นความเห็นส่วนตัวของผู้เขียน

1 ความคิดเห็น

 
GN⁺ 2025-06-16
ความคิดเห็นจาก Hacker News
  • คิดว่าข้อจำกัดด้านการขยายสเกลของ Q-Learning มีเหตุผลที่ใหญ่กว่าที่กล่าวไว้ในบล็อก จำนวนสถานะที่เอเจนต์ต้องรับมือนั้นโดยปกติเพิ่มขึ้นแบบทวีคูณเมื่อ horizon เพิ่มขึ้น ส่งผลให้ความต้องการข้อมูลสำหรับฝึก Q ที่ครอบคลุมสถานะเหล่านั้นเพิ่มขึ้นแบบทวีคูณเช่นกัน ในทางกลับกัน การเรียนรู้แบบ on-policy จะเรียนเฉพาะสถานะสำคัญ จึงทำให้แม้จะมี state space แบบทวีคูณ ข้อมูลฝึกก็ยังไปกระจุกตัวอยู่ตรงจุดที่จำเป็น จึงลดความซับซ้อนของปัญหาได้เมื่อเทียบกัน

    • เห็นด้วยกับการวิเคราะห์เรื่อง overapproximation bias ของ Q-learning ที่บทความพูดถึง ตัวดำเนินการ Max ใน Q-learning มีแนวโน้มจะขยาย noise ไปตามแกนเวลา มีกรณีที่วิธีลด bias อย่างในงานวิจัยนี้ช่วยปรับปรุงประสิทธิภาพของ RL agent ได้สำเร็จด้วย อีกทั้งยังมีผลวิจัยว่าปรากฏการณ์นี้เกิดได้ชัดกว่าในสถานะที่เครือข่ายไม่ค่อยได้ไปเยือน จุดแข็งของ deep learning คือถึงจำนวนสถานะจะเพิ่มแบบทวีคูณ หากมีโครงสร้างที่เรียนรู้ได้ก็ยังทำผลงานได้ดี ประเด็นสำคัญคือการตั้งเป้าหมายการฝึกให้ถูกต้อง ซึ่งบทความนี้โต้แย้งว่า Q-learning มีข้อจำกัดในส่วนนั้น เลยสงสัยว่าระบบ RL แบบ model-based อย่าง MuZero จะเป็นทางออกได้ไหม MuZero เพิ่มประสิทธิภาพการฝึกด้วยการวิเคราะห์ trajectory ก่อนหน้าซ้ำอีกครั้ง และ Monte Carlo Tree Search (MCTS) ก็เป็นวิธีที่มีหลักการในการลด horizon ด้วยการคลี่หลายสเต็ปออกมา แม้ภายใน MCTS เองก็อาจเกิดปัญหาจากตัวดำเนินการ Max ได้ แต่เมื่อค้นหาลึกขึ้นก็อาจชดเชยปัญหานี้ได้มากขึ้น

    • คิดว่าเธรดนี้อาจช่วยได้ จากมุมมองของคนที่ไม่ใช่ผู้เชี่ยวชาญเลย งานบางอย่างแม้จะมี “ความลึก” แต่ก็ยังมีความเป็นเนื้อเดียวกันอยู่ จึงอาจยังเรียนรู้ได้แม้คุณภาพของตัวอย่างจะไม่ดีมากนัก ผมอยากเรียกงานแบบนี้ว่า “ergodic” แต่ก็คิดว่าแน่นอนว่ายังมีงานที่ไม่เป็นแบบนั้นอยู่

    • สงสัยว่านี่คล้ายกับความแตกต่างระหว่างการอินทิเกรต Monte Carlo บนกริดทั่วไป กับการอินทิเกรต Monte Carlo แบบ importance sampling หรือเปล่า

    • ขอแชร์ความเห็นเกี่ยวกับ Majorana-1

  • เสียดายที่บล็อกไม่ได้พูดถึงแนวทางออฟไลน์อย่าง Decision Transformers หรือ Trajectory Transformers พวกนี้ทำผลงานได้ดีกับงาน horizon ยาวเพราะหลบปัญหา credit assignment ได้ด้วย attention mechanism นักวิจัย RL หลายคนมองว่าวิธีพวกนี้ไม่ใช่ "RL ที่แท้จริง" เพราะมันไม่สามารถจัดสรร credit นอก context window ได้ เลยถูกมองว่าใช้กับงานที่มี horizon ไม่สิ้นสุดได้ยาก แต่ถ้า context window เกิน 1 ล้านขึ้นไป ก็สงสัยว่าในทางปฏิบัติมันอาจไม่ใช่ปัญหาใหญ่ก็ได้ ดูDecision Transformer paper, Trajectory Transformer paper

    • งานวิจัย TFP อ้างอิง decision transformers อยู่แล้ว การใช้สถาปัตยกรรม Transformer เพียงอย่างเดียวไม่สามารถหลบปัญหา credit assignment ได้ และ Transformer ก็เป็นโครงสร้างที่ใช้กับปัญหา sequence modeling ที่ลำดับมีความสำคัญอยู่แล้ว เช่น credit assignment ใน RL ความยากของปัญหานี้ถูกกำหนดโดยความเบาบางของข้อมูล ไม่ใช่สิ่งที่จะ “หลบ” ได้ด้วยการเลือกสถาปัตยกรรมอย่างเดียว
  • คิดว่านี่สรุปแก่นของ RL ได้ดีมาก พูดแบบง่ายมาก ๆ ก็คือ เรากำลังเคลื่อนที่ตลอดเวลาเพื่อไล่ตามเป้าหมาย แต่ตำแหน่งของเป้าหมายนั้นก็เปลี่ยนไปเรื่อย ๆ ตามวิธีที่เราเคลื่อนที่ด้วย กล่าวคือใน value-based RL ไม่มีคำตอบสัมบูรณ์ (ground truth) ให้ยึด มีแต่เกมที่ต้องทำให้ค่าประมาณทั้งสองฝั่งสอดคล้องกัน แต่ผมไม่คิดว่านี่เป็นเรื่องสิ้นหวัง ตรงกันข้าม ผมมองว่า RL ใกล้จะใช้งานได้จริงแล้ว เพราะที่ผ่านมาเราขาด world model หรือฟังก์ชันพลวัตที่เชื่อถือได้ และตอนนี้ด้านนั้นก็กำลังก้าวหน้าอย่างมาก

  • งานวิจัย/บล็อกนี้เขียนสำหรับคนที่มีความรู้ RL อยู่แล้ว หากอยากศึกษา RL ให้ลึกขึ้น แนะนำคอร์สเบื้องต้นของ David Silver (Deep Mind)

  • ข้อจำกัดพื้นฐานของการเรียนรู้แบบ off-policy คือข้อมูลจากการสำรวจช่วงต้นที่ไม่มีประสิทธิภาพนัก มักไม่ค่อยช่วยกับการเรียนรู้นโยบายที่พัฒนาขึ้นกว่าเดิม ตัวอย่างเช่น ความผิดพลาดระดับเริ่มต้นในหมากรุก การเดินที่ไม่มีความหมาย หรือพฤติกรรมที่แก้ปริศนาไม่ได้ ข้อมูลจะกลายเป็น off-policy เมื่อตอนที่พฤติกรรมนั้นเบี่ยงออกจากนโยบายปัจจุบัน หรือสิ่งที่เอเจนต์จะเลือกทำจริง ดังนั้นสุดท้ายแล้วแก่นของปัญหานี้คือการทำให้การ generalize ดีขึ้น และเพิ่ม sample efficiency

    • ก็สงสัยเหมือนกันว่าคำกล่าวแบบนี้กว้างเกินไปหรือเปล่า เช่น จะอธิบายกรณีที่สุนัขเรียนเดินได้ภายใน 20 นาทีจากการเรียนรู้แบบ off-policy อย่างไร เลยอยากถามว่ามีมุมมองที่ละเอียดกว่านี้ไหม
  • เวลามนุษย์เรียนรู้งานระยะยาว (horizon ยาว) เรามักใช้การฝึกซ้ำเพื่อแยกงานทั้งหมดออกเป็นงานย่อยที่มี horizon สั้นกว่า แล้วค่อยนำทักษะย่อยเหล่านั้นมาประกอบกันแบบมีลำดับชั้นในภายหลัง

    • อาจจะดูไร้เดียงสา แต่รู้สึกว่าสุดท้ายแล้วนี่เป็นปัญหาเรื่องวิธีเข้าหามากกว่าเป็นเรื่องอัลกอริทึม โมเดลอาจแก้งาน horizon ยาวตั้งแต่แรกไม่ได้ แต่สามารถเรียนทักษะ horizon สั้นก่อน แล้วค่อยนำมามัดรวมเพื่อเรียนรู้งาน horizon ที่ยาวขึ้น มนุษย์ก็ไม่ได้เรียนงานซับซ้อนด้วยการเรียนทุกการเคลื่อนไหวยิบย่อยทีละอย่างตั้งแต่ต้น แต่เรียนหน่วยย่อยก่อนแล้วค่อยแตกงานเป็นลำดับชั้น เช่น เวลาเรียนขับเครื่องบินหรือเล่นกีฬา เราก็เริ่มจากพื้นฐานทีละขั้น
  • มนุษย์จริง ๆ แล้วใช้ทั้งการเรียนรู้แบบ on-policy และ off-policy เราเรียนแบบ on-policy จากการลงมือทำและสำรวจผลของการกระทำด้วยตัวเอง และเรียนแบบ off-policy จากการสังเกตการสาธิตของผู้เชี่ยวชาญ แต่สิ่งที่ต่างจาก RL คือมนุษย์แยกแยะการกระทำที่ดีและไม่ดีได้ แล้วเลือกเรียนเฉพาะ “สิ่งที่ดี” ขณะที่ off-policy RL ส่วนใหญ่ยังเอาการกระทำที่ไม่ดีมาใช้เป็นข้อมูลด้วย ทำให้ความเร็วในการฝึกโดยรวมช้าลง

    • แต่อยากเสริมว่าเราไม่ได้แยกแยะการกระทำที่ดีและไม่ดีได้เสมอไป ในการสาธิตของผู้เชี่ยวชาญ บางอย่างอาจดู “ผิดเต็ม ๆ” จากมุมมองของมือใหม่ แต่กลับนำไปสู่ผลลัพธ์ที่ดีกว่ามาก บางครั้งก็เป็นเพราะคนคนนั้นเก่งมากจริง ๆ จึงใช้กลยุทธ์ที่ “นอกตำรา” แบบนั้นได้
  • ชอบเนื้อหาในบล็อก แต่เสียดายที่มีการใช้ตัวย่อและคำเฉพาะทางโดยไม่อธิบาย ซึ่งลดประโยชน์สำหรับผู้อ่านวงกว้าง ถ้ามีการอธิบายคำศัพท์และตัวย่อให้ชัดเจนกว่านี้ก็จะเข้าถึงง่ายขึ้นมาก

    • สำหรับโพสต์บล็อกแบบนี้ที่เนื้อหาแน่นมากแต่ต้องใช้ความรู้เดิมสูงจนเข้าถึงยาก เครื่องมือ AI ช่วยอธิบายและทำเวอร์ชันให้อ่านง่ายได้มาก ช่วงหลังผมใช้ Dia บนเบราว์เซอร์แล้วได้ผลดี จะคัดลอกไปวางใน AI โมเดลอื่นก็ได้เช่นกัน โดยรวมมันช่วยสรุปให้กระชับและตอบข้อสงสัยที่อยากรู้เพิ่มเติมได้

    • อ่านแล้วรู้สึกชัดเจนว่าโพสต์นี้เขียนมาเพื่อคนทำวิจัย RL โดยตรง สรุปได้ประมาณว่า “ใครก็ได้ช่วยหาวิธีทำให้ Q-learning scalable ที!”

    • กลับกัน ผมคิดว่านั่นยิ่งทำให้บทความนี้ดูคมและสะอาดขึ้น

  • จุดแข็งของเทคนิค off-policy อย่าง Q-Learning คือแม้จะได้ข้อมูลกึ่งเหมาะที่สุดหรือข้อมูลที่ไม่ค่อยดี สุดท้ายก็ยังลู่เข้าไปหาคำตอบที่เหมาะที่สุดได้ ยกตัวอย่างเช่น ต่อให้เก็บข้อมูลจากเกมหมากรุกที่เล่นกันแบบไร้กลยุทธ์เลยมาเป็นอินพุตให้ Q-Learning ก็ยังสามารถเรียนรู้นโยบายที่เหมาะที่สุดได้ในที่สุด (แม้จะช้ากว่าการใช้ข้อมูลดี)

    • ผมคิดว่านี่แหละคือเงื่อนไขที่นิยามงานแบบ “ergodic” (แม้จะใช้คำนี้ในความหมายที่ดัดแปลงนิดหน่อย) แต่ก็มองว่ายังมีงานที่ไม่ ergodic อยู่จริง