- Reinforcement Learning from Human Feedback (RLHF) คือขั้นตอนหลักลำดับที่สาม (และขั้นตอนสุดท้าย) ของการฝึก LLM ต่อจาก pretraining และ supervised finetuning (SFT)
- มุมมองของผมต่อ RLHF คือมันเป็นเพียงส่วนหนึ่งของ RL เท่านั้น และเรื่องนี้ยังไม่เป็นที่รับรู้อย่างกว้างขวาง
- RLHF ยังไม่เพียงพอที่จะเรียกว่า RL (การเรียนรู้แบบเสริมกำลัง) อย่างแท้จริง
- ตัวอย่างเช่น AlphaGo ได้รับการฝึกด้วย RL จริง และถ้ามันถูกฝึกด้วย RLHF ก็คงไม่สามารถทำผลงานได้อย่างทุกวันนี้
- ถ้าฝึก AlphaGo ด้วย RLHF จะเกิดอะไรขึ้น?
- นำเสนอสถานะกระดานโกะสองแบบให้ผู้ประเมินที่เป็นมนุษย์ดู แล้วให้เลือกว่าฝั่งไหนดีกว่า
- เก็บการเปรียบเทียบลักษณะนี้มาประมาณ 100,000 รายการ แล้วฝึกโครงข่ายประสาทเทียม "Reward Model" (RM, แบบจำลองรางวัล) ให้เลียนแบบการประเมินของมนุษย์ (Vibe Check)
- จากนั้นทำ RL โดยอิงตามแบบจำลองรางวัลนี้ เพื่อเรียนรู้การเดินที่ได้รับการประเมินว่าดี
- แต่วิธีนี้คงไม่ก่อให้เกิดผลงานที่มีความหมายในเกมโกะ
- เหตุผลหลักสองข้อที่ RLHF ไม่เหมาะกับ AlphaGo
- ข้อแรก Vibe อาจทำให้เข้าใจผิดได้ รางวัลนี้ไม่ใช่รางวัลจากการชนะจริง แต่เป็นเป้าหมาย proxy ที่ไม่แม่นยำ
- ข้อสอง ในกระบวนการเพิ่มประสิทธิภาพของ RL มีโอกาสสูงที่แบบจำลองรางวัลจะให้คะแนนสูงกับสถานะผิดปกติที่อยู่นอกขอบเขตข้อมูลฝึก ทำให้การเพิ่มประสิทธิภาพบิดเบือนได้
- RM เป็นโครงข่ายประสาทเทียมขนาดใหญ่ที่มีพารามิเตอร์ระดับหลายพันล้านตัว ซึ่งทำหน้าที่เลียนแบบ vibe
- ปัญหาเมื่อนำ RLHF ไปใช้กับ LLM
- แบบจำลองรางวัลของ LLM ก็มีแนวโน้มจะให้คะแนนสูงกับคำตอบที่ผู้ประเมินซึ่งเป็นมนุษย์น่าจะชอบ
- แบบจำลองรางวัลนี้ไม่ได้แก้ปัญหา "จริง" แต่เป็นเพียงเป้าหมายตัวแทนสำหรับประเมินคำตอบที่มนุษย์น่าจะชอบ
- ไม่สามารถรัน RLHF ได้นานเกินไป เพราะโมเดลจะเรียนรู้ได้อย่างรวดเร็วว่าจะตอบอย่างไรเพื่อหลอกแบบจำลองรางวัล
- คุณอาจเห็น LLM assistant เริ่มตอบอะไรประหลาดๆ อย่างเช่น "The the the the the the"
- แม้มันจะดูตลก แต่ RM กลับคิดว่านี่เป็นสิ่งที่ยอดเยี่ยมมาก
- นี่คือการค้นพบตัวอย่างเชิงปฏิปักษ์ในบริเวณที่อยู่นอกขอบเขตข้อมูลฝึกของ RM
- ด้วยเหตุนี้ RLHF จึงไม่สามารถรันต่อไปได้ในจำนวนขั้นของการเพิ่มประสิทธิภาพมากเกินไป และหลังจากทำไปไม่กี่ร้อยหรือพันขั้น ก็มักต้องหยุด เพราะการเพิ่มประสิทธิภาพเริ่มหันไปหลอก RM
- นี่ไม่ใช่ RL แบบเดียวกับ AlphaGo
- เหตุใด RLHF จึงยังมีประโยชน์ต่อการสร้าง LLM Assistant
- RLHF ได้ประโยชน์จากช่องว่างระหว่าง Generator (ผู้สร้าง) กับ Discriminator (ผู้จำแนก)
- กล่าวคือ สำหรับปัญหาหลายประเภท การให้มนุษย์เลือกคำตอบที่ดีที่สุดจากผู้สมัครไม่กี่คำตอบนั้นง่ายกว่าการให้เขียนคำตอบในอุดมคติขึ้นมาเองตั้งแต่ต้นมาก
- ตัวอย่างที่ดีคือ prompt อย่าง "แต่งบทกวีเกี่ยวกับคลิป" ซึ่งการเลือกบทกวีที่ดีจากหลายตัวเลือกทำได้ง่ายกว่า
- RLHF คือวิธีที่อาศัยช่องว่างด้าน "ความง่าย" ของการกำกับดูแลโดยมนุษย์นี้
- นอกจากนี้ RLHF ยังมีประโยชน์ในการลด hallucination (การสร้างข้อมูลผิด)
- ถ้า RM เป็นโมเดลที่แข็งแกร่งพอจะจับได้ระหว่างการฝึกว่า LLM กำลังแต่งข้อมูลขึ้นมา มันก็สามารถเรียนรู้วิธีลงโทษด้วยรางวัลต่ำ เพื่อสอนให้โมเดลไม่ชอบเสี่ยงกับข้อเท็จจริงที่ตัวเองไม่แน่ใจ
- อย่างไรก็ตาม วิธีจัดการ hallucination และการบรรเทาปัญหานี้อย่างน่าพอใจเป็นอีกหัวข้อหนึ่งโดยสิ้นเชิง
- สรุปคือ "RLHF มีประโยชน์ แต่ไม่ใช่ RL ที่แท้จริง"
- จนถึงตอนนี้ยังไม่มีกรณีที่สามารถทำและพิสูจน์ "RL จริง" ระดับ production กับ LLM ในโดเมนเปิดขนาดใหญ่ได้อย่างน่าเชื่อถือ
- ในเชิงสัญชาตญาณก็เข้าใจได้ เพราะการได้มาซึ่งรางวัลจริงสำหรับการแก้ปัญหาในโดเมนเปิด (เช่น การชนะในเกม) เป็นเรื่องยากมาก
- มันน่าสนใจในสภาพแวดล้อมแบบปิดและคล้ายเกมอย่างโกะ ซึ่งมีพลวัตจำกัด ฟังก์ชันรางวัลประเมินได้ง่าย และหลอกไม่ได้
- ตัวอย่างเช่น จะให้รางวัลเชิงวัตถุวิสัยอย่างไรกับการสรุปเอกสาร การตอบคำถามที่ค่อนข้างกำกวม การเล่นมุก หรือการเขียนโค้ด Java ใหม่เป็น Python?
- เส้นทางไปสู่สิ่งนี้ในทางหลักการไม่ใช่ว่าเป็นไปไม่ได้ แต่ก็ไม่ใช่เรื่องง่าย และต้องใช้ความคิดสร้างสรรค์
- แต่คนที่แก้ปัญหานี้ได้อย่างน่าเชื่อถือก็จะสามารถรัน RL จริงได้
- RL แบบเดียวกับที่ทำให้ AlphaGo เอาชนะมนุษย์ในเกมโกะได้
- คนที่แก้ปัญหานี้ได้จะสามารถสร้าง LLM ที่เหนือกว่ามนุษย์ในการแก้ปัญหาแบบโดเมนเปิดได้
1 ความคิดเห็น
ความเห็นจาก Hacker News
ผู้ช่วยเขียนโค้ด AI จะพัฒนาอย่างก้าวกระโดดในช่วงไม่กี่ปีข้างหน้า
วิธี DIY ราคาถูกที่คล้ายกับ RLHF คือการปรับจูนโมเดลแบบละเอียดเพื่อเพิ่มคะแนนลงในเอาต์พุต
ปัญหาที่อัลกอริทึม ML หลากหลายแบบพยายาม "เล่นเกม" กับฟังก์ชันรางวัลนั้นคล้ายกับปัญหาในโลกการเงินและเศรษฐศาสตร์
Karpathy รู้เรื่องนี้ดีกว่ามาก แต่โพสต์นี้ให้ความรู้สึกเหมือนยังขาดอะไรบางอย่าง
น่าสงสัยว่า "ช่องว่าง" ระหว่าง LLM แบบ transformer ในปัจจุบันกับการทำนายลำดับที่เหมาะสมที่สุดคืออะไร
สาขาการพิสูจน์อย่าง LEAN มีสถานะ การกระทำ การวัดความคืบหน้า และสถานะเป้าหมายสุดท้าย
AlphaGo ไม่มี human feedback แต่ก็เรียนรู้จากมนุษย์
งานวิจัย SPAG เป็นตัวอย่างของ reinforcement learning ที่แท้จริงโดยใช้โมเดลภาษา
ข้อสรุปที่ว่า LLM + RL จะเหนือกว่ามนุษย์ในการแก้ปัญหาแบบโดเมนเปิดนั้นยังมีหลักฐานรองรับไม่เพียงพอ