"RLHF เป็นเพียงส่วนเล็กๆ ของ RL เท่านั้น" - Andrej Karpathy

xguru · 2024-08-09T10:46:01+09:00

Reinforcement Learning from Human Feedback (RLHF) คือขั้นตอนหลักลำดับที่สาม (และขั้นตอนสุดท้าย) ของการฝึก LLM ต่อจาก pretraining และ supervised finetuning (SFT) มุมมองของผมต่อ RLHF คือมันเป็นเพียงส่วนหนึ่งของ RL เท่านั้น และเรื่องนี้ยังไม่เป็นที่รับรู้อย่างกว้างขวาง RLHF ยังไม่เพียงพอที่จะเรียกว่า RL (การเรียนรู้แบบเสริมกำลัง) อย่างแท้จริง ตัวอย่างเช่น AlphaGo ได้รับการฝึกด้วย RL จริง และถ้ามันถูกฝึกด้วย RLHF ก็คงไม่สามารถทำผลงานได้อย่างทุกวันนี้ ถ้าฝึก AlphaGo ด้วย RLHF จะเกิดอะไรขึ้น? นำเสนอสถานะกระดานโกะสองแบบให้ผู้ประเมินที่เป็นมนุษย์ดู แล้วให้เลือกว่าฝั่งไหนดีกว่า เก็บการเปรียบเทียบลักษณะนี้มาประมาณ 100,000 รายการ แล้วฝึกโครงข่ายประสาทเทียม "Reward Model" (RM, แบบจำลองรางวัล) ให้เลียนแบบการประเมินของมนุษย์ (Vibe Check) จากนั้นทำ RL โดยอิงตามแบบจำลองรางวัลนี้ เพื่อเรียนรู้การเดินที่ได้รับการประเมินว่าดี แต่วิธีนี้คงไม่ก่อให้เกิดผลงานที่มีความหมายในเกมโกะ เหตุผลหลักสองข้อที่ RLHF ไม่เหมาะกับ AlphaGo ข้อแรก Vibe อาจทำให้เข้าใจผิดได้ รางวัลนี้ไม่ใช่รางวัลจากการชนะจริง แต่เป็นเป้าหมาย proxy ที่ไม่แม่นยำ ข้อสอง ในกระบวนการเพิ่มประสิทธิภาพของ RL มีโอกาสสูงที่แบบจำลองรางวัลจะให้คะแนนสูงกับสถานะผิดปกติที่อยู่นอกขอบเขตข้อมูลฝึก ทำให้การเพิ่มประสิทธิภาพบิดเบือนได้ RM เป็นโครงข่ายประสาทเทียมขนาดใหญ่ที่มีพารามิเตอร์ระดับหลายพันล้านตัว ซึ่งทำหน้าที่เลียนแบบ vibe ปัญหาเมื่อนำ RLHF ไปใช้กับ LLM แบบจำลองรางวัลของ LLM ก็มีแนวโน้มจะให้คะแนนสูงกับคำตอบที่ผู้ประเมินซึ่งเป็นมนุษย์น่าจะชอบ แบบจำลองรางวัลนี้ไม่ได้แก้ปัญหา "จริง" แต่เป็นเพียงเป้าหมายตัวแทนสำหรับประเมินคำตอบที่มนุษย์น่าจะชอบ ไม่สามารถรัน RLHF ได้นานเกินไป เพราะโมเดลจะเรียนรู้ได้อย่างรวดเร็วว่าจะตอบอย่างไรเพื่อหลอกแบบจำลองรางวัล คุณอาจเห็น LLM assistant เริ่มตอบอะไรประหลาดๆ อย่างเช่น "The the the the the the" แม้มันจะดูตลก แต่ RM กลับคิดว่านี่เป็นสิ่งที่ยอดเยี่ยมมาก นี่คือการค้นพบตัวอย่างเชิงปฏิปักษ์ในบริเวณที่อยู่นอกขอบเขตข้อมูลฝึกของ RM ด้วยเหตุนี้ RLHF จึงไม่สามารถรันต่อไปได้ในจำนวนขั้นของการเพิ่มประสิทธิภาพมากเกินไป และหลังจากทำไปไม่กี่ร้อยหรือพันขั้น ก็มักต้องหยุด เพราะการเพิ่มประสิทธิภาพเริ่มหันไปหลอก RM นี่ไม่ใช่ RL แบบเดียวกับ AlphaGo เหตุใด RLHF จึงยังมีประโยชน์ต่อการสร้าง LLM Assistant RLHF ได้ประโยชน์จากช่องว่างระหว่าง Generator (ผู้สร้าง) กับ Discriminator (ผู้จำแนก) กล่าวคือ สำหรับปัญหาหลายประเภท การให้มนุษย์เลือกคำตอบที่ดีที่สุดจากผู้สมัครไม่กี่คำตอบนั้นง่ายกว่าการให้เขียนคำตอบในอุดมคติขึ้นมาเองตั้งแต่ต้นมาก ตัวอย่างที่ดีคือ prompt อย่าง "แต่งบทกวีเกี่ยวกับคลิป" ซึ่งการเลือกบทกวีที่ดีจากหลายตัวเลือกทำได้ง่ายกว่า RLHF คือวิธีที่อาศัยช่องว่างด้าน "ความง่าย" ของการกำกับดูแลโดยมนุษย์นี้ นอกจากนี้ RLHF ยังมีประโยชน์ในการลด hallucination (การสร้างข้อมูลผิด) ถ้า RM เป็นโมเดลที่แข็งแกร่งพอจะจับได้ระหว่างการฝึกว่า LLM กำลังแต่งข้อมูลขึ้นมา มันก็สามารถเรียนรู้วิธีลงโทษด้วยรางวัลต่ำ เพื่อสอนให้โมเดลไม่ชอบเสี่ยงกับข้อเท็จจริงที่ตัวเองไม่แน่ใจ อย่างไรก็ตาม วิธีจัดการ hallucination และการบรรเทาปัญหานี้อย่างน่าพอใจเป็นอีกหัวข้อหนึ่งโดยสิ้นเชิง สรุปคือ "RLHF มีประโยชน์ แต่ไม่ใช่ RL ที่แท้จริง" จนถึงตอนนี้ยังไม่มีกรณีที่สามารถทำและพิสูจน์ "RL จริง" ระดับ production กับ LLM ในโดเมนเปิดขนาดใหญ่ได้อย่างน่าเชื่อถือ ในเชิงสัญชาตญาณก็เข้าใจได้ เพราะการได้มาซึ่งรางวัลจริงสำหรับการแก้ปัญหาในโดเมนเปิด (เช่น การชนะในเกม) เป็นเรื่องยากมาก มันน่าสนใจในสภาพแวดล้อมแบบปิดและคล้ายเกมอย่างโกะ ซึ่งมีพลวัตจำกัด ฟังก์ชันรางวัลประเมินได้ง่าย และหลอกไม่ได้ ตัวอย่างเช่น จะให้รางวัลเชิงวัตถุวิสัยอย่างไรกับการสรุปเอกสาร การตอบคำถามที่ค่อนข้างกำกวม การเล่นมุก หรือการเขียนโค้ด Java ใหม่เป็น Python? เส้นทางไปสู่สิ่งนี้ในทางหลักการไม่ใช่ว่าเป็นไปไม่ได้ แต่ก็ไม่ใช่เรื่องง่าย และต้องใช้ความคิดสร้างสรรค์ แต่คนที่แก้ปัญหานี้ได้อย่างน่าเชื่อถือก็จะสามารถรัน RL จริงได้ RL แบบเดียวกับที่ทำให้ AlphaGo เอาชนะมนุษย์ในเกมโกะได้ คนที่แก้ปัญหานี้ได้จะสามารถสร้าง LLM ที่เหนือกว่ามนุษย์ในการแก้ปัญหาแบบโดเมนเปิดได้

(twitter.com/karpathy)

8 คะแนน โดย xguru 2024-08-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Reinforcement Learning from Human Feedback (RLHF) คือขั้นตอนหลักลำดับที่สาม (และขั้นตอนสุดท้าย) ของการฝึก LLM ต่อจาก pretraining และ supervised finetuning (SFT)
- มุมมองของผมต่อ RLHF คือมันเป็นเพียงส่วนหนึ่งของ RL เท่านั้น และเรื่องนี้ยังไม่เป็นที่รับรู้อย่างกว้างขวาง
- RLHF ยังไม่เพียงพอที่จะเรียกว่า RL (การเรียนรู้แบบเสริมกำลัง) อย่างแท้จริง
- ตัวอย่างเช่น AlphaGo ได้รับการฝึกด้วย RL จริง และถ้ามันถูกฝึกด้วย RLHF ก็คงไม่สามารถทำผลงานได้อย่างทุกวันนี้
ถ้าฝึก AlphaGo ด้วย RLHF จะเกิดอะไรขึ้น?
- นำเสนอสถานะกระดานโกะสองแบบให้ผู้ประเมินที่เป็นมนุษย์ดู แล้วให้เลือกว่าฝั่งไหนดีกว่า
- เก็บการเปรียบเทียบลักษณะนี้มาประมาณ 100,000 รายการ แล้วฝึกโครงข่ายประสาทเทียม "Reward Model" (RM, แบบจำลองรางวัล) ให้เลียนแบบการประเมินของมนุษย์ (Vibe Check)
- จากนั้นทำ RL โดยอิงตามแบบจำลองรางวัลนี้ เพื่อเรียนรู้การเดินที่ได้รับการประเมินว่าดี
- แต่วิธีนี้คงไม่ก่อให้เกิดผลงานที่มีความหมายในเกมโกะ
เหตุผลหลักสองข้อที่ RLHF ไม่เหมาะกับ AlphaGo
- ข้อแรก Vibe อาจทำให้เข้าใจผิดได้ รางวัลนี้ไม่ใช่รางวัลจากการชนะจริง แต่เป็นเป้าหมาย proxy ที่ไม่แม่นยำ
- ข้อสอง ในกระบวนการเพิ่มประสิทธิภาพของ RL มีโอกาสสูงที่แบบจำลองรางวัลจะให้คะแนนสูงกับสถานะผิดปกติที่อยู่นอกขอบเขตข้อมูลฝึก ทำให้การเพิ่มประสิทธิภาพบิดเบือนได้
  - RM เป็นโครงข่ายประสาทเทียมขนาดใหญ่ที่มีพารามิเตอร์ระดับหลายพันล้านตัว ซึ่งทำหน้าที่เลียนแบบ vibe
โฆษณา
ปัญหาเมื่อนำ RLHF ไปใช้กับ LLM
- แบบจำลองรางวัลของ LLM ก็มีแนวโน้มจะให้คะแนนสูงกับคำตอบที่ผู้ประเมินซึ่งเป็นมนุษย์น่าจะชอบ
  - แบบจำลองรางวัลนี้ไม่ได้แก้ปัญหา "จริง" แต่เป็นเพียงเป้าหมายตัวแทนสำหรับประเมินคำตอบที่มนุษย์น่าจะชอบ
- ไม่สามารถรัน RLHF ได้นานเกินไป เพราะโมเดลจะเรียนรู้ได้อย่างรวดเร็วว่าจะตอบอย่างไรเพื่อหลอกแบบจำลองรางวัล
- คุณอาจเห็น LLM assistant เริ่มตอบอะไรประหลาดๆ อย่างเช่น "The the the the the the"
- แม้มันจะดูตลก แต่ RM กลับคิดว่านี่เป็นสิ่งที่ยอดเยี่ยมมาก
- นี่คือการค้นพบตัวอย่างเชิงปฏิปักษ์ในบริเวณที่อยู่นอกขอบเขตข้อมูลฝึกของ RM
- ด้วยเหตุนี้ RLHF จึงไม่สามารถรันต่อไปได้ในจำนวนขั้นของการเพิ่มประสิทธิภาพมากเกินไป และหลังจากทำไปไม่กี่ร้อยหรือพันขั้น ก็มักต้องหยุด เพราะการเพิ่มประสิทธิภาพเริ่มหันไปหลอก RM
- นี่ไม่ใช่ RL แบบเดียวกับ AlphaGo
เหตุใด RLHF จึงยังมีประโยชน์ต่อการสร้าง LLM Assistant
- RLHF ได้ประโยชน์จากช่องว่างระหว่าง Generator (ผู้สร้าง) กับ Discriminator (ผู้จำแนก)
  - กล่าวคือ สำหรับปัญหาหลายประเภท การให้มนุษย์เลือกคำตอบที่ดีที่สุดจากผู้สมัครไม่กี่คำตอบนั้นง่ายกว่าการให้เขียนคำตอบในอุดมคติขึ้นมาเองตั้งแต่ต้นมาก
  - ตัวอย่างที่ดีคือ prompt อย่าง "แต่งบทกวีเกี่ยวกับคลิป" ซึ่งการเลือกบทกวีที่ดีจากหลายตัวเลือกทำได้ง่ายกว่า
- RLHF คือวิธีที่อาศัยช่องว่างด้าน "ความง่าย" ของการกำกับดูแลโดยมนุษย์นี้
- นอกจากนี้ RLHF ยังมีประโยชน์ในการลด hallucination (การสร้างข้อมูลผิด)
  - ถ้า RM เป็นโมเดลที่แข็งแกร่งพอจะจับได้ระหว่างการฝึกว่า LLM กำลังแต่งข้อมูลขึ้นมา มันก็สามารถเรียนรู้วิธีลงโทษด้วยรางวัลต่ำ เพื่อสอนให้โมเดลไม่ชอบเสี่ยงกับข้อเท็จจริงที่ตัวเองไม่แน่ใจ
  - อย่างไรก็ตาม วิธีจัดการ hallucination และการบรรเทาปัญหานี้อย่างน่าพอใจเป็นอีกหัวข้อหนึ่งโดยสิ้นเชิง
โฆษณา
สรุปคือ "RLHF มีประโยชน์ แต่ไม่ใช่ RL ที่แท้จริง"
- จนถึงตอนนี้ยังไม่มีกรณีที่สามารถทำและพิสูจน์ "RL จริง" ระดับ production กับ LLM ในโดเมนเปิดขนาดใหญ่ได้อย่างน่าเชื่อถือ
- ในเชิงสัญชาตญาณก็เข้าใจได้ เพราะการได้มาซึ่งรางวัลจริงสำหรับการแก้ปัญหาในโดเมนเปิด (เช่น การชนะในเกม) เป็นเรื่องยากมาก
- มันน่าสนใจในสภาพแวดล้อมแบบปิดและคล้ายเกมอย่างโกะ ซึ่งมีพลวัตจำกัด ฟังก์ชันรางวัลประเมินได้ง่าย และหลอกไม่ได้
- ตัวอย่างเช่น จะให้รางวัลเชิงวัตถุวิสัยอย่างไรกับการสรุปเอกสาร การตอบคำถามที่ค่อนข้างกำกวม การเล่นมุก หรือการเขียนโค้ด Java ใหม่เป็น Python?
  - เส้นทางไปสู่สิ่งนี้ในทางหลักการไม่ใช่ว่าเป็นไปไม่ได้ แต่ก็ไม่ใช่เรื่องง่าย และต้องใช้ความคิดสร้างสรรค์
  - แต่คนที่แก้ปัญหานี้ได้อย่างน่าเชื่อถือก็จะสามารถรัน RL จริงได้
    - RL แบบเดียวกับที่ทำให้ AlphaGo เอาชนะมนุษย์ในเกมโกะได้
  - คนที่แก้ปัญหานี้ได้จะสามารถสร้าง LLM ที่เหนือกว่ามนุษย์ในการแก้ปัญหาแบบโดเมนเปิดได้

1 ความคิดเห็น

xguru 2024-08-09

ความเห็นจาก Hacker News

ผู้ช่วยเขียนโค้ด AI จะพัฒนาอย่างก้าวกระโดดในช่วงไม่กี่ปีข้างหน้า
- Chat AI ไม่มีฟังก์ชันรางวัลที่ชัดเจน จึงตัดสินคุณภาพได้ยาก
- AI สำหรับเขียนโค้ดสามารถวนลูปไม่สิ้นสุดด้วยการเขียนเทสต์ เขียนโค้ด คอมไพล์ และตรวจสอบเคสทดสอบที่ล้มเหลวได้
- กระบวนการนี้สามารถนำไปใช้เป็นข้อมูลฝึกสำหรับโมเดล AI เขียนโค้ดในอนาคตได้
- โมเดลภาษาจะทำผลงานได้ยอดเยี่ยมในการพิสูจน์ทฤษฎีบททางคณิตศาสตร์ด้วย
- ซอฟต์แวร์ตรวจสอบทฤษฎีบทให้ฟีดแบ็กที่ถูกต้อง 100% ทำให้ reinforcement learning เป็นไปได้
- การตรวจพิสูจน์ความถูกต้องเชิงรูปแบบของโปรแกรมเป็นงานที่น่าเบื่อ แต่ LLMs อาจเปลี่ยนสิ่งนี้ได้
- เอนจินสามารถใช้คำอธิบายประกอบที่ LLMs สร้างขึ้นเพื่อพิสูจน์ความถูกต้องได้
วิธี DIY ราคาถูกที่คล้ายกับ RLHF คือการปรับจูนโมเดลแบบละเอียดเพื่อเพิ่มคะแนนลงในเอาต์พุต
- RLHF จำเป็นเพราะเราไม่สามารถเขียน loss function ที่ทำให้ได้คำตอบที่ดีได้
- โมเดลพื้นฐานสร้างคำตอบสมบูรณ์ n แบบสำหรับพรอมป์ต์ แล้วให้คะแนนด้วยมือ
- จากนั้นคู่ข้อมูล พรอมป์ต์ => (คำตอบสมบูรณ์, คะแนน) จะกลายเป็นชุดฝึก
- เมื่อโมเดลถูกฝึกแล้ว หากใส่คะแนนที่ต้องการลงในพรอมป์ต์ โมเดลจะพยายามสร้างคำตอบให้ตรงกับคะแนนนั้น
ปัญหาที่อัลกอริทึม ML หลากหลายแบบพยายาม "เล่นเกม" กับฟังก์ชันรางวัลนั้นคล้ายกับปัญหาในโลกการเงินและเศรษฐศาสตร์
- หากผู้คนพยายามหาเงินโดยไม่ทำงานที่ก่อให้เกิดผลผลิต ก็จะมีสิ่งที่ไม่ก่อให้เกิดผลผลิตเพิ่มขึ้นมาก
- เพื่อลดปัญหานี้ จำเป็นต้องมีระบบที่ลงโทษการเล่นเกมกับฟังก์ชันรางวัล
- ระบบนี้ต้องเข้าใจคุณค่าที่แท้จริง และระบุกรณีที่ฟังก์ชันรางวัลสูงแต่คุณค่าต่ำได้
Karpathy รู้เรื่องนี้ดีกว่ามาก แต่โพสต์นี้ให้ความรู้สึกเหมือนยังขาดอะไรบางอย่าง
- Go เป็นเกมที่ซับซ้อนเกินกว่ามนุษย์จะแก้ได้
- เป้าหมายของ LLM คือการเลียนแบบมนุษย์อย่างสมบูรณ์แบบ
- AlphaGo และ Stockfish อาจช่วยพัฒนาความเข้าใจเกมได้ แต่ LLM ไม่สามารถขยายขอบเขตของภาษาได้
- เพราะ LLM เป็นโมเดลเลียนแบบโดยเนื้อแท้ RLHF จึงมีความหมายมากกว่าในโลกของ LLM
น่าสงสัยว่า "ช่องว่าง" ระหว่าง LLM แบบ transformer ในปัจจุบันกับการทำนายลำดับที่เหมาะสมที่สุดคืออะไร
- ปัจจุบัน LLM มี objective function แบบเรียบง่ายที่ลด cross-entropy ของการทำนายโทเค็นระหว่างการฝึก
- Solomonoff induction สามารถบรรลุการทำนายลำดับที่เหมาะสมที่สุดได้
- จึงสงสัยว่าบทสนทนาระหว่าง SI กับ GPT4 จะแตกต่างกันมากแค่ไหน
- AGI ต้องการมากกว่าการทำนายลำดับที่เหมาะสมที่สุด
- objective function ที่ยึดผู้ใช้เป็นศูนย์กลางคือการเพิ่มความน่าจะเป็นที่จะให้คำตอบที่ทำให้ผู้ใช้พึงพอใจสูงสุด
- แต่เพราะมีผู้ใช้หลายคน วิธีรวมความเห็นจึงเป็นปัญหา
- Karpathy กำลังสื่อถึงปัญหานี้
สาขาการพิสูจน์อย่าง LEAN มีสถานะ การกระทำ การวัดความคืบหน้า และสถานะเป้าหมายสุดท้าย
- หาก Karpathy มุ่งเน้นที่การทำให้การพิสูจน์ด้วย LEAN เป็นอัตโนมัติ เขาอาจเปลี่ยนคณิตศาสตร์ไปตลอดกาล
AlphaGo ไม่มี human feedback แต่ก็เรียนรู้จากมนุษย์
- AlphaZero ตัดอิทธิพลจากมนุษย์ออกและใช้ reinforcement learning แบบล้วน ๆ
งานวิจัย SPAG เป็นตัวอย่างของ reinforcement learning ที่แท้จริงโดยใช้โมเดลภาษา
- ในโพสต์ของ Karpathy ยังขาดเรื่อง "สเกล" และ "โดเมนเปิด"
- เกมภาษาที่มีลักษณะเชิงปฏิปักษ์ดูมีอนาคต
ข้อสรุปที่ว่า LLM + RL จะเหนือกว่ามนุษย์ในการแก้ปัญหาแบบโดเมนเปิดนั้นยังมีหลักฐานรองรับไม่เพียงพอ

"RLHF เป็นเพียงส่วนเล็กๆ ของ RL เท่านั้น" - Andrej Karpathy

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News