8 คะแนน โดย xguru 2024-08-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Reinforcement Learning from Human Feedback (RLHF) คือขั้นตอนหลักลำดับที่สาม (และขั้นตอนสุดท้าย) ของการฝึก LLM ต่อจาก pretraining และ supervised finetuning (SFT)
    • มุมมองของผมต่อ RLHF คือมันเป็นเพียงส่วนหนึ่งของ RL เท่านั้น และเรื่องนี้ยังไม่เป็นที่รับรู้อย่างกว้างขวาง
    • RLHF ยังไม่เพียงพอที่จะเรียกว่า RL (การเรียนรู้แบบเสริมกำลัง) อย่างแท้จริง
    • ตัวอย่างเช่น AlphaGo ได้รับการฝึกด้วย RL จริง และถ้ามันถูกฝึกด้วย RLHF ก็คงไม่สามารถทำผลงานได้อย่างทุกวันนี้
  • ถ้าฝึก AlphaGo ด้วย RLHF จะเกิดอะไรขึ้น?
    • นำเสนอสถานะกระดานโกะสองแบบให้ผู้ประเมินที่เป็นมนุษย์ดู แล้วให้เลือกว่าฝั่งไหนดีกว่า
    • เก็บการเปรียบเทียบลักษณะนี้มาประมาณ 100,000 รายการ แล้วฝึกโครงข่ายประสาทเทียม "Reward Model" (RM, แบบจำลองรางวัล) ให้เลียนแบบการประเมินของมนุษย์ (Vibe Check)
    • จากนั้นทำ RL โดยอิงตามแบบจำลองรางวัลนี้ เพื่อเรียนรู้การเดินที่ได้รับการประเมินว่าดี
    • แต่วิธีนี้คงไม่ก่อให้เกิดผลงานที่มีความหมายในเกมโกะ
  • เหตุผลหลักสองข้อที่ RLHF ไม่เหมาะกับ AlphaGo
    • ข้อแรก Vibe อาจทำให้เข้าใจผิดได้ รางวัลนี้ไม่ใช่รางวัลจากการชนะจริง แต่เป็นเป้าหมาย proxy ที่ไม่แม่นยำ
    • ข้อสอง ในกระบวนการเพิ่มประสิทธิภาพของ RL มีโอกาสสูงที่แบบจำลองรางวัลจะให้คะแนนสูงกับสถานะผิดปกติที่อยู่นอกขอบเขตข้อมูลฝึก ทำให้การเพิ่มประสิทธิภาพบิดเบือนได้
      • RM เป็นโครงข่ายประสาทเทียมขนาดใหญ่ที่มีพารามิเตอร์ระดับหลายพันล้านตัว ซึ่งทำหน้าที่เลียนแบบ vibe
  • ปัญหาเมื่อนำ RLHF ไปใช้กับ LLM
    • แบบจำลองรางวัลของ LLM ก็มีแนวโน้มจะให้คะแนนสูงกับคำตอบที่ผู้ประเมินซึ่งเป็นมนุษย์น่าจะชอบ
      • แบบจำลองรางวัลนี้ไม่ได้แก้ปัญหา "จริง" แต่เป็นเพียงเป้าหมายตัวแทนสำหรับประเมินคำตอบที่มนุษย์น่าจะชอบ
    • ไม่สามารถรัน RLHF ได้นานเกินไป เพราะโมเดลจะเรียนรู้ได้อย่างรวดเร็วว่าจะตอบอย่างไรเพื่อหลอกแบบจำลองรางวัล
    • คุณอาจเห็น LLM assistant เริ่มตอบอะไรประหลาดๆ อย่างเช่น "The the the the the the"
    • แม้มันจะดูตลก แต่ RM กลับคิดว่านี่เป็นสิ่งที่ยอดเยี่ยมมาก
    • นี่คือการค้นพบตัวอย่างเชิงปฏิปักษ์ในบริเวณที่อยู่นอกขอบเขตข้อมูลฝึกของ RM
    • ด้วยเหตุนี้ RLHF จึงไม่สามารถรันต่อไปได้ในจำนวนขั้นของการเพิ่มประสิทธิภาพมากเกินไป และหลังจากทำไปไม่กี่ร้อยหรือพันขั้น ก็มักต้องหยุด เพราะการเพิ่มประสิทธิภาพเริ่มหันไปหลอก RM
    • นี่ไม่ใช่ RL แบบเดียวกับ AlphaGo
  • เหตุใด RLHF จึงยังมีประโยชน์ต่อการสร้าง LLM Assistant
    • RLHF ได้ประโยชน์จากช่องว่างระหว่าง Generator (ผู้สร้าง) กับ Discriminator (ผู้จำแนก)
      • กล่าวคือ สำหรับปัญหาหลายประเภท การให้มนุษย์เลือกคำตอบที่ดีที่สุดจากผู้สมัครไม่กี่คำตอบนั้นง่ายกว่าการให้เขียนคำตอบในอุดมคติขึ้นมาเองตั้งแต่ต้นมาก
      • ตัวอย่างที่ดีคือ prompt อย่าง "แต่งบทกวีเกี่ยวกับคลิป" ซึ่งการเลือกบทกวีที่ดีจากหลายตัวเลือกทำได้ง่ายกว่า
    • RLHF คือวิธีที่อาศัยช่องว่างด้าน "ความง่าย" ของการกำกับดูแลโดยมนุษย์นี้
    • นอกจากนี้ RLHF ยังมีประโยชน์ในการลด hallucination (การสร้างข้อมูลผิด)
      • ถ้า RM เป็นโมเดลที่แข็งแกร่งพอจะจับได้ระหว่างการฝึกว่า LLM กำลังแต่งข้อมูลขึ้นมา มันก็สามารถเรียนรู้วิธีลงโทษด้วยรางวัลต่ำ เพื่อสอนให้โมเดลไม่ชอบเสี่ยงกับข้อเท็จจริงที่ตัวเองไม่แน่ใจ
      • อย่างไรก็ตาม วิธีจัดการ hallucination และการบรรเทาปัญหานี้อย่างน่าพอใจเป็นอีกหัวข้อหนึ่งโดยสิ้นเชิง
  • สรุปคือ "RLHF มีประโยชน์ แต่ไม่ใช่ RL ที่แท้จริง"
    • จนถึงตอนนี้ยังไม่มีกรณีที่สามารถทำและพิสูจน์ "RL จริง" ระดับ production กับ LLM ในโดเมนเปิดขนาดใหญ่ได้อย่างน่าเชื่อถือ
    • ในเชิงสัญชาตญาณก็เข้าใจได้ เพราะการได้มาซึ่งรางวัลจริงสำหรับการแก้ปัญหาในโดเมนเปิด (เช่น การชนะในเกม) เป็นเรื่องยากมาก
    • มันน่าสนใจในสภาพแวดล้อมแบบปิดและคล้ายเกมอย่างโกะ ซึ่งมีพลวัตจำกัด ฟังก์ชันรางวัลประเมินได้ง่าย และหลอกไม่ได้
    • ตัวอย่างเช่น จะให้รางวัลเชิงวัตถุวิสัยอย่างไรกับการสรุปเอกสาร การตอบคำถามที่ค่อนข้างกำกวม การเล่นมุก หรือการเขียนโค้ด Java ใหม่เป็น Python?
      • เส้นทางไปสู่สิ่งนี้ในทางหลักการไม่ใช่ว่าเป็นไปไม่ได้ แต่ก็ไม่ใช่เรื่องง่าย และต้องใช้ความคิดสร้างสรรค์
      • แต่คนที่แก้ปัญหานี้ได้อย่างน่าเชื่อถือก็จะสามารถรัน RL จริงได้
        • RL แบบเดียวกับที่ทำให้ AlphaGo เอาชนะมนุษย์ในเกมโกะได้
      • คนที่แก้ปัญหานี้ได้จะสามารถสร้าง LLM ที่เหนือกว่ามนุษย์ในการแก้ปัญหาแบบโดเมนเปิดได้

1 ความคิดเห็น

 
xguru 2024-08-09

ความเห็นจาก Hacker News

  • ผู้ช่วยเขียนโค้ด AI จะพัฒนาอย่างก้าวกระโดดในช่วงไม่กี่ปีข้างหน้า

    • Chat AI ไม่มีฟังก์ชันรางวัลที่ชัดเจน จึงตัดสินคุณภาพได้ยาก
    • AI สำหรับเขียนโค้ดสามารถวนลูปไม่สิ้นสุดด้วยการเขียนเทสต์ เขียนโค้ด คอมไพล์ และตรวจสอบเคสทดสอบที่ล้มเหลวได้
    • กระบวนการนี้สามารถนำไปใช้เป็นข้อมูลฝึกสำหรับโมเดล AI เขียนโค้ดในอนาคตได้
    • โมเดลภาษาจะทำผลงานได้ยอดเยี่ยมในการพิสูจน์ทฤษฎีบททางคณิตศาสตร์ด้วย
    • ซอฟต์แวร์ตรวจสอบทฤษฎีบทให้ฟีดแบ็กที่ถูกต้อง 100% ทำให้ reinforcement learning เป็นไปได้
    • การตรวจพิสูจน์ความถูกต้องเชิงรูปแบบของโปรแกรมเป็นงานที่น่าเบื่อ แต่ LLMs อาจเปลี่ยนสิ่งนี้ได้
    • เอนจินสามารถใช้คำอธิบายประกอบที่ LLMs สร้างขึ้นเพื่อพิสูจน์ความถูกต้องได้
  • วิธี DIY ราคาถูกที่คล้ายกับ RLHF คือการปรับจูนโมเดลแบบละเอียดเพื่อเพิ่มคะแนนลงในเอาต์พุต

    • RLHF จำเป็นเพราะเราไม่สามารถเขียน loss function ที่ทำให้ได้คำตอบที่ดีได้
    • โมเดลพื้นฐานสร้างคำตอบสมบูรณ์ n แบบสำหรับพรอมป์ต์ แล้วให้คะแนนด้วยมือ
    • จากนั้นคู่ข้อมูล พรอมป์ต์ => (คำตอบสมบูรณ์, คะแนน) จะกลายเป็นชุดฝึก
    • เมื่อโมเดลถูกฝึกแล้ว หากใส่คะแนนที่ต้องการลงในพรอมป์ต์ โมเดลจะพยายามสร้างคำตอบให้ตรงกับคะแนนนั้น
  • ปัญหาที่อัลกอริทึม ML หลากหลายแบบพยายาม "เล่นเกม" กับฟังก์ชันรางวัลนั้นคล้ายกับปัญหาในโลกการเงินและเศรษฐศาสตร์

    • หากผู้คนพยายามหาเงินโดยไม่ทำงานที่ก่อให้เกิดผลผลิต ก็จะมีสิ่งที่ไม่ก่อให้เกิดผลผลิตเพิ่มขึ้นมาก
    • เพื่อลดปัญหานี้ จำเป็นต้องมีระบบที่ลงโทษการเล่นเกมกับฟังก์ชันรางวัล
    • ระบบนี้ต้องเข้าใจคุณค่าที่แท้จริง และระบุกรณีที่ฟังก์ชันรางวัลสูงแต่คุณค่าต่ำได้
  • Karpathy รู้เรื่องนี้ดีกว่ามาก แต่โพสต์นี้ให้ความรู้สึกเหมือนยังขาดอะไรบางอย่าง

    • Go เป็นเกมที่ซับซ้อนเกินกว่ามนุษย์จะแก้ได้
    • เป้าหมายของ LLM คือการเลียนแบบมนุษย์อย่างสมบูรณ์แบบ
    • AlphaGo และ Stockfish อาจช่วยพัฒนาความเข้าใจเกมได้ แต่ LLM ไม่สามารถขยายขอบเขตของภาษาได้
    • เพราะ LLM เป็นโมเดลเลียนแบบโดยเนื้อแท้ RLHF จึงมีความหมายมากกว่าในโลกของ LLM
  • น่าสงสัยว่า "ช่องว่าง" ระหว่าง LLM แบบ transformer ในปัจจุบันกับการทำนายลำดับที่เหมาะสมที่สุดคืออะไร

    • ปัจจุบัน LLM มี objective function แบบเรียบง่ายที่ลด cross-entropy ของการทำนายโทเค็นระหว่างการฝึก
    • Solomonoff induction สามารถบรรลุการทำนายลำดับที่เหมาะสมที่สุดได้
    • จึงสงสัยว่าบทสนทนาระหว่าง SI กับ GPT4 จะแตกต่างกันมากแค่ไหน
    • AGI ต้องการมากกว่าการทำนายลำดับที่เหมาะสมที่สุด
    • objective function ที่ยึดผู้ใช้เป็นศูนย์กลางคือการเพิ่มความน่าจะเป็นที่จะให้คำตอบที่ทำให้ผู้ใช้พึงพอใจสูงสุด
    • แต่เพราะมีผู้ใช้หลายคน วิธีรวมความเห็นจึงเป็นปัญหา
    • Karpathy กำลังสื่อถึงปัญหานี้
  • สาขาการพิสูจน์อย่าง LEAN มีสถานะ การกระทำ การวัดความคืบหน้า และสถานะเป้าหมายสุดท้าย

    • หาก Karpathy มุ่งเน้นที่การทำให้การพิสูจน์ด้วย LEAN เป็นอัตโนมัติ เขาอาจเปลี่ยนคณิตศาสตร์ไปตลอดกาล
  • AlphaGo ไม่มี human feedback แต่ก็เรียนรู้จากมนุษย์

    • AlphaZero ตัดอิทธิพลจากมนุษย์ออกและใช้ reinforcement learning แบบล้วน ๆ
  • งานวิจัย SPAG เป็นตัวอย่างของ reinforcement learning ที่แท้จริงโดยใช้โมเดลภาษา

    • ในโพสต์ของ Karpathy ยังขาดเรื่อง "สเกล" และ "โดเมนเปิด"
    • เกมภาษาที่มีลักษณะเชิงปฏิปักษ์ดูมีอนาคต
  • ข้อสรุปที่ว่า LLM + RL จะเหนือกว่ามนุษย์ในการแก้ปัญหาแบบโดเมนเปิดนั้นยังมีหลักฐานรองรับไม่เพียงพอ