ฝึกความสามารถในการแก้ไขคำตอบของตัวเองของโมเดลภาษา ด้วยการเรียนรู้แบบเสริมกำลัง

(arxiv.org)

2 คะแนน โดย GN⁺ 2024-09-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

SCoRe ของ Google DeepMind เป็นแนวทางการเรียนรู้แบบเสริมกำลังออนไลน์หลายรอบที่ให้ LLM เรียนรู้จากเส้นทางการแก้ไขที่โมเดลสร้างขึ้นเอง เพื่อพัฒนาความสามารถในการแก้คำตอบของตัวเองโดยไม่ต้องพึ่งฟีดแบ็กภายนอก
วิธี SFT แบบเดิมเปราะบางต่อ distribution mismatch ที่ความผิดพลาดในข้อมูลฝึกไม่ตรงกับความผิดพลาดจริงของโมเดล และ behavior collapse ที่แทบไม่แก้คำตอบในรอบที่สอง
SCoRe เริ่มจากตรึงการกระจายของความพยายามครั้งแรกให้อยู่ใกล้กับโมเดลตั้งต้น แล้วตั้งค่าเริ่มต้นให้การลองครั้งที่สองมุ่งไปที่การปรับปรุง ก่อนจะใช้ reward shaping เพื่อเสริมแรงพฤติกรรมการแก้ไขจริง
ในการทดลองกับ Gemini 1.0 Pro และ Gemini 1.5 Flash ประสิทธิภาพการแก้ไขตัวเองเมื่อเทียบกับโมเดลตั้งต้นดีขึ้น 15.6%p บน MATH และ 9.1%p บน HumanEval
การใช้เพียง prompt หรือ offline SFT อย่างเดียวทำให้เกิดการแก้ไขตัวเองแบบภายในได้อย่างเสถียรยาก และจำเป็นต้องมีการออกแบบ reinforcement learning บนข้อมูลที่โมเดลสร้างเองเพื่อป้องกันการล่มของพฤติกรรม

ปัญหาการแก้ไขตัวเองที่ SCoRe มุ่งเป้า

LLM มีประโยชน์กับงานใช้เหตุผลอย่างคณิตศาสตร์และการเขียนโค้ด แต่ในช่วงทดสอบยังไม่สามารถทำ meta-strategy ในการทบทวนและแก้คำตอบของตัวเองได้อย่างเสถียร
การแก้ไขตัวเองคือความสามารถของโมเดลในการกลับไปตรวจคำตอบเริ่มต้น แล้วเปลี่ยนเป็นคำตอบสุดท้ายที่ดีกว่า
งานนี้โฟกัสที่การตั้งค่า การแก้ไขตัวเองแบบภายใน ซึ่งโมเดลแก้คำตอบของตัวเองโดยไม่มีอินพุตภายนอก
- ในช่วงทดสอบจะไม่ใช้ตัวตรวจคำตอบหรือฟีดแบ็กภายนอก
- ในช่วงฝึก สมมติว่าสามารถเข้าถึงฟังก์ชันรางวัลที่ประเมินได้ว่าผลลัพธ์ของโมเดลถูกต้องหรือไม่
SCoRe ฝึกให้โมเดลเดียวทำทั้งการตอบครั้งแรกและการแก้ข้อผิดพลาด โดยไม่ต้องมีโมเดลสำหรับแก้ไขแยกต่างหาก

จุดที่แนวทางเดิมติดขัด

หากใช้เพียง prompt เพื่อชวนให้เกิดการแก้ไขตัวเอง งานวิจัยก่อนหน้าหลายชิ้นพบว่าอาจทำให้ประสิทธิภาพแย่ลงด้วยซ้ำ
บางวิธีพึ่งเงื่อนไขเพิ่มเติม เช่น คำตอบที่ถูกต้อง ชุดทดสอบ โมเดลที่เก่งกว่า การทำ annotation โดยมนุษย์ หรือ refinement model แยกต่างหาก
แนวทางที่อิง SFT สามารถใช้เส้นทางการแก้ไขที่โมเดลสร้างเองได้ แต่จากการทดลองยังไม่ให้ผลการแก้ไขตัวเองในระดับสูงอย่างมีนัยสำคัญ
ในการทดลองเปรียบเทียบบน MATH ใช้ตัวแปรของ STaR และ Pair-SFT
- STaR จะเก็บไว้เฉพาะเส้นทางที่แก้คำตอบผิดสำเร็จแล้วนำไปทำ SFT
- Pair-SFT ฝึกโมเดลเดี่ยวด้วย repair trace แบบสังเคราะห์ที่จับคู่คำตอบผิดกับคำตอบถูก

ผลการทดลองการแก้ไขตัวเองแบบอิง SFT

ในการทดลองบน MATH ที่อิง Gemini 1.5 Flash โมเดลตั้งต้นมีความแม่นยำการตอบครั้งแรก 52.6% และความแม่นยำของการลองครั้งที่สอง 41.4% จึงแย่ลง -11.2%p
Pair-SFT เพิ่มความแม่นยำของการลองครั้งที่สองเป็น 54.2% แต่ดีขึ้นจากครั้งแรกเพียง 1.8%p
การตั้งค่าพื้นฐานของ STaR ได้ 55.4% ในครั้งแรก และ 41.2% ในครั้งที่สอง ลดลง -14.2%p
STaR ที่เพิ่มข้อมูล correct-to-correct ทำให้ Δ(t1,t2) ดีขึ้นเป็น 0.4%p แต่ผลของการแก้ไขตัวเองยังเล็กน้อย
Pair-SFT ที่เพิ่มข้อมูล correct-to-correct ทำให้ทั้งครั้งแรกและครั้งที่สองอยู่ที่ 55.0% เท่ากัน สะท้อนแนวโน้มเอียงไปทางไม่เปลี่ยนคำตอบ

โหมดความล้มเหลวสองแบบ

วิธีที่อิง SFT อ่อนแอต่อ distribution mismatch
- ข้อมูลฝึกสอดคล้องกับความผิดพลาดในการตอบครั้งแรกที่โมเดลตั้งต้นสร้างขึ้น
- แต่เมื่อเป็นการกระจายของความผิดพลาดในการตอบครั้งแรกที่สร้างโดยโมเดลที่ฝึกแล้วเอง ประสิทธิภาพการแก้ไขอาจลดลง
Pair-SFT ทำให้ correction accuracy สูงขึ้นเมื่อใช้ชุดคำตอบแรกแบบคงที่ แต่เมื่อให้ผู้เรียนสร้างคำตอบแรกเอง ความแม่นยำในการแก้ไขตัวเองกลับแย่ลง
เมื่อเกิด behavior collapse โมเดลจะไม่ทำการแก้ไขที่มีนัยสำคัญในรอบที่สอง หรือแก้อย่างระมัดระวังมากเกินไป
จากการวิเคราะห์ edit distance ratio พบว่าโมเดล STaR และ SFT มักแสดงรูปแบบที่แทบไม่แก้คำตอบเลย
RL มาตรฐานแบบหลายรอบสามารถเพิ่มประสิทธิภาพของทั้งสองครั้งได้ แต่ไม่สามารถเพิ่มความต่าง Δ(t1,t2) ระหว่างครั้งแรกกับครั้งที่สอง จึงยากจะนำไปสู่ความสามารถในการแก้ไขตัวเอง

โครงสร้างการฝึกของ SCoRe

SCoRe เป็นแนวทาง on-policy multi-turn RL ที่เรียนรู้จากข้อมูลออนไลน์ที่โมเดลสร้างเองเพื่อลดปัญหา distribution mismatch
การฝึก RL พื้นฐานใช้วิธี REINFORCE policy gradient ที่มี KL-divergence penalty เทียบกับโมเดลคงที่
Stage I เป็นขั้นเริ่มต้นเพื่อแยกพฤติกรรมของการลองทั้งสองครั้งออกจากกัน
- การกระจายของการลองครั้งแรกถูกจำกัดด้วย KL เพื่อให้ยังใกล้กับโมเดลตั้งต้น
- การลองครั้งที่สองถูกฝึกให้ได้รับรางวัลสูง
- เป้าหมายคือสร้างนโยบายตั้งต้นที่สามารถสำรวจคำตอบที่ดีกว่าได้ในครั้งที่สอง
Stage II จะปรับให้เหมาะสมทั้งสองครั้งร่วมกัน
- เพิ่ม progress bonus ให้กับรางวัลของการลองครั้งที่สอง
- โบนัสจะมากขึ้นเมื่อการลองครั้งที่สองทำให้ความถูกต้องดีขึ้นจากครั้งแรก
- การเปลี่ยนจากคำตอบแรกที่ถูกให้กลายเป็นผิดจะได้รับผลลบอย่างรุนแรง

เหตุผลที่ต้องมี reward shaping

หากใช้เพียงเป้าหมาย RL มาตรฐาน จะมีอยู่สองกลยุทธ์ที่เป็นไปได้
- กลยุทธ์ที่ทำให้คำตอบที่สองดีขึ้นจากคำตอบแรก
- กลยุทธ์ที่ทำให้คำตอบแรกดีที่สุดเท่าที่ทำได้ แล้วแทบไม่แก้อะไรในคำตอบที่สอง
ในข้อมูลฝึก ทั้งสองกลยุทธ์อาจดูเหมือนดีพอ ๆ กัน แต่แบบหลังจะไม่ generalize ไปเป็นการแก้ไขตัวเองบนโจทย์ใหม่
reward shaping ของ SCoRe สะท้อนทั้งความถูกต้องของคำตอบสุดท้ายและ การเปลี่ยนแปลงของความถูกต้อง เข้าไปในรางวัล
การออกแบบนี้ไม่ได้เพียงเสริมแรงให้ตอบให้ได้รางวัลสูง แต่เสริมแรงพฤติกรรมที่เปลี่ยนคำตอบแรกที่ผิดให้กลายเป็นคำตอบที่สองที่ถูกต้อง

ประสิทธิภาพและตัวอย่าง

SCoRe แสดงตัวอย่างการแก้ข้อผิดพลาดด้านเลขคำนวณและการให้เหตุผลใน MATH ในการลองครั้งที่สอง
- ตัวอย่างด้านเลขคำนวณ แก้คำตอบแรกจาก 1 เป็น 3 ในการคำนวณ modular multiplication
- ตัวอย่างด้านการให้เหตุผล แก้คำตอบแรกจาก ∞ เป็น 3 ในโจทย์นับจำนวนช่วงของฟังก์ชัน
บน Gemini 1.0 Pro และ Gemini 1.5 Flash นั้น SCoRe ทำผลงานด้านการแก้ไขตัวเองได้ในระดับแนวหน้า
เมื่อเทียบกับโมเดล Gemini ตั้งต้น SCoRe ปรับปรุงการแก้ไขตัวเองได้ 15.6%p บน MATH และ 9.1%p บน HumanEval
ในการทดลอง scaling ช่วง inference บน MATH มีช่วงที่การใช้ตัวอย่างไปกับการแก้ไขตัวเองแบบลำดับต่อเนื่องมีประสิทธิภาพกว่าการใช้เพื่อสร้างคำตอบตรงแบบขนานอย่างเดียว

นัยเชิงปฏิบัติ

การฝึกให้แก้ไขตัวเองเป็นสิ่งที่จัดการได้ยากหากใช้เพียงการรวบรวมข้อมูลคำตอบที่ถูกต้องแล้วทำ SFT
หากต้องการให้โมเดลแก้ข้อผิดพลาดที่ตัวเองสร้างขึ้นในช่วงทดสอบ ระหว่างฝึกก็จำเป็นต้องให้มันเรียนรู้พฤติกรรมการแก้ไขจากการกระจายคำตอบของตัวเองด้วย
ข้อจำกัดสำคัญของ SCoRe คือระหว่างฝึกต้องมีฟังก์ชันรางวัลสำหรับประเมินความถูกต้อง แต่ในช่วงทดสอบจะไม่ใช้รางวัลนั้น
หากต้องการคงการ deploy โมเดลเดี่ยวไว้พร้อมเพิ่มความสามารถในการแก้ไขตัวเอง ก็จำเป็นต้องมีการออกแบบ multi-turn RL และรางวัลเพื่อป้องกันการล่มของพฤติกรรม โดยไม่ต้องพึ่งโมเดลแก้ไขแยกหรือ teacher supervision

1 ความคิดเห็น

GN⁺ 2024-09-22

ความคิดเห็นจาก Hacker News

ดูเหมือนเป็นแนวทางที่คล้ายกับ โมเดล o1 ของ OpenAI แต่ไม่มีการอ้างอิง เพราะยังไม่มีการเผยแพร่บทความวิจัยของ o1
น่าเสียดายที่ดูเหมือนจะไม่มีการพูดถึง การเปิดเผยค่าน้ำหนักโมเดล
- งานวิจัยนี้ดูเหมือนจะพูดถึงการใช้ การเรียนรู้แบบเสริมกำลัง เป็นส่วนหนึ่งของการฝึกหลักหรือเป็นขั้นตอนถัดมา แล้วจากนั้นตัวโมเดลก็ทำการอนุมานตามปกติเหมือนเดิม
  o1 อาจจะทำแบบนั้นเช่นกัน แต่ผมคิดว่าความเปลี่ยนแปลงที่ใหญ่กว่าคือ กระบวนการคิดขณะรันไทม์ ที่หลังจากได้รับพรอมต์แล้ว โมเดลจะ “คิด” เป็นคำพูดและปรับตัวใหม่ในช่วงรันไทม์ก่อนจะให้คำตอบสุดท้าย
  ถ้าความเข้าใจนี้ถูกต้อง ทั้งสองแนวทางก็ไม่ได้คล้ายกันนัก เท่าที่ผมรู้ OpenAI ใช้การเรียนรู้แบบเสริมกำลังกับโมเดลรุ่นถัด ๆ มาทั้งหมดตั้งแต่ ChatGPT เวอร์ชันแรกอยู่แล้ว และนี่ก็เป็นเหตุผลตั้งแต่แรกว่าทำไมใน UI ถึงปล่อยให้ส่งฟีดแบ็กได้
- อยากรู้ว่ามันคล้ายกันตรงไหน
บทความวิจัยฉบับนี้ค่อนข้างอธิบายอ้อมไปอ้อมมาแทนที่จะอธิบายข้อเสนอหลักตรง ๆ เลยทำความเข้าใจยากนิดหน่อย เท่าที่ผมเข้าใจ เป้าหมายคือทำให้ LLM ให้คำตอบกับโจทย์ยาก ๆ ได้แม่นยำขึ้น
สมมติฐานหนึ่งคือ เราอาจฝึกให้โมเดลมีพฤติกรรม แก้ไขตนเอง โดยให้รับคำตอบที่ผิดเป็นอินพุต แล้วปรับให้กลายเป็นคำตอบที่ดีกว่าหรือคำตอบที่ถูกต้องได้
ก่อนหน้านี้ก็มีความพยายามฝึกพฤติกรรมแบบนี้ด้วยเทคนิคการเรียนรู้แบบเสริมกำลังหลายแบบ โดยใช้คุณภาพของคำตอบที่แก้แล้วเป็นรางวัล แต่กลับได้ผลไม่ดี และพฤติกรรมที่ฝึกได้ก็ทั่วไปต่อโจทย์ใหม่ได้ไม่ดีนัก
ประเด็นสำคัญของงานวิจัยนี้คือ เมื่อโมเดลได้รับตัวอย่างการฝึกแบบ Answer 1, Reasoning, Corrected Answer พร้อมสัญญาณว่า “ทำให้ Corrected Answer ดีขึ้น” จริง ๆ แล้วมันมีวิธีแก้ที่เป็นไปได้อยู่สองแบบ แบบหนึ่งคือปรับปรุง Reasoning, Corrected Answer ตามที่เราต้องการ และอีกแบบคือแค่ทำให้ Answer 1 ดีขึ้นเองจน Corrected Answer = Answer 1
งานก่อนหน้าดูเหมือนจะเกิดกรณีหลังขึ้นจริง จึงทำให้การเรียนรู้พฤติกรรมที่ต้องการล้มเหลว โมเดลไม่ได้พยายามพัฒนาพฤติกรรมการแก้ไข แต่กลับพยายามทำให้คำตอบแรกดีขึ้นเฉย ๆ
วิธีแก้ของงานนี้คือปรับขั้นตอนการฝึกเล็กน้อยเพื่อชักนำให้เกิดแนวทางแรก กล่าวคือพยายามทำให้โมเดลเรียนรู้พฤติกรรมที่ต้องการ คือการแก้ไขคำตอบก่อนหน้าได้จริง
การฝึกมีสองขั้นตอน ในขั้นแรกจะบังคับให้คำตอบแรกคงเดิมด้วยค่าเสียหาย KL divergence ขณะเดียวกันก็ให้รางวัลเมื่อคำตอบที่สองดีขึ้น วิธีนี้ช่วยคงการกระจายของคำตอบเริ่มต้นไว้ ป้องกันปัญหาที่ภายหลังคำตอบผิดค่อย ๆ หายไปจากโมเดลเพราะถูกลบออกโดยการฝึก จนโมเดลได้เห็น “คำตอบผิด” น้อยลง และยังช่วยตั้งต้น พฤติกรรมการแก้ไขตนเอง ให้กับโมเดลได้
ในขั้นที่สอง โมเดลสามารถเปลี่ยนคำตอบแรกได้ด้วย แต่จะปรับฟังก์ชันรางวัลให้กรณี พลิกผล ที่คำตอบแรกแย่แต่คำตอบที่สองดี ได้รางวัลสูงกว่า ในขั้นนี้จึงใช้ได้ทั้งกลยุทธ์ปรับปรุงคำตอบแรกและกลยุทธ์ปรับปรุงการแก้ไขตนเอง แต่แบบหลังจะได้รางวัลมากกว่า ดูเหมือนเป็นขั้นตอนขัดเกลาเพื่อปรับประสิทธิภาพโดยรวม พร้อมกับรักษาพฤติกรรมการแก้ไขตนเองไว้
ตามตัวชี้วัด วิธีนี้ให้ผลดีกว่าและทั่วไปได้ดีกว่าด้วย
แต่ผมก็ยังแอบกังวลว่าในขั้นที่สอง โมเดลอาจเรียนรู้ที่จะเขียน Answer 1 ให้แย่ลงโดยตั้งใจเพื่อเพิ่มรางวัลจากการพลิกผลให้สูงสุด น่าจะต้องมีกลไกถ่วงดุลบางอย่างเพื่อไม่ให้ Answer 1 แย่ลง แต่ผมก็ไม่แน่ใจว่ามันอยู่ในฟังก์ชันรางวัลหรือไม่ หรือว่านี่เป็นความกังวลที่สมเหตุสมผลจริงไหม
- วิธีตอบแบบวนอยู่รอบ ๆ ไอเดียในคำตอบนั้น อธิบายปรากฏการณ์ที่เห็นใน ผลลัพธ์ของ LLM จำนวนมากได้ดี ผมยังไม่เคยลองใช้ o1 โดยตรง แต่ดูเหมือนมันจะแก้ปัญหานี้ได้
- สงสัยว่าประโยคที่ว่า “อีกแบบคือแค่ทำให้ Answer 1 ดีขึ้นเองจน Corrected Answer = Answer 1” หมายถึงอะไร
  การทำให้ Answer 1 ดีขึ้นไม่ใช่เป้าหมายตั้งแต่แรกอยู่แล้วหรือ? จากคำอธิบาย Answer 1 ฟังดูเหมือนไม่ใช่อินพุต แต่เป็นเอาต์พุตของ LLM มากกว่า
LLM ไม่สามารถจดจำ ประสบการณ์ทางประสาทสัมผัส ของกระบวนการเรียนรู้ของตัวเองได้โดยตรง หนึ่งในวิธีหลักที่ฉันใช้แก้ไขตัวเองคือ เวลาจะพูดถึงอะไรสักอย่าง ฉันจะพิจารณาว่าฉันรู้สิ่งนั้นได้อย่างไร/เพราะอะไร และประเมินว่ารู้จริง กำลังมโนขึ้นมาเอง หรือได้ยินมาจากแหล่งที่ความน่าเชื่อถือต่ำ
ถ้า LLM ไม่สามารถจดจำการเรียนรู้ของตัวเองได้ไม่ว่าด้วยวิธีใดก็ตาม ก็มองว่า การแก้ไขตัวเอง เป็นเรื่องยาก
- งั้นหมายความว่าทางแก้คือใส่คำบรรยายประสบการณ์ทางประสาทสัมผัสไว้หน้าทุก learning batch ใช่ไหม? เช่น “คุณได้อ่านข้อความต่อไปนี้ในคาเฟ่ที่ปารีสปี 1997 ระหว่างอ่าน คุณกำลังกินบาแก็ตชั้นยอด ไข่ต้ม และกาแฟคั่วไหม้เกินไปอยู่ ผู้หญิงที่โต๊ะข้างๆ สวมหมวกสีน้ำเงินสวยงาม” อะไรทำนองนั้น
  แล้วค่อยทำ post-train โมเดลสุดท้ายให้จำได้ว่าอ่านข้อความไหนจากที่ไหน หรือถ้ามีข้อความที่ไม่เคยอ่าน ก็ทำให้มันจำประสบการณ์อะไรไม่ได้เลยอย่างนั้นหรือ?
  ถ้าใครลองทำแบบนี้แล้วสำเร็จ ฉันจะลาออกจากปริญญาเอกแล้วกลับไปเป็นที่ปรึกษาค่ายทันที
- ดูเหมือนจะไปในทิศทางคล้ายกัน และช่วยได้จริง: Source-Aware Training Enables Knowledge Attribution in Language Models (https://arxiv.org/abs/2404.01019)
  ตามบทคัดย่อ งานนี้สำรวจ การฝึกให้รับรู้แหล่งที่มา เพื่อมอบความสามารถแบบนั้นให้ LLM โดยเฉพาะคือ (i) ฝึก LLM ให้เชื่อมโยงองค์ความรู้ของแต่ละเอกสารเข้ากับตัวระบุเอกสารต้นทางที่ไม่ซ้ำกัน และจากนั้น (ii) ทำ instruction tuning ให้เมื่อได้รับพรอมป์ต์แล้วสามารถอ้างอิงแหล่ง pretraining ที่ใช้สนับสนุนได้
- ไม่ค่อยเห็นด้วยอย่างแรง: https://mypapers.nyc3.cdn.digitaloceanspaces.com/the_phenomenology_of_machine.pdf
  อันนี้ก็น่าอ่านเช่นกัน: https://www.sciencedirect.com/science/article/pii/S1571064523001094
  วิธีฝึกของ o1 ถูกอธิบายว่าเป็นโมเดล strange particle ภายใต้การจัดรูปแบบนี้
- รู้สึกว่ามันให้น้ำหนักกับคุณค่าของสิ่งนี้ในการใช้งานประจำวันมากเกินไป เมื่อความรู้สั่งสมมากขึ้น โดยเฉพาะข้อมูลจิปาถะที่ไม่ได้ฝังอยู่ในระบบใดระบบหนึ่ง ก็มักเกิดรูปแบบประมาณว่า “ไม่รู้ว่าทำไมถึงรู้เรื่องนี้ แต่คำตอบคือ X”
  ต่อให้เป็นความรู้ที่อยู่ในระบบอย่างวิทยาการคอมพิวเตอร์ เมื่อเวลาผ่านไปประสบการณ์ทางประสาทสัมผัสก็เลือนหายไปอยู่ฉากหลัง เช่นเดียวกับคนทำคอมพิวเตอร์หลายคน ฉันก็สามารถบอก คุณลักษณะด้านประสิทธิภาพ O() ของอัลกอริทึมจำนวนมากได้ทันที แต่จำไม่ได้แล้วว่าเรียนอัลกอริทึมใดมาจากที่ไหน
  เวลามนุษย์แก้ไขตัวเอง กระบวนการทั่วไปไม่ใช่งานยิ่งใหญ่อะไรอย่าง “ประเมินว่าฉันรู้สิ่งนี้ไหม” หรือ “นึกว่าเคยได้ยินมาจากแหล่งที่ไม่น่าเชื่อถือหรือเปล่า” ปกติแล้วมันคือความรู้สึกเลือนๆ ว่า “ฉันยังเข้าใจไม่หมด” และการแก้ไขตัวเองก็คือกลับไปตรวจข้อมูลกับแหล่งที่เชื่อถือได้
  เพราะงั้นฉันไม่คิดว่าประสบการณ์ทางประสาทสัมผัสจะสำคัญต่อการดึงความทรงจำขึ้นมามากอย่างที่คิด
- ถ้าไม่ได้อยู่ภายใต้อิทธิพลของยา หรือกำลังเผชิญวิกฤตสุขภาพจิตขั้นรุนแรง มันก็ใกล้เคียงกับ การแต่งเรื่องเติมช่องว่าง มากกว่าการหลอน
สปอยเลอร์: ภายใต้กรอบ การทำนายโทเคนถัดไปแบบอัตถถอย จะกำจัดการหลอนไม่ได้ หรือที่เรียกกันว่า LeCun's law
ปัญหาตรงนี้คือผู้คนพยายามใช้ language model เป็นตัวแก้ปัญหาแบบกำหนดแน่นอน ทั้งที่สิ่งที่มันทำได้ดีจริงคือการสร้างข้อความกึ่งสร้างสรรค์
- มีสิ่งที่เรียกว่า LeCun's law อยู่จริงหรือ? ค้นหาแล้วแทบไม่เจออะไรเลย นอกจากคอมเมนต์ HN ที่ใช้คำนิยามอื่น อาจเป็นคำจากงานวิจัยที่ไม่เป็นที่รู้จักมากนักก็ได้ แต่เอกสารประกอบน้อยขนาดนี้แล้วหยิบมาใช้ในบริบทนี้ดูแปลกๆ
- สงสัยว่ามีใครเคยลองเอา perplexity ของโทเคนก่อนหน้าใส่กลับเข้าไปในโมเดล เพื่อให้โมเดลรู้ว่าตัวเองกำลังหลุดออกนอกลู่นอกทางหรือไม่
  ถ้าทำแบบนั้น อาจฝึกให้มันตอบอย่างไม่มั่นใจนักมากขึ้น และลดแนวโน้มที่จะหลอนได้
- ดีใจที่มีมุมมองนี้ออกมา
  ฉันมักอธิบายให้คนอื่นฟังแบบนี้ ลองจินตนาการถึงบริษัทที่มีแต่ฝ่ายประชาสัมพันธ์สิ มันเก่งมากในการทำข่าวประชาสัมพันธ์และตอบคำถามนักข่าว แต่เพราะไม่มีส่วนอื่นของบริษัทอยู่เลย ก็ไม่มีอะไรคอยจำกัดความหมายของข้อความที่ปล่อยออกมา
  ถ้าผู้คนเข้าใจเรื่องนี้ในอีกจักรวาลหนึ่ง LLM ก็คงไม่ถูกใช้กับเรื่องจริงจังเลย และคงถูกใช้กับโปรเจ็กต์ศิลปะสนุกๆ ชิ้นเล็กๆ มากกว่า
- ข้อโต้แย้งของ LeCun มีข้อบกพร่องร้ายแรง มันไม่ rigorous เลย และไม่ควรสรุปผลกว้างขนาดนั้นโดยไม่มีหลักฐานรองรับ
- คำว่า “ไม่มีวัน” เองไม่ใช่ปัญหา มนุษย์ก็มีพฤติกรรมคล้ายกัน
  ฟิวชันนิวเคลียร์ แค่แก้ให้สำเร็จถูกต้องสักครั้งก็พอ
นี่โดยพื้นฐานแล้วคือ การกลั่นความรู้ รูปแบบหนึ่งใช่ไหม?
ไม่ชอบที่นักวิจารณ์ AI ทำให้คำว่า ภาพหลอน กลายเป็นคำที่คนทั่วไปใช้กันแพร่หลาย มันเป็นการทำให้ก้อนสถิติดูมีความเป็นมนุษย์ ราวกับว่ามีกระบวนการคิดลึกซึ้งคล้ายจิตใจของคน
ไม่ใช่เลย มันไม่ได้ “ภาพหลอน” มันไม่ได้โกหกหรือแต่งเรื่องขึ้นมา มันแค่พ่นข้อมูลออกมาตามที่ underlying weights กระตุ้นมันเท่านั้น
ถ้านี่เป็น JSON API endpoint ทั่วไป คนคงไม่บอกว่า API กำลังภาพหลอน แต่จะบอกว่ามันพัง และ “API นี้ห่วย” มากกว่า
- ผมมองกลับกัน ผู้คนคิดว่าจิตใจมนุษย์มี “การคิดลึกซึ้ง” แต่จริง ๆ แล้วมันอาจเป็นแค่ ก้อนสถิติ ก็ได้
- คำที่แม่นกว่าคือ การกุเรื่องเติมช่องว่าง เป็นปรากฏการณ์ที่เติมข้อมูลที่ขาดหายไป แต่ตัวมันเองอาจไม่รู้ว่ากำลังทำแบบนั้นอยู่
  ระบบประสาทใด ๆ ก็ไม่สามารถเก็บข้อมูลการเรียนรู้ไว้ได้อย่างสมบูรณ์แบบ ดังนั้นพวกเราทุกคนล้วนกุเรื่องเติมช่องว่างกันในระดับหนึ่ง
  ในทางกลับกัน “ภาพหลอน” ของมนุษย์ใกล้เคียงกับการพังทลายแบบเฉพาะจุดของวงจรป้อนกลับทางประสาทสัมผัส แต่ LLM ไม่มีขั้นตอนแบบนั้นตั้งแต่แรก
  ภาพหลอนเกิดขึ้นเมื่อวงจรป้อนกลับทางประสาทสัมผัสภายในมีอิทธิพลเหนือข้อมูลรับสัมผัสจริง จนเกิดและถูกประมวลผลเป็นประสบการณ์รับสัมผัสหรือกระแสสัญญาณปลอม โดยประสบการณ์ปลอมที่ดำเนินอยู่นั้นอาจมีข้อมูลรับสัมผัสจริงปะปนอยู่บ้างหรือไม่มีก็ได้
  ตอนที่เราฝัน เราก็กำลังภาพหลอนอยู่ วงจรของประสบการณ์รับสัมผัสที่แยกจากประสาทสัมผัสจริงกำลังหมุนไปอย่างอิสระ แต่ก็มีจุดประสงค์เชิงประโยชน์ของมัน
  เหตุผลที่การรับสัมผัสมีป้อนกลับ ก็เพื่อใช้การตีความข้อมูลรับสัมผัสเป็นเบาะแส ทำให้ตีความข้อมูลในชั่วขณะถัดไปได้ง่ายขึ้น แต่ถ้าข้อมูลใหม่เบี่ยงไปจากที่คาดมาก ก็สำคัญที่จะต้องรีเซ็ตการตีความที่กำลังดำเนินอยู่และตั้งทิศทางใหม่อย่างรวดเร็ว
  เพื่อแก้การตีความที่ผิดให้สอดคล้องกับการเปลี่ยนแปลงของบริบทจริง ไม่เพียงสำคัญที่จะต้องย้อนกลับไปตีความจากข้อมูลดิบเท่านั้น แต่การรีเซ็ตแบบนี้ยังเป็นสัญญาณด้วยว่ามีบางอย่างใหม่หรือไม่คาดคิดเกิดขึ้น จึงมีโอกาสสูงที่จะกระตุ้นการเรียนรู้
  เพราะงั้นการเลือกใช้คำว่า “ภาพหลอน” จึงเป็นเรื่องที่ไม่เหมาะและก่อให้เกิดความเข้าใจผิด
- ข่าวร้ายคือ คำนี้ถูกใช้ในงานวิจัยดีปเลิร์นนิงมาตั้งนานก่อน LLM จะเกิดขึ้นแล้ว ไม่ใช่ว่านักวิจารณ์พยายามทำให้คำนี้แพร่หลายหรือพยายามทำให้ข้อเสียของ LLM ดูสมเหตุสมผล แต่มันคือชื่อที่นักวิจัยตั้งให้กับปรากฏการณ์ที่พวกเขาศึกษาอยู่
  ตัวอย่างงานก่อนยุค LLM ที่ใช้คำนี้ในความหมายดังกล่าวมีดังนี้
  2021: The Curious Case of Hallucinations in Neural Machine Translation (https://arxiv.org/abs/2104.06683)
  2019: Identifying Fluently Inadequate Output in Neural and Statistical Machine Translation (https://aclanthology.org/W19-6623/)
ต่อให้ใช้อัลกอริทึมที่ดูฉลาดมาชี้นำตัวทำนายคำถัดไปที่โง่และไร้ปัญญา สุดท้ายมันก็ยังเป็นแค่ อัลกอริทึมไร้ปัญญา อยู่ดี
จริงอยู่ว่ามันจัดแยกขยะได้อย่างสง่างามขึ้น แต่สุดท้ายมันก็ยังเป็นขยะเหมือนเดิม
เคยหวังว่าแนวทางคล้ายการเรียนรู้แบบเสริมกำลังจะมาแทนแนวทางคล้าย Transformer แต่ดูจะเป็นความฝันลม ๆ แล้ง ๆ มากกว่า

ฝึกความสามารถในการแก้ไขคำตอบของตัวเองของโมเดลภาษา ด้วยการเรียนรู้แบบเสริมกำลัง

ปัญหาการแก้ไขตัวเองที่ SCoRe มุ่งเป้า

จุดที่แนวทางเดิมติดขัด

ผลการทดลองการแก้ไขตัวเองแบบอิง SFT

โหมดความล้มเหลวสองแบบ

โครงสร้างการฝึกของ SCoRe

เหตุผลที่ต้องมี reward shaping

ประสิทธิภาพและตัวอย่าง

นัยเชิงปฏิบัติ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News