การเรียนรู้แบบเสริมกำลังสำหรับการฝึกให้โมเดลภาษาแก้ไขคำตอบของตนเอง
-
ความจำเป็นของการแก้ไขตนเอง
- ความสามารถในการแก้ไขคำตอบของตนเองของโมเดลภาษาขนาดใหญ่ (LLM) เป็นสิ่งที่พึงประสงค์อย่างมาก แต่ยังไม่มีประสิทธิภาพใน LLM ยุคปัจจุบัน
- วิธีการฝึกการแก้ไขตนเองแบบเดิมต้องใช้หลายโมเดล หรือไม่ก็ต้องใช้โมเดลที่มีความสามารถสูงกว่า หรือการกำกับดูแลในรูปแบบอื่น
-
แนวทาง SCoRe
- SCoRe เป็นแนวทางการเรียนรู้แบบเสริมกำลัง (RL) ออนไลน์แบบหลายเทิร์น ที่ใช้ข้อมูลซึ่งสร้างขึ้นเองทั้งหมด เพื่อยกระดับความสามารถในการแก้ไขคำตอบของตนเองของ LLM อย่างมาก
- เพื่อสร้าง SCoRe ผู้วิจัยแสดงให้เห็นว่า supervised fine-tuning (SFT) แบบดัดแปลงบนร่องรอยการแก้ไขที่โมเดลสร้างขึ้นแบบออฟไลน์นั้น ไม่เพียงพอสำหรับการปลูกฝังพฤติกรรมการแก้ไขตนเอง
- การฝึกผ่าน SFT ประสบปัญหาจากความไม่สอดคล้องกันของการกระจายระหว่างข้อมูลฝึกกับคำตอบที่โมเดลสร้างขึ้นเอง หรือไม่ก็เอนเอียงไปชอบโหมดพฤติกรรมการแก้ไขบางแบบเท่านั้น จึงไม่มีประสิทธิภาพเมื่อทดสอบจริง
-
วิธีแก้ของ SCoRe
- ปรับกระบวนการเรียนรู้ให้ฝึกภายใต้การกระจายของร่องรอยการแก้ไขที่โมเดลสร้างขึ้นเอง และใช้ regularization ที่เหมาะสม เพื่อให้เรียนรู้กลยุทธ์การแก้ไขตนเองที่ใช้ได้ผลจริงในช่วงทดสอบ
- รันขั้นตอน RL แรกเพื่อสร้างการเริ่มต้นนโยบาย และใช้ reward bonus เพื่อขยายการแก้ไขตนเองระหว่างการฝึก
-
ผลลัพธ์ด้านประสิทธิภาพ
- เมื่อนำไปใช้กับโมเดล Gemini 1.0 Pro และ 1.5 Flash, SCoRe สามารถเพิ่มประสิทธิภาพการแก้ไขตนเองได้ 15.6% และ 9.1% ตามลำดับ บนเบนช์มาร์ก MATH และ HumanEval
สรุปโดย GN⁺
- งานวิจัยนี้เสนอวิธีเพิ่มความสามารถในการแก้ไขคำตอบของตนเองของโมเดลภาษาขนาดใหญ่ได้อย่างมากด้วยการเรียนรู้แบบเสริมกำลัง
- แนวทาง SCoRe ใช้ข้อมูลที่สร้างขึ้นเองเพื่อแก้ปัญหาความไม่สอดคล้องของการกระจายของโมเดล และทำให้โมเดลเรียนรู้กลยุทธ์การแก้ไขที่มีประสิทธิภาพเมื่อทดสอบจริง
- งานวิจัยนี้แสดงให้เห็นการปรับปรุงประสิทธิภาพที่โดดเด่น โดยเฉพาะในโมเดล Gemini
- ความสามารถในการแก้ไขตนเองเป็นองค์ประกอบสำคัญในการเพิ่มความน่าเชื่อถือและความแม่นยำของโมเดลภาษา
- โครงการที่มีความสามารถคล้ายกันมี เช่น ซีรีส์ GPT ของ OpenAI
1 ความคิดเห็น
ความเห็นจาก Hacker News
เป็นแนวทางที่คล้ายกับโมเดล o1 ของ OpenAI
Answer 1, Reasoning, Corrected Answerและสัญญาณว่า "ปรับปรุง Corrected Answer" จะมีอยู่ 2 วิธีReasoning, Corrected AnswerAnswer 1เพื่อให้Corrected Answerกลายเป็นแบบเดียวกับAnswer 1LLM ไม่มีความทรงจำโดยตรงเกี่ยวกับการฝึกของตัวเอง
มีคำถามว่านี่ถือเป็นรูปแบบหนึ่งของ knowledge distillation หรือไม่
มีความเห็นว่าในพาราไดม์แบบ autoregressive, next-token prediction นั้น ไม่สามารถกำจัดอาการหลอนได้
มีความไม่พอใจที่ผู้เชี่ยวชาญ AI ทำให้แนวคิดเรื่อง "อาการหลอน" กลายเป็นคำที่แพร่หลาย
แม้อัลกอริทึมที่ดูฉลาดจะคอยชี้นำตัวทำนายคำถัดไปที่ไม่ฉลาด มันก็ยังเป็นอัลกอริทึมที่ไม่ฉลาดอยู่ดี