2 คะแนน โดย GN⁺ 2024-09-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การเรียนรู้แบบเสริมกำลังสำหรับการฝึกให้โมเดลภาษาแก้ไขคำตอบของตนเอง

  • ความจำเป็นของการแก้ไขตนเอง

    • ความสามารถในการแก้ไขคำตอบของตนเองของโมเดลภาษาขนาดใหญ่ (LLM) เป็นสิ่งที่พึงประสงค์อย่างมาก แต่ยังไม่มีประสิทธิภาพใน LLM ยุคปัจจุบัน
    • วิธีการฝึกการแก้ไขตนเองแบบเดิมต้องใช้หลายโมเดล หรือไม่ก็ต้องใช้โมเดลที่มีความสามารถสูงกว่า หรือการกำกับดูแลในรูปแบบอื่น
  • แนวทาง SCoRe

    • SCoRe เป็นแนวทางการเรียนรู้แบบเสริมกำลัง (RL) ออนไลน์แบบหลายเทิร์น ที่ใช้ข้อมูลซึ่งสร้างขึ้นเองทั้งหมด เพื่อยกระดับความสามารถในการแก้ไขคำตอบของตนเองของ LLM อย่างมาก
    • เพื่อสร้าง SCoRe ผู้วิจัยแสดงให้เห็นว่า supervised fine-tuning (SFT) แบบดัดแปลงบนร่องรอยการแก้ไขที่โมเดลสร้างขึ้นแบบออฟไลน์นั้น ไม่เพียงพอสำหรับการปลูกฝังพฤติกรรมการแก้ไขตนเอง
    • การฝึกผ่าน SFT ประสบปัญหาจากความไม่สอดคล้องกันของการกระจายระหว่างข้อมูลฝึกกับคำตอบที่โมเดลสร้างขึ้นเอง หรือไม่ก็เอนเอียงไปชอบโหมดพฤติกรรมการแก้ไขบางแบบเท่านั้น จึงไม่มีประสิทธิภาพเมื่อทดสอบจริง
  • วิธีแก้ของ SCoRe

    • ปรับกระบวนการเรียนรู้ให้ฝึกภายใต้การกระจายของร่องรอยการแก้ไขที่โมเดลสร้างขึ้นเอง และใช้ regularization ที่เหมาะสม เพื่อให้เรียนรู้กลยุทธ์การแก้ไขตนเองที่ใช้ได้ผลจริงในช่วงทดสอบ
    • รันขั้นตอน RL แรกเพื่อสร้างการเริ่มต้นนโยบาย และใช้ reward bonus เพื่อขยายการแก้ไขตนเองระหว่างการฝึก
  • ผลลัพธ์ด้านประสิทธิภาพ

    • เมื่อนำไปใช้กับโมเดล Gemini 1.0 Pro และ 1.5 Flash, SCoRe สามารถเพิ่มประสิทธิภาพการแก้ไขตนเองได้ 15.6% และ 9.1% ตามลำดับ บนเบนช์มาร์ก MATH และ HumanEval

สรุปโดย GN⁺

  • งานวิจัยนี้เสนอวิธีเพิ่มความสามารถในการแก้ไขคำตอบของตนเองของโมเดลภาษาขนาดใหญ่ได้อย่างมากด้วยการเรียนรู้แบบเสริมกำลัง
  • แนวทาง SCoRe ใช้ข้อมูลที่สร้างขึ้นเองเพื่อแก้ปัญหาความไม่สอดคล้องของการกระจายของโมเดล และทำให้โมเดลเรียนรู้กลยุทธ์การแก้ไขที่มีประสิทธิภาพเมื่อทดสอบจริง
  • งานวิจัยนี้แสดงให้เห็นการปรับปรุงประสิทธิภาพที่โดดเด่น โดยเฉพาะในโมเดล Gemini
  • ความสามารถในการแก้ไขตนเองเป็นองค์ประกอบสำคัญในการเพิ่มความน่าเชื่อถือและความแม่นยำของโมเดลภาษา
  • โครงการที่มีความสามารถคล้ายกันมี เช่น ซีรีส์ GPT ของ OpenAI

1 ความคิดเห็น

 
GN⁺ 2024-09-22
ความเห็นจาก Hacker News
  • เป็นแนวทางที่คล้ายกับโมเดล o1 ของ OpenAI

    • ในบทความไม่มีการกล่าวถึงการเปิดเผย weights
    • บทความอธิบายแบบอ้อมไปอ้อมมามากกว่าจะอธิบายประเด็นตรง ๆ จึงทำให้เข้าใจได้ยาก
    • มีแนวคิดที่จะฝึกพฤติกรรม "การแก้ไขตัวเอง" เพื่อเพิ่มอัตราคำตอบที่ถูกต้องของ LLM สำหรับปัญหาที่ยาก
    • พยายามฝึกพฤติกรรมนี้ด้วยเทคนิค reinforcement learning หลายแบบ แต่ทำงานได้ไม่ดีนัก
    • ข้ออ้างของบทความคือ เมื่อโมเดลได้รับ Answer 1, Reasoning, Corrected Answer และสัญญาณว่า "ปรับปรุง Corrected Answer" จะมีอยู่ 2 วิธี
      • ปรับปรุง Reasoning, Corrected Answer
      • ปรับปรุง Answer 1 เพื่อให้ Corrected Answer กลายเป็นแบบเดียวกับ Answer 1
    • งานวิจัยก่อนหน้านี้แสดงให้เห็นว่าวิธีหลังเกิดขึ้นเป็นหลัก จึงล้มเหลวในการฝึกพฤติกรรมที่ต้องการ
    • บทความนี้ปรับวิธีฝึกเล็กน้อยเพื่อชักนำให้โมเดลใช้วิธีแรก
    • ในขั้นแรก ใช้ค่าเสียหาย KL divergence เพื่อบังคับให้โมเดลคงคำตอบแรกไว้พร้อมกับปรับปรุงคำตอบที่สอง
    • ในขั้นที่สอง สามารถเปลี่ยนคำตอบแรกได้ แต่มีการปรับ reward function ให้ให้รางวัลสูงกว่าสำหรับ "flips"
    • วิธีนี้ช่วยปรับปรุงโมเดลโดยรวม ขณะเดียวกันก็รักษาพฤติกรรมการแก้ไขตัวเองไว้ได้
    • มีความกังวลว่าในขั้นที่ 2 โมเดลอาจเขียนคำตอบแรกให้แย่ลงเพื่อเพิ่มรางวัลสูงสุด
  • LLM ไม่มีความทรงจำโดยตรงเกี่ยวกับการฝึกของตัวเอง

    • มนุษย์จะตรวจสอบก่อนว่าตนรู้สิ่งนั้นได้อย่างไร/ทำไม ก่อนจะพูดในสิ่งที่รู้
    • LLM จำการฝึกไม่ได้ จึงทำให้การแก้ไขตัวเองเป็นเรื่องยาก
  • มีคำถามว่านี่ถือเป็นรูปแบบหนึ่งของ knowledge distillation หรือไม่

  • มีความเห็นว่าในพาราไดม์แบบ autoregressive, next-token prediction นั้น ไม่สามารถกำจัดอาการหลอนได้

    • ปัญหาคือการพยายามใช้ language model เป็นตัวแก้ปัญหาเชิงกำหนดแน่นอน
  • มีความไม่พอใจที่ผู้เชี่ยวชาญ AI ทำให้แนวคิดเรื่อง "อาการหลอน" กลายเป็นคำที่แพร่หลาย

    • ทำให้ดูราวกับว่า AI มีกระบวนการคิดเชิงลึก
    • AI ก็แค่สร้างผลลัพธ์จากข้อมูลเท่านั้น
    • ถ้า JSON API endpoint ส่งข้อมูลผิดออกมา เราก็คงจะพูดว่า "API นี้พังแล้ว"
  • แม้อัลกอริทึมที่ดูฉลาดจะคอยชี้นำตัวทำนายคำถัดไปที่ไม่ฉลาด มันก็ยังเป็นอัลกอริทึมที่ไม่ฉลาดอยู่ดี

    • มันแค่คัดแยกขยะได้อย่างสวยงามขึ้น แต่ก็ยังเป็นขยะอยู่ดี
    • เคยหวังว่าแนวทาง reinforcement learning จะมาแทนแนวทาง transformer แต่สุดท้ายก็เป็นได้แค่ความฝัน