2 คะแนน โดย GN⁺ 2023-09-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • บทความนี้พูดถึงรูปแบบการเรียนรู้ที่ผิดปกติซึ่งสังเกตได้ระหว่างกระบวนการ fine-tuning ของ Large Language Models (LLMs) โดยโมเดลเหล่านี้ดูเหมือนจะเรียนรู้จากตัวอย่างเพียงตัวอย่างเดียวได้อย่างมีประสิทธิภาพ
  • ผลการสังเกตนี้ขัดกับความเข้าใจทั่วไปเกี่ยวกับประสิทธิภาพการใช้ตัวอย่างของโครงข่ายประสาทเทียม ซึ่งโดยปกติหมายความว่าต้องใช้หลายตัวอย่างเพื่อให้เรียนรู้ได้อย่างมีประสิทธิภาพ
  • ผู้เขียนได้ทำการทดลองหลายชุดเพื่อตรวจสอบปรากฏการณ์นี้ และผลลัพธ์สนับสนุนสมมติฐานที่ว่า LLMs สามารถจดจำอินพุตได้อย่างรวดเร็ว
  • กระบวนการเรียนรู้ของโครงข่ายประสาทเทียมประกอบด้วยการแสดงตัวอย่างของอินพุตและเอาต์พุต และฝึกให้โมเดลทำนายเอาต์พุตจากอินพุต กระบวนการนี้จะถูกทำซ้ำหลายครั้ง (epoch) เพื่อให้โมเดลเรียนรู้ได้อย่างมีประสิทธิภาพ
  • ผู้เขียนสังเกตเห็นว่าค่า loss ลดลงอย่างรวดเร็วในตอนท้ายของแต่ละ epoch ระหว่างการฝึกโมเดลสำหรับการแข่งขันบน Kaggle ซึ่งถือว่าผิดปกติและในตอนแรกสงสัยว่าเป็นบั๊ก
  • ผู้เขียนและนักพัฒนาคนอื่น ๆ ในชุมชนพบรูปแบบคล้ายกันแม้จะใช้ training loop และวิธีการที่ต่างกัน ซึ่งบ่งชี้ว่านี่ไม่ใช่บั๊ก แต่เป็นลักษณะเฉพาะของการ fine-tuning LLM
  • สมมติฐานคือเส้นโค้งการฝึกเหล่านี้กำลังแสดงอาการ overfitting ซึ่งหมายความว่าโมเดลกำลังเรียนรู้ที่จะจดจำอินพุตจากตัวอย่างเพียงหนึ่งหรือสองตัวอย่างเท่านั้น
  • ผู้เขียนได้ทดลองโดยใช้ตารางอัตราการเรียนรู้ที่ต่างกัน และสังเกตว่าโมเดลเรียนรู้ที่จะจดจำตัวอย่างได้อย่างรวดเร็วแม้จะเห็นเพียงครั้งเดียว
  • ผู้เขียนเสนอว่า Large Language Models ที่ผ่านการ pre-train แล้วอาจมีพื้นผิว loss ที่ราบเรียบมากในบริเวณใกล้ค่าความสูญเสียต่ำสุด ซึ่งทำให้พวกมันเรียนรู้จากตัวอย่างเพียงตัวอย่างเดียวได้อย่างรวดเร็ว
  • การเรียนรู้ที่รวดเร็วเช่นนี้อาจท้าทายวิธีการฝึกแบบดั้งเดิม และอาจทำให้ปัญหา catastrophic forgetting รุนแรงขึ้น เมื่อมีการนำข้อมูลใหม่เข้ามาแล้วโมเดลลืมสิ่งที่เคยเรียนรู้ก่อนหน้า
  • ผู้เขียนเสนอแนวทางบรรเทาที่เป็นไปได้ เช่น เพิ่มการใช้เทคนิคอย่าง dropout หรือ stochastic depth หรือใช้การผสมชุดข้อมูลที่หลากหลายระหว่างกระบวนการฝึก
  • ผู้เขียนเสนอให้มีการวิจัยเพิ่มเติมและสมมติฐานทางเลือก เพื่อทำความเข้าใจปรากฏการณ์นี้และผลกระทบของมันต่อการฝึกและการใช้งาน LLMs ให้ดียิ่งขึ้น

1 ความคิดเห็น

 
GN⁺ 2023-09-07
ความเห็นจาก Hacker News
  • การอภิปรายเกี่ยวกับบทความว่าด้วยความสามารถอันน่าทึ่งของโมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) ในการจดจำได้อย่างรวดเร็วจากตัวอย่างเพียงตัวอย่างเดียว
  • หนึ่งในผู้เขียนโพสต์กล่าวว่า จากการทำงานกับโครงข่ายประสาทเทียมมาเป็นเวลา 30 ปี เขาพบว่าพฤติกรรมนี้น่าประหลาดใจที่สุด
  • ผู้อ่านบางส่วนโต้แย้งว่าคำว่า "ความมั่นใจเกินไป" ที่ใช้ในบทความอาจชวนให้เข้าใจผิด และคำว่า "overfitting" หรือ "ยังไม่ถูกกำหนดแน่ชัด" น่าจะถูกต้องกว่า
  • เมื่อพิจารณาว่าโมเดลเชิงกำเนิดมีพารามิเตอร์นับหมื่นล้านตัว ปรากฏการณ์ที่ LLMs เรียนรู้ได้อย่างรวดเร็วจากตัวอย่างเดียวจึงไม่ได้น่าประหลาดใจนักในมุมมองของแมชชีนเลิร์นนิง (Machine Learning, ML) ทั่วไป
  • มีการอภิปรายถึงนัยของการที่ LLMs ส่วนใหญ่ถูกฝึกด้วย epoch เดียวเท่านั้น พร้อมยกประเด็นเรื่อง overfitting ขึ้นมา
  • ผู้ใช้รายหนึ่งแบ่งปันประสบการณ์ส่วนตัวกับ ChatGPT โดยเน้นว่าการที่ LLM ให้ข้อมูลอ้างอิงสำหรับคำถามที่มันไม่ได้ถูกฝึกมาโดยตรงนั้นช่วยให้แก้ปัญหาได้
  • ผู้อ่านบางส่วนตั้งข้อสงสัยว่า LLMs ถูกใช้เพื่อเสริมชุดข้อมูลฝึกของตัวเองหรือไม่ พร้อมเสนอแนวคิดการเพิ่มอินพุตแบบ "ฝัน" หรือข้อมูลสังเคราะห์เข้าไปในข้อมูลฝึก
  • มีการถกเถียงเกี่ยวกับชื่อบทความ โดยบางคนเชื่อว่าการเรียนรู้จากตัวอย่างเดียวเป็นสิ่งที่พึงประสงค์ แต่การจดจำนั้นไม่ใช่ จึงมองว่าชื่อนี้ชวนให้เข้าใจผิด
  • ผู้ใช้บางรายเล่าว่าเคยพบกราฟ loss ลักษณะคล้ายกันระหว่างการฝึก Vision Transformers (ViTs) และเสนอว่านี่อาจเป็นลักษณะเฉพาะของโมเดลที่อิง Transformer
  • สำหรับผู้ที่สนใจหัวข้อนี้ มีการแนะนำงานที่เกี่ยวข้องอื่น ๆ เช่น "Mass-Editing Memory in a Transformer" และ "Locating and Editing Factual Associations in GPT"
  • หากข้อค้นพบของบทความนี้เป็นจริง ก็อาจสนับสนุนแนวคิดที่ว่าชุดข้อมูลขนาดเล็กที่มนุษย์คัดดูแลมีคุณค่ามากกว่าชุดข้อมูลสังเคราะห์ที่สร้างโดย LLMs