1 คะแนน โดย GN⁺ 2024-05-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การฝึกโมเดลภาษาใหญ่ที่ดีกว่าโดยใช้การคาดการณ์หลายโทเค็น

  • โมเดลภาษาแบบขนาดใหญ่เช่น GPT และ Llama ถูกฝึกด้วยการสูญเสียจากการคาดการณ์โทเค็นถัดไป
  • งานวิจัยนี้เสนอว่า การฝึกโมเดลภาษาให้คาดการณ์โทเค็นในอนาคตหลายตัวพร้อมกันจะทำให้ประสิทธิภาพการใช้ตัวอย่างดีขึ้น
  • โดยเฉพาะที่แต่ละตำแหน่งของคอร์ปัสการฝึก ใช้หัวผลลัพธ์ที่เป็นอิสระจำนวน n ตัวที่ทำงานบน shared model trunk ร่วมกันในการคาดการณ์โทเค็นถัดไป n ตัว
  • โดยพิจารณาการคาดการณ์หลายโทเค็นเป็นงานเสริม พบว่าความสามารถงานย่อยดีขึ้นทั้งในโมเดลโค้ดและโมเดลภาษาธรรมชาติ โดยไม่มี overhead เพิ่มในเวลาเรียนรู้

โมเดลที่ใหญ่ขึ้นยิ่งมีประสิทธิภาพมากขึ้นและยังน่าสนใจแม้ฝึกหลาย epoch

  • วิธีนี้มีประสิทธิผลมากขึ้นเมื่อโมเดลมีขนาดใหญ่ และยังคงข้อได้เปรียบเมื่อฝึกหลาย epoch
  • โดยเฉพาะใน benchmark การสร้าง เช่น งานโค้ด ข้อดีที่ได้ชัดเจนขึ้น และโมเดลนี้มักทำได้เหนือ baseline ที่แข็งแกร่งกว่าอยู่เสมอหลายเปอร์เซ็นต์พอยต์
  • โมเดลขนาด 13B พารามิเตอร์แก้ปัญหาได้เพิ่มขึ้น 12% ใน HumanEval และ 17% ใน MBPP

มีประโยชน์ต่อการพัฒนา induction head และความสามารถในการอนุมานเชิงอัลกอริทึม

  • การทดลองกับงานอัลกอริทึมขนาดเล็กแสดงว่าการคาดการณ์หลายโทเค็นช่วยเพิ่มศักยภาพในการพัฒนา induction head และความสามารถในการอนุมานเชิงอัลกอริทึม
  • ข้อดีเพิ่มเติมคือ โมเดลที่ฝึกด้วยการคาดการณ์ 4 โทเค็นมีความเร็วในการอนุมานสูงสุดเร็วขึ้นถึง 3 เท่า แม้ใช้ batch size ใหญ่

ความคิดเห็น GN⁺

  • เป็นงานวิจัยที่น่าสนใจที่เสนอวิธีการฝึกใหม่เพื่อยกระดับประสิทธิภาพของโมเดลภาษา โดยเฉพาะอย่างยิ่งที่สังเกตได้ชัดว่าประสิทธิภาพเพิ่มขึ้นชัดเจนขึ้นเมื่อเป็นโมเดลขนาดใหญ่
  • ควรมีการทดลองเพิ่มเติมว่าการคาดการณ์หลายโทเค็นส่งผลต่อการเรียนรู้ความสัมพันธ์ระยะยาวอย่างไร ตัวอย่างเช่น การแก้ปัญหาการอ้างอิงข้ามประโยคซึ่งเป็นงาน dependency ระยะไกล และผลเปลี่ยนแปลงอย่างไร
  • มีผลการปรับปรุงที่เด่นชัดในการสร้างในโดเมนเฉพาะเช่นการโค้ดหรือการแก้โจทย์คณิตศาสตร์ แต่ยังสงสัยว่ามีผลอย่างไรในงานความเข้าใจภาษาธรรมชาติทั่วไปหรือ QA แบรนด์ต่าง ๆ หากมีการเสริมผลการทดลองใน benchmark ที่หลากหลายคงดี
  • การเพิ่มความเร็วในการอนุมานสามารถเป็นจุดแข็งด้านการใช้งานจริงได้มาก โดยดูเหมือนเหมาะกับระบบแชตบอทหรือระบบถามตอบที่ต้องการการตอบสนองแบบเรียลไทม์เป็นพิเศษ
  • ในช่วงที่โมเดล RLHF อย่าง Constitutional AI ของ Anthropic หรือ InstructGPT ของ OpenAI ได้รับความสนใจ งานวิจัยนี้มีนัยสำคัญเพราะชี้ให้เห็นแนวทางยกระดับประสิทธิภาพของโมเดลภาษาด้วยการเรียนรู้แบบมีผู้สอนเพียงอย่างเดียว แม้ประเด็นการปรับแนวคุณค่าทางจริยธรรมจะยังคงเป็นโจทย์ที่ต้องแก้ไข แต่ด้านประสิทธิภาพการเรียนรู้ถือว่าเป็นแนวทางที่มีศักยภาพในการแข่งขัน

1 ความคิดเห็น

 
GN⁺ 2024-05-02
ความคิดเห็นจาก Hacker News

สรุป:

  • ต้องการคำอธิบายที่เข้าใจง่ายว่าคำศัพท์ต่างๆ ของ LLM เช่น ข้อมูล, pre-training, training, inference, expert mixing, RAG ฯลฯ ถูกใช้ในบริบทไหน
  • Self-speculative decoding เป็นวิธีการคาดการณ์ลำดับฉลากแล้วส่งลำดับที่คาดการณ์กลับเข้าเครือข่ายอีกครั้ง และคงการคาดการณ์ไว้เฉพาะจนถึงจุดที่ตรงกัน ซึ่งสามารถเพิ่มความเร็วได้โดยไม่ลดประสิทธิภาพ
  • LLM ในปัจจุบันยังไม่พิจารณาการกระจายความน่าจะเป็นของชุดโทเคนทั้งหมดที่มีความยาวถึงจำนวนโทเคนผลลัพธ์ที่สร้างขึ้น และหากพิจารณาปัจจัยนี้ควรคาดว่าจะได้ประสิทธิภาพที่ดีขึ้น
  • การปรับฟังก์ชันความสูญเสีย cross entropy ของ LLM ให้พิจารณาเฉพาะโทเคนอนาคตตัวที่ n ในข้อมูลฝึก และวิเคราะห์ผลลัพธ์ของ LLM ตามค่า n อาจเป็นประเด็นวิจัยที่น่าสนใจ
  • สงสัยว่ามีวิธีการใช้สถานะของโทเคนที่ LLM สร้างขึ้นมาเพื่อช่วยในการตอบครั้งถัดไปหรือไม่
  • ถามว่าเป็นอย่างไรหากฝึก LLM ให้ทำนายเวกเตอร์ที่เข้ารหัสความหมายของประโยคทั้งหมด
  • คำอธิบายในส่วน 5.2 ของกระดาษดูแล้วค่อนข้างไม่ชัดเจน โดยเฉพาะการอธิบายเรื่องการละทิ้ง H(Y|X)
  • อาจพิจารณาให้ LLM ให้ผลลัพธ์เป็นโมเดลขนาดเล็กคล้าย PixelCNN สำหรับโทเคน N ตัวถัดไป เพื่อให้สามารถอธิบายความน่าจะเป็นแบบมีเงื่อนไขของโทเคนในอนาคตได้
  • นอกจากทายโทเคน n ตัวข้างหน้า ยังสงสัยว่าหากคาดการณ์โทเคนไกลออกไปเช่น 128, 512, 2048 จะช่วยให้โมเดลเรียนรู้โครงสร้างบทสนทนาระยะยาวได้หรือไม่
  • ตั้งข้อสงสัยว่าถ้าการคาดการณ์หลายโทเคนเกิดการรบกวนกัน จะมีวิธีแก้ปัญหานี้อย่างไร