6 คะแนน โดย GN⁺ 2024-01-30 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลขนาด 7.52B พารามิเตอร์ที่อิงสถาปัตยกรรม RWKV-v5
  • โมเดล 7B ที่เป็นมิตรต่อสิ่งแวดล้อมมากที่สุดในโลก โดยมีต้นทุนต่อโทเคนต่ำ
  • ฝึกด้วยข้อมูล 1.1 ล้านล้านโทเคนในมากกว่า 100 ภาษา
  • เหนือกว่าโมเดลคลาส 7B ทั้งหมดในการทดสอบ benchmark แบบพหุภาษา
  • ประสิทธิภาพในการประเมินภาษาอังกฤษเข้าใกล้ระดับของ Falcon (1.5T), LLaMA2 (2T), Mistral (>2T?)
  • เป็น foundation model ที่ผ่านการ instruction tuning เพียงเล็กน้อยมาก จึงยังต้องมีการ fine-tuning สำหรับยูสเคสที่หลากหลาย
  • เป็นทรานส์ฟอร์เมอร์ที่ไม่ต้องใช้ Attention
  • ใช้ไลเซนส์ Apache 2.0 สามารถนำไปใช้ได้อย่างอิสระทั้งส่วนตัวและเชิงพาณิชย์โดยไม่มีข้อจำกัด

รายละเอียดประสิทธิภาพแบบพหุภาษา

  • ประสิทธิภาพแบบพหุภาษาถูกประเมินใน 23 ภาษา รวมถึง xLAMBDA, xStoryCloze, xWinograd, xCopa
  • benchmark เหล่านี้ครอบคลุมการให้เหตุผลเชิงสามัญสำนึกของแต่ละภาษา
  • การเปลี่ยนจาก RWKV v4 ไปเป็นสถาปัตยกรรม v5 ช่วยยกระดับประสิทธิภาพแบบพหุภาษาอย่างมาก
  • เนื่องจาก benchmark แบบพหุภาษายังมีไม่เพียงพอ จึงยากที่จะประเมินประสิทธิภาพทางภาษาของโมเดลโดยตรงสำหรับอีกกว่า 75 ภาษาที่เหลือจากมากกว่า 100 ภาษาที่ใช้ฝึก

รายละเอียดประสิทธิภาพภาษาอังกฤษ

  • ประสิทธิภาพภาษาอังกฤษวัดผ่าน benchmark แยก 12 รายการที่ครอบคลุมการให้เหตุผลเชิงสามัญสำนึกและความรู้เกี่ยวกับโลก
  • การเปลี่ยนจาก RWKV v4 ไปเป็นสถาปัตยกรรม v5 ช่วยยกระดับประสิทธิภาพภาษาอังกฤษอย่างมาก
  • โมเดล v5 มีระดับประสิทธิภาพสอดคล้องกับระดับที่คาดหวังของทรานส์ฟอร์เมอร์ตามปริมาณโทเคนที่ใช้ฝึก
  • คาดว่าด้วยการฝึกเพิ่มอีก 1 ล้านล้านโทเคน จะไปถึงระดับ LLaMA2 และเข้าใกล้ระดับ Mistral

ชุดข้อมูลที่ดี + สถาปัตยกรรมที่ขยายได้: ทั้งสองอย่างจำเป็นสำหรับทุกคนหรือไม่?

  • เช็กพอยต์ที่จุด 3 แสนล้านโทเคนแสดงประสิทธิภาพใกล้เคียงกับ pythia-6.9b
  • สอดคล้องกับการทดลองก่อนหน้าบนสถาปัตยกรรม RWKV-v4 ว่า linear transformer อย่าง RWKV สามารถขยายสเกลไปสู่ระดับประสิทธิภาพใกล้เคียง transformer ได้ เมื่อใช้จำนวนโทเคนฝึกเท่ากัน
  • เกิดคำถามซ้ำ ๆ ว่า สำหรับประสิทธิภาพในการประเมินโมเดลนั้น ข้อมูลสำคัญกว่าสถาปัตยกรรมที่แม่นยำหรือไม่
  • เมื่อเปรียบเทียบต้นทุนการคำนวณ CUDA ระหว่างสถาปัตยกรรมที่อิง RWKV กับโมเดล transformer ความสามารถในการขยายจากเชิงเส้นเทียบกับเชิงกำลังสองเป็นประเด็นสำคัญ

สร้าง AI ที่ครอบคลุมสำหรับทุกคน - ไม่ใช่แค่อังกฤษเท่านั้น

  • ฟีดแบ็กทั่วไปต่อแนวทางพหุภาษาของ RWKV คือมันกระทบคะแนนการประเมินภาษาอังกฤษ และชะลอการเติบโตของ linear transformer
  • อย่างไรก็ตาม ทีม RWKV ไม่มีแผนจะเปลี่ยนแนวทางนี้ และต้องการสร้าง AI สำหรับคนทั้งโลก ไม่ใช่โลกที่ใช้แค่อังกฤษ
  • ณ ปี 2023 มีเพียง 17% ของประชากรโลกเท่านั้นที่พูดภาษาอังกฤษ
  • การรองรับ 25 ภาษาอันดับต้น ๆ และมากกว่านั้น สามารถครอบคลุมผู้คนได้ราว 4 พันล้านคน หรือ 50% ของประชากรโลก
  • ทีม RWKV ต้องการขยายชุดข้อมูลพหุภาษาและเพิ่มภาษาที่รองรับ เพื่อครอบคลุมผู้คนทั่วโลกให้ได้ 100%

แผนในอนาคต

  • รีลีสครั้งนี้แสดงให้เห็น linear transformer ที่ทรงพลังที่สุดจนถึงตอนนี้
  • แม้จะยังไปไม่ถึงระดับ LLaMA2 และ Mistral แต่ก็แสดงให้เห็นว่าสถาปัตยกรรมโมเดล RWKV-v5 สามารถขยายสเกลไปสู่ประสิทธิภาพใกล้เคียง transformer ได้ด้วยจำนวนโทเคนที่ใกล้เคียงกัน
  • ในเดือนกุมภาพันธ์ 2024 มีแผนเผยแพร่บทความวิชาการฉบับอัปเดตสำหรับ RWKV v5 และในเดือนมีนาคมมีแผนออกโมเดล MoE ที่อิง Eagle 2T v5 รวมถึง RWKV-v6 "Finch" world model ขนาด 1.5B และ 3B

คำขอบคุณ

  • ขอขอบคุณ StabilityAI ที่มอบทรัพยากรคอมพิวต์ส่วนใหญ่สำหรับการฝึก foundation model นี้
  • ขอขอบคุณ EleutherAI ที่ให้การสนับสนุนอย่างเต็มที่ในกระบวนการเขียนบทความวิชาการ
  • ขอขอบคุณกลุ่ม Linux Foundation AI & Data ที่สนับสนุนและโฮสต์โครงการ RWKV

ความเห็นของ GN⁺:

  • Eagle 7B เป็น linear transformer model ที่รองรับหลายภาษา พร้อมมอบประสิทธิภาพสูงด้วยต้นทุนที่มีประสิทธิภาพ
  • โมเดลนี้อาจช่วยเพิ่มการเข้าถึง AI และลดผลกระทบต่อสิ่งแวดล้อม
  • ทีม RWKV มีวิสัยทัศน์ที่ชัดเจนในการพัฒนาเทคโนโลยีให้ AI รองรับผู้คนทั่วโลกและครอบคลุมทุกภาษา

2 ความคิดเห็น

 
cosine20 2024-01-31

เมื่อคืนลองใช้เดโมอยู่แป๊บหนึ่ง รู้สึกว่าเร็วพอสมควรและให้ผลลัพธ์ได้ดีทีเดียว ทั้งภาษาเกาหลีและภาษาญี่ปุ่นก็รับรู้และตอบกลับได้อย่างเป็นธรรมชาติ

 
GN⁺ 2024-01-30
ความคิดเห็นจาก Hacker News
  • น่าสนใจที่มีความคืบหน้าเกี่ยวกับสถาปัตยกรรม LLM (โมเดลภาษาขนาดใหญ่) ทางเลือก แต่ก็น่าเสียดายที่บทความนี้พูดถึงแค่คุณภาพของโมเดล

    • บทความจบลงอย่างกะทันหัน ทำให้ขาดแรงจูงใจว่าทำไมจึงควรหันมาใช้สถาปัตยกรรมใหม่นี้
    • จำเป็นต้องมีการพูดถึงประสิทธิภาพและขนาดคอนเท็กซ์
    • รู้สึกผิดหวังที่บทความไม่กล่าวถึงคอนเท็กซ์เลย
    • มีการนำกราฟของ RWKV-4 มาใช้ซ้ำ แต่ไม่ชัดเจนว่ากราฟนั้นแสดงอะไร
  • สถาปัตยกรรมโมเดลอย่าง Transformer, Mamba, SSM, RWKV ฯลฯ ไม่ใช่ประเด็นสำคัญนัก เพราะอิทธิพลของชุดข้อมูลฝึกสำคัญกว่า

    • ข้อมูลภาษาคือคลังเก็บประสบการณ์ของมนุษย์ และการที่ AI ได้รับความสามารถหลากหลายผ่านสิ่งนี้ก็ชี้ให้เห็นว่าสติปัญญาไม่ได้จำกัดอยู่แค่ในสมอง
  • RWKV-v5 Eagle 7B ถูกปล่อยภายใต้ไลเซนส์ Apache 2.0 จึงสามารถใช้งานได้โดยไม่มีข้อจำกัดทั้งส่วนตัวและเชิงพาณิชย์

    • เป็นเรื่องดีที่ทีมได้วางแรงจูงใจที่เหมาะสมสำหรับการทดสอบและการนำไปใช้
  • ตอนนี้จุดสนใจหลักยังคงอยู่ที่โมเดลทำนายโทเค็นถัดไปแบบ decoder-only

    • เอ็นโค้ดเดอร์ของ BERT และ T5 ยังมีประโยชน์สำหรับการสร้าง embedding เพื่อใช้ในงานค้นคืนข้อมูลหรือการจัดประเภท
    • ยังจำเป็นต้องมีงานวิจัยเพิ่มเติมเกี่ยวกับสถาปัตยกรรม pre-training ที่ดีกว่าสำหรับกรณีใช้งานด้าน embedding
  • มีการขอคำอธิบายว่าโมเดล RWKV เทียบกับโมเดล Transformer ทั่วไปอย่างไร และควรตีความเบนช์มาร์กอย่างไร

    • ดูเหมือนว่าจะมีประสิทธิภาพใกล้เคียงกับ Mistral 7B/mistral-tiny
  • ข้อมูลเกี่ยวกับปริมาณ RAM ที่ต้องใช้และความเร็วในการประมวลผลโทเค็นเมื่อใช้เฉพาะ CPU ยังไม่ชัดเจน

  • มีการแนะนำให้อ้างอิงคำตอบของสมาชิกโปรเจ็กต์ที่กำลังตอบคำถามอยู่บน Reddit

    • มีการให้ลิงก์ไปยังผู้ใช้ Reddit คนนั้น
  • หากอยากลองโมเดล RWKV แต่ไม่อยากรอ แนะนำให้ใช้ rwkv-demo-api.recursal.ai

  • มีการแสดงความคาดหวังต่อโมเดล MoE v5 Eagle 2T ที่อิงจากเดือนมีนาคม 2024

    • คาดหวังความสมดุลระหว่างประสิทธิภาพกับต้นทุนด้านสิ่งแวดล้อม/ต่อโทเค็น
    • คาดหวังการปรับปรุงด้านภาษากลุ่มสแกนดิเนเวียด้วย แต่คงต้องรอดูผลลัพธ์
    • การตระหนักถึงคุณค่าของข้อมูลฝึก รวมถึงโครงสร้างและสมดุลของเนื้อหาเพื่อการฝึกที่เหมาะสม จะนำมาซึ่งการปฏิวัติที่แท้จริง
  • จากการทดลองกับ RWKV-4 พบว่าความเร็วในการอนุมานเร็ว แต่ความเร็วในการทำโทเค็นไนซ์ช้ามาก

    • จำเป็นต้องมีแนวทางที่เป็นรูปธรรมมากขึ้นสำหรับ RWKV-5