- โมเดลขนาด 7.52B พารามิเตอร์ที่อิงสถาปัตยกรรม RWKV-v5
- โมเดล 7B ที่เป็นมิตรต่อสิ่งแวดล้อมมากที่สุดในโลก โดยมีต้นทุนต่อโทเคนต่ำ
- ฝึกด้วยข้อมูล 1.1 ล้านล้านโทเคนในมากกว่า 100 ภาษา
- เหนือกว่าโมเดลคลาส 7B ทั้งหมดในการทดสอบ benchmark แบบพหุภาษา
- ประสิทธิภาพในการประเมินภาษาอังกฤษเข้าใกล้ระดับของ Falcon (1.5T), LLaMA2 (2T), Mistral (>2T?)
- เป็น foundation model ที่ผ่านการ instruction tuning เพียงเล็กน้อยมาก จึงยังต้องมีการ fine-tuning สำหรับยูสเคสที่หลากหลาย
- เป็นทรานส์ฟอร์เมอร์ที่ไม่ต้องใช้ Attention
- ใช้ไลเซนส์ Apache 2.0 สามารถนำไปใช้ได้อย่างอิสระทั้งส่วนตัวและเชิงพาณิชย์โดยไม่มีข้อจำกัด
รายละเอียดประสิทธิภาพแบบพหุภาษา
- ประสิทธิภาพแบบพหุภาษาถูกประเมินใน 23 ภาษา รวมถึง xLAMBDA, xStoryCloze, xWinograd, xCopa
- benchmark เหล่านี้ครอบคลุมการให้เหตุผลเชิงสามัญสำนึกของแต่ละภาษา
- การเปลี่ยนจาก RWKV v4 ไปเป็นสถาปัตยกรรม v5 ช่วยยกระดับประสิทธิภาพแบบพหุภาษาอย่างมาก
- เนื่องจาก benchmark แบบพหุภาษายังมีไม่เพียงพอ จึงยากที่จะประเมินประสิทธิภาพทางภาษาของโมเดลโดยตรงสำหรับอีกกว่า 75 ภาษาที่เหลือจากมากกว่า 100 ภาษาที่ใช้ฝึก
รายละเอียดประสิทธิภาพภาษาอังกฤษ
- ประสิทธิภาพภาษาอังกฤษวัดผ่าน benchmark แยก 12 รายการที่ครอบคลุมการให้เหตุผลเชิงสามัญสำนึกและความรู้เกี่ยวกับโลก
- การเปลี่ยนจาก RWKV v4 ไปเป็นสถาปัตยกรรม v5 ช่วยยกระดับประสิทธิภาพภาษาอังกฤษอย่างมาก
- โมเดล v5 มีระดับประสิทธิภาพสอดคล้องกับระดับที่คาดหวังของทรานส์ฟอร์เมอร์ตามปริมาณโทเคนที่ใช้ฝึก
- คาดว่าด้วยการฝึกเพิ่มอีก 1 ล้านล้านโทเคน จะไปถึงระดับ LLaMA2 และเข้าใกล้ระดับ Mistral
ชุดข้อมูลที่ดี + สถาปัตยกรรมที่ขยายได้: ทั้งสองอย่างจำเป็นสำหรับทุกคนหรือไม่?
- เช็กพอยต์ที่จุด 3 แสนล้านโทเคนแสดงประสิทธิภาพใกล้เคียงกับ pythia-6.9b
- สอดคล้องกับการทดลองก่อนหน้าบนสถาปัตยกรรม RWKV-v4 ว่า linear transformer อย่าง RWKV สามารถขยายสเกลไปสู่ระดับประสิทธิภาพใกล้เคียง transformer ได้ เมื่อใช้จำนวนโทเคนฝึกเท่ากัน
- เกิดคำถามซ้ำ ๆ ว่า สำหรับประสิทธิภาพในการประเมินโมเดลนั้น ข้อมูลสำคัญกว่าสถาปัตยกรรมที่แม่นยำหรือไม่
- เมื่อเปรียบเทียบต้นทุนการคำนวณ CUDA ระหว่างสถาปัตยกรรมที่อิง RWKV กับโมเดล transformer ความสามารถในการขยายจากเชิงเส้นเทียบกับเชิงกำลังสองเป็นประเด็นสำคัญ
สร้าง AI ที่ครอบคลุมสำหรับทุกคน - ไม่ใช่แค่อังกฤษเท่านั้น
- ฟีดแบ็กทั่วไปต่อแนวทางพหุภาษาของ RWKV คือมันกระทบคะแนนการประเมินภาษาอังกฤษ และชะลอการเติบโตของ linear transformer
- อย่างไรก็ตาม ทีม RWKV ไม่มีแผนจะเปลี่ยนแนวทางนี้ และต้องการสร้าง AI สำหรับคนทั้งโลก ไม่ใช่โลกที่ใช้แค่อังกฤษ
- ณ ปี 2023 มีเพียง 17% ของประชากรโลกเท่านั้นที่พูดภาษาอังกฤษ
- การรองรับ 25 ภาษาอันดับต้น ๆ และมากกว่านั้น สามารถครอบคลุมผู้คนได้ราว 4 พันล้านคน หรือ 50% ของประชากรโลก
- ทีม RWKV ต้องการขยายชุดข้อมูลพหุภาษาและเพิ่มภาษาที่รองรับ เพื่อครอบคลุมผู้คนทั่วโลกให้ได้ 100%
แผนในอนาคต
- รีลีสครั้งนี้แสดงให้เห็น linear transformer ที่ทรงพลังที่สุดจนถึงตอนนี้
- แม้จะยังไปไม่ถึงระดับ LLaMA2 และ Mistral แต่ก็แสดงให้เห็นว่าสถาปัตยกรรมโมเดล RWKV-v5 สามารถขยายสเกลไปสู่ประสิทธิภาพใกล้เคียง transformer ได้ด้วยจำนวนโทเคนที่ใกล้เคียงกัน
- ในเดือนกุมภาพันธ์ 2024 มีแผนเผยแพร่บทความวิชาการฉบับอัปเดตสำหรับ RWKV v5 และในเดือนมีนาคมมีแผนออกโมเดล MoE ที่อิง Eagle 2T v5 รวมถึง RWKV-v6 "Finch" world model ขนาด 1.5B และ 3B
คำขอบคุณ
- ขอขอบคุณ StabilityAI ที่มอบทรัพยากรคอมพิวต์ส่วนใหญ่สำหรับการฝึก foundation model นี้
- ขอขอบคุณ EleutherAI ที่ให้การสนับสนุนอย่างเต็มที่ในกระบวนการเขียนบทความวิชาการ
- ขอขอบคุณกลุ่ม Linux Foundation AI & Data ที่สนับสนุนและโฮสต์โครงการ RWKV
ความเห็นของ GN⁺:
- Eagle 7B เป็น linear transformer model ที่รองรับหลายภาษา พร้อมมอบประสิทธิภาพสูงด้วยต้นทุนที่มีประสิทธิภาพ
- โมเดลนี้อาจช่วยเพิ่มการเข้าถึง AI และลดผลกระทบต่อสิ่งแวดล้อม
- ทีม RWKV มีวิสัยทัศน์ที่ชัดเจนในการพัฒนาเทคโนโลยีให้ AI รองรับผู้คนทั่วโลกและครอบคลุมทุกภาษา
2 ความคิดเห็น
เมื่อคืนลองใช้เดโมอยู่แป๊บหนึ่ง รู้สึกว่าเร็วพอสมควรและให้ผลลัพธ์ได้ดีทีเดียว ทั้งภาษาเกาหลีและภาษาญี่ปุ่นก็รับรู้และตอบกลับได้อย่างเป็นธรรมชาติ
ความคิดเห็นจาก Hacker News
น่าสนใจที่มีความคืบหน้าเกี่ยวกับสถาปัตยกรรม LLM (โมเดลภาษาขนาดใหญ่) ทางเลือก แต่ก็น่าเสียดายที่บทความนี้พูดถึงแค่คุณภาพของโมเดล
สถาปัตยกรรมโมเดลอย่าง Transformer, Mamba, SSM, RWKV ฯลฯ ไม่ใช่ประเด็นสำคัญนัก เพราะอิทธิพลของชุดข้อมูลฝึกสำคัญกว่า
RWKV-v5 Eagle 7B ถูกปล่อยภายใต้ไลเซนส์ Apache 2.0 จึงสามารถใช้งานได้โดยไม่มีข้อจำกัดทั้งส่วนตัวและเชิงพาณิชย์
ตอนนี้จุดสนใจหลักยังคงอยู่ที่โมเดลทำนายโทเค็นถัดไปแบบ decoder-only
มีการขอคำอธิบายว่าโมเดล RWKV เทียบกับโมเดล Transformer ทั่วไปอย่างไร และควรตีความเบนช์มาร์กอย่างไร
ข้อมูลเกี่ยวกับปริมาณ RAM ที่ต้องใช้และความเร็วในการประมวลผลโทเค็นเมื่อใช้เฉพาะ CPU ยังไม่ชัดเจน
มีการแนะนำให้อ้างอิงคำตอบของสมาชิกโปรเจ็กต์ที่กำลังตอบคำถามอยู่บน Reddit
หากอยากลองโมเดล RWKV แต่ไม่อยากรอ แนะนำให้ใช้ rwkv-demo-api.recursal.ai
มีการแสดงความคาดหวังต่อโมเดล MoE v5 Eagle 2T ที่อิงจากเดือนมีนาคม 2024
จากการทดลองกับ RWKV-4 พบว่าความเร็วในการอนุมานเร็ว แต่ความเร็วในการทำโทเค็นไนซ์ช้ามาก