Eagle 7B - โมเดลที่ก้าวข้าม Transformer

(blog.rwkv.com)

6 คะแนน โดย GN⁺ 2024-01-30 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลขนาด 7.52B พารามิเตอร์ที่อิงสถาปัตยกรรม RWKV-v5
โมเดล 7B ที่เป็นมิตรต่อสิ่งแวดล้อมมากที่สุดในโลก โดยมีต้นทุนต่อโทเคนต่ำ
ฝึกด้วยข้อมูล 1.1 ล้านล้านโทเคนในมากกว่า 100 ภาษา
เหนือกว่าโมเดลคลาส 7B ทั้งหมดในการทดสอบ benchmark แบบพหุภาษา
ประสิทธิภาพในการประเมินภาษาอังกฤษเข้าใกล้ระดับของ Falcon (1.5T), LLaMA2 (2T), Mistral (>2T?)
เป็น foundation model ที่ผ่านการ instruction tuning เพียงเล็กน้อยมาก จึงยังต้องมีการ fine-tuning สำหรับยูสเคสที่หลากหลาย
เป็นทรานส์ฟอร์เมอร์ที่ไม่ต้องใช้ Attention
ใช้ไลเซนส์ Apache 2.0 สามารถนำไปใช้ได้อย่างอิสระทั้งส่วนตัวและเชิงพาณิชย์โดยไม่มีข้อจำกัด

รายละเอียดประสิทธิภาพแบบพหุภาษา

ประสิทธิภาพแบบพหุภาษาถูกประเมินใน 23 ภาษา รวมถึง xLAMBDA, xStoryCloze, xWinograd, xCopa
benchmark เหล่านี้ครอบคลุมการให้เหตุผลเชิงสามัญสำนึกของแต่ละภาษา
การเปลี่ยนจาก RWKV v4 ไปเป็นสถาปัตยกรรม v5 ช่วยยกระดับประสิทธิภาพแบบพหุภาษาอย่างมาก
เนื่องจาก benchmark แบบพหุภาษายังมีไม่เพียงพอ จึงยากที่จะประเมินประสิทธิภาพทางภาษาของโมเดลโดยตรงสำหรับอีกกว่า 75 ภาษาที่เหลือจากมากกว่า 100 ภาษาที่ใช้ฝึก

รายละเอียดประสิทธิภาพภาษาอังกฤษ

ประสิทธิภาพภาษาอังกฤษวัดผ่าน benchmark แยก 12 รายการที่ครอบคลุมการให้เหตุผลเชิงสามัญสำนึกและความรู้เกี่ยวกับโลก
การเปลี่ยนจาก RWKV v4 ไปเป็นสถาปัตยกรรม v5 ช่วยยกระดับประสิทธิภาพภาษาอังกฤษอย่างมาก
โมเดล v5 มีระดับประสิทธิภาพสอดคล้องกับระดับที่คาดหวังของทรานส์ฟอร์เมอร์ตามปริมาณโทเคนที่ใช้ฝึก
คาดว่าด้วยการฝึกเพิ่มอีก 1 ล้านล้านโทเคน จะไปถึงระดับ LLaMA2 และเข้าใกล้ระดับ Mistral

ชุดข้อมูลที่ดี + สถาปัตยกรรมที่ขยายได้: ทั้งสองอย่างจำเป็นสำหรับทุกคนหรือไม่?

เช็กพอยต์ที่จุด 3 แสนล้านโทเคนแสดงประสิทธิภาพใกล้เคียงกับ pythia-6.9b
สอดคล้องกับการทดลองก่อนหน้าบนสถาปัตยกรรม RWKV-v4 ว่า linear transformer อย่าง RWKV สามารถขยายสเกลไปสู่ระดับประสิทธิภาพใกล้เคียง transformer ได้ เมื่อใช้จำนวนโทเคนฝึกเท่ากัน
เกิดคำถามซ้ำ ๆ ว่า สำหรับประสิทธิภาพในการประเมินโมเดลนั้น ข้อมูลสำคัญกว่าสถาปัตยกรรมที่แม่นยำหรือไม่
เมื่อเปรียบเทียบต้นทุนการคำนวณ CUDA ระหว่างสถาปัตยกรรมที่อิง RWKV กับโมเดล transformer ความสามารถในการขยายจากเชิงเส้นเทียบกับเชิงกำลังสองเป็นประเด็นสำคัญ

สร้าง AI ที่ครอบคลุมสำหรับทุกคน - ไม่ใช่แค่อังกฤษเท่านั้น

ฟีดแบ็กทั่วไปต่อแนวทางพหุภาษาของ RWKV คือมันกระทบคะแนนการประเมินภาษาอังกฤษ และชะลอการเติบโตของ linear transformer
อย่างไรก็ตาม ทีม RWKV ไม่มีแผนจะเปลี่ยนแนวทางนี้ และต้องการสร้าง AI สำหรับคนทั้งโลก ไม่ใช่โลกที่ใช้แค่อังกฤษ
ณ ปี 2023 มีเพียง 17% ของประชากรโลกเท่านั้นที่พูดภาษาอังกฤษ
การรองรับ 25 ภาษาอันดับต้น ๆ และมากกว่านั้น สามารถครอบคลุมผู้คนได้ราว 4 พันล้านคน หรือ 50% ของประชากรโลก
ทีม RWKV ต้องการขยายชุดข้อมูลพหุภาษาและเพิ่มภาษาที่รองรับ เพื่อครอบคลุมผู้คนทั่วโลกให้ได้ 100%

แผนในอนาคต

รีลีสครั้งนี้แสดงให้เห็น linear transformer ที่ทรงพลังที่สุดจนถึงตอนนี้
แม้จะยังไปไม่ถึงระดับ LLaMA2 และ Mistral แต่ก็แสดงให้เห็นว่าสถาปัตยกรรมโมเดล RWKV-v5 สามารถขยายสเกลไปสู่ประสิทธิภาพใกล้เคียง transformer ได้ด้วยจำนวนโทเคนที่ใกล้เคียงกัน
ในเดือนกุมภาพันธ์ 2024 มีแผนเผยแพร่บทความวิชาการฉบับอัปเดตสำหรับ RWKV v5 และในเดือนมีนาคมมีแผนออกโมเดล MoE ที่อิง Eagle 2T v5 รวมถึง RWKV-v6 "Finch" world model ขนาด 1.5B และ 3B

คำขอบคุณ

ขอขอบคุณ StabilityAI ที่มอบทรัพยากรคอมพิวต์ส่วนใหญ่สำหรับการฝึก foundation model นี้
ขอขอบคุณ EleutherAI ที่ให้การสนับสนุนอย่างเต็มที่ในกระบวนการเขียนบทความวิชาการ
ขอขอบคุณกลุ่ม Linux Foundation AI & Data ที่สนับสนุนและโฮสต์โครงการ RWKV

ความเห็นของ GN⁺:

Eagle 7B เป็น linear transformer model ที่รองรับหลายภาษา พร้อมมอบประสิทธิภาพสูงด้วยต้นทุนที่มีประสิทธิภาพ
โมเดลนี้อาจช่วยเพิ่มการเข้าถึง AI และลดผลกระทบต่อสิ่งแวดล้อม
ทีม RWKV มีวิสัยทัศน์ที่ชัดเจนในการพัฒนาเทคโนโลยีให้ AI รองรับผู้คนทั่วโลกและครอบคลุมทุกภาษา

2 ความคิดเห็น

cosine20 2024-01-31

เมื่อคืนลองใช้เดโมอยู่แป๊บหนึ่ง รู้สึกว่าเร็วพอสมควรและให้ผลลัพธ์ได้ดีทีเดียว ทั้งภาษาเกาหลีและภาษาญี่ปุ่นก็รับรู้และตอบกลับได้อย่างเป็นธรรมชาติ

GN⁺ 2024-01-30

ความคิดเห็นจาก Hacker News

น่าสนใจที่มีความคืบหน้าเกี่ยวกับสถาปัตยกรรม LLM (โมเดลภาษาขนาดใหญ่) ทางเลือก แต่ก็น่าเสียดายที่บทความนี้พูดถึงแค่คุณภาพของโมเดล
- บทความจบลงอย่างกะทันหัน ทำให้ขาดแรงจูงใจว่าทำไมจึงควรหันมาใช้สถาปัตยกรรมใหม่นี้
- จำเป็นต้องมีการพูดถึงประสิทธิภาพและขนาดคอนเท็กซ์
- รู้สึกผิดหวังที่บทความไม่กล่าวถึงคอนเท็กซ์เลย
- มีการนำกราฟของ RWKV-4 มาใช้ซ้ำ แต่ไม่ชัดเจนว่ากราฟนั้นแสดงอะไร
สถาปัตยกรรมโมเดลอย่าง Transformer, Mamba, SSM, RWKV ฯลฯ ไม่ใช่ประเด็นสำคัญนัก เพราะอิทธิพลของชุดข้อมูลฝึกสำคัญกว่า
- ข้อมูลภาษาคือคลังเก็บประสบการณ์ของมนุษย์ และการที่ AI ได้รับความสามารถหลากหลายผ่านสิ่งนี้ก็ชี้ให้เห็นว่าสติปัญญาไม่ได้จำกัดอยู่แค่ในสมอง
RWKV-v5 Eagle 7B ถูกปล่อยภายใต้ไลเซนส์ Apache 2.0 จึงสามารถใช้งานได้โดยไม่มีข้อจำกัดทั้งส่วนตัวและเชิงพาณิชย์
- เป็นเรื่องดีที่ทีมได้วางแรงจูงใจที่เหมาะสมสำหรับการทดสอบและการนำไปใช้
ตอนนี้จุดสนใจหลักยังคงอยู่ที่โมเดลทำนายโทเค็นถัดไปแบบ decoder-only
- เอ็นโค้ดเดอร์ของ BERT และ T5 ยังมีประโยชน์สำหรับการสร้าง embedding เพื่อใช้ในงานค้นคืนข้อมูลหรือการจัดประเภท
- ยังจำเป็นต้องมีงานวิจัยเพิ่มเติมเกี่ยวกับสถาปัตยกรรม pre-training ที่ดีกว่าสำหรับกรณีใช้งานด้าน embedding
มีการขอคำอธิบายว่าโมเดล RWKV เทียบกับโมเดล Transformer ทั่วไปอย่างไร และควรตีความเบนช์มาร์กอย่างไร
- ดูเหมือนว่าจะมีประสิทธิภาพใกล้เคียงกับ Mistral 7B/mistral-tiny
ข้อมูลเกี่ยวกับปริมาณ RAM ที่ต้องใช้และความเร็วในการประมวลผลโทเค็นเมื่อใช้เฉพาะ CPU ยังไม่ชัดเจน
มีการแนะนำให้อ้างอิงคำตอบของสมาชิกโปรเจ็กต์ที่กำลังตอบคำถามอยู่บน Reddit
- มีการให้ลิงก์ไปยังผู้ใช้ Reddit คนนั้น
หากอยากลองโมเดล RWKV แต่ไม่อยากรอ แนะนำให้ใช้ rwkv-demo-api.recursal.ai
มีการแสดงความคาดหวังต่อโมเดล MoE v5 Eagle 2T ที่อิงจากเดือนมีนาคม 2024
- คาดหวังความสมดุลระหว่างประสิทธิภาพกับต้นทุนด้านสิ่งแวดล้อม/ต่อโทเค็น
- คาดหวังการปรับปรุงด้านภาษากลุ่มสแกนดิเนเวียด้วย แต่คงต้องรอดูผลลัพธ์
- การตระหนักถึงคุณค่าของข้อมูลฝึก รวมถึงโครงสร้างและสมดุลของเนื้อหาเพื่อการฝึกที่เหมาะสม จะนำมาซึ่งการปฏิวัติที่แท้จริง
จากการทดลองกับ RWKV-4 พบว่าความเร็วในการอนุมานเร็ว แต่ความเร็วในการทำโทเค็นไนซ์ช้ามาก
- จำเป็นต้องมีแนวทางที่เป็นรูปธรรมมากขึ้นสำหรับ RWKV-5