- ปล่อย Weights และสถาปัตยกรรมของโมเดล Mixture-of-Experts ขนาด 314B (314 พันล้านพารามิเตอร์)
- เป็น Raw Base Model ของช่วงพรีเทรน Grok-1 ที่สิ้นสุดในเดือนตุลาคม 2023
- หมายความว่าโมเดลยังไม่ได้ถูกปรับจูนละเอียดสำหรับงานเฉพาะอย่างการสนทนา
- รายละเอียดของโมเดล
- โมเดลพื้นฐานที่ฝึกด้วยข้อมูลข้อความปริมาณมาก โดยไม่ได้ปรับจูนละเอียดให้เหมาะกับงานเฉพาะ
- โมเดลผู้เชี่ยวชาญแบบผสมขนาด 314B พารามิเตอร์ ที่มีการเปิดใช้น้ำหนัก 25% สำหรับโทเค็นที่กำหนด
- ฝึกจากศูนย์โดย xAI ในเดือนตุลาคม 2023 บน JAX และ Rust โดยใช้สแตกการฝึกแบบกำหนดเอง
วิธีใช้คลังเก็บ Grok-1
- คลังเก็บ Grok-1 ที่มีโค้ดตัวอย่าง JAX ใช้สำหรับโหลดและรันโมเดล Grok-1 แบบ open-weight
- ดาวน์โหลดเช็กพอยต์และวางไดเรกทอรี
ckpt-0 ไว้ภายในไดเรกทอรี checkpoint จากนั้นรัน pip install -r requirements.txt และ python run.py เพื่อทดสอบโค้ด
- สคริปต์จะโหลดเช็กพอยต์และสร้างตัวอย่างจากโมเดลสำหรับอินพุตทดสอบ
- เนื่องจากโมเดลมีขนาดใหญ่มาก (314B พารามิเตอร์) จึงต้องใช้เครื่องที่มีหน่วยความจำ GPU เพียงพอ
- การติดตั้งใช้งานเลเยอร์ MoE (Mixture of Experts) ในคลังเก็บนี้ยังไม่มีประสิทธิภาพ และเลือกหลีกเลี่ยงเคอร์เนลแบบกำหนดเองเพื่อใช้ตรวจสอบความถูกต้องของโมเดล
ดาวน์โหลดน้ำหนัก
- สามารถดาวน์โหลดน้ำหนักได้ด้วยไคลเอนต์ทอร์เรนต์และลิงก์ต่อไปนี้:
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
ไลเซนส์
- โค้ดและน้ำหนักของ Grok-1 ที่รวมอยู่ในการเผยแพร่นี้ อยู่ภายใต้ไลเซนส์ Apache 2.0
- ไลเซนส์นี้ใช้กับไฟล์ซอร์สในคลังเก็บนี้และน้ำหนักของโมเดล Grok-1 เท่านั้น
ความเห็นของ GN⁺
- Grok-1 เป็นโมเดลที่มีพารามิเตอร์ขนาดใหญ่มาก มอบโอกาสที่ดีให้นักวิจัยและวิศวกรแมชชีนเลิร์นนิงได้ทดลองโดยใช้ทรัพยากรคอมพิวต์สมรรถนะสูง
- การใช้ไลเซนส์โอเพนซอร์ส Apache 2.0 ทำให้ชุมชนสามารถใช้งาน แก้ไข และแจกจ่ายโมเดลได้อย่างอิสระ ซึ่งอาจช่วยส่งเสริมความร่วมมือและนวัตกรรม
- เนื่องจากโมเดลมีขนาดใหญ่มาก การทดลองใช้งานจริงจึงต้องใช้ทรัพยากรการคำนวณจำนวนมาก ซึ่งอาจจำกัดการเข้าถึง
- การติดตั้งใช้งานเลเยอร์ MoE ที่ไม่มีประสิทธิภาพอาจมีประโยชน์สำหรับการวิจัย แต่หากจะนำไปใช้กับผลิตภัณฑ์หรือบริการจริง ก็น่าจะต้องหา implementation ที่ได้รับการปรับแต่งแล้ว
- โครงการโอเพนซอร์สอื่นที่มีความสามารถคล้ายกัน ได้แก่ TensorFlow ของ Google และ PyTorch ของ Facebook ซึ่งสามารถใช้ทดลองโมเดลขนาดใหญ่ได้เช่นกัน
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
โมเดล 8x86B ดูเหมือนจะเป็นโมเดลแบบเปิดที่ใหญ่ที่สุดจนถึงตอนนี้ คงน่าสนใจที่จะได้รู้ว่าโมเดลนี้ฝึกด้วยโทเคนจำนวนเท่าไร
มีเหตุผลอะไรที่จะเลือกใช้โมเดลนี้แทนทางเลือกโอเพนซอร์สอย่าง Mistral?
นี่เป็นโมเดลใหญ่ตัวแรกที่รองรับ native FP8 หรือไม่? ดูเหมือนว่าจะเป็นข้อได้เปรียบอย่างมากเมื่อฮาร์ดแวร์รองรับ จึงสงสัยว่าทำไมจนถึงตอนนี้ผู้คนยังไม่ทำกัน
โมเดลนี้รองรับภาษาอะไรบ้าง?
บล็อกโพสต์: Grok-OS
บล็อกโพสต์ที่เผยแพร่เมื่อปีที่แล้ว: Grok
ในแง่ของจำนวนพารามิเตอร์และ mixture of experts เราจะไปถึงเพดานหรือจุดที่ผลตอบแทนเริ่มลดลงเมื่อไร?
มี model card อยู่ที่ไหนสักแห่งไหม? อยากรู้ว่าโมเดลนี้ฝึกมาด้วยอะไร
จุดที่ต้องแยกให้ออก: Musk พูดว่า "โอเพนซอร์ส" แต่สิ่งที่ได้จริงคือ "โอเพนเวต" (ถึงอย่างนั้นก็ยังน่าขอบคุณมาก เพราะดีกว่าไม่มีอะไรเลย)
คลังอื่นมีแค่ฟอร์กของ Qdrant เท่านั้น