xAI เปิดเผยน้ำหนักโมเดลพื้นฐานและสถาปัตยกรรมเครือข่ายของ Grok-1 LLM

(github.com/xai-org)

6 คะแนน โดย GN⁺ 2024-03-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ปล่อย Weights และสถาปัตยกรรมของโมเดล Mixture-of-Experts ขนาด 314B (314 พันล้านพารามิเตอร์)
เป็น Raw Base Model ของช่วงพรีเทรน Grok-1 ที่สิ้นสุดในเดือนตุลาคม 2023
- หมายความว่าโมเดลยังไม่ได้ถูกปรับจูนละเอียดสำหรับงานเฉพาะอย่างการสนทนา
รายละเอียดของโมเดล
- โมเดลพื้นฐานที่ฝึกด้วยข้อมูลข้อความปริมาณมาก โดยไม่ได้ปรับจูนละเอียดให้เหมาะกับงานเฉพาะ
- โมเดลผู้เชี่ยวชาญแบบผสมขนาด 314B พารามิเตอร์ ที่มีการเปิดใช้น้ำหนัก 25% สำหรับโทเค็นที่กำหนด
- ฝึกจากศูนย์โดย xAI ในเดือนตุลาคม 2023 บน JAX และ Rust โดยใช้สแตกการฝึกแบบกำหนดเอง

วิธีใช้คลังเก็บ Grok-1

คลังเก็บ Grok-1 ที่มีโค้ดตัวอย่าง JAX ใช้สำหรับโหลดและรันโมเดล Grok-1 แบบ open-weight
ดาวน์โหลดเช็กพอยต์และวางไดเรกทอรี ckpt-0 ไว้ภายในไดเรกทอรี checkpoint จากนั้นรัน pip install -r requirements.txt และ python run.py เพื่อทดสอบโค้ด
สคริปต์จะโหลดเช็กพอยต์และสร้างตัวอย่างจากโมเดลสำหรับอินพุตทดสอบ
เนื่องจากโมเดลมีขนาดใหญ่มาก (314B พารามิเตอร์) จึงต้องใช้เครื่องที่มีหน่วยความจำ GPU เพียงพอ
การติดตั้งใช้งานเลเยอร์ MoE (Mixture of Experts) ในคลังเก็บนี้ยังไม่มีประสิทธิภาพ และเลือกหลีกเลี่ยงเคอร์เนลแบบกำหนดเองเพื่อใช้ตรวจสอบความถูกต้องของโมเดล

ดาวน์โหลดน้ำหนัก

สามารถดาวน์โหลดน้ำหนักได้ด้วยไคลเอนต์ทอร์เรนต์และลิงก์ต่อไปนี้: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

ไลเซนส์

โค้ดและน้ำหนักของ Grok-1 ที่รวมอยู่ในการเผยแพร่นี้ อยู่ภายใต้ไลเซนส์ Apache 2.0
ไลเซนส์นี้ใช้กับไฟล์ซอร์สในคลังเก็บนี้และน้ำหนักของโมเดล Grok-1 เท่านั้น

ความเห็นของ GN⁺

Grok-1 เป็นโมเดลที่มีพารามิเตอร์ขนาดใหญ่มาก มอบโอกาสที่ดีให้นักวิจัยและวิศวกรแมชชีนเลิร์นนิงได้ทดลองโดยใช้ทรัพยากรคอมพิวต์สมรรถนะสูง
การใช้ไลเซนส์โอเพนซอร์ส Apache 2.0 ทำให้ชุมชนสามารถใช้งาน แก้ไข และแจกจ่ายโมเดลได้อย่างอิสระ ซึ่งอาจช่วยส่งเสริมความร่วมมือและนวัตกรรม
เนื่องจากโมเดลมีขนาดใหญ่มาก การทดลองใช้งานจริงจึงต้องใช้ทรัพยากรการคำนวณจำนวนมาก ซึ่งอาจจำกัดการเข้าถึง
การติดตั้งใช้งานเลเยอร์ MoE ที่ไม่มีประสิทธิภาพอาจมีประโยชน์สำหรับการวิจัย แต่หากจะนำไปใช้กับผลิตภัณฑ์หรือบริการจริง ก็น่าจะต้องหา implementation ที่ได้รับการปรับแต่งแล้ว
โครงการโอเพนซอร์สอื่นที่มีความสามารถคล้ายกัน ได้แก่ TensorFlow ของ Google และ PyTorch ของ Facebook ซึ่งสามารถใช้ทดลองโมเดลขนาดใหญ่ได้เช่นกัน

1 ความคิดเห็น

GN⁺ 2024-03-18

ความคิดเห็นบน Hacker News

โมเดล 8x86B ดูเหมือนจะเป็นโมเดลแบบเปิดที่ใหญ่ที่สุดจนถึงตอนนี้ คงน่าสนใจที่จะได้รู้ว่าโมเดลนี้ฝึกด้วยโทเคนจำนวนเท่าไร
- เป็นโมเดลฐานที่ฝึกด้วยข้อมูลข้อความขนาดใหญ่ และไม่ได้ผ่านการปรับจูนละเอียดสำหรับงานเฉพาะ
- คาดว่าเวอร์ชันที่เคยพรีวิวบน Twitter น่าจะเป็นโมเดลที่ผ่าน instruction tuning ซึ่งมีพฤติกรรมต่างจากค่าน้ำหนักดิบ
มีเหตุผลอะไรที่จะเลือกใช้โมเดลนี้แทนทางเลือกโอเพนซอร์สอย่าง Mistral?
นี่เป็นโมเดลใหญ่ตัวแรกที่รองรับ native FP8 หรือไม่? ดูเหมือนว่าจะเป็นข้อได้เปรียบอย่างมากเมื่อฮาร์ดแวร์รองรับ จึงสงสัยว่าทำไมจนถึงตอนนี้ผู้คนยังไม่ทำกัน
โมเดลนี้รองรับภาษาอะไรบ้าง?
บล็อกโพสต์: Grok-OS
- จากพารามิเตอร์ 314B มี 86B ที่ถูกใช้งาน
- มีการเปิดใช้งาน 2 จาก 8 experts ใน mixture of experts
- ค่าน้ำหนักและสถาปัตยกรรมอยู่ภายใต้สัญญาอนุญาต Apache 2.0
บล็อกโพสต์ที่เผยแพร่เมื่อปีที่แล้ว: Grok
- มี benchmark เปรียบเทียบกับ Claude 2, GPT-3.5 และ GPT-4
- มีความสามารถใกล้เคียงกับ GPT-3.5, Mixtral และ Qwen-1.5-72B แต่มีขนาดใหญ่กว่ามากเมื่อเทียบกับโมเดลแบบเปิดค่าน้ำหนัก
ในแง่ของจำนวนพารามิเตอร์และ mixture of experts เราจะไปถึงเพดานหรือจุดที่ผลตอบแทนเริ่มลดลงเมื่อไร?
มี model card อยู่ที่ไหนสักแห่งไหม? อยากรู้ว่าโมเดลนี้ฝึกมาด้วยอะไร
จุดที่ต้องแยกให้ออก: Musk พูดว่า "โอเพนซอร์ส" แต่สิ่งที่ได้จริงคือ "โอเพนเวต" (ถึงอย่างนั้นก็ยังน่าขอบคุณมาก เพราะดีกว่าไม่มีอะไรเลย)
คลังอื่นมีแค่ฟอร์กของ Qdrant เท่านั้น

xAI เปิดเผยน้ำหนักโมเดลพื้นฐานและสถาปัตยกรรมเครือข่ายของ Grok-1 LLM

วิธีใช้คลังเก็บ Grok-1

ดาวน์โหลดน้ำหนัก

ไลเซนส์

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News