6 คะแนน โดย GN⁺ 2024-03-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ปล่อย Weights และสถาปัตยกรรมของโมเดล Mixture-of-Experts ขนาด 314B (314 พันล้านพารามิเตอร์)
  • เป็น Raw Base Model ของช่วงพรีเทรน Grok-1 ที่สิ้นสุดในเดือนตุลาคม 2023
    • หมายความว่าโมเดลยังไม่ได้ถูกปรับจูนละเอียดสำหรับงานเฉพาะอย่างการสนทนา
  • รายละเอียดของโมเดล
    • โมเดลพื้นฐานที่ฝึกด้วยข้อมูลข้อความปริมาณมาก โดยไม่ได้ปรับจูนละเอียดให้เหมาะกับงานเฉพาะ
    • โมเดลผู้เชี่ยวชาญแบบผสมขนาด 314B พารามิเตอร์ ที่มีการเปิดใช้น้ำหนัก 25% สำหรับโทเค็นที่กำหนด
    • ฝึกจากศูนย์โดย xAI ในเดือนตุลาคม 2023 บน JAX และ Rust โดยใช้สแตกการฝึกแบบกำหนดเอง

วิธีใช้คลังเก็บ Grok-1

  • คลังเก็บ Grok-1 ที่มีโค้ดตัวอย่าง JAX ใช้สำหรับโหลดและรันโมเดล Grok-1 แบบ open-weight
  • ดาวน์โหลดเช็กพอยต์และวางไดเรกทอรี ckpt-0 ไว้ภายในไดเรกทอรี checkpoint จากนั้นรัน pip install -r requirements.txt และ python run.py เพื่อทดสอบโค้ด
  • สคริปต์จะโหลดเช็กพอยต์และสร้างตัวอย่างจากโมเดลสำหรับอินพุตทดสอบ
  • เนื่องจากโมเดลมีขนาดใหญ่มาก (314B พารามิเตอร์) จึงต้องใช้เครื่องที่มีหน่วยความจำ GPU เพียงพอ
  • การติดตั้งใช้งานเลเยอร์ MoE (Mixture of Experts) ในคลังเก็บนี้ยังไม่มีประสิทธิภาพ และเลือกหลีกเลี่ยงเคอร์เนลแบบกำหนดเองเพื่อใช้ตรวจสอบความถูกต้องของโมเดล

ดาวน์โหลดน้ำหนัก

  • สามารถดาวน์โหลดน้ำหนักได้ด้วยไคลเอนต์ทอร์เรนต์และลิงก์ต่อไปนี้: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

ไลเซนส์

  • โค้ดและน้ำหนักของ Grok-1 ที่รวมอยู่ในการเผยแพร่นี้ อยู่ภายใต้ไลเซนส์ Apache 2.0
  • ไลเซนส์นี้ใช้กับไฟล์ซอร์สในคลังเก็บนี้และน้ำหนักของโมเดล Grok-1 เท่านั้น

ความเห็นของ GN⁺

  • Grok-1 เป็นโมเดลที่มีพารามิเตอร์ขนาดใหญ่มาก มอบโอกาสที่ดีให้นักวิจัยและวิศวกรแมชชีนเลิร์นนิงได้ทดลองโดยใช้ทรัพยากรคอมพิวต์สมรรถนะสูง
  • การใช้ไลเซนส์โอเพนซอร์ส Apache 2.0 ทำให้ชุมชนสามารถใช้งาน แก้ไข และแจกจ่ายโมเดลได้อย่างอิสระ ซึ่งอาจช่วยส่งเสริมความร่วมมือและนวัตกรรม
  • เนื่องจากโมเดลมีขนาดใหญ่มาก การทดลองใช้งานจริงจึงต้องใช้ทรัพยากรการคำนวณจำนวนมาก ซึ่งอาจจำกัดการเข้าถึง
  • การติดตั้งใช้งานเลเยอร์ MoE ที่ไม่มีประสิทธิภาพอาจมีประโยชน์สำหรับการวิจัย แต่หากจะนำไปใช้กับผลิตภัณฑ์หรือบริการจริง ก็น่าจะต้องหา implementation ที่ได้รับการปรับแต่งแล้ว
  • โครงการโอเพนซอร์สอื่นที่มีความสามารถคล้ายกัน ได้แก่ TensorFlow ของ Google และ PyTorch ของ Facebook ซึ่งสามารถใช้ทดลองโมเดลขนาดใหญ่ได้เช่นกัน

1 ความคิดเห็น

 
GN⁺ 2024-03-18
ความคิดเห็นบน Hacker News
  • โมเดล 8x86B ดูเหมือนจะเป็นโมเดลแบบเปิดที่ใหญ่ที่สุดจนถึงตอนนี้ คงน่าสนใจที่จะได้รู้ว่าโมเดลนี้ฝึกด้วยโทเคนจำนวนเท่าไร

    • เป็นโมเดลฐานที่ฝึกด้วยข้อมูลข้อความขนาดใหญ่ และไม่ได้ผ่านการปรับจูนละเอียดสำหรับงานเฉพาะ
    • คาดว่าเวอร์ชันที่เคยพรีวิวบน Twitter น่าจะเป็นโมเดลที่ผ่าน instruction tuning ซึ่งมีพฤติกรรมต่างจากค่าน้ำหนักดิบ
  • มีเหตุผลอะไรที่จะเลือกใช้โมเดลนี้แทนทางเลือกโอเพนซอร์สอย่าง Mistral?

  • นี่เป็นโมเดลใหญ่ตัวแรกที่รองรับ native FP8 หรือไม่? ดูเหมือนว่าจะเป็นข้อได้เปรียบอย่างมากเมื่อฮาร์ดแวร์รองรับ จึงสงสัยว่าทำไมจนถึงตอนนี้ผู้คนยังไม่ทำกัน

  • โมเดลนี้รองรับภาษาอะไรบ้าง?

  • บล็อกโพสต์: Grok-OS

    • จากพารามิเตอร์ 314B มี 86B ที่ถูกใช้งาน
    • มีการเปิดใช้งาน 2 จาก 8 experts ใน mixture of experts
    • ค่าน้ำหนักและสถาปัตยกรรมอยู่ภายใต้สัญญาอนุญาต Apache 2.0
  • บล็อกโพสต์ที่เผยแพร่เมื่อปีที่แล้ว: Grok

    • มี benchmark เปรียบเทียบกับ Claude 2, GPT-3.5 และ GPT-4
    • มีความสามารถใกล้เคียงกับ GPT-3.5, Mixtral และ Qwen-1.5-72B แต่มีขนาดใหญ่กว่ามากเมื่อเทียบกับโมเดลแบบเปิดค่าน้ำหนัก
  • ในแง่ของจำนวนพารามิเตอร์และ mixture of experts เราจะไปถึงเพดานหรือจุดที่ผลตอบแทนเริ่มลดลงเมื่อไร?

  • มี model card อยู่ที่ไหนสักแห่งไหม? อยากรู้ว่าโมเดลนี้ฝึกมาด้วยอะไร

  • จุดที่ต้องแยกให้ออก: Musk พูดว่า "โอเพนซอร์ส" แต่สิ่งที่ได้จริงคือ "โอเพนเวต" (ถึงอย่างนั้นก็ยังน่าขอบคุณมาก เพราะดีกว่าไม่มีอะไรเลย)

  • คลังอื่นมีแค่ฟอร์กของ Qdrant เท่านั้น