1 ความคิดเห็น

 
GN⁺ 2023-12-09
ความคิดเห็นบน Hacker News
  • ความเห็นของ Andrej Karpathy:

    • แนะนำ LLM (Large Language Model) โอเพนซอร์สตัวใหม่ของ MistralAI
    • ค่าตั้งค่าที่น่าสนใจในไฟล์ params.json:
      • hidden_dim / dim = 14336/4096 => การขยาย MLP 3.5 เท่า
      • n_heads / n_kv_heads = 32/8 => multi-query 4 เท่า
      • "moe" => Mixture of Experts แบบ 8 เท่า โดยเลือก 2 อันดับบนสุด
    • สามารถดูโค้ดที่เกี่ยวข้องได้บน GitHub
    • ไม่มีวิดีโอโปรโมตที่โอ้อวดเกี่ยวกับการปฏิวัติ AI
    • มีความเคลื่อนไหวด้าน AI เกิดขึ้นมาก เพราะงานประชุมด้านดีปเลิร์นนิงใหญ่ชื่อ NeurIPS กำลังใกล้เข้ามา
  • ข่าวอื่นเกี่ยวกับ LLM:

    • Mistral/Yi ใช้โมเดลที่ fine-tune ด้วยเทคนิคใหม่ชื่อ 'neural alignment' และกวาดชนะโมเดลอื่น ๆ บนลีดเดอร์บอร์ดของ Hugging Face
    • โมเดล 7B 'ชนะ' โมเดล 70B ส่วนใหญ่
    • โมเดล 34B ที่กำลังทดสอบดูดีมาก
    • ถ้าเทคนิคนี้ถูกนำไปใช้กับ Mistral Moe ก็อาจกลายเป็นโมเดลที่ยอดเยี่ยมมาก
    • OSS ที่รันได้บนเดสก์ท็อปอาจเป็นจุดเปลี่ยนสำคัญในการท้าทาย GPT-4
  • แนวทางของ Mistral:

    • Mistral ไม่ค่อยใส่ใจกับการอธิบายมากนัก แต่สไตล์แบบนี้กลับให้ความรู้สึกน่าเชื่อถือกว่าการประกาศแบบองค์กรที่ขัดเกลามาของ Google
  • รูปแบบการประกาศที่เรียบง่าย:

    • ชอบการประกาศแบบเรียบง่ายสไตล์ยุค 90
  • สเปกโมเดลของ Mistral:

    • เปิดเผยไฟล์ params.json ที่มีโครงสร้าง Mixture of Experts
  • เปรียบเทียบรูปแบบการประกาศของ Mistral กับ Google:

    • รูปแบบการเปิดตัวโมเดลของ Mistral ที่ตัดกันกับการเปิดตัว Gemini ของ Google
    • ดูเหมือนว่า Mistral จะฝึกโมเดลบนพื้นฐานของ Megablocks จาก Stanford
  • กลยุทธ์การตลาดของ Mistral:

    • ขณะที่บริษัทอื่นเน้นหน้าแลนดิ้งเพจและวิดีโอโปรโมชัน Mistral กลับปล่อยโมเดลออกมาแบบเรียบง่าย
  • ข้อมูลที่ Mistral เปิดเผย:

    • ใช้สถาปัตยกรรม Mixture of Experts
    • มีผู้เชี่ยวชาญ 8 ตัวที่มีพารามิเตอร์ 7B
    • น้ำหนักรวม 96GB ทำให้ไม่สามารถรันได้บน GPU สำหรับใช้งานตามบ้านทั่วไป