11 คะแนน โดย xguru 2024-03-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • AI21 Labs เปิดตัว Jamba โมเดล AI ระดับโปรดักชันตัวแรกของโลกที่สร้างบนสถาปัตยกรรม Mamba
  • Jamba ผสานจุดแข็งของ Mamba SSM (Structured State Space Model) และสถาปัตยกรรม Transformer แบบดั้งเดิม เพื่อมอบประสิทธิภาพที่น่าประทับใจและเพิ่มความคุ้มค่าในการประมวลผล
  • มี context window ขนาดใหญ่ 256K โทเค็น และประมวลผลได้สูงสุด 140K โทเค็นบน GPU 80GB เพียงตัวเดียว

สถาปัตยกรรมแบบไฮบริดและประสิทธิภาพของ Jamba

  • Jamba ใช้เลเยอร์ Mixture of Experts (MoE) ผ่านสถาปัตยกรรมไฮบริด SSM-Transformer โดยใช้เพียง 12B จากทั้งหมด 52B พารามิเตอร์ในระหว่างการทำอนุมาน
  • สามารถจัดการคอนเท็กซ์ที่ยาวกว่ารุ่นคู่แข่งอย่าง Meta Llama 2 ได้มาก ขณะเดียวกันก็ยังรักษา throughput และประสิทธิภาพในระดับสูง
  • ให้ throughput สูงขึ้น 3 เท่าเมื่อทำงานกับคอนเท็กซ์ยาว และมีประสิทธิภาพมากกว่าโมเดลแบบ Transformer ที่มีขนาดใกล้เคียงกัน
  • มีแนวทางแบบ block และ layer โดยแต่ละบล็อกของ Jamba จะประกอบด้วยเลเยอร์ attention หรือ Mamba แล้วตามด้วย multilayer perceptron (MLP)
  • โครงสร้างนี้ใช้เลเยอร์ Transformer หนึ่งชั้นจากทุก ๆ 8 เลเยอร์ในสัดส่วนรวม
  • แสดงผลลัพธ์ที่โดดเด่นในหลากหลาย benchmark และทำผลงานได้ดีกว่าหรือเทียบเท่ากับโมเดลล้ำสมัยขนาดเดียวกันในงานที่ครอบคลุมหลากหลายประเภท

ใบอนุญาต

  • Jamba เปิดตัวแบบ open weights ภายใต้สัญญาอนุญาต Apache 2.0 และใช้งานได้บน Hugging Face
  • ขณะนี้ Jamba ยังเปิดตัวในฐานะโมเดลวิจัยโดยไม่มีมาตรการความปลอดภัยที่จำเป็นสำหรับการใช้งานเชิงพาณิชย์ แต่ AI21 Labs มีแผนจะปล่อยเวอร์ชันที่ปลอดภัยยิ่งขึ้นภายในไม่กี่สัปดาห์ข้างหน้า

1 ความคิดเห็น

 
xguru 2024-03-30

ความคิดเห็นจาก Hacker News

  • แชร์ลิงก์ไปยังเธรดล่าสุดที่มีคำอธิบายเกี่ยวกับ Mamba
  • แนะนำวิดีโอของ Sasha Rush สำหรับผู้ที่สนใจเรื่อง trade-off ระหว่างเลเยอร์ transformer และ state space model
    • วิดีโอ ของ Sasha Rush ช่วยให้เข้าใจความแตกต่างระหว่างเลเยอร์ transformer และ state space model ได้ดีขึ้น
  • แชร์ปัญหาที่เกี่ยวข้องกับความพยายามจะรันบน Linux โดยใช้ GPU 4090 หนึ่งหรือสองตัว
    • ระหว่างโหลด checkpoint โดยใช้ GPU 4090 บน Linux เกิดปัญหา แม้ VRAM จะดูเพียงพอ แต่ก็ยังล้มเหลว พร้อมแสดงความสนใจต่อการทดลองนี้
  • ยินดีกับการมาถึงของโมเดลระดับ production เต็มรูปแบบที่ใช้ Mamba พร้อมแสดงความสนใจทั้งด้านประสิทธิภาพและ throughput บน benchmark ของ context window ยาว
    • มีความรู้สึกว่าเมื่อ Mamba ใช้ context ที่ยาวขึ้น throughput จะเพิ่มขึ้นมาก แต่ความแม่นยำจะลดลงเล็กน้อย
  • ชี้ให้เห็นถึงความไม่มีประสิทธิภาพของ LLM (Large Language Models)
    • กล่าวถึงความไม่มีประสิทธิภาพของ LLM ที่ต้องใช้หน่วยความจำ GPU 80GB และหวังว่ายังมีพื้นที่อีกมากสำหรับการปรับปรุงอัลกอริทึม
  • ตั้งคำถามถึงความจำเป็นของเลเยอร์ self-attention
    • ถามว่าทำไมจึงต้องมีเลเยอร์ self-attention แทนที่จะสลับใช้เพียงเลเยอร์ SSM และ MLP
  • อธิบายการปรับปรุงด้านประสิทธิภาพของโมเดล Jamba-v0.1-hybrid-MoE
    • มีความเห็นว่าโมเดล Jamba-v0.1-hybrid-MoE ให้ context ที่ยาวกว่า เร็วกว่า และต้นทุนต่ำกว่าโมเดลเดิม และจะเป็นจุดจบของแนวคิดที่ว่า "โมเดลเดียวครองทุกอย่าง"
  • ชี้ปัญหาเรื่องชื่อ Mamba ซ้ำกัน
    • เน้นย้ำความสำคัญของการตั้งชื่อ เพราะชื่อ Mamba ถูกใช้เป็นแพ็กเกจ Python ยอดนิยมอยู่แล้ว
  • กล่าวถึงชื่อ Sparabo และความน่าสนุกของการที่ชื่อเก่าถูกนำมาใช้กับสิ่งใหม่
    • ถามว่ามีชื่อ Sparabo อยู่หรือไม่ และแสดงความสนใจต่อการที่ชื่อเก่าถูกนำมาใช้กับสิ่งใหม่
  • กล่าวว่างานด้าน context ยาวมีความเกี่ยวข้องกับ MemGPT พร้อมเสนอว่าแนวคิดคล้ายกันอาจนำไปใช้กับโมเดลสถาปัตยกรรม Mamba ได้
    • กล่าวถึงงานด้าน context ยาวที่เกี่ยวข้องกับ MemGPT และเสนอความเห็นว่าน่าจะนำไปใช้กับโมเดลสถาปัตยกรรม Mamba ได้เช่นกัน