1 คะแนน โดย GN⁺ 2024-01-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แนะนำ Mixtral of Experts

  • Mixtral 8x7B เป็นโมเดลภาษาแบบ Sparse Mixture of Experts (SMoE)
  • Mixtral มีสถาปัตยกรรมเดียวกับ Mistral 7B แต่แต่ละเลเยอร์ประกอบด้วยบล็อก feed-forward 8 ชุด (ผู้เชี่ยวชาญ)
  • สำหรับแต่ละโทเค็น เครือข่ายเราเตอร์จะเลือกผู้เชี่ยวชาญ 2 รายเพื่อประมวลผลสถานะปัจจุบัน และรวมผลลัพธ์ของทั้งสองเข้าด้วยกัน

ประสิทธิภาพและเบนช์มาร์ก

  • แต่ละโทเค็นสามารถเข้าถึงพารามิเตอร์ได้ 47B แต่ระหว่างการอนุมานจะใช้พารามิเตอร์ที่ทำงานอยู่เพียง 13B
  • Mixtral ได้รับการฝึกด้วยขนาดคอนเท็กซ์ 32k โทเค็น และทำได้ดีกว่าหรือเทียบเท่า Llama 2 70B และ GPT-3.5 ในทุกเบนช์มาร์กที่ประเมิน
  • โดยเฉพาะด้านคณิตศาสตร์ การสร้างโค้ด และเบนช์มาร์กหลายภาษา ซึ่งทำได้ดีกว่า Llama 2 70B อย่างชัดเจน

การทำ Fine-tuning ของโมเดลและไลเซนส์

  • Mixtral 8x7B - Instruct ซึ่งเป็นโมเดลที่ผ่านการทำ Fine-tuning ให้ทำตามคำสั่ง สามารถเอาชนะ GPT-3.5 Turbo, Claude-2.1, Gemini Pro, Llama 2 70B - chat ในการทดสอบกับมนุษย์
  • ทั้งโมเดลพื้นฐานและโมเดล instruct เปิดเผยภายใต้ไลเซนส์ Apache 2.0

ความเห็นของ GN⁺

  • Mixtral 8x7B ถูกประเมินว่ามีประสิทธิภาพโดดเด่นเมื่อเทียบกับโมเดลภาษาที่มีอยู่เดิม นี่เป็นตัวชี้วัดสำคัญที่สะท้อนความก้าวหน้าในด้านการประมวลผลภาษาด้วยปัญญาประดิษฐ์
  • โดยเฉพาะการพัฒนาด้านประสิทธิภาพในหลายภาษาและการสร้างโค้ด อาจส่งผลเชิงบวกต่อการประยุกต์ใช้หลากหลายด้าน เช่น การแปลด้วยเครื่องและการเขียนโปรแกรมอัตโนมัติ
  • การเปิดเผยภายใต้ไลเซนส์ Apache 2.0 เปิดโอกาสให้นักวิจัยและนักพัฒนาสามารถใช้งานและปรับปรุงโมเดลนี้ได้อย่างอิสระ ซึ่งจะช่วยส่งเสริมการเติบโตของชุมชน AI โอเพนซอร์ส

1 ความคิดเห็น

 
GN⁺ 2024-01-10
ความคิดเห็นจาก Hacker News
  • การพูดคุยเกี่ยวกับโมเดล Mixtral 8x7B

    • โมเดล Mixtral 8x7B ถูกใช้งานมาประมาณหนึ่งเดือนแล้ว และแสดงประสิทธิภาพที่ยอดเยี่ยมมากสำหรับขนาด 13B
    • โมเดลนี้อยู่ในอันดับสูงเมื่อเทียบกับโมเดลคู่แข่ง และมีประโยชน์มากสำหรับการแชต การป้อนโค้ด และงานทั่วไปบน Mac ในชีวิตประจำวัน
    • มีการตั้งข้อสังเกตว่า expert ทั้ง 8 ตัวที่เริ่มต้นจาก Mistral 7B อาจพัฒนาแยกกันไปในคนละทิศทาง
    • ในกรณีของ Mistral ดูเหมือนว่าการฝึกเครือข่าย 8x7B ไม่ได้ต้องใช้ความพยายามมากเท่ากับการฝึกเครือข่าย 7B จำนวน 8 ตัวแยกกัน
    • วงการ LLM ยังคงมีนวัตกรรมเกิดขึ้นอย่างรวดเร็ว โดยมีทั้งงานวิจัยใหม่อย่าง Calm และโมเดลเชิงทดลองอย่าง Goliath-120b ปรากฏออกมา
    • คาดว่าในครึ่งแรกของปี 2024 จะมีโมเดลที่ทำงานได้ดีบนฮาร์ดแวร์สำหรับผู้บริโภคออกมา
  • ประสิทธิภาพและความเป็นไปได้ในการใช้งานของโมเดล

    • โมเดลนี้ใช้พารามิเตอร์ระดับ 13b ทำงานได้ลื่นไหลบน 3090 ด้วยคุณภาพสูง, ทำคะแนนเหนือกว่า GPT-3.5 ใน humaneval และรองรับคอนเท็กซ์ 32k
    • 3090 เป็นฮาร์ดแวร์ระดับผู้บริโภคที่พบได้ทั่วไปในหมู่นักเล่นเกม
    • มีความคาดหวังว่านักพัฒนาเกมจะเริ่มนำ Mixtral ไปใช้ภายในเกม
  • วิธีใช้งานโมเดล

    • โมเดล Mixtral ถูกเผยแพร่เป็น Llamafile โดย Mozilla/jart และผู้ใช้สามารถดาวน์โหลดไฟล์นั้นแล้วรันได้ทันที
  • การใช้งานบน Mac Silicon

    • ผู้ใช้ Mac Silicon สามารถดาวน์โหลด Mixtral ผ่าน ollama.ai และใช้ ollama-webui เพื่อสร้างเว็บ UI ได้
  • ข่าวและการถกเถียงที่เกี่ยวข้อง

    • มีการให้ลิงก์ไปยังข่าวและการพูดคุยล่าสุดเกี่ยวกับโมเดล Mixtral
  • ประสิทธิภาพบนเบนช์มาร์กของโมเดล

    • Mixtral ทำได้ดีกว่า Llama 2 70B อย่างชัดเจนในเบนช์มาร์กด้านคณิตศาสตร์ การสร้างโค้ด และหลายภาษา
    • มีความสนใจเป็นพิเศษต่อประสิทธิภาพด้านคณิตศาสตร์ ซึ่งดูเหมือนว่ายังเป็นสาขาที่ยังไม่ได้รับการแก้ไขอย่างมีประสิทธิภาพ
  • มุมมองวิพากษ์ต่อบทความวิจัย

    • มีคำวิจารณ์ว่าบทความเกี่ยวกับ LLM มักขาดรายละเอียดสำคัญ
    • มีการชี้ว่าบทความไม่ได้อธิบายว่าฝึก expert อย่างไร และใช้ชุดข้อมูลใดบ้าง
  • เนื้อหาจากบทสัมภาษณ์ผู้ก่อตั้ง Mistral

    • ผู้ก่อตั้ง Mistral กล่าวในพอดแคสต์สัมภาษณ์ของ A16Z ว่าบริษัทมีโมเดลภายในหลายตัวที่อยู่ระหว่างระดับ chatGPT และ GPT4
    • จากคุณภาพของรีลีสที่ผ่านมา จึงมีการแสดงความคาดหวังต่อ open source LLM อย่างมาก
  • คำอธิบายของโมเดล expert แต่ละตัว

    • ในบทความไม่มีคำอธิบายว่าใน 8 โมเดลนั้น มีตัวใดเชี่ยวชาญด้านการแปลหลายภาษา หรือมีอีกตัวที่เชี่ยวชาญด้านการเขียนโค้ดหรือไม่
  • ความคาดหวังต่อการเปิดตัวโมเดลมัลติโหมดัล

    • แม้ความก้าวหน้าของโมเดลที่จัดการเฉพาะข้อความจะน่าทึ่งมาก แต่ก็มีความสงสัยว่าพฤติกรรมแบบ "เกิดขึ้นเอง" ของ GPT-4 อาจไม่ได้มาจากการฝึกแบบมัลติโหมดัลหรือไม่
    • มีความสนใจว่าโมเดลขนาดเล็กที่รวมมัลติโหมดัลจะสามารถแสดงการก้าวกระโดดในลักษณะคล้ายกันได้หรือไม่