Mistral "Mixtral" 8x7B 32k โมเดล [แม่เหล็ก]

(twitter.com/MistralAI)

2 คะแนน โดย GN⁺ 2023-12-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

1 ความคิดเห็น

GN⁺ 2023-12-09

ความคิดเห็นบน Hacker News

ข่าว LLM อีกเรื่องหนึ่งคือ โมเดล fine-tuned ของ Mistral/Yi ที่ฝึกด้วยเทคนิคใหม่ที่ยังไม่มีเอกสารชื่อ neural alignment กำลังนำหน้าโมเดลอื่น ๆ บนลีดเดอร์บอร์ดของ Hugging Face อย่างมาก
รุ่น 7B กำลัง “ชนะ” โมเดล 70B ส่วนใหญ่ และรุ่น 34B ที่กำลังทดสอบก็ดูดีมาก
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
ในทางทฤษฎี เทคนิคนี้สามารถนำไปใช้กับ Mistral MoE ได้ด้วย ดังนั้นถ้าได้การยกระดับแบบเดียวกับ Mistral 7B ปกติ และตัว Mistral MoE เองก็ดี ผลลัพธ์อาจเป็นโมเดลที่น่ากลัวทีเดียว
นี่อาจเป็นจุดเปลี่ยนที่ โมเดลโอเพนซอร์ส ที่รันได้บนเดสก์ท็อปเริ่มไล่ตาม GPT-4 อย่างใกล้ชิดจริง ๆ
- ผมลองใช้เวอร์ชัน 7B แล้ว รู้สึกแตกต่างจากรุ่นที่เคยลองมาก่อนอย่างชัดเจน
  มันอธิบายไฟล์ Docker Compose ได้ และยังสร้างคอมโพเนนต์ของแอป Vue แบบง่าย ๆ ได้ด้วย
  พอลองถามต่ออีกเล็กน้อยจากตัวอย่าง มันมีความสอดคล้องและโฟกัสดีอย่างแปลก ๆ ตลอดทั้งบทสนทนา และแม้จะไม่ได้ล้าง context มันก็แยกได้ดีว่ากำลังเปลี่ยนไปหัวข้อใหม่หรือกำลังอ้างถึงเนื้อหาก่อนหน้า
  โดยเฉพาะตอนที่ถามว่า “What does following mean [เนื้อหา docker compose]” cybertron-7b ตอบโดยจับคำของผมมาใส่เครื่องหมายคำพูดตรง ๆ ว่า “ในคอนฟิก YAML ที่ให้มา ‘following’ หมายถึงการระบุ dependency” อะไรทำนองนี้ ซึ่งเป็นครั้งแรกที่ผมเห็นโมเดลอ้างถ้อยคำที่แม่นยำจากบทสนทนาแบบนี้
- พอสนใจขึ้นมาเลยลองสร้าง ollama modelfile จากเวอร์ชัน GGUF ของ TheBloke[1] สำหรับตัวแปรที่เล็กที่สุดดู และสำหรับโมเดลขนาดเล็กขนาดนี้ มันยังให้ความรู้สึกเหมือน GPT-4 อยู่พอสมควรจริง ๆ
  รู้สึกว่าสอดคล้องกว่า openhermes2.5-mistral ที่ก่อนหน้านี้ใช้เป็น LLM โลคัลหลัก
  ถ้าติดตั้ง ollama ไว้แล้ว สามารถลองรันด้วย ollama run nollama/una-cybertron-7b-v2 ได้
  [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
- ใช่ UNA ดูเหมือนจะสามารถจัดแนว MoE ได้กับหลายเลเยอร์ หลายผู้เชี่ยวชาญ หรือแทบทุกส่วนของ neural network
  Xaberius 34B v1 “BETA” คือราชา แต่ก็ยังเป็นแค่เบต้าจริง ๆ
  ต่อไปจะโฟกัสที่ Mixtral และเพราะมันเป็นแบบโมดูลาร์อย่างนี้ จึงเหมือนของขวัญคริสต์มาส ขอบคุณ @mistral ที่เปิดห้องทดลองให้
- ตอนนี้ benchmark ของ LLM นี่อย่างดีที่สุดก็ไร้ความหมาย และอย่างแย่ก็เกือบจะเป็นการโกหกไม่ใช่หรือ?
- ใช่ Mistral ไม่ค่อยสนใจการทำให้โมเดล อ่อนแรงลงราวกับถูกตอน ด้วย “การฝึกด้านความปลอดภัย”
  ดังนั้นจึงอาจมีประสิทธิภาพต่อจำนวนพารามิเตอร์ดีกว่า Anthropic/Google/OpenAI มาก ขณะเดียวกันก็อาจควบคุมได้มากกว่าด้วย
การตีความของ Andrej Karpathy:
LLM แบบเปิด weights ตัวใหม่ของ @MistralAI
จาก params.json คือ hidden_dim / dim = 14336/4096 => ขยาย MLP 3.5X, n_heads / n_kv_heads = 32/8 => multiquery 4X, "moe" => mixture of experts 8X top 2
โค้ดที่ดูเหมือนเกี่ยวข้อง:
https://github.com/mistralai/megablocks-public
แปลกดีที่ไม่มีวิดีโอเปิดตัวแบบมืออาชีพที่ซ้อมมาเกินเหตุ พูดถึง “การปฏิวัติของ AI”
ถ้าสงสัยว่าทำไมช่วงนี้กิจกรรม AI ถึงเยอะผิดปกติ ก็เพราะ NeurIPS ซึ่งเป็นงานประชุม deep learning ที่ใหญ่ที่สุดจะจัดสัปดาห์หน้า
https://twitter.com/karpathy/status/1733181701361451130
- ถ้า NeurIPS คือสัปดาห์หน้า เราควรคาดหวัง ประกาศใหญ่ อย่างสถาปัตยกรรมหรือโมเดลใหม่จากหลายบริษัทได้ไหม? ไม่ค่อยคุ้นกับวัฒนธรรมงานประชุมวิจัย เลยสงสัย
- hidden_dim / dim = 14336/4096 => ขยาย MLP 3.5X และ n_heads / n_kv_heads = 32/8 => 4X ทั้งคู่เหมือนกับ Mistral-7B เดิมเป๊ะ
- EMNLP 2023 ก็กำลังจัดอยู่ตอนนี้ด้วย เลยมีประกาศออกมาพร้อม ๆ กันเยอะ
ดูเหมือน Mistral จะไม่ได้ทุ่มแรงกับการอธิบายมากนัก แต่วิธีแบบนี้ทำให้ผลิตภัณฑ์น่าเชื่อถือกว่าการ ประกาศ Gemini ของ Google ที่ขัดเกลา เป็นองค์กร และไร้จิตวิญญาณมาก
- การปล่อย weights ดีกว่าเอกสาร
  นึกถึงตอนที่พนักงาน Google คุยว่า Gemini เปิด weights แล้ว แถมเป็นแค่ Gemini รุ่นเล็กบนมือถือ แต่ทำเหมือนเป็นการกระทำที่ใจกว้างกว่าบริษัทอื่น
จำเป็นต้องมีประกาศใหญ่โตด้วยหรือ? ทำแบบยุค 90 ก็พอ: https://twitter.com/erhartford/status/1733159666417545641/ph...
- ดูเป็นวิธีที่ กล้าหาญและมั่นใจ กว่าการปล่อยหน้าเว็บหรือวิดีโอการตลาดที่ชัดเจนว่าจัดฉากและไม่สมจริงมาก
ดูเหมือนเป็น mixture of experts (MoE) และ params.json เป็นดังนี้
{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }
- ในบริบทนี้ ผู้เชี่ยวชาญ หมายถึงอะไรกันแน่?
- ตรงนั้นไม่เห็นมีโค้ดเลย runtime ตัวไหนสามารถโหลด weights นี้ได้บ้าง?
แม้จะไม่ใช่บริษัทที่มีเป้าหมายเหมือนกันเป๊ะ ๆ แต่ถ้าเอาการประกาศโมเดลนี้ไปเทียบกับ การประกาศ Gemini ของ Google เมื่อสองวันก่อน ก็ค่อนข้างตลก
แตกต่างอย่างชัดเจนกับแนวทางของ Google เมื่อต้นสัปดาห์นี้ที่ “มีแต่เดโม แต่ไม่มีโมเดล”
ดูเหมือนจะเทรนด้วย Megablocks ของ Stanford: https://github.com/mistralai/megablocks-public
อาจเป็นความเห็นที่ถกเถียงได้ แต่ผมมองว่า Mistral 7B คือขอบหน้าสุดของ LLM จริง ๆ
ยอมรับว่า ChatGPT 4 น่าทึ่ง และผมก็สมัครใช้งานมาตั้งแต่วันแรก แต่แบบนั้นรันอยู่บนเซิร์ฟเวอร์ฟาร์มขนาดมหึมาที่อยู่ไกลออกไป และแทบเป็นกล่องดำ
Mistral มีขนาดเล็ก แต่เมื่อเทียบกับขนาดแล้วกลับสม่ำเสมอและมีประโยชน์อย่างน่าทึ่งทั้งกับคำถามทั่วไปและโค้ด ไม่มีการเซ็นเซอร์ และเป็นก้าวกระโดดที่ยากจะเชื่อว่าจะเป็นไปได้ภายใน 1 ปี
รันบน MacBook Air ได้ที่ 12 tok/s และผมก็ตั้งตารอจะลองใช้บนเดสก์ท็อป
- ในขอบเขตที่รันได้บน MacBook Air ถือว่าอยู่แถวหน้า แต่ไม่ใช่ขอบหน้าสุดของ LLM ทั้งหมดหรือโอเพนซอร์สทั้งหมด
  Yi 34B กับ Llama2 70B ยังทำได้ดีกว่า
- ถ้า 50% ของข้อมูลที่บริโภคกันบนอินเทอร์เน็ตถูกสร้างขึ้นภายใน 24 ชั่วโมงล่าสุด โมเดลขนาดเล็กอาจมีข้อได้เปรียบค่อนข้างมากเหนือโมเดลขนาดใหญ่
  ถ้าสามารถรีเทรนหรือไฟน์จูน LLM หรือ SmallLM ต่อเนื่องทุกสัปดาห์หรือทุกวันเพื่อสะท้อนข้อมูลล่าสุดได้ โมเดลเก่าที่เทรนไว้เมื่อ 1–2 ปีก่อนก็คงตามได้ยาก
  ไม่รู้เรื่องไลเซนส์ แต่ OpenAI อาจเอาโมเดลเล็กอย่าง Mistral7B ใส่เข้าไปในสแตก GPT แล้วเทรนใหม่ตั้งแต่ต้นทุกสัปดาห์ จากนั้นคิดราคาเท่า GPT-4 ก็ได้
  ถึงประสิทธิภาพจะอ่อนกว่า แต่ผมคิดว่าต้องมีผู้ใช้ที่ชอบโมเดลที่มีความสดใหม่ของข้อมูลแน่นอน
- เห็นด้วย Mistral 7B ดีจนน่าทึ่งจริง ๆ
  โมเดลที่ไฟน์จูนอย่างเวอร์ชัน Intel หรือ Berkeley Starling แม้จะมีแค่ 7B แต่ให้ความรู้สึกว่าเข้าใกล้ gpt3.5T อยู่ไม่น้อย
  ผมตั้งตารอ Mistral 13B มาก แต่ไม่รู้ว่า MoE ตัวนี้จะรันบน 3090 ขนาด 24GB ได้หรือไม่
  หวังว่าจะรันได้ด้วยการ quantization, offloading และเทคนิคที่จะออกมาในอนาคต
- ถ้าได้ 12 tok/s บน MacBook Air ก็ดูต่ำไปหน่อย
  ใช้ Metal GPU acceleration ใน llama.cpp อยู่หรือเปล่า? ผมไม่มี MacBook แต่ดูจาก benchmark ของ llama.cpp แล้วเหมือนว่าถ้าใช้ GPU acceleration จะไปได้เกือบ 30 tok/s
- จริงเลย อย่างน้อยก็รู้สึกว่าอยู่ระดับเดียวกับ llama2 13b
  ถ้ามี mistral 70b และมันดีกว่า llama2 70b ในสัดส่วนเดียวกับที่ขนาด 7b แสดงให้เห็นเมื่อเทียบกับ llama2 ก็น่าจะอยู่ระดับใกล้เคียง gpt3.5 แน่นอน
ตอนนี้มีเวอร์ชัน Hugging Face ที่ทำงานได้แบบทดลองแล้ว: https://huggingface.co/DiscoResearch/mixtral-7b-8expert
Google มีเดโมปลอม ส่วน Mistral จบด้วย magnet link ลิงก์เดียว

Mistral "Mixtral" 8x7B 32k โมเดล [แม่เหล็ก]

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News