Mistral "Mixtral" 8x7B 32k โมเดล [แม่เหล็ก] (twitter.com/MistralAI) 2 คะแนน โดย GN⁺ 2023-12-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp บทความที่เกี่ยวข้อง Mistral AI เปิดตัวโมเดล MOE 8x22B ใหม่ 1 คะแนน · 1 ความคิดเห็น · 2024-04-12 Mistral AI เปิดตัว Mixtral 8x22B โมเดลโอเพนตัวใหม่ 9 คะแนน · 6 ความคิดเห็น · 2024-04-18 Mistral AI เปิดตัว Mixtral 8x7B ที่เหนือกว่า Llama 2 70B 12 คะแนน · 2 ความคิดเห็น · 2023-12-12 การทำอนุมานแบบใช้ CPU อย่างเดียวด้วย C ล้วนสำหรับโมเดลรู้จำเสียง Mistral Voxtral Realtime 4B 13 คะแนน · 1 ความคิดเห็น · 2026-02-12 Mixtral 8x7B: โมเดลภาษาแบบ Sparse Mixture of Experts 1 คะแนน · 1 ความคิดเห็น · 2024-01-10 1 ความคิดเห็น GN⁺ 2023-12-09 ความคิดเห็นบน Hacker News ข่าว LLM อีกเรื่องหนึ่งคือ โมเดล fine-tuned ของ Mistral/Yi ที่ฝึกด้วยเทคนิคใหม่ที่ยังไม่มีเอกสารชื่อ neural alignment กำลังนำหน้าโมเดลอื่น ๆ บนลีดเดอร์บอร์ดของ Hugging Face อย่างมาก รุ่น 7B กำลัง “ชนะ” โมเดล 70B ส่วนใหญ่ และรุ่น 34B ที่กำลังทดสอบก็ดูดีมาก https://huggingface.co/fblgit/una-xaberius-34b-v1beta https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16 ในทางทฤษฎี เทคนิคนี้สามารถนำไปใช้กับ Mistral MoE ได้ด้วย ดังนั้นถ้าได้การยกระดับแบบเดียวกับ Mistral 7B ปกติ และตัว Mistral MoE เองก็ดี ผลลัพธ์อาจเป็นโมเดลที่น่ากลัวทีเดียว นี่อาจเป็นจุดเปลี่ยนที่ โมเดลโอเพนซอร์ส ที่รันได้บนเดสก์ท็อปเริ่มไล่ตาม GPT-4 อย่างใกล้ชิดจริง ๆ ผมลองใช้เวอร์ชัน 7B แล้ว รู้สึกแตกต่างจากรุ่นที่เคยลองมาก่อนอย่างชัดเจน มันอธิบายไฟล์ Docker Compose ได้ และยังสร้างคอมโพเนนต์ของแอป Vue แบบง่าย ๆ ได้ด้วย พอลองถามต่ออีกเล็กน้อยจากตัวอย่าง มันมีความสอดคล้องและโฟกัสดีอย่างแปลก ๆ ตลอดทั้งบทสนทนา และแม้จะไม่ได้ล้าง context มันก็แยกได้ดีว่ากำลังเปลี่ยนไปหัวข้อใหม่หรือกำลังอ้างถึงเนื้อหาก่อนหน้า โดยเฉพาะตอนที่ถามว่า “What does following mean [เนื้อหา docker compose]” cybertron-7b ตอบโดยจับคำของผมมาใส่เครื่องหมายคำพูดตรง ๆ ว่า “ในคอนฟิก YAML ที่ให้มา ‘following’ หมายถึงการระบุ dependency” อะไรทำนองนี้ ซึ่งเป็นครั้งแรกที่ผมเห็นโมเดลอ้างถ้อยคำที่แม่นยำจากบทสนทนาแบบนี้ พอสนใจขึ้นมาเลยลองสร้าง ollama modelfile จากเวอร์ชัน GGUF ของ TheBloke[1] สำหรับตัวแปรที่เล็กที่สุดดู และสำหรับโมเดลขนาดเล็กขนาดนี้ มันยังให้ความรู้สึกเหมือน GPT-4 อยู่พอสมควรจริง ๆ รู้สึกว่าสอดคล้องกว่า openhermes2.5-mistral ที่ก่อนหน้านี้ใช้เป็น LLM โลคัลหลัก ถ้าติดตั้ง ollama ไว้แล้ว สามารถลองรันด้วย ollama run nollama/una-cybertron-7b-v2 ได้ [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF ใช่ UNA ดูเหมือนจะสามารถจัดแนว MoE ได้กับหลายเลเยอร์ หลายผู้เชี่ยวชาญ หรือแทบทุกส่วนของ neural network Xaberius 34B v1 “BETA” คือราชา แต่ก็ยังเป็นแค่เบต้าจริง ๆ ต่อไปจะโฟกัสที่ Mixtral และเพราะมันเป็นแบบโมดูลาร์อย่างนี้ จึงเหมือนของขวัญคริสต์มาส ขอบคุณ @mistral ที่เปิดห้องทดลองให้ ตอนนี้ benchmark ของ LLM นี่อย่างดีที่สุดก็ไร้ความหมาย และอย่างแย่ก็เกือบจะเป็นการโกหกไม่ใช่หรือ? ใช่ Mistral ไม่ค่อยสนใจการทำให้โมเดล อ่อนแรงลงราวกับถูกตอน ด้วย “การฝึกด้านความปลอดภัย” ดังนั้นจึงอาจมีประสิทธิภาพต่อจำนวนพารามิเตอร์ดีกว่า Anthropic/Google/OpenAI มาก ขณะเดียวกันก็อาจควบคุมได้มากกว่าด้วย การตีความของ Andrej Karpathy: LLM แบบเปิด weights ตัวใหม่ของ @MistralAI จาก params.json คือ hidden_dim / dim = 14336/4096 => ขยาย MLP 3.5X, n_heads / n_kv_heads = 32/8 => multiquery 4X, "moe" => mixture of experts 8X top 2 โค้ดที่ดูเหมือนเกี่ยวข้อง: https://github.com/mistralai/megablocks-public แปลกดีที่ไม่มีวิดีโอเปิดตัวแบบมืออาชีพที่ซ้อมมาเกินเหตุ พูดถึง “การปฏิวัติของ AI” ถ้าสงสัยว่าทำไมช่วงนี้กิจกรรม AI ถึงเยอะผิดปกติ ก็เพราะ NeurIPS ซึ่งเป็นงานประชุม deep learning ที่ใหญ่ที่สุดจะจัดสัปดาห์หน้า https://twitter.com/karpathy/status/1733181701361451130 ถ้า NeurIPS คือสัปดาห์หน้า เราควรคาดหวัง ประกาศใหญ่ อย่างสถาปัตยกรรมหรือโมเดลใหม่จากหลายบริษัทได้ไหม? ไม่ค่อยคุ้นกับวัฒนธรรมงานประชุมวิจัย เลยสงสัย hidden_dim / dim = 14336/4096 => ขยาย MLP 3.5X และ n_heads / n_kv_heads = 32/8 => 4X ทั้งคู่เหมือนกับ Mistral-7B เดิมเป๊ะ EMNLP 2023 ก็กำลังจัดอยู่ตอนนี้ด้วย เลยมีประกาศออกมาพร้อม ๆ กันเยอะ ดูเหมือน Mistral จะไม่ได้ทุ่มแรงกับการอธิบายมากนัก แต่วิธีแบบนี้ทำให้ผลิตภัณฑ์น่าเชื่อถือกว่าการ ประกาศ Gemini ของ Google ที่ขัดเกลา เป็นองค์กร และไร้จิตวิญญาณมาก การปล่อย weights ดีกว่าเอกสาร นึกถึงตอนที่พนักงาน Google คุยว่า Gemini เปิด weights แล้ว แถมเป็นแค่ Gemini รุ่นเล็กบนมือถือ แต่ทำเหมือนเป็นการกระทำที่ใจกว้างกว่าบริษัทอื่น จำเป็นต้องมีประกาศใหญ่โตด้วยหรือ? ทำแบบยุค 90 ก็พอ: https://twitter.com/erhartford/status/1733159666417545641/ph... ดูเป็นวิธีที่ กล้าหาญและมั่นใจ กว่าการปล่อยหน้าเว็บหรือวิดีโอการตลาดที่ชัดเจนว่าจัดฉากและไม่สมจริงมาก ดูเหมือนเป็น mixture of experts (MoE) และ params.json เป็นดังนี้ { "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } } ในบริบทนี้ ผู้เชี่ยวชาญ หมายถึงอะไรกันแน่? ตรงนั้นไม่เห็นมีโค้ดเลย runtime ตัวไหนสามารถโหลด weights นี้ได้บ้าง? แม้จะไม่ใช่บริษัทที่มีเป้าหมายเหมือนกันเป๊ะ ๆ แต่ถ้าเอาการประกาศโมเดลนี้ไปเทียบกับ การประกาศ Gemini ของ Google เมื่อสองวันก่อน ก็ค่อนข้างตลก แตกต่างอย่างชัดเจนกับแนวทางของ Google เมื่อต้นสัปดาห์นี้ที่ “มีแต่เดโม แต่ไม่มีโมเดล” ดูเหมือนจะเทรนด้วย Megablocks ของ Stanford: https://github.com/mistralai/megablocks-public อาจเป็นความเห็นที่ถกเถียงได้ แต่ผมมองว่า Mistral 7B คือขอบหน้าสุดของ LLM จริง ๆ ยอมรับว่า ChatGPT 4 น่าทึ่ง และผมก็สมัครใช้งานมาตั้งแต่วันแรก แต่แบบนั้นรันอยู่บนเซิร์ฟเวอร์ฟาร์มขนาดมหึมาที่อยู่ไกลออกไป และแทบเป็นกล่องดำ Mistral มีขนาดเล็ก แต่เมื่อเทียบกับขนาดแล้วกลับสม่ำเสมอและมีประโยชน์อย่างน่าทึ่งทั้งกับคำถามทั่วไปและโค้ด ไม่มีการเซ็นเซอร์ และเป็นก้าวกระโดดที่ยากจะเชื่อว่าจะเป็นไปได้ภายใน 1 ปี รันบน MacBook Air ได้ที่ 12 tok/s และผมก็ตั้งตารอจะลองใช้บนเดสก์ท็อป ในขอบเขตที่รันได้บน MacBook Air ถือว่าอยู่แถวหน้า แต่ไม่ใช่ขอบหน้าสุดของ LLM ทั้งหมดหรือโอเพนซอร์สทั้งหมด Yi 34B กับ Llama2 70B ยังทำได้ดีกว่า ถ้า 50% ของข้อมูลที่บริโภคกันบนอินเทอร์เน็ตถูกสร้างขึ้นภายใน 24 ชั่วโมงล่าสุด โมเดลขนาดเล็กอาจมีข้อได้เปรียบค่อนข้างมากเหนือโมเดลขนาดใหญ่ ถ้าสามารถรีเทรนหรือไฟน์จูน LLM หรือ SmallLM ต่อเนื่องทุกสัปดาห์หรือทุกวันเพื่อสะท้อนข้อมูลล่าสุดได้ โมเดลเก่าที่เทรนไว้เมื่อ 1–2 ปีก่อนก็คงตามได้ยาก ไม่รู้เรื่องไลเซนส์ แต่ OpenAI อาจเอาโมเดลเล็กอย่าง Mistral7B ใส่เข้าไปในสแตก GPT แล้วเทรนใหม่ตั้งแต่ต้นทุกสัปดาห์ จากนั้นคิดราคาเท่า GPT-4 ก็ได้ ถึงประสิทธิภาพจะอ่อนกว่า แต่ผมคิดว่าต้องมีผู้ใช้ที่ชอบโมเดลที่มีความสดใหม่ของข้อมูลแน่นอน เห็นด้วย Mistral 7B ดีจนน่าทึ่งจริง ๆ โมเดลที่ไฟน์จูนอย่างเวอร์ชัน Intel หรือ Berkeley Starling แม้จะมีแค่ 7B แต่ให้ความรู้สึกว่าเข้าใกล้ gpt3.5T อยู่ไม่น้อย ผมตั้งตารอ Mistral 13B มาก แต่ไม่รู้ว่า MoE ตัวนี้จะรันบน 3090 ขนาด 24GB ได้หรือไม่ หวังว่าจะรันได้ด้วยการ quantization, offloading และเทคนิคที่จะออกมาในอนาคต ถ้าได้ 12 tok/s บน MacBook Air ก็ดูต่ำไปหน่อย ใช้ Metal GPU acceleration ใน llama.cpp อยู่หรือเปล่า? ผมไม่มี MacBook แต่ดูจาก benchmark ของ llama.cpp แล้วเหมือนว่าถ้าใช้ GPU acceleration จะไปได้เกือบ 30 tok/s จริงเลย อย่างน้อยก็รู้สึกว่าอยู่ระดับเดียวกับ llama2 13b ถ้ามี mistral 70b และมันดีกว่า llama2 70b ในสัดส่วนเดียวกับที่ขนาด 7b แสดงให้เห็นเมื่อเทียบกับ llama2 ก็น่าจะอยู่ระดับใกล้เคียง gpt3.5 แน่นอน ตอนนี้มีเวอร์ชัน Hugging Face ที่ทำงานได้แบบทดลองแล้ว: https://huggingface.co/DiscoResearch/mixtral-7b-8expert Google มีเดโมปลอม ส่วน Mistral จบด้วย magnet link ลิงก์เดียว
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ข่าว LLM อีกเรื่องหนึ่งคือ โมเดล fine-tuned ของ Mistral/Yi ที่ฝึกด้วยเทคนิคใหม่ที่ยังไม่มีเอกสารชื่อ neural alignment กำลังนำหน้าโมเดลอื่น ๆ บนลีดเดอร์บอร์ดของ Hugging Face อย่างมาก
รุ่น 7B กำลัง “ชนะ” โมเดล 70B ส่วนใหญ่ และรุ่น 34B ที่กำลังทดสอบก็ดูดีมาก
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
ในทางทฤษฎี เทคนิคนี้สามารถนำไปใช้กับ Mistral MoE ได้ด้วย ดังนั้นถ้าได้การยกระดับแบบเดียวกับ Mistral 7B ปกติ และตัว Mistral MoE เองก็ดี ผลลัพธ์อาจเป็นโมเดลที่น่ากลัวทีเดียว
นี่อาจเป็นจุดเปลี่ยนที่ โมเดลโอเพนซอร์ส ที่รันได้บนเดสก์ท็อปเริ่มไล่ตาม GPT-4 อย่างใกล้ชิดจริง ๆ
มันอธิบายไฟล์ Docker Compose ได้ และยังสร้างคอมโพเนนต์ของแอป Vue แบบง่าย ๆ ได้ด้วย
พอลองถามต่ออีกเล็กน้อยจากตัวอย่าง มันมีความสอดคล้องและโฟกัสดีอย่างแปลก ๆ ตลอดทั้งบทสนทนา และแม้จะไม่ได้ล้าง context มันก็แยกได้ดีว่ากำลังเปลี่ยนไปหัวข้อใหม่หรือกำลังอ้างถึงเนื้อหาก่อนหน้า
โดยเฉพาะตอนที่ถามว่า “What does following mean [เนื้อหา docker compose]” cybertron-7b ตอบโดยจับคำของผมมาใส่เครื่องหมายคำพูดตรง ๆ ว่า “ในคอนฟิก YAML ที่ให้มา ‘following’ หมายถึงการระบุ dependency” อะไรทำนองนี้ ซึ่งเป็นครั้งแรกที่ผมเห็นโมเดลอ้างถ้อยคำที่แม่นยำจากบทสนทนาแบบนี้
รู้สึกว่าสอดคล้องกว่า openhermes2.5-mistral ที่ก่อนหน้านี้ใช้เป็น LLM โลคัลหลัก
ถ้าติดตั้ง ollama ไว้แล้ว สามารถลองรันด้วย
ollama run nollama/una-cybertron-7b-v2ได้[1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
Xaberius 34B v1 “BETA” คือราชา แต่ก็ยังเป็นแค่เบต้าจริง ๆ
ต่อไปจะโฟกัสที่ Mixtral และเพราะมันเป็นแบบโมดูลาร์อย่างนี้ จึงเหมือนของขวัญคริสต์มาส ขอบคุณ @mistral ที่เปิดห้องทดลองให้
ดังนั้นจึงอาจมีประสิทธิภาพต่อจำนวนพารามิเตอร์ดีกว่า Anthropic/Google/OpenAI มาก ขณะเดียวกันก็อาจควบคุมได้มากกว่าด้วย
การตีความของ Andrej Karpathy:
LLM แบบเปิด weights ตัวใหม่ของ @MistralAI
จาก params.json คือ
hidden_dim / dim = 14336/4096 => ขยาย MLP 3.5X,n_heads / n_kv_heads = 32/8 => multiquery 4X,"moe" => mixture of experts 8X top 2โค้ดที่ดูเหมือนเกี่ยวข้อง:
https://github.com/mistralai/megablocks-public
แปลกดีที่ไม่มีวิดีโอเปิดตัวแบบมืออาชีพที่ซ้อมมาเกินเหตุ พูดถึง “การปฏิวัติของ AI”
ถ้าสงสัยว่าทำไมช่วงนี้กิจกรรม AI ถึงเยอะผิดปกติ ก็เพราะ NeurIPS ซึ่งเป็นงานประชุม deep learning ที่ใหญ่ที่สุดจะจัดสัปดาห์หน้า
https://twitter.com/karpathy/status/1733181701361451130
hidden_dim / dim = 14336/4096 => ขยาย MLP 3.5Xและn_heads / n_kv_heads = 32/8 => 4Xทั้งคู่เหมือนกับ Mistral-7B เดิมเป๊ะดูเหมือน Mistral จะไม่ได้ทุ่มแรงกับการอธิบายมากนัก แต่วิธีแบบนี้ทำให้ผลิตภัณฑ์น่าเชื่อถือกว่าการ ประกาศ Gemini ของ Google ที่ขัดเกลา เป็นองค์กร และไร้จิตวิญญาณมาก
นึกถึงตอนที่พนักงาน Google คุยว่า Gemini เปิด weights แล้ว แถมเป็นแค่ Gemini รุ่นเล็กบนมือถือ แต่ทำเหมือนเป็นการกระทำที่ใจกว้างกว่าบริษัทอื่น
จำเป็นต้องมีประกาศใหญ่โตด้วยหรือ? ทำแบบยุค 90 ก็พอ: https://twitter.com/erhartford/status/1733159666417545641/ph...
ดูเหมือนเป็น mixture of experts (MoE) และ
params.jsonเป็นดังนี้{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }แม้จะไม่ใช่บริษัทที่มีเป้าหมายเหมือนกันเป๊ะ ๆ แต่ถ้าเอาการประกาศโมเดลนี้ไปเทียบกับ การประกาศ Gemini ของ Google เมื่อสองวันก่อน ก็ค่อนข้างตลก
แตกต่างอย่างชัดเจนกับแนวทางของ Google เมื่อต้นสัปดาห์นี้ที่ “มีแต่เดโม แต่ไม่มีโมเดล”
ดูเหมือนจะเทรนด้วย Megablocks ของ Stanford: https://github.com/mistralai/megablocks-public
อาจเป็นความเห็นที่ถกเถียงได้ แต่ผมมองว่า Mistral 7B คือขอบหน้าสุดของ LLM จริง ๆ
ยอมรับว่า ChatGPT 4 น่าทึ่ง และผมก็สมัครใช้งานมาตั้งแต่วันแรก แต่แบบนั้นรันอยู่บนเซิร์ฟเวอร์ฟาร์มขนาดมหึมาที่อยู่ไกลออกไป และแทบเป็นกล่องดำ
Mistral มีขนาดเล็ก แต่เมื่อเทียบกับขนาดแล้วกลับสม่ำเสมอและมีประโยชน์อย่างน่าทึ่งทั้งกับคำถามทั่วไปและโค้ด ไม่มีการเซ็นเซอร์ และเป็นก้าวกระโดดที่ยากจะเชื่อว่าจะเป็นไปได้ภายใน 1 ปี
รันบน MacBook Air ได้ที่ 12 tok/s และผมก็ตั้งตารอจะลองใช้บนเดสก์ท็อป
Yi 34B กับ Llama2 70B ยังทำได้ดีกว่า
ถ้าสามารถรีเทรนหรือไฟน์จูน LLM หรือ SmallLM ต่อเนื่องทุกสัปดาห์หรือทุกวันเพื่อสะท้อนข้อมูลล่าสุดได้ โมเดลเก่าที่เทรนไว้เมื่อ 1–2 ปีก่อนก็คงตามได้ยาก
ไม่รู้เรื่องไลเซนส์ แต่ OpenAI อาจเอาโมเดลเล็กอย่าง Mistral7B ใส่เข้าไปในสแตก GPT แล้วเทรนใหม่ตั้งแต่ต้นทุกสัปดาห์ จากนั้นคิดราคาเท่า GPT-4 ก็ได้
ถึงประสิทธิภาพจะอ่อนกว่า แต่ผมคิดว่าต้องมีผู้ใช้ที่ชอบโมเดลที่มีความสดใหม่ของข้อมูลแน่นอน
โมเดลที่ไฟน์จูนอย่างเวอร์ชัน Intel หรือ Berkeley Starling แม้จะมีแค่ 7B แต่ให้ความรู้สึกว่าเข้าใกล้ gpt3.5T อยู่ไม่น้อย
ผมตั้งตารอ Mistral 13B มาก แต่ไม่รู้ว่า MoE ตัวนี้จะรันบน 3090 ขนาด 24GB ได้หรือไม่
หวังว่าจะรันได้ด้วยการ quantization, offloading และเทคนิคที่จะออกมาในอนาคต
ใช้ Metal GPU acceleration ใน llama.cpp อยู่หรือเปล่า? ผมไม่มี MacBook แต่ดูจาก benchmark ของ llama.cpp แล้วเหมือนว่าถ้าใช้ GPU acceleration จะไปได้เกือบ 30 tok/s
ถ้ามี mistral 70b และมันดีกว่า llama2 70b ในสัดส่วนเดียวกับที่ขนาด 7b แสดงให้เห็นเมื่อเทียบกับ llama2 ก็น่าจะอยู่ระดับใกล้เคียง gpt3.5 แน่นอน
ตอนนี้มีเวอร์ชัน Hugging Face ที่ทำงานได้แบบทดลองแล้ว: https://huggingface.co/DiscoResearch/mixtral-7b-8expert
Google มีเดโมปลอม ส่วน Mistral จบด้วย magnet link ลิงก์เดียว