1 ความคิดเห็น

 
GN⁺ 2023-12-09
ความคิดเห็นบน Hacker News
  • ข่าว LLM อีกเรื่องหนึ่งคือ โมเดล fine-tuned ของ Mistral/Yi ที่ฝึกด้วยเทคนิคใหม่ที่ยังไม่มีเอกสารชื่อ neural alignment กำลังนำหน้าโมเดลอื่น ๆ บนลีดเดอร์บอร์ดของ Hugging Face อย่างมาก
    รุ่น 7B กำลัง “ชนะ” โมเดล 70B ส่วนใหญ่ และรุ่น 34B ที่กำลังทดสอบก็ดูดีมาก
    https://huggingface.co/fblgit/una-xaberius-34b-v1beta
    https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
    ในทางทฤษฎี เทคนิคนี้สามารถนำไปใช้กับ Mistral MoE ได้ด้วย ดังนั้นถ้าได้การยกระดับแบบเดียวกับ Mistral 7B ปกติ และตัว Mistral MoE เองก็ดี ผลลัพธ์อาจเป็นโมเดลที่น่ากลัวทีเดียว
    นี่อาจเป็นจุดเปลี่ยนที่ โมเดลโอเพนซอร์ส ที่รันได้บนเดสก์ท็อปเริ่มไล่ตาม GPT-4 อย่างใกล้ชิดจริง ๆ

    • ผมลองใช้เวอร์ชัน 7B แล้ว รู้สึกแตกต่างจากรุ่นที่เคยลองมาก่อนอย่างชัดเจน
      มันอธิบายไฟล์ Docker Compose ได้ และยังสร้างคอมโพเนนต์ของแอป Vue แบบง่าย ๆ ได้ด้วย
      พอลองถามต่ออีกเล็กน้อยจากตัวอย่าง มันมีความสอดคล้องและโฟกัสดีอย่างแปลก ๆ ตลอดทั้งบทสนทนา และแม้จะไม่ได้ล้าง context มันก็แยกได้ดีว่ากำลังเปลี่ยนไปหัวข้อใหม่หรือกำลังอ้างถึงเนื้อหาก่อนหน้า
      โดยเฉพาะตอนที่ถามว่า “What does following mean [เนื้อหา docker compose]” cybertron-7b ตอบโดยจับคำของผมมาใส่เครื่องหมายคำพูดตรง ๆ ว่า “ในคอนฟิก YAML ที่ให้มา ‘following’ หมายถึงการระบุ dependency” อะไรทำนองนี้ ซึ่งเป็นครั้งแรกที่ผมเห็นโมเดลอ้างถ้อยคำที่แม่นยำจากบทสนทนาแบบนี้
    • พอสนใจขึ้นมาเลยลองสร้าง ollama modelfile จากเวอร์ชัน GGUF ของ TheBloke[1] สำหรับตัวแปรที่เล็กที่สุดดู และสำหรับโมเดลขนาดเล็กขนาดนี้ มันยังให้ความรู้สึกเหมือน GPT-4 อยู่พอสมควรจริง ๆ
      รู้สึกว่าสอดคล้องกว่า openhermes2.5-mistral ที่ก่อนหน้านี้ใช้เป็น LLM โลคัลหลัก
      ถ้าติดตั้ง ollama ไว้แล้ว สามารถลองรันด้วย ollama run nollama/una-cybertron-7b-v2 ได้
      [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
    • ใช่ UNA ดูเหมือนจะสามารถจัดแนว MoE ได้กับหลายเลเยอร์ หลายผู้เชี่ยวชาญ หรือแทบทุกส่วนของ neural network
      Xaberius 34B v1 “BETA” คือราชา แต่ก็ยังเป็นแค่เบต้าจริง ๆ
      ต่อไปจะโฟกัสที่ Mixtral และเพราะมันเป็นแบบโมดูลาร์อย่างนี้ จึงเหมือนของขวัญคริสต์มาส ขอบคุณ @mistral ที่เปิดห้องทดลองให้
    • ตอนนี้ benchmark ของ LLM นี่อย่างดีที่สุดก็ไร้ความหมาย และอย่างแย่ก็เกือบจะเป็นการโกหกไม่ใช่หรือ?
    • ใช่ Mistral ไม่ค่อยสนใจการทำให้โมเดล อ่อนแรงลงราวกับถูกตอน ด้วย “การฝึกด้านความปลอดภัย”
      ดังนั้นจึงอาจมีประสิทธิภาพต่อจำนวนพารามิเตอร์ดีกว่า Anthropic/Google/OpenAI มาก ขณะเดียวกันก็อาจควบคุมได้มากกว่าด้วย
  • การตีความของ Andrej Karpathy:
    LLM แบบเปิด weights ตัวใหม่ของ @MistralAI
    จาก params.json คือ hidden_dim / dim = 14336/4096 => ขยาย MLP 3.5X, n_heads / n_kv_heads = 32/8 => multiquery 4X, "moe" => mixture of experts 8X top 2
    โค้ดที่ดูเหมือนเกี่ยวข้อง:
    https://github.com/mistralai/megablocks-public
    แปลกดีที่ไม่มีวิดีโอเปิดตัวแบบมืออาชีพที่ซ้อมมาเกินเหตุ พูดถึง “การปฏิวัติของ AI”
    ถ้าสงสัยว่าทำไมช่วงนี้กิจกรรม AI ถึงเยอะผิดปกติ ก็เพราะ NeurIPS ซึ่งเป็นงานประชุม deep learning ที่ใหญ่ที่สุดจะจัดสัปดาห์หน้า
    https://twitter.com/karpathy/status/1733181701361451130

    • ถ้า NeurIPS คือสัปดาห์หน้า เราควรคาดหวัง ประกาศใหญ่ อย่างสถาปัตยกรรมหรือโมเดลใหม่จากหลายบริษัทได้ไหม? ไม่ค่อยคุ้นกับวัฒนธรรมงานประชุมวิจัย เลยสงสัย
    • hidden_dim / dim = 14336/4096 => ขยาย MLP 3.5X และ n_heads / n_kv_heads = 32/8 => 4X ทั้งคู่เหมือนกับ Mistral-7B เดิมเป๊ะ
    • EMNLP 2023 ก็กำลังจัดอยู่ตอนนี้ด้วย เลยมีประกาศออกมาพร้อม ๆ กันเยอะ
  • ดูเหมือน Mistral จะไม่ได้ทุ่มแรงกับการอธิบายมากนัก แต่วิธีแบบนี้ทำให้ผลิตภัณฑ์น่าเชื่อถือกว่าการ ประกาศ Gemini ของ Google ที่ขัดเกลา เป็นองค์กร และไร้จิตวิญญาณมาก

    • การปล่อย weights ดีกว่าเอกสาร
      นึกถึงตอนที่พนักงาน Google คุยว่า Gemini เปิด weights แล้ว แถมเป็นแค่ Gemini รุ่นเล็กบนมือถือ แต่ทำเหมือนเป็นการกระทำที่ใจกว้างกว่าบริษัทอื่น
  • จำเป็นต้องมีประกาศใหญ่โตด้วยหรือ? ทำแบบยุค 90 ก็พอ: https://twitter.com/erhartford/status/1733159666417545641/ph...

    • ดูเป็นวิธีที่ กล้าหาญและมั่นใจ กว่าการปล่อยหน้าเว็บหรือวิดีโอการตลาดที่ชัดเจนว่าจัดฉากและไม่สมจริงมาก
  • ดูเหมือนเป็น mixture of experts (MoE) และ params.json เป็นดังนี้
    { "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }

    • ในบริบทนี้ ผู้เชี่ยวชาญ หมายถึงอะไรกันแน่?
    • ตรงนั้นไม่เห็นมีโค้ดเลย runtime ตัวไหนสามารถโหลด weights นี้ได้บ้าง?
  • แม้จะไม่ใช่บริษัทที่มีเป้าหมายเหมือนกันเป๊ะ ๆ แต่ถ้าเอาการประกาศโมเดลนี้ไปเทียบกับ การประกาศ Gemini ของ Google เมื่อสองวันก่อน ก็ค่อนข้างตลก

  • แตกต่างอย่างชัดเจนกับแนวทางของ Google เมื่อต้นสัปดาห์นี้ที่ “มีแต่เดโม แต่ไม่มีโมเดล”
    ดูเหมือนจะเทรนด้วย Megablocks ของ Stanford: https://github.com/mistralai/megablocks-public

  • อาจเป็นความเห็นที่ถกเถียงได้ แต่ผมมองว่า Mistral 7B คือขอบหน้าสุดของ LLM จริง ๆ
    ยอมรับว่า ChatGPT 4 น่าทึ่ง และผมก็สมัครใช้งานมาตั้งแต่วันแรก แต่แบบนั้นรันอยู่บนเซิร์ฟเวอร์ฟาร์มขนาดมหึมาที่อยู่ไกลออกไป และแทบเป็นกล่องดำ
    Mistral มีขนาดเล็ก แต่เมื่อเทียบกับขนาดแล้วกลับสม่ำเสมอและมีประโยชน์อย่างน่าทึ่งทั้งกับคำถามทั่วไปและโค้ด ไม่มีการเซ็นเซอร์ และเป็นก้าวกระโดดที่ยากจะเชื่อว่าจะเป็นไปได้ภายใน 1 ปี
    รันบน MacBook Air ได้ที่ 12 tok/s และผมก็ตั้งตารอจะลองใช้บนเดสก์ท็อป

    • ในขอบเขตที่รันได้บน MacBook Air ถือว่าอยู่แถวหน้า แต่ไม่ใช่ขอบหน้าสุดของ LLM ทั้งหมดหรือโอเพนซอร์สทั้งหมด
      Yi 34B กับ Llama2 70B ยังทำได้ดีกว่า
    • ถ้า 50% ของข้อมูลที่บริโภคกันบนอินเทอร์เน็ตถูกสร้างขึ้นภายใน 24 ชั่วโมงล่าสุด โมเดลขนาดเล็กอาจมีข้อได้เปรียบค่อนข้างมากเหนือโมเดลขนาดใหญ่
      ถ้าสามารถรีเทรนหรือไฟน์จูน LLM หรือ SmallLM ต่อเนื่องทุกสัปดาห์หรือทุกวันเพื่อสะท้อนข้อมูลล่าสุดได้ โมเดลเก่าที่เทรนไว้เมื่อ 1–2 ปีก่อนก็คงตามได้ยาก
      ไม่รู้เรื่องไลเซนส์ แต่ OpenAI อาจเอาโมเดลเล็กอย่าง Mistral7B ใส่เข้าไปในสแตก GPT แล้วเทรนใหม่ตั้งแต่ต้นทุกสัปดาห์ จากนั้นคิดราคาเท่า GPT-4 ก็ได้
      ถึงประสิทธิภาพจะอ่อนกว่า แต่ผมคิดว่าต้องมีผู้ใช้ที่ชอบโมเดลที่มีความสดใหม่ของข้อมูลแน่นอน
    • เห็นด้วย Mistral 7B ดีจนน่าทึ่งจริง ๆ
      โมเดลที่ไฟน์จูนอย่างเวอร์ชัน Intel หรือ Berkeley Starling แม้จะมีแค่ 7B แต่ให้ความรู้สึกว่าเข้าใกล้ gpt3.5T อยู่ไม่น้อย
      ผมตั้งตารอ Mistral 13B มาก แต่ไม่รู้ว่า MoE ตัวนี้จะรันบน 3090 ขนาด 24GB ได้หรือไม่
      หวังว่าจะรันได้ด้วยการ quantization, offloading และเทคนิคที่จะออกมาในอนาคต
    • ถ้าได้ 12 tok/s บน MacBook Air ก็ดูต่ำไปหน่อย
      ใช้ Metal GPU acceleration ใน llama.cpp อยู่หรือเปล่า? ผมไม่มี MacBook แต่ดูจาก benchmark ของ llama.cpp แล้วเหมือนว่าถ้าใช้ GPU acceleration จะไปได้เกือบ 30 tok/s
    • จริงเลย อย่างน้อยก็รู้สึกว่าอยู่ระดับเดียวกับ llama2 13b
      ถ้ามี mistral 70b และมันดีกว่า llama2 70b ในสัดส่วนเดียวกับที่ขนาด 7b แสดงให้เห็นเมื่อเทียบกับ llama2 ก็น่าจะอยู่ระดับใกล้เคียง gpt3.5 แน่นอน
  • ตอนนี้มีเวอร์ชัน Hugging Face ที่ทำงานได้แบบทดลองแล้ว: https://huggingface.co/DiscoResearch/mixtral-7b-8expert

  • Google มีเดโมปลอม ส่วน Mistral จบด้วย magnet link ลิงก์เดียว