1 ความคิดเห็น

 
GN⁺ 2024-04-12
ความเห็นจาก Hacker News
  • สงสัยว่าวิธีที่ง่ายที่สุดในการรันโมเดลนี้เมื่อมีน้ำหนักโมเดลและฮาร์ดแวร์พร้อมแล้วคืออะไร
    ต่อให้ offload โมเดลครึ่งหนึ่งไปไว้ใน RAM ก็ยังอยากรู้ว่าควรโหลดด้วยเครื่องมืออะไร ใช้ Ollama, Llama.cpp หรือแค่นำเข้าเป็นไลบรารี Python ก็พอ
    แล้วถ้าจะเทียบกับโมเดลอื่น ควรทำ benchmark อย่างไร มีเครื่องมือพร้อมใช้เลยไหม
    • วิธีแบบ llamafile ดูจะดีที่สุด
      ตัวไบนารีทำงานจากบรรทัดคำสั่งได้ หรือจะเปิดเว็บเซิร์ฟเวอร์ขนาดเล็กก็ได้
      llamafile มีบิลด์ของ Mixtral-8x7B-Instruct อยู่แล้ว ดังนั้นโมเดลนี้ก็น่าจะถูกแพ็กเกจได้เหมือนกัน และอาจอยู่ในรูปแบบ quantized ด้วย
      คงต้องให้คนที่รู้ ecosystem ดีกว่านี้ยืนยันอีกที แต่ดูเหมือนว่าโมเดลใหม่น่าจะรันบน llamafile ได้ตรง ๆ เลย
      https://github.com/Mozilla-Ocho/llamafile
    • วิธีที่ง่ายที่สุดคือรันด้วย vllm(https://github.com/vllm-project/vllm) บน A100 สัก 2 ใบ และทำ benchmark ได้ด้วย lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)
    • ถ้าจะทดสอบ LLM บน MacBook, LM Studio ยอดเยี่ยมมาก: https://lmstudio.ai/
      ค้นหาโมเดลใหม่จาก Hugging Face ในแอปแล้วลองทดสอบได้ทันทีง่ายมาก
    • มีผู้ใช้ใน Hugging Face ชื่อ The Bloke ที่มักจะอัปโหลดโมเดลแบบ quantized ไว้ล่วงหน้าไม่นานหลังจากโมเดลขนาดเต็มออกมา
      แค่คอยดูหน้านั้นไว้และภาวนาให้โมเดล 4 บิตใส่ GPU ของคุณได้พอดี
      น่าจะกำลังทำอยู่แล้ว
    • ลองใช้งานได้ที่ Together ที่นี่:
      https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
  • โพสต์ซ้ำอยู่ที่นี่: https://news.ycombinator.com/item?id=39986047
    เป็นโพสต์ที่ใส่ลิงก์ทวีตแทนโปรไฟล์:
    https://twitter.com/MistralAI/status/1777869263778291896
  • 8x22B เลยเหรอ ถ้ามันดีได้ระดับเดียวกับ Mixtral 8x7B ก็น่าจะเป็นช่วงเวลาที่น่าสนุกมาก
    • ได้ยินมาว่า Command R เป็นโอเพนซอร์สตัวแรกที่ชนะ GPT-4 ใน benchmark
    • เรามี 8x7B อยู่แล้ว ดังนั้นคงไม่มีเหตุผลจะอยากได้ 8x7B อีกตัว แปลว่าอันนี้น่าจะดีกว่าใช่ไหม?
  • ออกนอกประเด็นนิดหน่อย แต่สงสัยว่าตอนนี้เรากลับมาถึงระดับ ประสิทธิภาพของ ChatGPT 4 แบบที่คนเคยบอกว่าเหมือนเวทมนตร์หรือยัง
    หมายถึงก่อนที่ความสามารถจะลดลงมากจากการทำให้มัน politically correct มากขึ้น
    • ผมลองทดสอบ LLM หลายตัวบน MacBook แล้ว และคิดว่าตอนนี้ทุกตัวยังห่างไกลมาก ไม่ว่าจะเอาไปเทียบกับ GPT-4 ช่วงไหนก็ตาม
      อย่างไรก็ตาม ตอนนี้มีโมเดลระดับ GPT-3 อยู่มาก และก็มีโมเดลที่ fine-tune มาสำหรับงานเฉพาะค่อนข้างเยอะ
      จุดที่โมเดลแบบเปิดยังขาดมากคือ การรองรับภาษา
      ผมเห็นแค่โมเดลเดียวที่ให้ผลลัพธ์ภาษานอร์เวย์ที่ใช้งานได้ ขณะที่ใน GPT-4 ไม่เคยเป็นปัญหาเลย
    • ถ้าวัดในกลุ่มโมเดลเปิด ผมคิดว่าอย่างน้อยก็มาถึงระดับ ChatGPT 4 รุ่นแรกเริ่ม แล้ว
  • นี่คือการแข่งขันกันปล่อยโมเดลเล็กที่ดีที่สุดของแต่ละเจ้าก่อนที่ Llama 3 จะออกหรือเปล่า?
    • 262GB คงเรียกว่าเล็กไม่ได้เท่าไร
      แต่ก็ดูเหมือนทุกคนกำลังรีบปล่อยออกมาก่อน เพราะถ้าผลออกมาว่าแย่กว่า Llama 3 ก็คงน่าเขินที่จะมาเปิดตัวทีหลัง
    • ถ้าดูจากข่าวลือว่า Llama 3 จะออกภายใน 2 สัปดาห์ข้างหน้า ก็ฟังดูมีความเป็นไปได้มาก
  • Mixtral 8x7B ใช้งานได้ดี และก็ตั้งตารอจะลองโมเดลนี้เหมือนกัน
  • มี benchmark แบบไม่เป็นทางการอยู่ที่นี่:
    https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
    • อยากให้มี GPT-4 อยู่ในนี้ด้วย
      เพราะนั่นยังเป็นตัวที่ทุกคนต้องพยายามไล่ตามให้ทัน
  • การ quantize แบบ 4 บิต น่าจะต้องใช้ VRAM 85GB ดังนั้นน่าจะลงได้พอดีบน GPU ผู้บริโภค 24GB จำนวน 4 ใบ และยังเหลือเผื่อสำหรับการปรับ KV cache ให้เหมาะสมอีกนิดหน่อย
    • ถ้าเป็น 4 บิตจริง ๆ ก็อาจใช้ต่ำกว่านี้
      เพราะมีพารามิเตอร์จำนวนมากที่แชร์กันระหว่าง expert model
      แต่ถ้าไม่ได้รันที่ batch size 1 ก็น่าจะลำบากกว่าเซ็ตอัป 8 GPU
      แทบจะแน่นอนว่า expert ส่วนใหญ่หรือทั้งหมดจะถูกเปิดใช้งานภายใน batch
    • การ quantize แบบ 2 บิต ของ Mixtral 8x7B ยังพอใช้ได้ในบางกรณีบน GPU 8GB
      เลยสงสัยว่าโมเดลใหม่นี้จะทำงานอย่างไรบนชุด GPU ราคาประหยัดระดับ 8~16GB
  • สิ่งสำคัญมากคือ นี่เป็น base model ไม่ใช่ instruction model
    ถ้าจะใช้กับแชต โมเดลที่มีประโยชน์คือแบบที่ผ่าน instruction fine-tuning มาแล้ว
    • สงสัยว่าการลองใช้ base model ที่ทรงพลังโดยตรงจะให้ความรู้สึกแบบไหน
      มันจะเป็นแค่การเติมข้อความต่อจากพรอมป์ตเหมือนกำลังเขียนต่อเฉย ๆ หรือเปล่า?
  • ออกมาได้จังหวะพอดีกับช่วงที่ Llama 3 กำลังจะเปิดตัว
    • วันเดียวกันนั้น Google Gemini Pro ก็ปล่อย การเข้าถึงมัลติโหมดพร้อมบริบทยาวแบบเปิดเกือบสมบูรณ์ และ OpenAI ก็อัปเกรด GPT-4-Turbo ด้วย เลยเป็นวันที่ข่าวแน่นมาก