13 คะแนน โดย GN⁺ 2025-04-18 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • ทีมนักวิจัยของ Microsoft ได้พัฒนา BitNet b1.58 2B4T ซึ่งเป็น โมเดล AI ประสิทธิภาพสูงมาก
  • ด้วยการทำ quantization แบบ 1 บิต ทำให้ ได้ความเร็วสูงและใช้หน่วยความจำน้อย จึงสามารถรันบน CPU ได้ และเผยแพร่ภายใต้ MIT License
  • สามารถทำงานได้บน CPU อย่าง Apple M2 และทำงานได้โดยไม่ต้องใช้ GPU
  • BitNet b1.58 2B4T ที่มี พารามิเตอร์ 2 พันล้านตัว ให้ประสิทธิภาพเหนือกว่า โมเดลของ Meta, Google และ Alibaba
  • อย่างไรก็ตาม จำเป็นต้องใช้ เฟรมเวิร์ก bitnet.cpp ของ Microsoft และยังคงมีปัญหาเรื่องความเข้ากันได้กับ GPU

BitNet b1.58 2B4T โมเดล AI แบบ 1 บิตน้ำหนักเบามากของ Microsoft

แนวคิดของ BitNet ในฐานะโมเดลน้ำหนักเบามาก

  • BitNet เป็นโมเดล AI ที่ใช้ quantization แบบ 1 บิต โดยใช้ค่าเพียงสามค่า -1, 0, 1 ในการแทนพารามิเตอร์
  • โมเดล quantization แบบเดิมโดยทั่วไปมักแทนค่าด้วย 8 บิตหรือ 4 บิต แต่ BitNet ใช้เพียง 1 บิต จึงมี ประสิทธิภาพด้านหน่วยความจำที่โดดเด่นมาก
  • วิธีนี้มีข้อได้เปรียบอย่างมากบน ฮาร์ดแวร์สเปกต่ำ โดยเฉพาะใน สภาพแวดล้อม CPU ที่ไม่มี GPU

จุดเด่นของ BitNet b1.58 2B4T

  • จำนวนพารามิเตอร์: 2 พันล้านตัว
  • ข้อมูลฝึก: 4 ล้านล้านโทเค็น (ประมาณหนังสือ 33 ล้านเล่ม)
  • เปิดซอร์สภายใต้ MIT License
  • สามารถทำงานได้บน CPU ทั่วไป เช่น Apple M2 CPU

การเปรียบเทียบประสิทธิภาพและผลเบนช์มาร์ก

  • BitNet b1.58 2B4T แสดงประสิทธิภาพที่ดีกว่าโมเดลต่อไปนี้ในบางเบนช์มาร์ก:
    • Meta Llama 3.2 1B
    • Google Gemma 3 1B
    • Alibaba Qwen 2.5 1.5B
  • เบนช์มาร์กหลักที่ใช้:
    • GSM8K: การประเมินโจทย์คณิตศาสตร์ระดับประถมศึกษา
    • PIQA: การประเมินความสามารถในการให้เหตุผลเชิงสามัญสำนึกทางกายภาพ
  • ในการทดสอบบางรายการ เร็วได้สูงสุด 2 เท่า และ ใช้หน่วยความจำน้อยกว่ามาก

ข้อจำกัดและปัญหาความเข้ากันได้

  • ประสิทธิภาพของ BitNet ขึ้นอยู่กับ bitnet.cpp ซึ่งเป็นเฟรมเวิร์กเฉพาะของ Microsoft
  • ปัจจุบัน bitnet.cpp รองรับเฉพาะ CPU บางรุ่น และ ยังไม่รองรับ GPU
  • ด้วยเหตุนี้ จึงถูกชี้ว่าเป็นข้อเสียในด้าน การขาดความเข้ากันได้กับสภาพแวดล้อม GPU ซึ่งเป็นมาตรฐานของโครงสร้างพื้นฐาน AI

4 ความคิดเห็น

 
cartwheel8815 2025-04-21

> BitNet เป็นโมเดล AI ที่ใช้การควอนไทซ์แบบ 1 บิต โดยใช้เพียงสามค่า คือ -1, 0, 1 ในการแทนพารามิเตอร์

มีค่าอยู่ 3 ค่าแต่เป็น 1 บิตเหรอ? ผมเลยคิดว่ามันแปลก ๆ ก็เลยไปอ่านคอมเมนต์ใน HN มาหน่อย

> https://compilade.net/blog/ternary-packing

แทนที่จะใช้ 8 บิตเพื่อแทนค่า 2 ค่าใน 1 ไบต์ กลับใช้ ternary digit 5 ตัวเพื่อแทนค่า 3 ค่า ดังนั้นถ้าพูดกันแบบเคร่งครัดมันไม่ใช่โมเดล 1 บิต แต่เป็นโมเดล 1.5849... บิตตาม log(3) / log(2) = 1.5849... ดูจากที่มี b1.58 อยู่ในชื่อโมเดลแล้ว น่าจะเป็นแบบนี้ครับ

 
cartwheel8815 2025-04-21

ดูเหมือนว่าบรรทัดที่ 4 ต้องแก้จาก พารามิเตอร์ 200 ล้านตัว เป็น พารามิเตอร์ 2 พันล้านตัว นะครับ

 
GN⁺ 2025-04-18
ความคิดเห็นจาก Hacker News
  • BitNet ของ Microsoft คุ้มค่าด้านต้นทุนในแง่ของเวลาแฝง หน่วยความจำ ปริมาณงาน และการใช้พลังงาน โดยใช้ขนาดโมเดลและโทเคนสำหรับฝึกเท่ากับ Transformer LLM ที่มีความแม่นยำแบบ FP16 หรือ BF16
    • สามารถดูข้อมูลเพิ่มเติมได้จากลิงก์ GitHub และบทความ arXiv
  • "จำนวนพารามิเตอร์" ของโมเดล AI ก็เหมือน "GHz" ของโมเดล AI
    • โมเดลทั้งหมดที่นำมาเปรียบเทียบมีพารามิเตอร์ 1-2 พันล้านตัว แต่ขนาดจริงอาจต่างกันได้มากกว่า 10 เท่า
  • LLM ฟรีส่วนใหญ่สามารถรันบน CPU ได้
    • ประเด็นคือมีการอ้างว่าโมเดลนี้รันบน CPU ได้เร็วพอที่จะใช้งานจริง
    • แต่ไม่ทราบความเร็วเมื่อรันบน GPU จึงยังไม่มั่นใจในความแม่นยำของคำอ้างนี้
  • โมเดล BitNet b1.58 2B4T เร็วกว่าโมเดลอื่นที่มีขนาดใกล้เคียงกัน และใช้หน่วยความจำน้อยกว่า
    • ขนาดโมเดลมากกว่า 1GB และก็มีโมเดลขนาด 1-2GB จำนวนมากที่ทำงานได้ดีแม้บน CPU สมัยใหม่
  • NVidia กำลังเร่งล็อกอินเชิงซอฟต์แวร์ผ่าน CUDA
    • ไม่เช่นนั้นหุ้นอาจเดินตามเส้นทางเดียวกับ Zoom
  • แม้จะเรียกว่า "1-bit" แต่จริง ๆ แล้วใช้ {-1, 0, 1}
    • จุดนี้อาจทำให้สับสนได้
  • สงสัยว่ามีไลบรารีที่สามารถ distill โมเดลขนาดใหญ่ให้เป็น BitNet ได้หรือไม่
  • เปิดให้ใช้สาธารณะภายใต้สัญญาอนุญาต MIT และสามารถรันบน CPU รวมถึง Apple M2 ได้
    • M2 รันโมเดล LLama และ Mistral ขนาด 7GB หรือ 13GB ได้สบายอยู่แล้ว
  • ซีรีส์ M และ MacBook แพร่หลายมาก จนอาจทำให้ลืมไปว่า CPU ทั่วไปอย่าง i3 หรือ i5 นั้นอ่อนแอแค่ไหน
  • สงครามราคาจะยังคงลงไปแตะจุดต่ำสุดต่อไป
  • นี่เป็นเทคโนโลยีที่มีมานานกว่าหนึ่งปีแล้ว และไม่ใช่ทุกคนที่จะเปลี่ยนมาใช้เทคโนโลยีนี้
    • หากดูเหตุผล จะพบว่าเทคโนโลยีนี้ส่งผลต่อค่าชี้วัดจริง และบางอย่างได้รับผลกระทบมากกว่าอย่างอื่น
    • มันไม่ใช่ทางแก้แบบครอบจักรวาล
 
cartwheel8815 2025-04-21

บรรทัดที่ 4 모든 비교 모델은 1-2억 개의 -> 모든 비교 모델은 10-20억 개의
คำแปลของ billion ใน AI ดูแปลก ๆ นะครับ