17 คะแนน โดย GN⁺ 2024-02-29 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ยุคของโมเดลภาษาขนาดใหญ่แบบ 1 บิต: โมเดลภาษาขนาดใหญ่ทั้งหมดอยู่ที่ 1.58 บิต

  • งานวิจัยล่าสุดอย่าง BitNet กำลังเปิดยุคใหม่ของโมเดลภาษาขนาดใหญ่ (LLMs) แบบ 1 บิต
  • งานวิจัยนี้นำเสนอ BitNet b1.58 ซึ่งเป็น LLM แบบ 1 บิตชนิดหนึ่งที่ทุกพารามิเตอร์เดี่ยว (หรือน้ำหนัก) อยู่ในรูปแบบไตรภาค {-1, 0, 1}
  • BitNet b1.58 มีความคุ้มค่าด้านต้นทุนสูงกว่ามากในแง่ของเวลาแฝง หน่วยความจำ ปริมาณงาน และการใช้พลังงาน ขณะเดียวกันก็ยังทำได้เทียบเท่ากับ Transformer LLM แบบความแม่นยำเต็มรูปแบบ (เช่น FP16 หรือ BF16) ที่มีขนาดโมเดลและจำนวนโทเค็นฝึกเท่ากัน ทั้งในด้านความซับซ้อนและประสิทธิภาพของงานปลายทาง
  • ในเชิงลึกกว่านั้น LLM แบบ 1.58 บิตได้กำหนดกฎการสเกลและสูตรการฝึกใหม่สำหรับการฝึก LLM รุ่นใหม่ที่ทั้งประสิทธิภาพสูงและคุ้มค่าต้นทุน
  • นอกจากนี้ยังเปิดทางสู่กระบวนทัศน์การคำนวณแบบใหม่ และเอื้อให้สามารถออกแบบฮาร์ดแวร์เฉพาะที่ปรับให้เหมาะกับ LLM แบบ 1 บิตได้

ความเห็นของ GN⁺

  • LLM แบบ 1 บิตมีศักยภาพที่จะทำให้การประมวลผลมีประสิทธิภาพสูงกว่าโมเดลภาษาขนาดใหญ่แบบเดิมอย่างมาก จึงอาจช่วยลดการใช้พลังงานและต้นทุนในงานวิจัยและการประยุกต์ใช้ AI ได้อย่างมีนัยสำคัญ
  • เพื่อให้เทคโนโลยีนี้ถูกนำไปใช้อย่างแพร่หลายในทางปฏิบัติ ประเด็นเรื่องความเข้ากันได้และการผสานรวมกับโครงสร้างพื้นฐานฮาร์ดแวร์และซอฟต์แวร์เดิมจะเป็นข้อพิจารณาสำคัญ
  • ประโยชน์ที่ได้จาก LLM แบบ 1 บิตจะยิ่งสำคัญมากขึ้นเมื่อขนาดและความซับซ้อนของโมเดลเพิ่มขึ้น ซึ่งจะน่าสนใจเป็นพิเศษสำหรับนักพัฒนาที่ต้องการใช้เทคโนโลยี AI ในสภาพแวดล้อมที่มีทรัพยากรจำกัด
  • ปัจจุบันมีฮาร์ดแวร์เฉพาะทางสำหรับ AI อย่าง TPU ของ Google อยู่แล้ว แต่การออกแบบฮาร์ดแวร์ที่เจาะจงสำหรับ LLM แบบ 1 บิตอาจสร้างโอกาสทางการตลาดใหม่ได้
  • ประโยชน์เชิงปฏิบัติที่อาจเกิดขึ้นจากการนำเทคโนโลยีนี้มาใช้คือการลดการใช้พลังงานและต้นทุนโดยยังคงความแม่นยำและความเร็วในการตอบสนองของโมเดลไว้ได้ แต่ในการใช้งานจริงก็ยังต้องพิจารณาความแตกต่างด้านประสิทธิภาพเมื่อเทียบกับโมเดลเดิม ปัญหาความเข้ากันได้ และความต้องการฮาร์ดแวร์ใหม่

2 ความคิดเห็น

 
kuroneko 2024-02-29

นี่น่าทึ่งมากเลยนะครับ ไม่นึกว่าจะทำได้ด้วยแค่ {-1, 0, 1} แทนที่จะใช้เลขทศนิยมลอยตัว...
รอติดตามจริง ๆ ว่ามันจะพัฒนาไปได้อย่างไร

 
xguru 2024-02-29

ความคิดเห็นบน Hacker News

  • ข้อค้นพบที่น่าตกใจสองอย่างจากงานวิจัยนี้:

    • สามารถแทนค่าพารามิเตอร์ของโมเดลภาษาขนาดใหญ่ (LLM) แบบเดิมด้วยระบบฐานสาม (-1, 0, 1) แทนจำนวนจริงได้
    • ในการคูณเมทริกซ์ สามารถแทนการคูณรายองค์ประกอบในแต่ละ dot product ด้วยการบวกรายองค์ประกอบได้ โดยเครื่องหมายขึ้นอยู่กับค่า
    • หากใช้วิธีนี้บนฮาร์ดแวร์ปัจจุบัน จะเพิ่มประสิทธิภาพด้านการคำนวณและหน่วยความจำได้มาก โดยไม่ทำให้ประสิทธิภาพตกลง
    • หากนำวิธีนี้ไปทำในระดับฮาร์ดแวร์ จะยิ่งเห็นการเพิ่มประสิทธิภาพมากขึ้นอีก
  • ประสิทธิภาพและความคุ้มค่าของ BitNet b1.58:

    • BitNet b1.58 แสดงประสิทธิภาพเทียบเท่ากับโมเดลอ้างอิงแบบ full precision ตั้งแต่ขนาด 3B ขึ้นไป
    • ทำให้เกิดกฎการสเกลแบบใหม่สำหรับประสิทธิภาพของโมเดลและต้นทุนการอนุมาน
    • BitNet b1.58 ขนาด 13B มีประสิทธิภาพดีกว่า 3B FP16 LLM ในด้าน latency การใช้หน่วยความจำ และการใช้พลังงาน
    • BitNet b1.58 ขนาด 30B มีประสิทธิภาพดีกว่า 7B FP16 LLM และ 70B BitNet b1.58 มีประสิทธิภาพดีกว่า 13B FP16 LLM
    • งานวิจัยนี้ถือเป็นความก้าวหน้าครั้งสำคัญด้านประสิทธิภาพของ LLM โดยเพิ่มประสิทธิภาพได้โดยไม่ลดทอนความสามารถ
  • มีคำถามว่าสามารถแปลงโมเดลเดิมไปเป็นแนวทางใหม่นี้ได้หรือไม่ พร้อมมุกเกี่ยวกับราคาหุ้น NVIDIA

  • ข้อคิดเรื่องความจำเป็นในการทบทวนบทบาทของทรานซิสเตอร์ในงาน AI:

    • ใน AI การลดเอนโทรปีไม่ใช่ปัญหาใหญ่ จึงควรใช้ช่วงแรงดันไฟฟ้าที่มีให้ได้มากขึ้น
    • เสนอให้ทบทวนบทบาทของทรานซิสเตอร์ และชี้ว่า NAND gate อาจไม่ใช่องค์ประกอบพื้นฐานเสมอไป
  • การเชื่อมโยงกับบทความบล็อกเรื่องการแทนค่า floating point และการคิดถึงรูปแบบการแทนค่าใหม่:

    • อธิบายว่าการแยก +0.0 กับ -0.0 ในมาตรฐาน floating point มีประโยชน์
    • เชื่อมกับค่าที่ใช้ในงาน LLM คือ {-1, 0, -1} และตั้งคำถามว่าการแทนแบบ 2 บิตด้วย {-1, -0, 0, 1} จะให้ประโยชน์เพิ่มเติมได้หรือไม่
    • สงสัยเกี่ยวกับค่าควอนไทซ์แบบ 2 บิตที่เสนอในงานวิจัย quantization ของ LLM อื่น ๆ
  • ความสงสัยต่อความเป็นจริงของผลวิจัย และการตระหนักถึงความสำคัญหลังตรวจสอบว่าผู้เขียนมาจาก Microsoft Research และ UCAS:

    • ตอนแรกสงสัยว่าผลลัพธ์ดีเกินจริง แต่พอเช็กผู้เขียนแล้วก็รู้ว่าเป็นของจริง
    • คาดว่าจะช่วยลดต้นทุนการให้บริการ LLM สมรรถนะสูงทั้งในงาน edge computing และบนคลาวด์
    • คิดต่อถึงผลกระทบทางเศรษฐกิจระยะยาวและความเป็นไปได้ที่จะมีผู้เล่นรายใหม่เกิดขึ้น
  • คำอธิบายเรื่อง 'bit' และ 'trit' พร้อมการถกเถียงถึงความเป็นไปได้เชิงทฤษฎีของการคำนวณฐานสาม:

    • ใช้คำว่า 'trit' แทน 'bit' พร้อมคำอธิบายเชิงทฤษฎีถึงศักยภาพของการคำนวณฐานสาม
    • กล่าวถึงงานวิจัยยุคโซเวียตเกี่ยวกับการคำนวณฐานสาม และการอ้างถึงฐาน e ว่าเหมาะที่สุดในทางทฤษฎี
  • แผนการฝึกโมเดลใหม่ของ GigaML และข้อเสนอความร่วมมือ:

    • GigaML ประกาศแผนฝึกโมเดลใหม่ที่เข้ากันได้กับ llama.cpp
    • จะฝึกโมเดลขนาดเล็ก (3-4B, 1 บิต, โอเพนซอร์ส) ด้วยชุดข้อมูล stack-v2 รุ่นล่าสุด และกำลังมองหาผู้ร่วมมือ
  • มุมมองแบบสงสัยต่อผลลัพธ์ และการเน้นย้ำว่าต้องมีการทำซ้ำเพื่อยืนยัน:

    • มีมุมมองเชิงวิพากษ์ต่อการปรับปรุงเหล่านี้ และอ้างถึงประสบการณ์ก่อนหน้ากับความพยายาม quantization แบบสุดโต่ง
  • ความทึ่งต่อความก้าวหน้าครั้งใหญ่ในวงการ LLM และความเป็นไปได้ที่จะรันโมเดล 120B บนการ์ดใบเดียว:

    • รู้สึกทึ่งกับศักยภาพที่จะรันโมเดล 120B บนการ์ดเดี่ยวที่มี VRAM 24GB โดยยังได้ประสิทธิภาพและความซับซ้อนเทียบเท่าโมเดล FP16