ยุคของ LLM แบบ 1 บิต: พารามิเตอร์แบบไตรภาคเพื่อการประมวลผลที่คุ้มค่าต้นทุน

(arxiv.org)

17 คะแนน โดย GN⁺ 2024-02-29 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ยุคของโมเดลภาษาขนาดใหญ่แบบ 1 บิต: โมเดลภาษาขนาดใหญ่ทั้งหมดอยู่ที่ 1.58 บิต

งานวิจัยล่าสุดอย่าง BitNet กำลังเปิดยุคใหม่ของโมเดลภาษาขนาดใหญ่ (LLMs) แบบ 1 บิต
งานวิจัยนี้นำเสนอ BitNet b1.58 ซึ่งเป็น LLM แบบ 1 บิตชนิดหนึ่งที่ทุกพารามิเตอร์เดี่ยว (หรือน้ำหนัก) อยู่ในรูปแบบไตรภาค {-1, 0, 1}
BitNet b1.58 มีความคุ้มค่าด้านต้นทุนสูงกว่ามากในแง่ของเวลาแฝง หน่วยความจำ ปริมาณงาน และการใช้พลังงาน ขณะเดียวกันก็ยังทำได้เทียบเท่ากับ Transformer LLM แบบความแม่นยำเต็มรูปแบบ (เช่น FP16 หรือ BF16) ที่มีขนาดโมเดลและจำนวนโทเค็นฝึกเท่ากัน ทั้งในด้านความซับซ้อนและประสิทธิภาพของงานปลายทาง
ในเชิงลึกกว่านั้น LLM แบบ 1.58 บิตได้กำหนดกฎการสเกลและสูตรการฝึกใหม่สำหรับการฝึก LLM รุ่นใหม่ที่ทั้งประสิทธิภาพสูงและคุ้มค่าต้นทุน
นอกจากนี้ยังเปิดทางสู่กระบวนทัศน์การคำนวณแบบใหม่ และเอื้อให้สามารถออกแบบฮาร์ดแวร์เฉพาะที่ปรับให้เหมาะกับ LLM แบบ 1 บิตได้

ความเห็นของ GN⁺

LLM แบบ 1 บิตมีศักยภาพที่จะทำให้การประมวลผลมีประสิทธิภาพสูงกว่าโมเดลภาษาขนาดใหญ่แบบเดิมอย่างมาก จึงอาจช่วยลดการใช้พลังงานและต้นทุนในงานวิจัยและการประยุกต์ใช้ AI ได้อย่างมีนัยสำคัญ
เพื่อให้เทคโนโลยีนี้ถูกนำไปใช้อย่างแพร่หลายในทางปฏิบัติ ประเด็นเรื่องความเข้ากันได้และการผสานรวมกับโครงสร้างพื้นฐานฮาร์ดแวร์และซอฟต์แวร์เดิมจะเป็นข้อพิจารณาสำคัญ
ประโยชน์ที่ได้จาก LLM แบบ 1 บิตจะยิ่งสำคัญมากขึ้นเมื่อขนาดและความซับซ้อนของโมเดลเพิ่มขึ้น ซึ่งจะน่าสนใจเป็นพิเศษสำหรับนักพัฒนาที่ต้องการใช้เทคโนโลยี AI ในสภาพแวดล้อมที่มีทรัพยากรจำกัด
ปัจจุบันมีฮาร์ดแวร์เฉพาะทางสำหรับ AI อย่าง TPU ของ Google อยู่แล้ว แต่การออกแบบฮาร์ดแวร์ที่เจาะจงสำหรับ LLM แบบ 1 บิตอาจสร้างโอกาสทางการตลาดใหม่ได้
ประโยชน์เชิงปฏิบัติที่อาจเกิดขึ้นจากการนำเทคโนโลยีนี้มาใช้คือการลดการใช้พลังงานและต้นทุนโดยยังคงความแม่นยำและความเร็วในการตอบสนองของโมเดลไว้ได้ แต่ในการใช้งานจริงก็ยังต้องพิจารณาความแตกต่างด้านประสิทธิภาพเมื่อเทียบกับโมเดลเดิม ปัญหาความเข้ากันได้ และความต้องการฮาร์ดแวร์ใหม่

2 ความคิดเห็น

kuroneko 2024-02-29

นี่น่าทึ่งมากเลยนะครับ ไม่นึกว่าจะทำได้ด้วยแค่ {-1, 0, 1} แทนที่จะใช้เลขทศนิยมลอยตัว...
รอติดตามจริง ๆ ว่ามันจะพัฒนาไปได้อย่างไร

xguru 2024-02-29

ความคิดเห็นบน Hacker News

ข้อค้นพบที่น่าตกใจสองอย่างจากงานวิจัยนี้:
- สามารถแทนค่าพารามิเตอร์ของโมเดลภาษาขนาดใหญ่ (LLM) แบบเดิมด้วยระบบฐานสาม (-1, 0, 1) แทนจำนวนจริงได้
- ในการคูณเมทริกซ์ สามารถแทนการคูณรายองค์ประกอบในแต่ละ dot product ด้วยการบวกรายองค์ประกอบได้ โดยเครื่องหมายขึ้นอยู่กับค่า
- หากใช้วิธีนี้บนฮาร์ดแวร์ปัจจุบัน จะเพิ่มประสิทธิภาพด้านการคำนวณและหน่วยความจำได้มาก โดยไม่ทำให้ประสิทธิภาพตกลง
- หากนำวิธีนี้ไปทำในระดับฮาร์ดแวร์ จะยิ่งเห็นการเพิ่มประสิทธิภาพมากขึ้นอีก
ประสิทธิภาพและความคุ้มค่าของ BitNet b1.58:
- BitNet b1.58 แสดงประสิทธิภาพเทียบเท่ากับโมเดลอ้างอิงแบบ full precision ตั้งแต่ขนาด 3B ขึ้นไป
- ทำให้เกิดกฎการสเกลแบบใหม่สำหรับประสิทธิภาพของโมเดลและต้นทุนการอนุมาน
- BitNet b1.58 ขนาด 13B มีประสิทธิภาพดีกว่า 3B FP16 LLM ในด้าน latency การใช้หน่วยความจำ และการใช้พลังงาน
- BitNet b1.58 ขนาด 30B มีประสิทธิภาพดีกว่า 7B FP16 LLM และ 70B BitNet b1.58 มีประสิทธิภาพดีกว่า 13B FP16 LLM
- งานวิจัยนี้ถือเป็นความก้าวหน้าครั้งสำคัญด้านประสิทธิภาพของ LLM โดยเพิ่มประสิทธิภาพได้โดยไม่ลดทอนความสามารถ
มีคำถามว่าสามารถแปลงโมเดลเดิมไปเป็นแนวทางใหม่นี้ได้หรือไม่ พร้อมมุกเกี่ยวกับราคาหุ้น NVIDIA
ข้อคิดเรื่องความจำเป็นในการทบทวนบทบาทของทรานซิสเตอร์ในงาน AI:
- ใน AI การลดเอนโทรปีไม่ใช่ปัญหาใหญ่ จึงควรใช้ช่วงแรงดันไฟฟ้าที่มีให้ได้มากขึ้น
- เสนอให้ทบทวนบทบาทของทรานซิสเตอร์ และชี้ว่า NAND gate อาจไม่ใช่องค์ประกอบพื้นฐานเสมอไป
การเชื่อมโยงกับบทความบล็อกเรื่องการแทนค่า floating point และการคิดถึงรูปแบบการแทนค่าใหม่:
- อธิบายว่าการแยก +0.0 กับ -0.0 ในมาตรฐาน floating point มีประโยชน์
- เชื่อมกับค่าที่ใช้ในงาน LLM คือ {-1, 0, -1} และตั้งคำถามว่าการแทนแบบ 2 บิตด้วย {-1, -0, 0, 1} จะให้ประโยชน์เพิ่มเติมได้หรือไม่
- สงสัยเกี่ยวกับค่าควอนไทซ์แบบ 2 บิตที่เสนอในงานวิจัย quantization ของ LLM อื่น ๆ
ความสงสัยต่อความเป็นจริงของผลวิจัย และการตระหนักถึงความสำคัญหลังตรวจสอบว่าผู้เขียนมาจาก Microsoft Research และ UCAS:
- ตอนแรกสงสัยว่าผลลัพธ์ดีเกินจริง แต่พอเช็กผู้เขียนแล้วก็รู้ว่าเป็นของจริง
- คาดว่าจะช่วยลดต้นทุนการให้บริการ LLM สมรรถนะสูงทั้งในงาน edge computing และบนคลาวด์
- คิดต่อถึงผลกระทบทางเศรษฐกิจระยะยาวและความเป็นไปได้ที่จะมีผู้เล่นรายใหม่เกิดขึ้น
คำอธิบายเรื่อง 'bit' และ 'trit' พร้อมการถกเถียงถึงความเป็นไปได้เชิงทฤษฎีของการคำนวณฐานสาม:
- ใช้คำว่า 'trit' แทน 'bit' พร้อมคำอธิบายเชิงทฤษฎีถึงศักยภาพของการคำนวณฐานสาม
- กล่าวถึงงานวิจัยยุคโซเวียตเกี่ยวกับการคำนวณฐานสาม และการอ้างถึงฐาน e ว่าเหมาะที่สุดในทางทฤษฎี
แผนการฝึกโมเดลใหม่ของ GigaML และข้อเสนอความร่วมมือ:
- GigaML ประกาศแผนฝึกโมเดลใหม่ที่เข้ากันได้กับ llama.cpp
- จะฝึกโมเดลขนาดเล็ก (3-4B, 1 บิต, โอเพนซอร์ส) ด้วยชุดข้อมูล stack-v2 รุ่นล่าสุด และกำลังมองหาผู้ร่วมมือ
มุมมองแบบสงสัยต่อผลลัพธ์ และการเน้นย้ำว่าต้องมีการทำซ้ำเพื่อยืนยัน:
- มีมุมมองเชิงวิพากษ์ต่อการปรับปรุงเหล่านี้ และอ้างถึงประสบการณ์ก่อนหน้ากับความพยายาม quantization แบบสุดโต่ง
ความทึ่งต่อความก้าวหน้าครั้งใหญ่ในวงการ LLM และความเป็นไปได้ที่จะรันโมเดล 120B บนการ์ดใบเดียว:
- รู้สึกทึ่งกับศักยภาพที่จะรันโมเดล 120B บนการ์ดเดี่ยวที่มี VRAM 24GB โดยยังได้ประสิทธิภาพและความซับซ้อนเทียบเท่าโมเดล FP16