1-bit Bonsai - LLM 1 บิตตัวแรกที่ใช้งานเชิงพาณิชย์ได้จริง

(prismml.com)

14 คะแนน โดย GN⁺ 29 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

PrismML สตาร์ทอัพ AI ที่ต่อยอดจากงานวิจัยของ Caltech เปิดตัวโมเดล 1-bit Bonsai 8B ที่ทำให้การอนุมาน AI ใช้งานได้จริงบนสมาร์ตโฟนและอุปกรณ์เอดจ์ ด้วยขนาดเพียง 1.15GB ซึ่งเล็กกว่าโมเดลระดับเดียวกันแบบ 16 บิตราว 14 เท่า
ด้วย สถาปัตยกรรม 1 บิตแบบ end-to-end ที่แท้จริง ซึ่งทำทั้งเครือข่ายเป็น 1 บิตทั้งหมดโดยไม่มีข้อยกเว้น (embedding, attention, MLP, LM head) จึงเอาชนะปัญหาคุณภาพตกในด้านการทำตามคำสั่ง การให้เหตุผลหลายขั้น และการใช้เครื่องมือ ที่โมเดล low-bit เดิมเคยเผชิญ
ทำค่า Intelligence Density ได้ 1.06/GB และเหนือกว่าคู่แข่งที่ใกล้เคียงที่สุดในคลาสพารามิเตอร์เดียวกัน (Qwen3 8B, 0.10/GB) ราว 10.6 เท่า
ทำงานได้ที่ 131 tok/s บน M4 Pro Mac, 368 tok/s บน RTX 4090 และประมาณ 44 tok/s บน iPhone 17 Pro Max โดยมี ประสิทธิภาพด้านพลังงานดีกว่าโมเดล 16 บิตราว 4~5 เท่า
หากมีการออกแบบฮาร์ดแวร์เฉพาะสำหรับ 1-bit ก็อาจปลดล็อก การเพิ่มขึ้นของประสิทธิภาพและประสิทธิผลอีกในระดับหลายเท่าตัวเลขหลักเดียว พร้อมขยายหมวดการใช้งานใหม่ เช่น on-device AI, หุ่นยนต์ และองค์กรด้านความปลอดภัย

ที่มาของ PrismML และการมาของ 1-bit Bonsai

ตลอด 10 ปีที่ผ่านมา ความก้าวหน้าของ AI เดินหน้าไปในทิศทางของการทำโมเดลให้ใหญ่ขึ้นเรื่อย ๆ (พารามิเตอร์มากขึ้น, GPU มากขึ้น, ใช้พลังงานมากขึ้น, หน่วยความจำมากขึ้น, ต้นทุนสูงขึ้น)
ผลลัพธ์คือเกิดข้อจำกัดเชิงโครงสร้างที่ทำให้ความฉลาดระดับสูงสุดถูกกักอยู่ใน คลัสเตอร์ขนาดใหญ่และโครงสร้างพื้นฐานเฉพาะทาง
แต่ในความเป็นจริง พื้นที่ที่ต้องการ AI ไม่ได้จำกัดอยู่แค่ดาต้าเซ็นเตอร์ ยังมีสมาร์ตโฟน แล็ปท็อป รถยนต์ หุ่นยนต์ องค์กรด้านความปลอดภัย และอุปกรณ์เอดจ์อีกมากมาย
PrismML เริ่มต้นจากทีมวิจัยของ Caltech และก่อตั้งขึ้นโดยได้รับการสนับสนุนจาก Khosla Ventures, Cerberus และ Google
บริษัทตั้ง Intelligence Density — ปริมาณความฉลาดที่ส่งมอบได้ต่อขนาดโมเดล (GB) — เป็นตัวชี้วัดหลักในการปรับให้เหมาะสม

การออกแบบโมเดล 1 บิตที่แท้จริง

1-bit Bonsai 8B ทำ embedding, attention layer, MLP layer และ LM head เป็น 1 บิตทั้งหมด และยังคงโครงสร้าง 1 บิตเต็มรูปแบบตลอดทั้ง 8.2 พันล้านพารามิเตอร์ โดยไม่มีทางหนีไปใช้ความละเอียดสูง (escape hatch)
โมเดล low-bit แบบเดิมสูญเสียประสิทธิภาพอย่างมากในด้านการทำตามคำสั่ง การให้เหตุผลหลายขั้น และความน่าเชื่อถือในการใช้เครื่องมือ จนใช้งานเป็นฐานของผลิตภัณฑ์จริงได้ยาก
Bonsai พิสูจน์ให้เห็นว่า โมเดล 1 บิตสามารถเป็นระบบระดับ production ที่สมบูรณ์ได้ ไม่ใช่เพียงจุดประนีประนอมแบบแคบ ๆ

การวัด Intelligence Density

Intelligence Density นิยามเป็น ค่าลบของลอการิทึมของอัตราความผิดพลาดเฉลี่ยทั่วชุดเบนช์มาร์ก หารด้วยขนาดของโมเดล
ตัวชี้วัดนี้สะท้อนระดับความฉลาดที่สมจริงกว่าการใช้ค่าเฉลี่ยเบนช์มาร์กธรรมดา เพราะให้คุณค่ากับการปรับปรุงเพิ่มเติมในช่วงที่ความแม่นยำสูงอยู่แล้วมากกว่า
1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — ไม่ใช่แค่ดีกว่าเล็กน้อย แต่เป็นผลลัพธ์คนละระดับ
แม้ดูจากค่าเฉลี่ยเบนช์มาร์กดิบ 1-bit Bonsai 8B ก็ยังรักษาความสามารถในการแข่งขันกับโมเดล 8B ชั้นนำได้ ขณะที่ memory footprint อยู่ที่ 1.15GB เล็กกว่ารุ่นระดับเดียวกันราว 12~14 เท่า

ขนาดและความเร็ว

ขนาดเพียง 1.15GB ทำให้รันบน iPhone 17 Pro ได้ — โมเดล 8B แบบ 16 บิตเดิมไม่สามารถใส่ลงใน iPhone รุ่นใดได้เลย
ความเร็วการอนุมานตามอุปกรณ์:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: ประมาณ 44 tok/s
ในการจำลองงานสรุปและจัดสรรทิกเก็ต 50 รายการ 1-bit Bonsai 8B ประมวลผลได้ครบทั้ง 50 รายการ ขณะที่โมเดล 8B แบบ 16 บิตภายใต้เงื่อนไขเดียวกันทำได้เพียง 6 รายการ
สำหรับเวิร์กโหลดเอเจนต์ระยะยาว throughput ที่สูงขึ้นและการใช้หน่วยความจำที่ต่ำลงช่วยขยายปริมาณงานที่เอเจนต์สามารถจัดการได้จริง

ประสิทธิภาพด้านพลังงาน

1-bit Bonsai 8B มี ประสิทธิภาพด้านพลังงานดีกว่าโมเดล full-precision 16 บิตราว 4~5 เท่า
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
หาก AI จะกลายเป็นโครงสร้างพื้นฐานหลัก การยกระดับประสิทธิภาพด้านพลังงานแบบก้าวกระโดดเป็นสิ่งจำเป็น

ศักยภาพของฮาร์ดแวร์เฉพาะสำหรับ 1 บิต

ปัจจุบันการเพิ่มประสิทธิภาพส่วนใหญ่มาจาก memory footprint ที่ลดลง ของโมเดล 1 บิต และยังไม่ถึงขั้นใช้ประโยชน์จากโครงสร้างน้ำหนัก 1 บิตได้อย่างเต็มที่ระหว่างการอนุมาน
ใน linear layer อย่าง MLP น้ำหนักแบบ 1 บิตทำให้สามารถแทนการคูณด้วยการบวกได้
หากมีการออกแบบ ฮาร์ดแวร์เฉพาะสำหรับการอนุมาน 1 บิต ก็สามารถยกระดับทั้งประสิทธิภาพและประสิทธิผลด้านพลังงานได้อีกในระดับหลายเท่าตัวเลขหลักเดียว

โมเดล Bonsai 4B และ 1.7B

เปิดตัวโมเดลขนาดเล็กอีก 2 รุ่นพร้อมกันคือ 1-bit Bonsai 4B และ 1-bit Bonsai 1.7B
ในกราฟกระจาย Intelligence vs ขนาด เมื่อเทียบกับโมเดล instruct หลัก 20 รุ่น (ช่วง 1.2GB~16.4GB) พบว่า ตระกูล Bonsai ทั้งชุดได้เลื่อน Pareto frontier เดิมไปทางซ้ายอย่างมาก
Pareto frontier เดิมประกอบด้วย Qwen3 0.6B, 1.7B, 4B, 8B และ Ministral3 3B แต่ตระกูล Bonsai ได้กลายเป็นผู้กำหนด frontier ชุดใหม่

ความฉลาดแบบอัดแน่นเปิดทางให้กับอะไรบ้าง

เมื่อโมเดลมีขนาดเล็ก เร็ว และมีประสิทธิภาพพอจะรันบนอุปกรณ์ได้ พื้นที่การออกแบบผลิตภัณฑ์ AI ก็เปลี่ยนไปทันที:
- การตอบสนองดีขึ้น: on-device inference ทำงานได้โดยไม่มีความหน่วงจากเครือข่าย
- ความเป็นส่วนตัวดีขึ้น: ข้อมูลอ่อนไหวไม่ต้องออกนอกอุปกรณ์
- ความน่าเชื่อถือดีขึ้น: ลดการพึ่งพาการเชื่อมต่อคลาวด์แบบต่อเนื่อง
- ความคุ้มค่าทางเศรษฐกิจ: ใช้ AI ได้แม้ในสภาพแวดล้อมที่การติดตั้งฝั่งเซิร์ฟเวอร์ทำไม่ได้เพราะต้นทุน
หมวดหมู่ใหม่ที่เปิดขึ้น ได้แก่ เอเจนต์ on-device แบบทำงานต่อเนื่อง, หุ่นยนต์แบบเรียลไทม์, copilots สำหรับองค์กรด้านความปลอดภัย, ปัญญาแบบออฟไลน์ และผลิตภัณฑ์ AI-native สำหรับสภาพแวดล้อมที่มีข้อจำกัดด้านแบนด์วิดท์ พลังงาน หรือกฎระเบียบ

การรองรับแพลตฟอร์มและรูปแบบการเผยแพร่

1-bit Bonsai 8B รองรับการรันแบบเนทีฟบน อุปกรณ์ Apple (Mac, iPhone, iPad) ผ่าน MLX และบน NVIDIA GPU ผ่าน llama.cpp CUDA
น้ำหนักโมเดลเผยแพร่แล้วภายใต้ Apache 2.0 license
รายละเอียดทางเทคนิคทั้งหมดของกระบวนการฝึก การประเมิน และการทำเบนช์มาร์ก มีอยู่ใน whitepaper อย่างเป็นทางการ

2 ความคิดเห็น

runableapp 29 일 전

ข้อมูลดีมากครับ

GN⁺ 29 일 전

ความคิดเห็นจาก Hacker News

เน้นว่าเฟรมเวิร์ก 1.125 บิต (น้ำหนัก 1 บิต + สเกล 16 บิตร่วมกันต่อ 128 กลุ่ม) เป็น ตัวเลขที่ซื่อตรงทางเทคนิค
ต้องแยกให้ชัดว่า “ใช้ได้จริงในเชิงพาณิชย์” วัดจากต้นทุนการอนุมาน หรือทำได้ผ่านการฟাইনจูน
ถ้าเป็นโมเดลที่ฝึกมาโดยเล็งเป้า 1 บิตตั้งแต่แรกแบบงานวิจัย BitNet ของ Microsoft ก็ถือว่าเป็นคนละอย่างกับโมเดลที่แค่ถูก quantize
โดยเฉพาะ ประสิทธิภาพการอนุมาน บนฮาร์ดแวร์ทั่วไปที่ดูน่าสนใจกว่า INT4 quantization มาก
แต่เบนช์มาร์กถูกนำไปเทียบกับโมเดลใหญ่ที่ถูก quantize ทำให้แก่นแท้ของข้ออ้างจริง ๆ ค่อนข้างถูกกลบ
อยากเห็นว่าประสิทธิภาพจะยังคงอยู่หรือไม่ในงานที่ต้องใช้การให้เหตุผลหลายขั้นตอน
น่าสนใจที่โครงสร้าง 1 บิต + สเกล FP16 (1 ตัวต่อ 128 บิต) ทำงานได้ดีขนาดนี้
ลองใช้ Cursor สร้างเทสต์หน้าเว็บดูแล้วพบว่า ความสามารถในการใช้เครื่องมือ ค่อนข้างน่าประทับใจ
ในการจำลอง Monte Carlo ของ π ตรรกะถูกต้อง แต่สร้างอินเทอร์เฟซไม่สำเร็จ และต้องแก้ด้วยมือบางส่วน
ผลภาพ Pelican ดูนามธรรมมาก
เนื่องจากไม่มีเดโมทางการ จึงเปิด อินสแตนซ์ llama.cpp แบบโลคัล ทิ้งไว้
- ขอบคุณลิงก์นี้ เลยได้ลองเทสต์เองและพบว่า ความเร็วในการตอบ สูงมาก
  ลองคำขอหลายแบบทั้งสคริปต์ R และการสร้างสมการ LaTeX โดยเฉพาะ สูตรของออยเลอร์ ที่สร้างได้สมบูรณ์แบบ
  แม้จะเป็นโมเดล 1 บิตขนาดเล็ก แต่มีความหนาแน่นของความรู้สูงและตอบสนองเร็ว
- ในฐานะคนเรียนประวัติศาสตร์ศิลปะ เห็นด้วยเต็มที่กับไอเดีย ‘นกกระทุงขี่จักรยาน’
- ลิงก์ ngrok ล่มเพราะคนใช้เยอะ เลยแชร์ เวอร์ชัน Google Colab แทน
- สงสัยว่าจำเป็นต้องใช้ llama.cpp fork ของ Prism หรือไม่
- ให้ความรู้สึกเหมือน ChatGPT ยุคแรก ๆ คือส่วนใหญ่ตอบถูก แต่บางครั้งก็ พูดเพ้อเจ้อ
  ถ้าเพิ่ม ‘ขั้นตอนการคิด’ หรือเสริมด้วยระบบค้นหา ก็น่าจะใช้งานได้มีประโยชน์ขึ้นมาก
ลองรัน เบนช์มาร์กดีบัก SQL ที่ทำเองแล้ว ผลออกมาค่อนข้างน่าประทับใจ
ผ่าน 8 จาก 25, ไม่ล้มเหลวเลย 0, และเกิดข้อผิดพลาด 17 ครั้ง อยู่ในระดับระหว่าง Qwen3.5-4B กับ Nanbeige4.1-3B
เทสต์ทั้งหมดจบในเวลา 200 วินาที และในแง่ความเร็วก็มีประสิทธิภาพกว่า Granite 7B 4bit มาก
ดูผลได้ที่ เว็บไซต์ SQL benchmark
- ผมก็ใช้ runpod ของ @freakynit เหมือนกัน
  ส่วนตัวลองเทสต์การสร้าง แอป Pomodoro แล้ว แม้งานจะยังไม่เนี้ยบ แต่ในบางด้านก็ใช้งานได้ดีพอตัว
  ความสามารถด้านการเขียนก็โอเคเกินคาด และน่าสนใจที่ ใช้ em dash น้อย
  การเขียน HTML ยังอ่อน แต่ถ้านำโมเดล 1 บิตมารวมกับ Ngram-embedding ก็น่าจะเปิดทางใหม่ได้อีกมาก
  ยังแชร์ โค้ดต้นแบบที่ทำเอง ไว้ด้วย
รันบน iPhone ได้ด้วย แอป Locally AI เวอร์ชันอัปเดตล่าสุด
ประสิทธิภาพน่าทึ่งมากเมื่อเทียบกับขนาด 1.2GB
ผล SVG ของนกกระทุง คอมเมนต์ดี แต่ภาพไม่ค่อยดี
- พบว่าโมเดลเล็ก ๆ อ่อนมากเรื่อง การแปลงเขตเวลา
  ถามว่า “9:30am ตามเวลาไต้หวันคือกี่โมงตามเวลาแปซิฟิกของสหรัฐฯ?” แต่ไม่มีโมเดลไหนตอบถูก
- สงสัยว่าได้สั่งให้นกกระทุงมีจักรยาน หรือโมเดลเติมเองอย่างสร้างสรรค์
เปิดรันโมเดล 8GiB บน RTX 3090 แบบสาธารณะนาน 5 ชั่วโมง
แชร์ทั้ง ลิงก์เซิร์ฟเวอร์ และคำสั่งรัน
รองรับคำขอขนาน 5 รายการ, จำกัดราว 13K โทเค็น, ใช้ VRAM 4GiB
ทำความเร็วได้ถึง 190t/s จึงถือว่าเร็วมาก
- แนะนำว่าควรเก็บ KV cache ไว้ โดยไม่สูญเสียความแม่นยำ
- การคุยกับโมเดลนี้สนุกจริง ๆ
  ใน ตัวอย่างบทสนทนา พอถามว่า ‘ควรเดินหรือขับรถไปล้างรถ’ ก็ได้คำตอบที่สร้างสรรค์
- อัปเดตภายหลังว่าเซิร์ฟเวอร์ปิดไปแล้วเพราะ spot instance ถูกยุติ
- หลายคนทึ่งกับความเร็ว
- ยังแชร์ ผลลัพธ์บน Pastebin พร้อมบอกว่าโมเดลอ่อน ๆ ทำผลลัพธ์แบบนี้ไม่ได้
ไม่มี GPU เลยรันบน CPU และจากโน้ตบุ๊กเก่า ๆ ก็เร่งจาก 0.6t/s เป็น 12t/s ได้หลังเพิ่ม AVX2
ถือว่าผลงานดีใช้ได้
- มีฟีดแบ็กว่าต่อให้ build แบบ AVX2 ก็ยังช้าหรือมีแต่ ผลลัพธ์ไร้ความหมาย
  สาเหตุมาจากลืมขั้นตอน git checkout prism และหลังแก้แล้วก็ทำงานได้ปกติ
- มีคนแซวว่าใช้คำว่า “not shabby” นี่ประเมินต่ำเกินไป
คิดว่าอนาคตของโมเดลขนาดใหญ่จะไปทาง หน่วยบิตมากกว่าหน่วย float
เพราะค่า float ส่วนใหญ่กระจุกอยู่ในช่วงแคบ ๆ จึงไม่มีประสิทธิภาพ และสุดท้ายก็ถูกนำไปทำงานเป็นการคำนวณระดับบิตอยู่ดี
แต่ปัญหาคือ GPU และพื้นฐานทางทฤษฎีถูกออกแบบมารองรับการคำนวณแบบจำนวนจริง
- การอนุมานที่บิตต่ำทำได้ง่ายกว่า แต่ การฝึกยากและไม่เสถียร
  ที่ยังใช้รูปแบบ float อยู่ก็เพียงเพราะเข้ากับ GPU stack ได้ดีกว่า
- งานวิจัยนี้ ฝึกโมเดลแบบ ฐานเลขสอง ไปจนถึงขั้นตอนการเทรนเลย
  โดยเสนอแนวคิด ‘Boolean variation’ เพื่อให้นิยามอนุพันธ์ในรูปแบบไบนารีและทำ backpropagation ได้โดยตรง
ความคล้ายกับ spiking neural network ก็น่าสนใจ
มันสื่อสารกันแบบ 1 บิตด้วยการมีหรือไม่มีสไปก์ และใช้ศักย์เยื่อหุ้มเซลล์แบบแอนะล็อก
มีคนใช้ Izhikevich neuron 5,000 ตัวควบคุมการเดินสี่ขา ซึ่งมีประสิทธิภาพกว่า PPO
ประสิทธิภาพระดับ 1 บิตเป็นแนวคิดที่ไปไกลกว่าแค่ LLM
สงสัยว่าอัตราส่วน “-log error / model size” ถ้าเท่ากับ 1 หมายความว่า อัตราความผิดพลาดอยู่ราว 40% หรือไม่
และเสริมการคำนวณทางคณิตศาสตร์ว่า error/model size = 1/e
Bonsai ให้โมเดล 8B มาในขนาด 1.15GB เลยสงสัยว่าโมเดล 27B หรือ 35B จะใหญ่แค่ไหน
ถ้าการสเกลยังคงเดิม ก็อาจเป็นไปได้ว่า โมเดล 100B ก็ยังอยู่ใน RAM 64GB ได้
- แต่ต้นทุนการฝึกยังเป็นปัญหา
  มีแนวโน้มว่าจะยังแพงพอ ๆ กับโมเดลฟูลพรีซิชัน ไม่อย่างนั้นก็คงถูกพูดถึงไปแล้ว

1-bit Bonsai - LLM 1 บิตตัวแรกที่ใช้งานเชิงพาณิชย์ได้จริง

ที่มาของ PrismML และการมาของ 1-bit Bonsai

การออกแบบโมเดล 1 บิตที่แท้จริง

การวัด Intelligence Density

ขนาดและความเร็ว

ประสิทธิภาพด้านพลังงาน

ศักยภาพของฮาร์ดแวร์เฉพาะสำหรับ 1 บิต

โมเดล Bonsai 4B และ 1.7B

ความฉลาดแบบอัดแน่นเปิดทางให้กับอะไรบ้าง

การรองรับแพลตฟอร์มและรูปแบบการเผยแพร่

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News