- PrismML สตาร์ทอัพ AI ที่ต่อยอดจากงานวิจัยของ Caltech เปิดตัวโมเดล 1-bit Bonsai 8B ที่ทำให้การอนุมาน AI ใช้งานได้จริงบนสมาร์ตโฟนและอุปกรณ์เอดจ์ ด้วยขนาดเพียง 1.15GB ซึ่งเล็กกว่าโมเดลระดับเดียวกันแบบ 16 บิตราว 14 เท่า
- ด้วย สถาปัตยกรรม 1 บิตแบบ end-to-end ที่แท้จริง ซึ่งทำทั้งเครือข่ายเป็น 1 บิตทั้งหมดโดยไม่มีข้อยกเว้น (embedding, attention, MLP, LM head) จึงเอาชนะปัญหาคุณภาพตกในด้านการทำตามคำสั่ง การให้เหตุผลหลายขั้น และการใช้เครื่องมือ ที่โมเดล low-bit เดิมเคยเผชิญ
- ทำค่า Intelligence Density ได้ 1.06/GB และเหนือกว่าคู่แข่งที่ใกล้เคียงที่สุดในคลาสพารามิเตอร์เดียวกัน (Qwen3 8B, 0.10/GB) ราว 10.6 เท่า
- ทำงานได้ที่ 131 tok/s บน M4 Pro Mac, 368 tok/s บน RTX 4090 และประมาณ 44 tok/s บน iPhone 17 Pro Max โดยมี ประสิทธิภาพด้านพลังงานดีกว่าโมเดล 16 บิตราว 4~5 เท่า
- หากมีการออกแบบฮาร์ดแวร์เฉพาะสำหรับ 1-bit ก็อาจปลดล็อก การเพิ่มขึ้นของประสิทธิภาพและประสิทธิผลอีกในระดับหลายเท่าตัวเลขหลักเดียว พร้อมขยายหมวดการใช้งานใหม่ เช่น on-device AI, หุ่นยนต์ และองค์กรด้านความปลอดภัย
ที่มาของ PrismML และการมาของ 1-bit Bonsai
- ตลอด 10 ปีที่ผ่านมา ความก้าวหน้าของ AI เดินหน้าไปในทิศทางของการทำโมเดลให้ใหญ่ขึ้นเรื่อย ๆ (พารามิเตอร์มากขึ้น, GPU มากขึ้น, ใช้พลังงานมากขึ้น, หน่วยความจำมากขึ้น, ต้นทุนสูงขึ้น)
- ผลลัพธ์คือเกิดข้อจำกัดเชิงโครงสร้างที่ทำให้ความฉลาดระดับสูงสุดถูกกักอยู่ใน คลัสเตอร์ขนาดใหญ่และโครงสร้างพื้นฐานเฉพาะทาง
- แต่ในความเป็นจริง พื้นที่ที่ต้องการ AI ไม่ได้จำกัดอยู่แค่ดาต้าเซ็นเตอร์ ยังมีสมาร์ตโฟน แล็ปท็อป รถยนต์ หุ่นยนต์ องค์กรด้านความปลอดภัย และอุปกรณ์เอดจ์อีกมากมาย
- PrismML เริ่มต้นจากทีมวิจัยของ Caltech และก่อตั้งขึ้นโดยได้รับการสนับสนุนจาก Khosla Ventures, Cerberus และ Google
- บริษัทตั้ง Intelligence Density — ปริมาณความฉลาดที่ส่งมอบได้ต่อขนาดโมเดล (GB) — เป็นตัวชี้วัดหลักในการปรับให้เหมาะสม
การออกแบบโมเดล 1 บิตที่แท้จริง
- 1-bit Bonsai 8B ทำ embedding, attention layer, MLP layer และ LM head เป็น 1 บิตทั้งหมด และยังคงโครงสร้าง 1 บิตเต็มรูปแบบตลอดทั้ง 8.2 พันล้านพารามิเตอร์ โดยไม่มีทางหนีไปใช้ความละเอียดสูง (escape hatch)
- โมเดล low-bit แบบเดิมสูญเสียประสิทธิภาพอย่างมากในด้านการทำตามคำสั่ง การให้เหตุผลหลายขั้น และความน่าเชื่อถือในการใช้เครื่องมือ จนใช้งานเป็นฐานของผลิตภัณฑ์จริงได้ยาก
- Bonsai พิสูจน์ให้เห็นว่า โมเดล 1 บิตสามารถเป็นระบบระดับ production ที่สมบูรณ์ได้ ไม่ใช่เพียงจุดประนีประนอมแบบแคบ ๆ
การวัด Intelligence Density
- Intelligence Density นิยามเป็น ค่าลบของลอการิทึมของอัตราความผิดพลาดเฉลี่ยทั่วชุดเบนช์มาร์ก หารด้วยขนาดของโมเดล
- ตัวชี้วัดนี้สะท้อนระดับความฉลาดที่สมจริงกว่าการใช้ค่าเฉลี่ยเบนช์มาร์กธรรมดา เพราะให้คุณค่ากับการปรับปรุงเพิ่มเติมในช่วงที่ความแม่นยำสูงอยู่แล้วมากกว่า
- 1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — ไม่ใช่แค่ดีกว่าเล็กน้อย แต่เป็นผลลัพธ์คนละระดับ
- แม้ดูจากค่าเฉลี่ยเบนช์มาร์กดิบ 1-bit Bonsai 8B ก็ยังรักษาความสามารถในการแข่งขันกับโมเดล 8B ชั้นนำได้ ขณะที่ memory footprint อยู่ที่ 1.15GB เล็กกว่ารุ่นระดับเดียวกันราว 12~14 เท่า
ขนาดและความเร็ว
- ขนาดเพียง 1.15GB ทำให้รันบน iPhone 17 Pro ได้ — โมเดล 8B แบบ 16 บิตเดิมไม่สามารถใส่ลงใน iPhone รุ่นใดได้เลย
- ความเร็วการอนุมานตามอุปกรณ์:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: ประมาณ 44 tok/s
- ในการจำลองงานสรุปและจัดสรรทิกเก็ต 50 รายการ 1-bit Bonsai 8B ประมวลผลได้ครบทั้ง 50 รายการ ขณะที่โมเดล 8B แบบ 16 บิตภายใต้เงื่อนไขเดียวกันทำได้เพียง 6 รายการ
- สำหรับเวิร์กโหลดเอเจนต์ระยะยาว throughput ที่สูงขึ้นและการใช้หน่วยความจำที่ต่ำลงช่วยขยายปริมาณงานที่เอเจนต์สามารถจัดการได้จริง
ประสิทธิภาพด้านพลังงาน
- 1-bit Bonsai 8B มี ประสิทธิภาพด้านพลังงานดีกว่าโมเดล full-precision 16 บิตราว 4~5 เท่า
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
- หาก AI จะกลายเป็นโครงสร้างพื้นฐานหลัก การยกระดับประสิทธิภาพด้านพลังงานแบบก้าวกระโดดเป็นสิ่งจำเป็น
ศักยภาพของฮาร์ดแวร์เฉพาะสำหรับ 1 บิต
- ปัจจุบันการเพิ่มประสิทธิภาพส่วนใหญ่มาจาก memory footprint ที่ลดลง ของโมเดล 1 บิต และยังไม่ถึงขั้นใช้ประโยชน์จากโครงสร้างน้ำหนัก 1 บิตได้อย่างเต็มที่ระหว่างการอนุมาน
- ใน linear layer อย่าง MLP น้ำหนักแบบ 1 บิตทำให้สามารถแทนการคูณด้วยการบวกได้
- หากมีการออกแบบ ฮาร์ดแวร์เฉพาะสำหรับการอนุมาน 1 บิต ก็สามารถยกระดับทั้งประสิทธิภาพและประสิทธิผลด้านพลังงานได้อีกในระดับหลายเท่าตัวเลขหลักเดียว
โมเดล Bonsai 4B และ 1.7B
- เปิดตัวโมเดลขนาดเล็กอีก 2 รุ่นพร้อมกันคือ 1-bit Bonsai 4B และ 1-bit Bonsai 1.7B
- ในกราฟกระจาย Intelligence vs ขนาด เมื่อเทียบกับโมเดล instruct หลัก 20 รุ่น (ช่วง 1.2GB~16.4GB) พบว่า ตระกูล Bonsai ทั้งชุดได้เลื่อน Pareto frontier เดิมไปทางซ้ายอย่างมาก
- Pareto frontier เดิมประกอบด้วย Qwen3 0.6B, 1.7B, 4B, 8B และ Ministral3 3B แต่ตระกูล Bonsai ได้กลายเป็นผู้กำหนด frontier ชุดใหม่
ความฉลาดแบบอัดแน่นเปิดทางให้กับอะไรบ้าง
- เมื่อโมเดลมีขนาดเล็ก เร็ว และมีประสิทธิภาพพอจะรันบนอุปกรณ์ได้ พื้นที่การออกแบบผลิตภัณฑ์ AI ก็เปลี่ยนไปทันที:
- การตอบสนองดีขึ้น: on-device inference ทำงานได้โดยไม่มีความหน่วงจากเครือข่าย
- ความเป็นส่วนตัวดีขึ้น: ข้อมูลอ่อนไหวไม่ต้องออกนอกอุปกรณ์
- ความน่าเชื่อถือดีขึ้น: ลดการพึ่งพาการเชื่อมต่อคลาวด์แบบต่อเนื่อง
- ความคุ้มค่าทางเศรษฐกิจ: ใช้ AI ได้แม้ในสภาพแวดล้อมที่การติดตั้งฝั่งเซิร์ฟเวอร์ทำไม่ได้เพราะต้นทุน
- หมวดหมู่ใหม่ที่เปิดขึ้น ได้แก่ เอเจนต์ on-device แบบทำงานต่อเนื่อง, หุ่นยนต์แบบเรียลไทม์, copilots สำหรับองค์กรด้านความปลอดภัย, ปัญญาแบบออฟไลน์ และผลิตภัณฑ์ AI-native สำหรับสภาพแวดล้อมที่มีข้อจำกัดด้านแบนด์วิดท์ พลังงาน หรือกฎระเบียบ
การรองรับแพลตฟอร์มและรูปแบบการเผยแพร่
- 1-bit Bonsai 8B รองรับการรันแบบเนทีฟบน อุปกรณ์ Apple (Mac, iPhone, iPad) ผ่าน MLX และบน NVIDIA GPU ผ่าน llama.cpp CUDA
- น้ำหนักโมเดลเผยแพร่แล้วภายใต้ Apache 2.0 license
- รายละเอียดทางเทคนิคทั้งหมดของกระบวนการฝึก การประเมิน และการทำเบนช์มาร์ก มีอยู่ใน whitepaper อย่างเป็นทางการ
2 ความคิดเห็น
ข้อมูลดีมากครับ
ความคิดเห็นจาก Hacker News
เน้นว่าเฟรมเวิร์ก 1.125 บิต (น้ำหนัก 1 บิต + สเกล 16 บิตร่วมกันต่อ 128 กลุ่ม) เป็น ตัวเลขที่ซื่อตรงทางเทคนิค
ต้องแยกให้ชัดว่า “ใช้ได้จริงในเชิงพาณิชย์” วัดจากต้นทุนการอนุมาน หรือทำได้ผ่านการฟাইনจูน
ถ้าเป็นโมเดลที่ฝึกมาโดยเล็งเป้า 1 บิตตั้งแต่แรกแบบงานวิจัย BitNet ของ Microsoft ก็ถือว่าเป็นคนละอย่างกับโมเดลที่แค่ถูก quantize
โดยเฉพาะ ประสิทธิภาพการอนุมาน บนฮาร์ดแวร์ทั่วไปที่ดูน่าสนใจกว่า INT4 quantization มาก
แต่เบนช์มาร์กถูกนำไปเทียบกับโมเดลใหญ่ที่ถูก quantize ทำให้แก่นแท้ของข้ออ้างจริง ๆ ค่อนข้างถูกกลบ
อยากเห็นว่าประสิทธิภาพจะยังคงอยู่หรือไม่ในงานที่ต้องใช้การให้เหตุผลหลายขั้นตอน
น่าสนใจที่โครงสร้าง 1 บิต + สเกล FP16 (1 ตัวต่อ 128 บิต) ทำงานได้ดีขนาดนี้
ลองใช้ Cursor สร้างเทสต์หน้าเว็บดูแล้วพบว่า ความสามารถในการใช้เครื่องมือ ค่อนข้างน่าประทับใจ
ในการจำลอง Monte Carlo ของ π ตรรกะถูกต้อง แต่สร้างอินเทอร์เฟซไม่สำเร็จ และต้องแก้ด้วยมือบางส่วน
ผลภาพ Pelican ดูนามธรรมมาก
เนื่องจากไม่มีเดโมทางการ จึงเปิด อินสแตนซ์ llama.cpp แบบโลคัล ทิ้งไว้
ลองคำขอหลายแบบทั้งสคริปต์ R และการสร้างสมการ LaTeX โดยเฉพาะ สูตรของออยเลอร์ ที่สร้างได้สมบูรณ์แบบ
แม้จะเป็นโมเดล 1 บิตขนาดเล็ก แต่มีความหนาแน่นของความรู้สูงและตอบสนองเร็ว
ถ้าเพิ่ม ‘ขั้นตอนการคิด’ หรือเสริมด้วยระบบค้นหา ก็น่าจะใช้งานได้มีประโยชน์ขึ้นมาก
ลองรัน เบนช์มาร์กดีบัก SQL ที่ทำเองแล้ว ผลออกมาค่อนข้างน่าประทับใจ
ผ่าน 8 จาก 25, ไม่ล้มเหลวเลย 0, และเกิดข้อผิดพลาด 17 ครั้ง อยู่ในระดับระหว่าง Qwen3.5-4B กับ Nanbeige4.1-3B
เทสต์ทั้งหมดจบในเวลา 200 วินาที และในแง่ความเร็วก็มีประสิทธิภาพกว่า Granite 7B 4bit มาก
ดูผลได้ที่ เว็บไซต์ SQL benchmark
ส่วนตัวลองเทสต์การสร้าง แอป Pomodoro แล้ว แม้งานจะยังไม่เนี้ยบ แต่ในบางด้านก็ใช้งานได้ดีพอตัว
ความสามารถด้านการเขียนก็โอเคเกินคาด และน่าสนใจที่ ใช้ em dash น้อย
การเขียน HTML ยังอ่อน แต่ถ้านำโมเดล 1 บิตมารวมกับ Ngram-embedding ก็น่าจะเปิดทางใหม่ได้อีกมาก
ยังแชร์ โค้ดต้นแบบที่ทำเอง ไว้ด้วย
รันบน iPhone ได้ด้วย แอป Locally AI เวอร์ชันอัปเดตล่าสุด
ประสิทธิภาพน่าทึ่งมากเมื่อเทียบกับขนาด 1.2GB
ผล SVG ของนกกระทุง คอมเมนต์ดี แต่ภาพไม่ค่อยดี
ถามว่า “9:30am ตามเวลาไต้หวันคือกี่โมงตามเวลาแปซิฟิกของสหรัฐฯ?” แต่ไม่มีโมเดลไหนตอบถูก
เปิดรันโมเดล 8GiB บน RTX 3090 แบบสาธารณะนาน 5 ชั่วโมง
แชร์ทั้ง ลิงก์เซิร์ฟเวอร์ และคำสั่งรัน
รองรับคำขอขนาน 5 รายการ, จำกัดราว 13K โทเค็น, ใช้ VRAM 4GiB
ทำความเร็วได้ถึง 190t/s จึงถือว่าเร็วมาก
ใน ตัวอย่างบทสนทนา พอถามว่า ‘ควรเดินหรือขับรถไปล้างรถ’ ก็ได้คำตอบที่สร้างสรรค์
ไม่มี GPU เลยรันบน CPU และจากโน้ตบุ๊กเก่า ๆ ก็เร่งจาก 0.6t/s เป็น 12t/s ได้หลังเพิ่ม AVX2
ถือว่าผลงานดีใช้ได้
สาเหตุมาจากลืมขั้นตอน
git checkout prismและหลังแก้แล้วก็ทำงานได้ปกติคิดว่าอนาคตของโมเดลขนาดใหญ่จะไปทาง หน่วยบิตมากกว่าหน่วย float
เพราะค่า float ส่วนใหญ่กระจุกอยู่ในช่วงแคบ ๆ จึงไม่มีประสิทธิภาพ และสุดท้ายก็ถูกนำไปทำงานเป็นการคำนวณระดับบิตอยู่ดี
แต่ปัญหาคือ GPU และพื้นฐานทางทฤษฎีถูกออกแบบมารองรับการคำนวณแบบจำนวนจริง
ที่ยังใช้รูปแบบ float อยู่ก็เพียงเพราะเข้ากับ GPU stack ได้ดีกว่า
โดยเสนอแนวคิด ‘Boolean variation’ เพื่อให้นิยามอนุพันธ์ในรูปแบบไบนารีและทำ backpropagation ได้โดยตรง
ความคล้ายกับ spiking neural network ก็น่าสนใจ
มันสื่อสารกันแบบ 1 บิตด้วยการมีหรือไม่มีสไปก์ และใช้ศักย์เยื่อหุ้มเซลล์แบบแอนะล็อก
มีคนใช้ Izhikevich neuron 5,000 ตัวควบคุมการเดินสี่ขา ซึ่งมีประสิทธิภาพกว่า PPO
ประสิทธิภาพระดับ 1 บิตเป็นแนวคิดที่ไปไกลกว่าแค่ LLM
สงสัยว่าอัตราส่วน “-log error / model size” ถ้าเท่ากับ 1 หมายความว่า อัตราความผิดพลาดอยู่ราว 40% หรือไม่
และเสริมการคำนวณทางคณิตศาสตร์ว่า error/model size = 1/e
Bonsai ให้โมเดล 8B มาในขนาด 1.15GB เลยสงสัยว่าโมเดล 27B หรือ 35B จะใหญ่แค่ไหน
ถ้าการสเกลยังคงเดิม ก็อาจเป็นไปได้ว่า โมเดล 100B ก็ยังอยู่ใน RAM 64GB ได้
มีแนวโน้มว่าจะยังแพงพอ ๆ กับโมเดลฟูลพรีซิชัน ไม่อย่างนั้นก็คงถูกพูดถึงไปแล้ว