14 คะแนน โดย GN⁺ 29 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • PrismML สตาร์ทอัพ AI ที่ต่อยอดจากงานวิจัยของ Caltech เปิดตัวโมเดล 1-bit Bonsai 8B ที่ทำให้การอนุมาน AI ใช้งานได้จริงบนสมาร์ตโฟนและอุปกรณ์เอดจ์ ด้วยขนาดเพียง 1.15GB ซึ่งเล็กกว่าโมเดลระดับเดียวกันแบบ 16 บิตราว 14 เท่า
  • ด้วย สถาปัตยกรรม 1 บิตแบบ end-to-end ที่แท้จริง ซึ่งทำทั้งเครือข่ายเป็น 1 บิตทั้งหมดโดยไม่มีข้อยกเว้น (embedding, attention, MLP, LM head) จึงเอาชนะปัญหาคุณภาพตกในด้านการทำตามคำสั่ง การให้เหตุผลหลายขั้น และการใช้เครื่องมือ ที่โมเดล low-bit เดิมเคยเผชิญ
  • ทำค่า Intelligence Density ได้ 1.06/GB และเหนือกว่าคู่แข่งที่ใกล้เคียงที่สุดในคลาสพารามิเตอร์เดียวกัน (Qwen3 8B, 0.10/GB) ราว 10.6 เท่า
  • ทำงานได้ที่ 131 tok/s บน M4 Pro Mac, 368 tok/s บน RTX 4090 และประมาณ 44 tok/s บน iPhone 17 Pro Max โดยมี ประสิทธิภาพด้านพลังงานดีกว่าโมเดล 16 บิตราว 4~5 เท่า
  • หากมีการออกแบบฮาร์ดแวร์เฉพาะสำหรับ 1-bit ก็อาจปลดล็อก การเพิ่มขึ้นของประสิทธิภาพและประสิทธิผลอีกในระดับหลายเท่าตัวเลขหลักเดียว พร้อมขยายหมวดการใช้งานใหม่ เช่น on-device AI, หุ่นยนต์ และองค์กรด้านความปลอดภัย

ที่มาของ PrismML และการมาของ 1-bit Bonsai

  • ตลอด 10 ปีที่ผ่านมา ความก้าวหน้าของ AI เดินหน้าไปในทิศทางของการทำโมเดลให้ใหญ่ขึ้นเรื่อย ๆ (พารามิเตอร์มากขึ้น, GPU มากขึ้น, ใช้พลังงานมากขึ้น, หน่วยความจำมากขึ้น, ต้นทุนสูงขึ้น)
  • ผลลัพธ์คือเกิดข้อจำกัดเชิงโครงสร้างที่ทำให้ความฉลาดระดับสูงสุดถูกกักอยู่ใน คลัสเตอร์ขนาดใหญ่และโครงสร้างพื้นฐานเฉพาะทาง
  • แต่ในความเป็นจริง พื้นที่ที่ต้องการ AI ไม่ได้จำกัดอยู่แค่ดาต้าเซ็นเตอร์ ยังมีสมาร์ตโฟน แล็ปท็อป รถยนต์ หุ่นยนต์ องค์กรด้านความปลอดภัย และอุปกรณ์เอดจ์อีกมากมาย
  • PrismML เริ่มต้นจากทีมวิจัยของ Caltech และก่อตั้งขึ้นโดยได้รับการสนับสนุนจาก Khosla Ventures, Cerberus และ Google
  • บริษัทตั้ง Intelligence Density — ปริมาณความฉลาดที่ส่งมอบได้ต่อขนาดโมเดล (GB) — เป็นตัวชี้วัดหลักในการปรับให้เหมาะสม

การออกแบบโมเดล 1 บิตที่แท้จริง

  • 1-bit Bonsai 8B ทำ embedding, attention layer, MLP layer และ LM head เป็น 1 บิตทั้งหมด และยังคงโครงสร้าง 1 บิตเต็มรูปแบบตลอดทั้ง 8.2 พันล้านพารามิเตอร์ โดยไม่มีทางหนีไปใช้ความละเอียดสูง (escape hatch)
  • โมเดล low-bit แบบเดิมสูญเสียประสิทธิภาพอย่างมากในด้านการทำตามคำสั่ง การให้เหตุผลหลายขั้น และความน่าเชื่อถือในการใช้เครื่องมือ จนใช้งานเป็นฐานของผลิตภัณฑ์จริงได้ยาก
  • Bonsai พิสูจน์ให้เห็นว่า โมเดล 1 บิตสามารถเป็นระบบระดับ production ที่สมบูรณ์ได้ ไม่ใช่เพียงจุดประนีประนอมแบบแคบ ๆ

การวัด Intelligence Density

  • Intelligence Density นิยามเป็น ค่าลบของลอการิทึมของอัตราความผิดพลาดเฉลี่ยทั่วชุดเบนช์มาร์ก หารด้วยขนาดของโมเดล
  • ตัวชี้วัดนี้สะท้อนระดับความฉลาดที่สมจริงกว่าการใช้ค่าเฉลี่ยเบนช์มาร์กธรรมดา เพราะให้คุณค่ากับการปรับปรุงเพิ่มเติมในช่วงที่ความแม่นยำสูงอยู่แล้วมากกว่า
  • 1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — ไม่ใช่แค่ดีกว่าเล็กน้อย แต่เป็นผลลัพธ์คนละระดับ
  • แม้ดูจากค่าเฉลี่ยเบนช์มาร์กดิบ 1-bit Bonsai 8B ก็ยังรักษาความสามารถในการแข่งขันกับโมเดล 8B ชั้นนำได้ ขณะที่ memory footprint อยู่ที่ 1.15GB เล็กกว่ารุ่นระดับเดียวกันราว 12~14 เท่า

ขนาดและความเร็ว

  • ขนาดเพียง 1.15GB ทำให้รันบน iPhone 17 Pro ได้ — โมเดล 8B แบบ 16 บิตเดิมไม่สามารถใส่ลงใน iPhone รุ่นใดได้เลย
  • ความเร็วการอนุมานตามอุปกรณ์:
    • M4 Pro Mac: 131 tok/s
    • RTX 4090: 368 tok/s
    • iPhone 17 Pro Max: ประมาณ 44 tok/s
  • ในการจำลองงานสรุปและจัดสรรทิกเก็ต 50 รายการ 1-bit Bonsai 8B ประมวลผลได้ครบทั้ง 50 รายการ ขณะที่โมเดล 8B แบบ 16 บิตภายใต้เงื่อนไขเดียวกันทำได้เพียง 6 รายการ
  • สำหรับเวิร์กโหลดเอเจนต์ระยะยาว throughput ที่สูงขึ้นและการใช้หน่วยความจำที่ต่ำลงช่วยขยายปริมาณงานที่เอเจนต์สามารถจัดการได้จริง

ประสิทธิภาพด้านพลังงาน

  • 1-bit Bonsai 8B มี ประสิทธิภาพด้านพลังงานดีกว่าโมเดล full-precision 16 บิตราว 4~5 เท่า
    • M4 Pro: 0.074 mWh/tok
    • iPhone 17 Pro Max: 0.068 mWh/tok
  • หาก AI จะกลายเป็นโครงสร้างพื้นฐานหลัก การยกระดับประสิทธิภาพด้านพลังงานแบบก้าวกระโดดเป็นสิ่งจำเป็น

ศักยภาพของฮาร์ดแวร์เฉพาะสำหรับ 1 บิต

  • ปัจจุบันการเพิ่มประสิทธิภาพส่วนใหญ่มาจาก memory footprint ที่ลดลง ของโมเดล 1 บิต และยังไม่ถึงขั้นใช้ประโยชน์จากโครงสร้างน้ำหนัก 1 บิตได้อย่างเต็มที่ระหว่างการอนุมาน
  • ใน linear layer อย่าง MLP น้ำหนักแบบ 1 บิตทำให้สามารถแทนการคูณด้วยการบวกได้
  • หากมีการออกแบบ ฮาร์ดแวร์เฉพาะสำหรับการอนุมาน 1 บิต ก็สามารถยกระดับทั้งประสิทธิภาพและประสิทธิผลด้านพลังงานได้อีกในระดับหลายเท่าตัวเลขหลักเดียว

โมเดล Bonsai 4B และ 1.7B

  • เปิดตัวโมเดลขนาดเล็กอีก 2 รุ่นพร้อมกันคือ 1-bit Bonsai 4B และ 1-bit Bonsai 1.7B
  • ในกราฟกระจาย Intelligence vs ขนาด เมื่อเทียบกับโมเดล instruct หลัก 20 รุ่น (ช่วง 1.2GB~16.4GB) พบว่า ตระกูล Bonsai ทั้งชุดได้เลื่อน Pareto frontier เดิมไปทางซ้ายอย่างมาก
  • Pareto frontier เดิมประกอบด้วย Qwen3 0.6B, 1.7B, 4B, 8B และ Ministral3 3B แต่ตระกูล Bonsai ได้กลายเป็นผู้กำหนด frontier ชุดใหม่

ความฉลาดแบบอัดแน่นเปิดทางให้กับอะไรบ้าง

  • เมื่อโมเดลมีขนาดเล็ก เร็ว และมีประสิทธิภาพพอจะรันบนอุปกรณ์ได้ พื้นที่การออกแบบผลิตภัณฑ์ AI ก็เปลี่ยนไปทันที:
    • การตอบสนองดีขึ้น: on-device inference ทำงานได้โดยไม่มีความหน่วงจากเครือข่าย
    • ความเป็นส่วนตัวดีขึ้น: ข้อมูลอ่อนไหวไม่ต้องออกนอกอุปกรณ์
    • ความน่าเชื่อถือดีขึ้น: ลดการพึ่งพาการเชื่อมต่อคลาวด์แบบต่อเนื่อง
    • ความคุ้มค่าทางเศรษฐกิจ: ใช้ AI ได้แม้ในสภาพแวดล้อมที่การติดตั้งฝั่งเซิร์ฟเวอร์ทำไม่ได้เพราะต้นทุน
  • หมวดหมู่ใหม่ที่เปิดขึ้น ได้แก่ เอเจนต์ on-device แบบทำงานต่อเนื่อง, หุ่นยนต์แบบเรียลไทม์, copilots สำหรับองค์กรด้านความปลอดภัย, ปัญญาแบบออฟไลน์ และผลิตภัณฑ์ AI-native สำหรับสภาพแวดล้อมที่มีข้อจำกัดด้านแบนด์วิดท์ พลังงาน หรือกฎระเบียบ

การรองรับแพลตฟอร์มและรูปแบบการเผยแพร่

  • 1-bit Bonsai 8B รองรับการรันแบบเนทีฟบน อุปกรณ์ Apple (Mac, iPhone, iPad) ผ่าน MLX และบน NVIDIA GPU ผ่าน llama.cpp CUDA
  • น้ำหนักโมเดลเผยแพร่แล้วภายใต้ Apache 2.0 license
  • รายละเอียดทางเทคนิคทั้งหมดของกระบวนการฝึก การประเมิน และการทำเบนช์มาร์ก มีอยู่ใน whitepaper อย่างเป็นทางการ

2 ความคิดเห็น

 
runableapp 29 일 전

ข้อมูลดีมากครับ

 
GN⁺ 29 일 전
ความคิดเห็นจาก Hacker News
  • เน้นว่าเฟรมเวิร์ก 1.125 บิต (น้ำหนัก 1 บิต + สเกล 16 บิตร่วมกันต่อ 128 กลุ่ม) เป็น ตัวเลขที่ซื่อตรงทางเทคนิค
    ต้องแยกให้ชัดว่า “ใช้ได้จริงในเชิงพาณิชย์” วัดจากต้นทุนการอนุมาน หรือทำได้ผ่านการฟাইনจูน
    ถ้าเป็นโมเดลที่ฝึกมาโดยเล็งเป้า 1 บิตตั้งแต่แรกแบบงานวิจัย BitNet ของ Microsoft ก็ถือว่าเป็นคนละอย่างกับโมเดลที่แค่ถูก quantize
    โดยเฉพาะ ประสิทธิภาพการอนุมาน บนฮาร์ดแวร์ทั่วไปที่ดูน่าสนใจกว่า INT4 quantization มาก
    แต่เบนช์มาร์กถูกนำไปเทียบกับโมเดลใหญ่ที่ถูก quantize ทำให้แก่นแท้ของข้ออ้างจริง ๆ ค่อนข้างถูกกลบ
    อยากเห็นว่าประสิทธิภาพจะยังคงอยู่หรือไม่ในงานที่ต้องใช้การให้เหตุผลหลายขั้นตอน

  • น่าสนใจที่โครงสร้าง 1 บิต + สเกล FP16 (1 ตัวต่อ 128 บิต) ทำงานได้ดีขนาดนี้
    ลองใช้ Cursor สร้างเทสต์หน้าเว็บดูแล้วพบว่า ความสามารถในการใช้เครื่องมือ ค่อนข้างน่าประทับใจ
    ในการจำลอง Monte Carlo ของ π ตรรกะถูกต้อง แต่สร้างอินเทอร์เฟซไม่สำเร็จ และต้องแก้ด้วยมือบางส่วน
    ผลภาพ Pelican ดูนามธรรมมาก
    เนื่องจากไม่มีเดโมทางการ จึงเปิด อินสแตนซ์ llama.cpp แบบโลคัล ทิ้งไว้

    • ขอบคุณลิงก์นี้ เลยได้ลองเทสต์เองและพบว่า ความเร็วในการตอบ สูงมาก
      ลองคำขอหลายแบบทั้งสคริปต์ R และการสร้างสมการ LaTeX โดยเฉพาะ สูตรของออยเลอร์ ที่สร้างได้สมบูรณ์แบบ
      แม้จะเป็นโมเดล 1 บิตขนาดเล็ก แต่มีความหนาแน่นของความรู้สูงและตอบสนองเร็ว
    • ในฐานะคนเรียนประวัติศาสตร์ศิลปะ เห็นด้วยเต็มที่กับไอเดีย ‘นกกระทุงขี่จักรยาน’
    • ลิงก์ ngrok ล่มเพราะคนใช้เยอะ เลยแชร์ เวอร์ชัน Google Colab แทน
    • สงสัยว่าจำเป็นต้องใช้ llama.cpp fork ของ Prism หรือไม่
    • ให้ความรู้สึกเหมือน ChatGPT ยุคแรก ๆ คือส่วนใหญ่ตอบถูก แต่บางครั้งก็ พูดเพ้อเจ้อ
      ถ้าเพิ่ม ‘ขั้นตอนการคิด’ หรือเสริมด้วยระบบค้นหา ก็น่าจะใช้งานได้มีประโยชน์ขึ้นมาก
  • ลองรัน เบนช์มาร์กดีบัก SQL ที่ทำเองแล้ว ผลออกมาค่อนข้างน่าประทับใจ
    ผ่าน 8 จาก 25, ไม่ล้มเหลวเลย 0, และเกิดข้อผิดพลาด 17 ครั้ง อยู่ในระดับระหว่าง Qwen3.5-4B กับ Nanbeige4.1-3B
    เทสต์ทั้งหมดจบในเวลา 200 วินาที และในแง่ความเร็วก็มีประสิทธิภาพกว่า Granite 7B 4bit มาก
    ดูผลได้ที่ เว็บไซต์ SQL benchmark

    • ผมก็ใช้ runpod ของ @freakynit เหมือนกัน
      ส่วนตัวลองเทสต์การสร้าง แอป Pomodoro แล้ว แม้งานจะยังไม่เนี้ยบ แต่ในบางด้านก็ใช้งานได้ดีพอตัว
      ความสามารถด้านการเขียนก็โอเคเกินคาด และน่าสนใจที่ ใช้ em dash น้อย
      การเขียน HTML ยังอ่อน แต่ถ้านำโมเดล 1 บิตมารวมกับ Ngram-embedding ก็น่าจะเปิดทางใหม่ได้อีกมาก
      ยังแชร์ โค้ดต้นแบบที่ทำเอง ไว้ด้วย
  • รันบน iPhone ได้ด้วย แอป Locally AI เวอร์ชันอัปเดตล่าสุด
    ประสิทธิภาพน่าทึ่งมากเมื่อเทียบกับขนาด 1.2GB
    ผล SVG ของนกกระทุง คอมเมนต์ดี แต่ภาพไม่ค่อยดี

    • พบว่าโมเดลเล็ก ๆ อ่อนมากเรื่อง การแปลงเขตเวลา
      ถามว่า “9:30am ตามเวลาไต้หวันคือกี่โมงตามเวลาแปซิฟิกของสหรัฐฯ?” แต่ไม่มีโมเดลไหนตอบถูก
    • สงสัยว่าได้สั่งให้นกกระทุงมีจักรยาน หรือโมเดลเติมเองอย่างสร้างสรรค์
  • เปิดรันโมเดล 8GiB บน RTX 3090 แบบสาธารณะนาน 5 ชั่วโมง
    แชร์ทั้ง ลิงก์เซิร์ฟเวอร์ และคำสั่งรัน
    รองรับคำขอขนาน 5 รายการ, จำกัดราว 13K โทเค็น, ใช้ VRAM 4GiB
    ทำความเร็วได้ถึง 190t/s จึงถือว่าเร็วมาก

    • แนะนำว่าควรเก็บ KV cache ไว้ โดยไม่สูญเสียความแม่นยำ
    • การคุยกับโมเดลนี้สนุกจริง ๆ
      ใน ตัวอย่างบทสนทนา พอถามว่า ‘ควรเดินหรือขับรถไปล้างรถ’ ก็ได้คำตอบที่สร้างสรรค์
    • อัปเดตภายหลังว่าเซิร์ฟเวอร์ปิดไปแล้วเพราะ spot instance ถูกยุติ
    • หลายคนทึ่งกับความเร็ว
    • ยังแชร์ ผลลัพธ์บน Pastebin พร้อมบอกว่าโมเดลอ่อน ๆ ทำผลลัพธ์แบบนี้ไม่ได้
  • ไม่มี GPU เลยรันบน CPU และจากโน้ตบุ๊กเก่า ๆ ก็เร่งจาก 0.6t/s เป็น 12t/s ได้หลังเพิ่ม AVX2
    ถือว่าผลงานดีใช้ได้

    • มีฟีดแบ็กว่าต่อให้ build แบบ AVX2 ก็ยังช้าหรือมีแต่ ผลลัพธ์ไร้ความหมาย
      สาเหตุมาจากลืมขั้นตอน git checkout prism และหลังแก้แล้วก็ทำงานได้ปกติ
    • มีคนแซวว่าใช้คำว่า “not shabby” นี่ประเมินต่ำเกินไป
  • คิดว่าอนาคตของโมเดลขนาดใหญ่จะไปทาง หน่วยบิตมากกว่าหน่วย float
    เพราะค่า float ส่วนใหญ่กระจุกอยู่ในช่วงแคบ ๆ จึงไม่มีประสิทธิภาพ และสุดท้ายก็ถูกนำไปทำงานเป็นการคำนวณระดับบิตอยู่ดี
    แต่ปัญหาคือ GPU และพื้นฐานทางทฤษฎีถูกออกแบบมารองรับการคำนวณแบบจำนวนจริง

    • การอนุมานที่บิตต่ำทำได้ง่ายกว่า แต่ การฝึกยากและไม่เสถียร
      ที่ยังใช้รูปแบบ float อยู่ก็เพียงเพราะเข้ากับ GPU stack ได้ดีกว่า
    • งานวิจัยนี้ ฝึกโมเดลแบบ ฐานเลขสอง ไปจนถึงขั้นตอนการเทรนเลย
      โดยเสนอแนวคิด ‘Boolean variation’ เพื่อให้นิยามอนุพันธ์ในรูปแบบไบนารีและทำ backpropagation ได้โดยตรง
  • ความคล้ายกับ spiking neural network ก็น่าสนใจ
    มันสื่อสารกันแบบ 1 บิตด้วยการมีหรือไม่มีสไปก์ และใช้ศักย์เยื่อหุ้มเซลล์แบบแอนะล็อก
    มีคนใช้ Izhikevich neuron 5,000 ตัวควบคุมการเดินสี่ขา ซึ่งมีประสิทธิภาพกว่า PPO
    ประสิทธิภาพระดับ 1 บิตเป็นแนวคิดที่ไปไกลกว่าแค่ LLM

  • สงสัยว่าอัตราส่วน “-log error / model size” ถ้าเท่ากับ 1 หมายความว่า อัตราความผิดพลาดอยู่ราว 40% หรือไม่
    และเสริมการคำนวณทางคณิตศาสตร์ว่า error/model size = 1/e

  • Bonsai ให้โมเดล 8B มาในขนาด 1.15GB เลยสงสัยว่าโมเดล 27B หรือ 35B จะใหญ่แค่ไหน
    ถ้าการสเกลยังคงเดิม ก็อาจเป็นไปได้ว่า โมเดล 100B ก็ยังอยู่ใน RAM 64GB ได้

    • แต่ต้นทุนการฝึกยังเป็นปัญหา
      มีแนวโน้มว่าจะยังแพงพอ ๆ กับโมเดลฟูลพรีซิชัน ไม่อย่างนั้นก็คงถูกพูดถึงไปแล้ว