Bonsai Image 4B - โมเดลสร้างภาพแบบ 1-bit/ternary สำหรับอุปกรณ์โลคัล

(prismml.com)

3 คะแนน โดย GN⁺ 2026-06-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ตระกูลโมเดลสร้างภาพขนาดเล็กที่ออกแบบมาเพื่อรันการอนุมานแบบ diffusion คุณภาพสูงบนฮาร์ดแวร์โลคัลอย่างโน้ตบุ๊กและโทรศัพท์มือถือ
คงสถาปัตยกรรมของ FLUX.2 Klein 4B ไว้ แต่เปลี่ยนน้ำหนักของ diffusion transformer เป็นแบบ 1-bit หรือ ternary
ขนาดของ diffusion transformer ลดลงจากต้นฉบับ 7.75GB เหลือ 0.93GB สำหรับ 1-bit และ 1.21GB สำหรับ ternary ช่วยลดภาระด้าน งบหน่วยความจำ
สร้างภาพขนาด 512×512 บน iPhone 17 Pro Max ได้ใน 9.4 วินาที และบน Mac M4 Pro ใช้เวลาราว 6 วินาที พร้อมความเร็วสูงกว่า MFLUX สูงสุด 5.6 เท่า
รุ่น ternary รักษา ประสิทธิภาพ 95% เมื่อเทียบกับ FLUX.2 Klein 4B และทั้งสองรุ่นจะเปิดเผยน้ำหนักและโค้ดแบบ Apache 2.0

Bonsai Image 4B สำหรับการสร้างภาพแบบโลคัล

Bonsai Image 4B คือ ตระกูลโมเดลสร้างภาพขนาดเล็กที่ออกแบบมาเพื่อรันการอนุมานแบบ diffusion คุณภาพสูงบนฮาร์ดแวร์โลคัลตั้งแต่โน้ตบุ๊กไปจนถึงโทรศัพท์มือถือ
โมเดลนี้อิงจาก FLUX.2 Klein 4B โดยคงสถาปัตยกรรมเดิมไว้และเปลี่ยนเฉพาะ น้ำหนักของ diffusion transformer ให้เป็นแบบ 1-bit หรือ ternary
- 1-bit Bonsai Image 4B ใช้น้ำหนักทรานส์ฟอร์เมอร์แบบไบนารี {−1, +1} และปัจจัยสเกลแบบกลุ่มระดับ FP16 ทำให้ได้ effective bits ต่อ weight ที่ 1.125
- Ternary Bonsai Image 4B ใช้น้ำหนักทรานส์ฟอร์เมอร์แบบ {−1, 0, +1} และปัจจัยสเกลแบบกลุ่มระดับ FP16 ทำให้ได้ effective bits ต่อ weight ที่ 1.71
รุ่น ternary มีขนาดใหญ่กว่า 1-bit แต่สถานะ 0 เพิ่มเติม ช่วยยกระดับคุณภาพภาพและความตรงตามพรอมป์ต์
Bonsai Image 4B มุ่งเป็นรูปแบบการแจกจ่ายที่ทำให้สามารถสร้างภาพได้บนอุปกรณ์ที่เดิมรันโมเดลระดับนี้ได้ยาก ผ่านการเปิดเผยน้ำหนักและการอนุมานแบบโลคัล
ตามเกณฑ์ของ PrismML, Bonsai Image 4B เป็น โมเดลภาพระดับพารามิเตอร์นี้ตัวแรกที่รันบน iPhone ได้โดยตรง

การลดการใช้หน่วยความจำเพื่อการรันแบบโลคัล

ข้อจำกัดหลักของการสร้างภาพแบบโลคัลคือ โมเดลต้อง อยู่ภายในงบหน่วยความจำของอุปกรณ์
ในโมเดลภาพระดับ 4B ส่วนที่ใหญ่ที่สุดของโมเดลคือ diffusion transformer และมันจะถูกรันซ้ำในทุกขั้นตอน denoising ระหว่างการสร้างภาพ
ขนาดของทรานส์ฟอร์เมอร์มีผลโดยตรงต่อ แรงกดดันต่อหน่วยความจำ, ความต้องการแบนด์วิดท์ และความเร็วของการอนุมานแบบโลคัล
diffusion transformer ของ FLUX.2 Klein 4B มีขนาด 7.75GB ขณะที่ 1-bit Bonsai Image 4B มีขนาด 0.93GB และ Ternary Bonsai Image 4B มีขนาด 1.21GB
รุ่น 1-bit มีขนาดเล็กกว่า FLUX.2 Klein 4B แบบความละเอียดเต็ม 8.3 เท่า และรุ่น ternary เล็กกว่า 6.4 เท่า
แม้เลเยอร์ไบนารีเองจะเล็กลงราว 14 เท่าเมื่อเทียบกับน้ำหนักทรานส์ฟอร์เมอร์แบบความละเอียดเต็ม แต่ projection layer ราว 5% ที่ไวต่อความแม่นยำยังคงใช้ FP16
เลเยอร์ ternary ช่วยลดขนาดได้ราว 10 เท่า และทำให้ทรานส์ฟอร์เมอร์สุดท้ายมีขนาด 1.21GB

เพย์โหลดสำหรับการแจกจ่ายและหน่วยความจำขณะรัน

เพย์โหลดสำหรับการแจกจ่ายบน Apple Silicon ที่รวม text encoder แบบบีบอัดและ VAE แบบ FP16 มีขนาด 3.42GB สำหรับ 1-bit และ 3.88GB สำหรับ ternary
เพย์โหลดสำหรับการแจกจ่ายของ FLUX.2 Klein 4B แบบความละเอียดเต็มมีขนาด 15.97GB
ระหว่างรัน หลังเข้ารหัสพรอมป์ต์แล้ว text encoder จะถูก offload ออกไป ทำให้การใช้หน่วยความจำเฉลี่ยต่ำกว่าขนาดเพย์โหลดทั้งหมด
เมื่อสร้างภาพ 512×512 หน่วยความจำ active เฉลี่ยอยู่ที่ 1.5GB สำหรับ 1-bit, 1.96GB สำหรับ ternary และ 11.74GB สำหรับ FLUX.2 Klein 4B ต้นฉบับ
สำหรับ 512×512 อัตราการลดหน่วยความจำคือ 7.8 เท่าสำหรับ 1-bit และ 6.0 เท่าสำหรับ ternary
เมื่อสร้างภาพ 1024×1024 หน่วยความจำ active เฉลี่ยอยู่ที่ 1.95GB สำหรับ 1-bit, 2.38GB สำหรับ ternary และ 14.39GB สำหรับ FLUX.2 Klein 4B ต้นฉบับ
สำหรับ 1024×1024 อัตราการลดหน่วยความจำคือ 7.4 เท่าสำหรับ 1-bit และ 6.0 เท่าสำหรับ ternary

ฮาร์ดแวร์ที่รองรับและประสิทธิภาพการรัน

สแตกการแจกจ่ายรองรับ Apple Silicon บน iPhone, iPad, Mac และ CUDA GPU
บนฮาร์ดแวร์ Apple ใช้ เส้นทาง low-bit ของ MLX และบน CUDA ใช้ Gemlite low-bit GEMM kernel
บน iPhone 17 Pro Max ไปป์ไลน์ FLUX.2 Klein 4B แบบความละเอียดเต็มไม่สามารถอยู่ภายในงบหน่วยความจำของอุปกรณ์ได้ แต่ Bonsai Image ทั้งสองรุ่นสามารถรันบนอุปกรณ์ได้โดยตรง
Bonsai Image 4B สร้างภาพ 512×512 บน iPhone 17 Pro Max ได้ใน 9.4 วินาที
บน Mac M4 Pro สร้างภาพ 512×512 ได้ในราว 6 วินาที
บน Mac M4 Pro, Bonsai Image 4B เร็วกว่า MFLUX pipeline แบบความละเอียดเต็มพื้นฐานได้สูงสุด 5.6 เท่า

ประสิทธิภาพบนเบนช์มาร์ก

Bonsai Image 4B ถูกประเมินด้วยเบนช์มาร์ก 3 รายการ ได้แก่ GenEval, HPSv3, และ DPG-Bench
GenEval ใช้วัดการจัดวางองค์ประกอบของวัตถุและการผูกคุณลักษณะ, HPSv3 ใช้วัดความชอบของมนุษย์และคุณภาพเชิงสุนทรียะ, ส่วน DPG-Bench ใช้วัดการทำตามพรอมป์ต์ที่หนาแน่นและความตรงตามความหมาย
Ternary Bonsai Image 4B ทำได้ GenEval 0.723, HPSv3 12.22, DPG-Bench 0.851 ด้วย diffusion transformer ขนาด 1.21GB
Ternary Bonsai Image 4B รักษา ประสิทธิภาพ 95% เมื่อเทียบกับ FLUX.2 Klein 4B พร้อมลดขนาด diffusion transformer ลง 6.4 เท่า
1-bit Bonsai Image 4B ทำได้ GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822 ด้วย diffusion transformer ขนาด 0.93GB
1-bit Bonsai Image 4B รักษา ประสิทธิภาพ 88% เมื่อเทียบกับ FLUX.2 Klein 4B พร้อมลดขนาด diffusion transformer ลงต่ำกว่า 1GB
FLUX.2 Klein 4B ทำได้ GenEval 0.819, HPSv3 12.84, DPG-Bench 0.853 ด้วย diffusion transformer ขนาด 7.75GB
SDXL ทำได้ GenEval 0.3, HPSv3 10.05, DPG-Bench 0.74 ด้วย diffusion transformer ขนาด 5.14GB และมีประสิทธิภาพ 67% เมื่อเทียบกับ FLUX.2 Klein 4B
BK-SDM-Small ทำได้ GenEval 0.297, HPSv3 3.05, DPG-Bench 0.559 ด้วย diffusion transformer ขนาด 0.98GB และมีประสิทธิภาพ 42% เมื่อเทียบกับ FLUX.2 Klein 4B
Stable Diffusion 1.5 ทำได้ GenEval 0.396, HPSv3 4.2, DPG-Bench 0.601 ด้วย diffusion transformer ขนาด 1.72GB และมีประสิทธิภาพ 51% เมื่อเทียบกับ FLUX.2 Klein 4B
PixArt-Σ XL 2 ทำได้ GenEval 0.541, HPSv3 11.93, DPG-Bench 0.769 ด้วย diffusion transformer ขนาด 1.2GB และมีประสิทธิภาพ 83% เมื่อเทียบกับ FLUX.2 Klein 4B
Bonsai ทั้งสองรุ่นแข่งขันได้กับโมเดลภาพระดับ 4B รุ่นใหม่ ขณะเดียวกันก็รักษา footprint ของ diffusion transformer ให้เล็กกว่ามาก
เมื่อเทียบกับโมเดลขนาดเล็กกว่าที่มี memory footprint ใกล้เคียงกัน ทั้งสองรุ่นให้ประสิทธิภาพสูงกว่า นำ ความสามารถของ diffusion transformer สมัยใหม่ ลงมาสู่ช่วงหน่วยความจำที่เดิมเป็นพื้นที่ของโมเดลเล็กและประสิทธิภาพต่ำกว่า

ความหมายเชิงผลิตภัณฑ์ของการอนุมานแบบโลคัล

การสร้างภาพไม่ได้ขึ้นอยู่กับคุณภาพโมเดลเท่านั้น แต่ยังขึ้นอยู่กับ รูปแบบการแจกจ่าย ด้วย
Cloud API ยังเหมาะกับหลายผลิตภัณฑ์ แต่การสร้างแบบพึ่งคลาวด์อย่างเดียวทำให้ทุกพรอมป์ต์ต้องกลายเป็นคำขอระยะไกล และเพิ่มทั้งต้นทุนการให้บริการกับ latency ไป-กลับในทุกครั้งที่ลอง
การสร้างภาพเป็นกระบวนการที่มีการวนซ้ำโดยธรรมชาติ ผู้ใช้จึงมักแก้พรอมป์ต์ เปรียบเทียบผลลัพธ์ สร้างเวอร์ชันแปรผัน ทิ้งผลลัพธ์ที่ล้มเหลว และลองใหม่
ถ้าทุกครั้งที่ลองต้องใช้การประมวลผลฝั่งเซิร์ฟเวอร์ ผู้ใช้ก็ต้องคอยคิดเรื่องค่าใช้จ่ายและรอในทุกลูปการสร้างสรรค์
การอนุมานแบบโลคัลช่วยให้เมื่อโมเดลอยู่บนอุปกรณ์แล้ว ความสามารถในการสร้างภาพสามารถถูกวางไว้ภายในประสบการณ์ของผลิตภัณฑ์ได้โดยตรง
การรันแบบโลคัลช่วยลดต้นทุนการทำงาน เพิ่มความเร็วในการวนซ้ำ และใช้งานได้ง่ายในสภาพแวดล้อมที่พรอมป์ต์และทรัพย์สินที่สร้างขึ้นต้องคงความเป็นส่วนตัว
Bonsai Image 4B คือก้าวหนึ่งสู่ วิธีการแจกจ่ายการสร้างภาพ ที่ย้ายเข้าใกล้ผู้ใช้มากขึ้น บนฮาร์ดแวร์ที่ผู้ใช้มีอยู่แล้ว

รูปแบบการเผยแพร่และทรัพยากร

1-bit Bonsai Image 4B และ Ternary Bonsai Image 4B จะเปิดเผยเป็น open weights พร้อมโค้ด
ไลเซนส์คือ Apache 2.0
PrismML ยังเปิดตัวแอป iOS Bonsai Studio สำหรับทดลอง Bonsai Image 4B บน iPhone ได้โดยตรง
Whitepaper
Hugging Face
WebGPU demo
Bonsai Studio for iPhone
GitHub

1 ความคิดเห็น

GN⁺ 2026-06-01

ความคิดเห็นจาก Hacker News

เมื่อ 20 ปีก่อน คงไม่มีใครคาดว่าอินเทอร์เน็ตในอนาคตจะเป็นที่ที่เรา เชื่อถือไม่ได้ ว่าสิ่งที่เราเห็นหรืออ่านนั้นเป็นของจริง
หวังว่าสักวันหนึ่งเราจะมองยุคนี้ย้อนกลับไปว่าเป็น ช่วงเวลาแห่งความหลงทาง แบบเดียวกับฉากใน Mad Men ที่ครอบครัว Draper ทิ้งขยะจากปิกนิกไว้บนสนามหญ้าแล้วขับรถจากไป
- เมื่อ 20 ปีก่อน ครูบอกว่าอย่าใช้ Wikipedia เพราะในอินเทอร์เน็ตเชื่ออะไรไม่ได้เลย และอย่าเดทกับใครที่เจอในแอปหรือเว็บไซต์เด็ดขาด เพราะคนแบบนั้นเป็นฆาตกร 100% อีกทั้งยังมีคำพูดว่า “อินเทอร์เน็ตมีไว้เพื่อโป๊”
  หลายอย่างก็ดีขึ้นตามเวลา และผู้คนก็มัก ประเมินความเสี่ยงทางสังคม ของเทคโนโลยีใหม่สูงเกินจริงเสมอในช่วงแรก
- ฉากปิกนิกนั้น: https://www.youtube.com/watch?v=FDIvzDGBLWU
- ดูเหมือนคุณจะจำการถกเถียงเรื่อง Narrative Science(https://en.wikipedia.org/wiki/Narrative_Science) ในตอนนั้นไม่ได้
  บริษัทนี้เป็นสปินเอาต์จากมหาวิทยาลัย และสามารถเขียนข่าวเบสบอลที่ดูน่าเชื่อถือ รวมถึงข่าวการเงินในเวลาต่อมา ได้จากสถิติล้วน ๆ มันถูกมองว่าเป็นประโยชน์ต่อแฟนกีฬาเพราะช่วยให้เว็บข่าวท้องถิ่นลงข่าวทุกแมตช์ได้ และยังเป็นแรงขับสำคัญในการเพิ่มทราฟฟิกเว็บ แต่ก็โดนวิจารณ์อย่างมากว่าไม่ใช่ของ “จริง”
  บทความของ Slate ปี 2012 ที่พูดถึงเรื่องนี้: https://slate.com/technology/2012/03/narrative-science-robot...
  นับตั้งแต่มีคอมพิวเตอร์มา ผู้คนก็พยายามทำให้คอมพิวเตอร์ฟังดูเหมือนมนุษย์ และความกังวลว่าคู่สนทนาหรือสิ่งที่เราอ่านอาจเป็นหุ่นยนต์ที่เลียนแบบมนุษย์ก็ไม่ใช่เรื่องใหม่
- จะเรียกว่าเป็น ช่วงเวลาแห่งความหลงทาง ก็ดูเหมือนเป็นการตอบสนองที่แรงเกินไป
- ทั้งข้อความและภาพมี ข้อมูลเท็จ มาโดยตลอด และภาพถ่ายก็ถูกดัดแปลงได้ตั้งแต่แรกที่มีการถ่ายภาพ
  แน่นอนว่าตอนนี้มันง่ายขึ้นมาก แต่ไม่ใช่การเปลี่ยนแปลงที่ต่างไปโดยสิ้นเชิงในเชิงคุณภาพ การเชื่อทุกอย่างที่เห็นบนอินเทอร์เน็ตเมื่อ 20 ปีก่อนก็คงตลกพอ ๆ กับตอนนี้
ผมรอคอยอนาคตที่แทนจะต้องจ่ายค่าสมาชิกแพง ๆ เราจะอัปเกรดฮาร์ดแวร์เพื่อ อัปเกรด AI ของตัวเอง ได้จริง ๆ
มีหลายปัญหาที่ผมอยากลองทำซึ่งต้องใช้โทเคนระดับหลายพันล้าน แต่ตอนนี้แทบเข้าถึงไม่ได้เลยถ้าไม่มีผู้สนับสนุนโปรเจกต์ระดับองค์กร ขอแค่มีเครื่องสร้างแบบ ASIC ที่ปั่นได้หลายหมื่นโทเคนต่อวินาทีในคุณภาพระดับ Opus 4.6 ก็พอแล้ว
- มีบริษัทชื่อ Taalas กำลังทำอะไรคล้าย ๆ กันอยู่ แม้จะยังไม่ถึงคุณภาพระดับ Opus 4.6 แต่ก็น่าจะเล็งไปที่โมเดลขนาดใหญ่กว่า
  ตอนนี้ใช้โมเดล LLama 8B ทำงานได้ราว 17k โทเคนต่อวินาที และลองทดสอบได้ที่ https://chatjimmy.ai/
- ยกตัวอย่างปัญหาแบบนั้นสักข้อได้ไหม?
- สงสัยว่าค่าใช้จ่ายด้านฮาร์ดแวร์กับไฟฟ้าจะเป็นประมาณไหนเมื่อเทียบกับ ค่าสมาชิก
- ถ้ามองตามตรรกะแล้ว การรวมทรัพยากรของคนห้าคนย่อมเหนือกว่าคนเดียว ดังนั้น ดาต้าเซ็นเตอร์ จึงชนะเสมอ
  เพราะอัตราการใช้งานเวลาสูงกว่า ผมเองก็จินตนาการแบบนั้นบ่อย แต่ในทางตรรกะมันเป็นภาพฝัน คุณไม่มีทางใช้ได้มากกว่าภาพรวมของกลุ่มที่ใช้ฮาร์ดแวร์ได้คุ้มค่ากว่าโดยเฉลี่ย
  ฮาร์ดแวร์ฝั่งบุคคลก็จะดีขึ้น แต่ของล้ำหน้าที่สุดจะอยู่บนคลาวด์เสมอ
พอเห็นคำว่า “1-bit” สิ่งแรกที่นึกถึงไม่ใช่น้ำหนักโมเดล 1 บิต แต่เป็น การสร้างภาพขาวดำแบบดิเธอร์ 1 บิต
เลยสงสัยว่าถ้าจำกัดภาพฝึกและพื้นที่ทำงานให้เป็นภาพ 1 บิตที่ดิเธอร์ด้วย Floyd-Steinberg, Atkinson หรืออัลกอริทึมที่ชอบ มันจะทำให้ตัวสร้างภาพแบบ diffusion เจ๋งขึ้น เร็วขึ้น และบีบอัดได้ขนาดไหน
การเทรนน่าจะเร็วพอสมควร และน่าจะยัดลง GPU รุ่นใหม่ตัวเดียวได้ด้วยซ้ำ
- ถึงอย่างนั้น ผมก็คิดว่าน่าจะดีกว่าถ้าเทรนแบบ grayscale ก่อนแล้วค่อยดิเธอร์ทีหลัง
- ผมคิดเหมือนกันเป๊ะ และดูเหมือนมีไอเดียน่าสนใจอีกหลายอย่างให้สำรวจต่อจากตรงนี้
ถามเพราะอยากรู้จริง ๆ นะ อันนี้แก้ ปัญหาจริง อะไรอยู่หรือเปล่า?
เวลาพูดถึงโมเดล diffusion ผมมองว่าคอขวดไม่ใช่พื้นที่เก็บข้อมูลหรือหน่วยความจำ แต่เป็นเวลาในการสร้างภาพ โมเดลจำนวนมากรันได้บน GPU 8~12GB ยุค 1080 ขึ้นไป หรือบน Mac ที่มีหน่วยความจำใกล้เคียงกันอยู่แล้ว และในแง่พลัง GPU นั่นก็แทบเป็นขีดล่างอยู่แล้วด้วย แถมโมเดลพวกนี้ก็ดูจะช้ากว่าโมเดล FLUX.2 ขนาดเล็กที่เป็นฐานอยู่นิดหน่อยด้วยซ้ำ
แน่นอนว่ามันอาจช่วยให้รันโมเดลในเครื่องได้บนอุปกรณ์อย่าง iPhone ที่มี GPU ค่อนข้างแรงแต่หน่วยความจำจำกัด แต่ความต้องการแบบนั้นพบได้บ่อยจริงหรือ?
- ถือเป็นความก้าวหน้าที่มีประโยชน์ ถ้าคุณภาพจาก การอนุมานบนอุปกรณ์ขนาดเล็ก ออกมาใช้ได้พอประมาณ ก็จะทำให้สร้างผลิตภัณฑ์ที่สร้างภาพแบบใช้แล้วทิ้งได้บ่อยโดยไม่ต้องกังวลเรื่องต้นทุน
  จนถึงตอนนี้ ผลิตภัณฑ์สร้างภาพที่ผมเห็นทั้งหมดคิดเงินตามการใช้งาน ซึ่งจำกัดคุณค่าไปมาก เพียงแต่ผมยังไม่แน่ใจว่านี่ไปถึงจุด “คุณภาพใช้ได้” แล้วหรือยัง
- ตอนนี้เราอยู่ในยุคที่ความต้องการ GPU สูงมากผิดปกติ ขณะที่อุปทานมีจำกัด ทุกครั้งที่ผลักงานอนุมานไปที่ edge ก็เท่ากับปล่อยทรัพยากรคลาวด์ให้ไปทำอย่างอื่นได้
  ทุกครั้งที่ประสิทธิภาพดีขึ้น สิ่งที่ทำได้ด้วยทรัพยากรเดิมก็เพิ่มขึ้น ถ้าคุณเรนเดอร์ภาพได้ด้วยคอมพิวต์แค่ครึ่งเดียว ก็ต้องใช้ GPU แค่ครึ่งเดียว
- GPU 8~12GB ยุค 1080 หรือ Mac ที่มีหน่วยความจำใกล้เคียงกันไม่ใช่ขีดล่าง คนส่วนใหญ่ใช้ แล็ปท็อปหรืออุปกรณ์พกพาที่แรง GPU ต่ำกว่านั้นมาก
- คุณค่าปัจจุบันดูใกล้เคียงกับ คุณค่าทางวิชาการ มากกว่าการใช้งานจริง
  แม้แต่โมเดลแนวหน้าก็ยังแทบจะเรียกว่าใช้งานได้แค่อย่างเฉียดฉิว และในงานสร้างภาพนั้น ต่อให้เป็นโมเดลที่ดีที่สุด ส่วนใหญ่ก็ยังให้ผลลัพธ์แย่ ๆ อยู่มาก ดังนั้นโมเดล 1 บิตขนาดเล็กที่ตามหลังแนวหน้าอย่างมากในด้านความสามารถ ก็คงยังใช้งานจริงได้ยากในตอนนี้
  แต่การเพิ่มความหนาแน่นของความสามารถต่อหน่วยคอมพิวต์ได้มากถือว่าสำคัญมาก มันช่วยให้รันโมเดลแนวหน้าได้ดีขึ้น ถูกลง และใช้ทรัพยากรน้อยลง อีกทั้งยังขยายขอบเขตของงานที่ทำได้บน edge อย่างแล็ปท็อปส่วนตัวหรือโทรศัพท์ด้วย
  ในมุมความเป็นส่วนตัวก็มีงานจำนวนมากที่ควรรันบนอุปกรณ์ และไม่ใช่ทุกคนจะมี GPU เฉพาะทางขนาดใหญ่
- ใช่แล้ว ขนาดและประสิทธิภาพไม่ใช่ปัญหาเฉพาะของ local LLM แต่เป็นปัญหาของ บริษัท LLM แนวหน้า อย่าง OpenAI และ Anthropic ด้วย
  บริษัทอย่าง Anthropic ยังขาดทุนจากงานอนุมานมหาศาลอยู่ และความก้าวหน้าของโมเดลที่มีประสิทธิภาพดีพร้อมสมรรถนะสูงก็ช่วยเรื่องความสามารถในการทำกำไรได้
ประโยคที่ว่า “เท่าที่เราทราบ Bonsai Image 4B เป็นโมเดลภาพตัวแรกที่รันได้โดยตรงบน iPhone ในสเกลพารามิเตอร์ระดับนี้” นั้นไม่ถูกต้อง เพียงแต่เขาใช้ ถ้อยคำอย่างระมัดระวัง เลยทำให้ไม่ผิดแบบเต็ม ๆ
FLUX.2 [klein] 4B ซึ่งมีขนาดพารามิเตอร์เท่ากันและแทบจะเป็นโมเดลเดียวกัน รันบน iPhone ได้ผ่านแอป Draw Things อยู่แล้ว มันใช้ quantization แบบ 8 บิตหรือ 6 บิต ดังนั้นอาจเถียงได้ว่าไม่ใช่การรัน “โดยตรง” แต่ข้อแม้ทางเทคนิคนั้นก็ดูชวนสงสัยพอสมควร
เขาเรียกมันว่า diffusion model แต่ Flux.2 ที่เป็นฐานจริง ๆ แล้วเป็น โมเดลการไหลแบบแก้ไขทิศทาง
- ส่วนตัวผมคิดว่าใช้คำว่า “diffusion” เป็นคำเรียกรวมของตระกูลนี้ทั้งหมดก็ได้
แปลกดี ผมเป็นผู้เข้าชมจากสหราชอาณาจักร แต่ขึ้นแบบนี้:
Website Not Allowed
“⁦‪prismml.com‬⁩” is a restricted website.
ภายในวันเดียวต้องมีใครสักคนเทรน LoRA สำหรับโมเดล 1 บิตนี้เพื่อให้ Apple Watch สร้างคอนเทนต์เฮ็นไตได้แน่
ถ้าอยากรันโดยไม่ต้องไปยุ่งกับ local filesystem ก็ใช้ https://github.com/kordless/bonsai-docker ได้เลย
ผมดึงโค้ดจากเว็บเดโมมาแปะเป็น โหนดสร้างภาพบนเว็บ ในเครื่องมือ AI workflow ที่ทำงานในเบราว์เซอร์ แล้วมันค่อนข้างโอเคเลย
ตอนนี้กำลังรอให้ xenova เพิ่มมันเข้า transformersjs 4.3 แล้วผมก็น่าจะปล่อยของตัวเองด้วย แค่อยากลองก่อนเลยทดสอบเองไปก่อน รอไม่ไหว
- พอจะอธิบาย เครื่องมือ AI workflow ในเบราว์เซอร์นั้นได้ไหม? ผมอาจกำลังสร้างอะไรคล้าย ๆ กันอยู่ เลยอยากรู้มากว่าคนอื่นในสายนี้กำลังทำอะไรกันบ้าง

Bonsai Image 4B - โมเดลสร้างภาพแบบ 1-bit/ternary สำหรับอุปกรณ์โลคัล

Bonsai Image 4B สำหรับการสร้างภาพแบบโลคัล

การลดการใช้หน่วยความจำเพื่อการรันแบบโลคัล

เพย์โหลดสำหรับการแจกจ่ายและหน่วยความจำขณะรัน

ฮาร์ดแวร์ที่รองรับและประสิทธิภาพการรัน

ประสิทธิภาพบนเบนช์มาร์ก

ความหมายเชิงผลิตภัณฑ์ของการอนุมานแบบโลคัล

รูปแบบการเผยแพร่และทรัพยากร

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News