1 คะแนน โดย GN⁺ 2 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Bonsai Image 4B เป็นตระกูลโมเดลสร้างภาพขนาดเล็กที่ออกแบบมาเพื่อรันการอนุมานแบบ diffusion คุณภาพสูงบนฮาร์ดแวร์โลคัลอย่างโน้ตบุ๊กและโทรศัพท์มือถือ
  • ยังคงสถาปัตยกรรมของ FLUX.2 Klein 4B ไว้ แต่เปลี่ยน ค่าน้ำหนักของ diffusion transformer ให้เป็นรูปแบบ 1-bit หรือ ternary
  • ขนาดของ diffusion transformer ลดลงจาก 7.75GB เดิม เหลือ 0.93GB สำหรับ 1-bit และ 1.21GB สำหรับ ternary ช่วยลดภาระด้าน งบหน่วยความจำ
  • บน iPhone 17 Pro Max สร้างภาพขนาด 512×512 ได้ใน 9.4 วินาที และบน Mac M4 Pro ใช้เวลาราว 6 วินาที พร้อมความเร็วสูงกว่า MFLUX สูงสุด 5.6 เท่า
  • รุ่น ternary ยังคง ประสิทธิภาพ 95% เมื่อเทียบกับ FLUX.2 Klein 4B และทั้งสองรุ่นจะเปิดเผยในรูปแบบโอเพนน้ำหนักและโค้ดภายใต้ Apache 2.0

Bonsai Image 4B สำหรับการสร้างภาพแบบโลคัล

  • Bonsai Image 4B เป็นตระกูลโมเดลสร้างภาพขนาดเล็กที่ออกแบบมาเพื่อรันการอนุมานแบบ diffusion คุณภาพสูงบนฮาร์ดแวร์โลคัล ตั้งแต่โน้ตบุ๊กไปจนถึงโทรศัพท์มือถือ
  • พัฒนาบนฐานของ FLUX.2 Klein 4B โดยคงสถาปัตยกรรมเดิมไว้ แต่เปลี่ยน ค่าน้ำหนักของ diffusion transformer ให้เป็นแบบ 1-bit หรือ ternary
    • 1-bit Bonsai Image 4B ใช้ค่าน้ำหนัก transformer แบบไบนารี {−1, +1} และตัวคูณสเกลแบบกลุ่มใน FP16 ทำให้ได้ effective bits ต่อค่าน้ำหนักที่ 1.125 บิต
    • Ternary Bonsai Image 4B ใช้ค่าน้ำหนัก transformer แบบ {−1, 0, +1} และตัวคูณสเกลแบบกลุ่มใน FP16 ทำให้ได้ effective bits ต่อค่าน้ำหนักที่ 1.71 บิต
  • รุ่น ternary มีขนาดใหญ่กว่า 1-bit แต่สถานะ 0 เพิ่มเติม ช่วยยกระดับคุณภาพของภาพและความตรงตามพรอมป์ต์
  • Bonsai Image 4B มุ่งเป็นรูปแบบการแจกจ่ายที่ทำให้การสร้างภาพเป็นไปได้บนอุปกรณ์ที่ก่อนหน้านี้รันโมเดลระดับนี้ได้ยาก ด้วยโอเพนน้ำหนักและการอนุมานแบบโลคัล
  • ตามเกณฑ์ของ PrismML, Bonsai Image 4B เป็น โมเดลภาพตัวแรกในระดับพารามิเตอร์นี้ที่รันบน iPhone ได้โดยตรง

การลดการใช้หน่วยความจำเพื่อการรันแบบโลคัล

  • ข้อจำกัดสำคัญของการสร้างภาพแบบโลคัลคือโมเดลต้อง อยู่ภายในงบหน่วยความจำของอุปกรณ์
  • ในโมเดลภาพระดับ 4B, diffusion transformer เป็นส่วนที่ใหญ่ที่สุดของโมเดล และจะถูกรันซ้ำในทุกขั้นตอน denoising ระหว่างการสร้าง
  • ขนาดของ transformer ส่งผลโดยตรงต่อ แรงกดดันด้านหน่วยความจำ, ความต้องการแบนด์วิดท์ และความเร็วของการอนุมานแบบโลคัล
  • diffusion transformer ของ FLUX.2 Klein 4B มีขนาด 7.75GB ขณะที่ 1-bit Bonsai Image 4B มีขนาด 0.93GB และ Ternary Bonsai Image 4B มีขนาด 1.21GB
  • รุ่น 1-bit มีขนาดเล็กกว่า FLUX.2 Klein 4B แบบความละเอียดเต็ม 8.3 เท่า และรุ่น ternary เล็กกว่า 6.4 เท่า
  • เลเยอร์ไบนารีเองลดขนาดลงได้ราว 14 เท่าเมื่อเทียบกับค่าน้ำหนัก transformer แบบความละเอียดเต็ม แต่ projection layer ราว 5% ที่ไวต่อความละเอียดจะยังคงเป็น FP16
  • เลเยอร์ ternary ลดขนาดได้ราว 10 เท่า และทำให้ transformer สุดท้ายมีขนาด 1.21GB

Deployment payload และหน่วยความจำขณะรัน

  • deployment payload สำหรับ Apple Silicon ที่รวม text encoder แบบบีบอัดและ VAE แบบ FP16 มีขนาด 3.42GB สำหรับ 1-bit และ 3.88GB สำหรับ ternary
  • deployment payload ของ FLUX.2 Klein 4B แบบความละเอียดเต็มมีขนาด 15.97GB
  • ระหว่างรัน หลังจากเข้ารหัสพรอมป์ต์แล้ว text encoder จะถูก offload ออกไป ทำให้การใช้หน่วยความจำเฉลี่ยต่ำกว่า payload ทั้งหมด
  • เมื่อสร้างภาพ 512×512 หน่วยความจำ active เฉลี่ยคือ 1.5GB สำหรับ 1-bit, 1.96GB สำหรับ ternary และ 11.74GB สำหรับ FLUX.2 Klein 4B ต้นฉบับ
  • สำหรับขนาด 512×512 อัตราการลดหน่วยความจำคือ 7.8 เท่าสำหรับ 1-bit และ 6.0 เท่าสำหรับ ternary
  • เมื่อสร้างภาพ 1024×1024 หน่วยความจำ active เฉลี่ยคือ 1.95GB สำหรับ 1-bit, 2.38GB สำหรับ ternary และ 14.39GB สำหรับ FLUX.2 Klein 4B ต้นฉบับ
  • สำหรับขนาด 1024×1024 อัตราการลดหน่วยความจำคือ 7.4 เท่าสำหรับ 1-bit และ 6.0 เท่าสำหรับ ternary

ฮาร์ดแวร์ที่รองรับและประสิทธิภาพการรัน

  • สแตกสำหรับ deployment รองรับ Apple Silicon iPhone, iPad, Mac และ CUDA GPU
  • บนฮาร์ดแวร์ Apple ใช้ เส้นทาง low-bit ของ MLX และบน CUDA ใช้ Gemlite low-bit GEMM kernel
  • บน iPhone 17 Pro Max, pipeline ของ FLUX.2 Klein 4B แบบความละเอียดเต็มไม่สามารถอยู่ในงบหน่วยความจำของอุปกรณ์ได้ แต่ Bonsai Image ทั้งสองรุ่นสามารถรันบนอุปกรณ์ได้โดยตรง
  • Bonsai Image 4B สร้างภาพ 512×512 บน iPhone 17 Pro Max ได้ใน 9.4 วินาที
  • บน Mac M4 Pro สร้างภาพ 512×512 ได้ในเวลาประมาณ 6 วินาที
  • บน Mac M4 Pro, Bonsai Image 4B เร็วกว่า MFLUX pipeline แบบความละเอียดเต็มพื้นฐานสูงสุด 5.6 เท่า

ประสิทธิภาพจากเบนช์มาร์ก

  • Bonsai Image 4B ถูกประเมินด้วยเบนช์มาร์ก 3 ชุด ได้แก่ GenEval, HPSv3 และ DPG-Bench
  • GenEval ใช้วัดการจัดองค์ประกอบของวัตถุและการผูกคุณลักษณะ, HPSv3 ใช้วัดความชอบของมนุษย์และคุณภาพเชิงสุนทรียะ, ส่วน DPG-Bench ใช้วัดการทำตามพรอมป์ต์แบบหนาแน่นและความเที่ยงตรงเชิงความหมาย
  • Ternary Bonsai Image 4B ทำได้ GenEval 0.723, HPSv3 12.22, DPG-Bench 0.851 ด้วย diffusion transformer ขนาด 1.21GB
  • Ternary Bonsai Image 4B ยังคง ประสิทธิภาพ 95% เทียบกับ FLUX.2 Klein 4B พร้อมลดขนาด diffusion transformer ลง 6.4 เท่า
  • 1-bit Bonsai Image 4B ทำได้ GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822 ด้วย diffusion transformer ขนาด 0.93GB
  • 1-bit Bonsai Image 4B ยังคง ประสิทธิภาพ 88% เทียบกับ FLUX.2 Klein 4B พร้อมลด diffusion transformer ลงให้ต่ำกว่า 1GB
  • FLUX.2 Klein 4B ทำได้ GenEval 0.819, HPSv3 12.84, DPG-Bench 0.853 ด้วย diffusion transformer ขนาด 7.75GB
  • SDXL ทำได้ GenEval 0.3, HPSv3 10.05, DPG-Bench 0.74 ด้วย diffusion transformer ขนาด 5.14GB และมีประสิทธิภาพ 67% เมื่อเทียบกับ FLUX.2 Klein 4B
  • BK-SDM-Small ทำได้ GenEval 0.297, HPSv3 3.05, DPG-Bench 0.559 ด้วย diffusion transformer ขนาด 0.98GB และมีประสิทธิภาพ 42% เมื่อเทียบกับ FLUX.2 Klein 4B
  • Stable Diffusion 1.5 ทำได้ GenEval 0.396, HPSv3 4.2, DPG-Bench 0.601 ด้วย diffusion transformer ขนาด 1.72GB และมีประสิทธิภาพ 51% เมื่อเทียบกับ FLUX.2 Klein 4B
  • PixArt-Σ XL 2 ทำได้ GenEval 0.541, HPSv3 11.93, DPG-Bench 0.769 ด้วย diffusion transformer ขนาด 1.2GB และมีประสิทธิภาพ 83% เมื่อเทียบกับ FLUX.2 Klein 4B
  • Bonsai ทั้งสองรุ่นแข่งขันได้กับโมเดลภาพระดับ 4B ยุคใหม่ ขณะเดียวกันก็รักษา footprint ของ diffusion transformer ให้เล็กกว่ามาก
  • เมื่อเทียบกับโมเดลที่เล็กกว่าและมี footprint หน่วยความจำใกล้เคียงกัน ทั้งสองรุ่นทำผลงานได้ดีกว่า และนำ การทำงานของ diffusion transformer แบบสมัยใหม่ เข้าสู่ช่วงหน่วยความจำที่เดิมถูกครอบครองโดยโมเดลที่เล็กกว่าและประสิทธิภาพต่ำกว่า

ความหมายเชิงผลิตภัณฑ์ของการอนุมานแบบโลคัล

  • การสร้างภาพไม่ได้ขึ้นอยู่กับคุณภาพของโมเดลเท่านั้น แต่ยังขึ้นอยู่กับ รูปแบบการ deployment ด้วย
  • Cloud API ยังคงเหมาะกับหลายผลิตภัณฑ์ แต่การสร้างแบบพึ่งคลาวด์เพียงอย่างเดียวทำให้ทุกพรอมป์ต์ต้องกลายเป็นคำขอระยะไกล และเพิ่มทั้งต้นทุนการให้บริการกับความหน่วงจากการรับส่งในทุกการวนซ้ำ
  • การสร้างภาพมีลักษณะเป็นงานที่ต้องทำซ้ำโดยธรรมชาติ ผู้ใช้จะปรับพรอมป์ต์ เปรียบเทียบผลลัพธ์ สร้างเวอร์ชันย่อย ทิ้งผลลัพธ์ที่ล้มเหลว แล้วลองใหม่
  • หากทุกครั้งที่ลองต้องเป็นงานฝั่งเซิร์ฟเวอร์ ผู้ใช้ก็ต้องคอยคำนวณต้นทุนและรอในทุกลูปการสร้างสรรค์
  • การอนุมานแบบโลคัลทำให้เมื่อโมเดลอยู่บนอุปกรณ์แล้ว ฟังก์ชันการสร้างสามารถถูกวางไว้ตรงในประสบการณ์การใช้งานของผลิตภัณฑ์ได้
  • การรันแบบโลคัลช่วยลดต้นทุนการประมวลผล เพิ่มความเร็วในการลองซ้ำ และใช้งานได้ง่ายกว่าในสภาพแวดล้อมที่พรอมป์ต์และทรัพย์สินที่สร้างขึ้นต้องคงความเป็นส่วนตัว
  • Bonsai Image 4B คืออีกก้าวหนึ่งสู่ รูปแบบการนำส่งการสร้างภาพ ที่ย้ายมาอยู่ใกล้ผู้ใช้มากขึ้น บนฮาร์ดแวร์ที่ผู้ใช้มีอยู่แล้ว

รูปแบบการเปิดเผยและทรัพยากร

  • 1-bit Bonsai Image 4B และ Ternary Bonsai Image 4B มีกำหนดเปิดเผยเป็น โอเพนน้ำหนัก พร้อมโค้ด
  • ไลเซนส์คือ Apache 2.0
  • PrismML ยังเปิดตัวแอป iOS ชื่อ Bonsai Studio สำหรับทดลองใช้ Bonsai Image 4B บน iPhone ได้โดยตรง
  • Whitepaper
  • Hugging Face
  • WebGPU demo
  • Bonsai Studio for iPhone
  • GitHub

1 ความคิดเห็น

 
GN⁺ 2 시간 전
ความคิดเห็นจาก Hacker News
  • เมื่อ 20 ปีก่อน คงไม่มีใครคาดว่าอินเทอร์เน็ตในอนาคตจะเป็นที่ที่เรา เชื่อถือไม่ได้ ว่าสิ่งที่เราเห็นหรืออ่านนั้นเป็นของจริง
    หวังว่าสักวันหนึ่งเราจะมองยุคนี้ย้อนกลับไปว่าเป็น ช่วงเวลาแห่งความหลงทาง แบบเดียวกับฉากใน Mad Men ที่ครอบครัว Draper ทิ้งขยะจากปิกนิกไว้บนสนามหญ้าแล้วขับรถจากไป

    • เมื่อ 20 ปีก่อน ครูบอกว่าอย่าใช้ Wikipedia เพราะในอินเทอร์เน็ตเชื่ออะไรไม่ได้เลย และอย่าเดทกับใครที่เจอในแอปหรือเว็บไซต์เด็ดขาด เพราะคนแบบนั้นเป็นฆาตกร 100% อีกทั้งยังมีคำพูดว่า “อินเทอร์เน็ตมีไว้เพื่อโป๊”
      หลายอย่างก็ดีขึ้นตามเวลา และผู้คนก็มัก ประเมินความเสี่ยงทางสังคม ของเทคโนโลยีใหม่สูงเกินจริงเสมอในช่วงแรก
    • ฉากปิกนิกนั้น: https://www.youtube.com/watch?v=FDIvzDGBLWU
    • ดูเหมือนคุณจะจำการถกเถียงเรื่อง Narrative Science(https://en.wikipedia.org/wiki/Narrative_Science) ในตอนนั้นไม่ได้
      บริษัทนี้เป็นสปินเอาต์จากมหาวิทยาลัย และสามารถเขียนข่าวเบสบอลที่ดูน่าเชื่อถือ รวมถึงข่าวการเงินในเวลาต่อมา ได้จากสถิติล้วน ๆ มันถูกมองว่าเป็นประโยชน์ต่อแฟนกีฬาเพราะช่วยให้เว็บข่าวท้องถิ่นลงข่าวทุกแมตช์ได้ และยังเป็นแรงขับสำคัญในการเพิ่มทราฟฟิกเว็บ แต่ก็โดนวิจารณ์อย่างมากว่าไม่ใช่ของ “จริง”
      บทความของ Slate ปี 2012 ที่พูดถึงเรื่องนี้: https://slate.com/technology/2012/03/narrative-science-robot...
      นับตั้งแต่มีคอมพิวเตอร์มา ผู้คนก็พยายามทำให้คอมพิวเตอร์ฟังดูเหมือนมนุษย์ และความกังวลว่าคู่สนทนาหรือสิ่งที่เราอ่านอาจเป็นหุ่นยนต์ที่เลียนแบบมนุษย์ก็ไม่ใช่เรื่องใหม่
    • จะเรียกว่าเป็น ช่วงเวลาแห่งความหลงทาง ก็ดูเหมือนเป็นการตอบสนองที่แรงเกินไป
    • ทั้งข้อความและภาพมี ข้อมูลเท็จ มาโดยตลอด และภาพถ่ายก็ถูกดัดแปลงได้ตั้งแต่แรกที่มีการถ่ายภาพ
      แน่นอนว่าตอนนี้มันง่ายขึ้นมาก แต่ไม่ใช่การเปลี่ยนแปลงที่ต่างไปโดยสิ้นเชิงในเชิงคุณภาพ การเชื่อทุกอย่างที่เห็นบนอินเทอร์เน็ตเมื่อ 20 ปีก่อนก็คงตลกพอ ๆ กับตอนนี้
  • ผมรอคอยอนาคตที่แทนจะต้องจ่ายค่าสมาชิกแพง ๆ เราจะอัปเกรดฮาร์ดแวร์เพื่อ อัปเกรด AI ของตัวเอง ได้จริง ๆ
    มีหลายปัญหาที่ผมอยากลองทำซึ่งต้องใช้โทเคนระดับหลายพันล้าน แต่ตอนนี้แทบเข้าถึงไม่ได้เลยถ้าไม่มีผู้สนับสนุนโปรเจกต์ระดับองค์กร ขอแค่มีเครื่องสร้างแบบ ASIC ที่ปั่นได้หลายหมื่นโทเคนต่อวินาทีในคุณภาพระดับ Opus 4.6 ก็พอแล้ว

    • มีบริษัทชื่อ Taalas กำลังทำอะไรคล้าย ๆ กันอยู่ แม้จะยังไม่ถึงคุณภาพระดับ Opus 4.6 แต่ก็น่าจะเล็งไปที่โมเดลขนาดใหญ่กว่า
      ตอนนี้ใช้โมเดล LLama 8B ทำงานได้ราว 17k โทเคนต่อวินาที และลองทดสอบได้ที่ https://chatjimmy.ai/
    • ยกตัวอย่างปัญหาแบบนั้นสักข้อได้ไหม?
    • สงสัยว่าค่าใช้จ่ายด้านฮาร์ดแวร์กับไฟฟ้าจะเป็นประมาณไหนเมื่อเทียบกับ ค่าสมาชิก
    • ถ้ามองตามตรรกะแล้ว การรวมทรัพยากรของคนห้าคนย่อมเหนือกว่าคนเดียว ดังนั้น ดาต้าเซ็นเตอร์ จึงชนะเสมอ
      เพราะอัตราการใช้งานเวลาสูงกว่า ผมเองก็จินตนาการแบบนั้นบ่อย แต่ในทางตรรกะมันเป็นภาพฝัน คุณไม่มีทางใช้ได้มากกว่าภาพรวมของกลุ่มที่ใช้ฮาร์ดแวร์ได้คุ้มค่ากว่าโดยเฉลี่ย
      ฮาร์ดแวร์ฝั่งบุคคลก็จะดีขึ้น แต่ของล้ำหน้าที่สุดจะอยู่บนคลาวด์เสมอ
  • พอเห็นคำว่า “1-bit” สิ่งแรกที่นึกถึงไม่ใช่น้ำหนักโมเดล 1 บิต แต่เป็น การสร้างภาพขาวดำแบบดิเธอร์ 1 บิต
    เลยสงสัยว่าถ้าจำกัดภาพฝึกและพื้นที่ทำงานให้เป็นภาพ 1 บิตที่ดิเธอร์ด้วย Floyd-Steinberg, Atkinson หรืออัลกอริทึมที่ชอบ มันจะทำให้ตัวสร้างภาพแบบ diffusion เจ๋งขึ้น เร็วขึ้น และบีบอัดได้ขนาดไหน
    การเทรนน่าจะเร็วพอสมควร และน่าจะยัดลง GPU รุ่นใหม่ตัวเดียวได้ด้วยซ้ำ

    • ถึงอย่างนั้น ผมก็คิดว่าน่าจะดีกว่าถ้าเทรนแบบ grayscale ก่อนแล้วค่อยดิเธอร์ทีหลัง
    • ผมคิดเหมือนกันเป๊ะ และดูเหมือนมีไอเดียน่าสนใจอีกหลายอย่างให้สำรวจต่อจากตรงนี้
  • ถามเพราะอยากรู้จริง ๆ นะ อันนี้แก้ ปัญหาจริง อะไรอยู่หรือเปล่า?
    เวลาพูดถึงโมเดล diffusion ผมมองว่าคอขวดไม่ใช่พื้นที่เก็บข้อมูลหรือหน่วยความจำ แต่เป็นเวลาในการสร้างภาพ โมเดลจำนวนมากรันได้บน GPU 8~12GB ยุค 1080 ขึ้นไป หรือบน Mac ที่มีหน่วยความจำใกล้เคียงกันอยู่แล้ว และในแง่พลัง GPU นั่นก็แทบเป็นขีดล่างอยู่แล้วด้วย แถมโมเดลพวกนี้ก็ดูจะช้ากว่าโมเดล FLUX.2 ขนาดเล็กที่เป็นฐานอยู่นิดหน่อยด้วยซ้ำ
    แน่นอนว่ามันอาจช่วยให้รันโมเดลในเครื่องได้บนอุปกรณ์อย่าง iPhone ที่มี GPU ค่อนข้างแรงแต่หน่วยความจำจำกัด แต่ความต้องการแบบนั้นพบได้บ่อยจริงหรือ?

    • ถือเป็นความก้าวหน้าที่มีประโยชน์ ถ้าคุณภาพจาก การอนุมานบนอุปกรณ์ขนาดเล็ก ออกมาใช้ได้พอประมาณ ก็จะทำให้สร้างผลิตภัณฑ์ที่สร้างภาพแบบใช้แล้วทิ้งได้บ่อยโดยไม่ต้องกังวลเรื่องต้นทุน
      จนถึงตอนนี้ ผลิตภัณฑ์สร้างภาพที่ผมเห็นทั้งหมดคิดเงินตามการใช้งาน ซึ่งจำกัดคุณค่าไปมาก เพียงแต่ผมยังไม่แน่ใจว่านี่ไปถึงจุด “คุณภาพใช้ได้” แล้วหรือยัง
    • ตอนนี้เราอยู่ในยุคที่ความต้องการ GPU สูงมากผิดปกติ ขณะที่อุปทานมีจำกัด ทุกครั้งที่ผลักงานอนุมานไปที่ edge ก็เท่ากับปล่อยทรัพยากรคลาวด์ให้ไปทำอย่างอื่นได้
      ทุกครั้งที่ประสิทธิภาพดีขึ้น สิ่งที่ทำได้ด้วยทรัพยากรเดิมก็เพิ่มขึ้น ถ้าคุณเรนเดอร์ภาพได้ด้วยคอมพิวต์แค่ครึ่งเดียว ก็ต้องใช้ GPU แค่ครึ่งเดียว
    • GPU 8~12GB ยุค 1080 หรือ Mac ที่มีหน่วยความจำใกล้เคียงกันไม่ใช่ขีดล่าง คนส่วนใหญ่ใช้ แล็ปท็อปหรืออุปกรณ์พกพาที่แรง GPU ต่ำกว่านั้นมาก
    • คุณค่าปัจจุบันดูใกล้เคียงกับ คุณค่าทางวิชาการ มากกว่าการใช้งานจริง
      แม้แต่โมเดลแนวหน้าก็ยังแทบจะเรียกว่าใช้งานได้แค่อย่างเฉียดฉิว และในงานสร้างภาพนั้น ต่อให้เป็นโมเดลที่ดีที่สุด ส่วนใหญ่ก็ยังให้ผลลัพธ์แย่ ๆ อยู่มาก ดังนั้นโมเดล 1 บิตขนาดเล็กที่ตามหลังแนวหน้าอย่างมากในด้านความสามารถ ก็คงยังใช้งานจริงได้ยากในตอนนี้
      แต่การเพิ่มความหนาแน่นของความสามารถต่อหน่วยคอมพิวต์ได้มากถือว่าสำคัญมาก มันช่วยให้รันโมเดลแนวหน้าได้ดีขึ้น ถูกลง และใช้ทรัพยากรน้อยลง อีกทั้งยังขยายขอบเขตของงานที่ทำได้บน edge อย่างแล็ปท็อปส่วนตัวหรือโทรศัพท์ด้วย
      ในมุมความเป็นส่วนตัวก็มีงานจำนวนมากที่ควรรันบนอุปกรณ์ และไม่ใช่ทุกคนจะมี GPU เฉพาะทางขนาดใหญ่
    • ใช่แล้ว ขนาดและประสิทธิภาพไม่ใช่ปัญหาเฉพาะของ local LLM แต่เป็นปัญหาของ บริษัท LLM แนวหน้า อย่าง OpenAI และ Anthropic ด้วย
      บริษัทอย่าง Anthropic ยังขาดทุนจากงานอนุมานมหาศาลอยู่ และความก้าวหน้าของโมเดลที่มีประสิทธิภาพดีพร้อมสมรรถนะสูงก็ช่วยเรื่องความสามารถในการทำกำไรได้
  • ประโยคที่ว่า “เท่าที่เราทราบ Bonsai Image 4B เป็นโมเดลภาพตัวแรกที่รันได้โดยตรงบน iPhone ในสเกลพารามิเตอร์ระดับนี้” นั้นไม่ถูกต้อง เพียงแต่เขาใช้ ถ้อยคำอย่างระมัดระวัง เลยทำให้ไม่ผิดแบบเต็ม ๆ
    FLUX.2 [klein] 4B ซึ่งมีขนาดพารามิเตอร์เท่ากันและแทบจะเป็นโมเดลเดียวกัน รันบน iPhone ได้ผ่านแอป Draw Things อยู่แล้ว มันใช้ quantization แบบ 8 บิตหรือ 6 บิต ดังนั้นอาจเถียงได้ว่าไม่ใช่การรัน “โดยตรง” แต่ข้อแม้ทางเทคนิคนั้นก็ดูชวนสงสัยพอสมควร

  • เขาเรียกมันว่า diffusion model แต่ Flux.2 ที่เป็นฐานจริง ๆ แล้วเป็น โมเดลการไหลแบบแก้ไขทิศทาง

    • ส่วนตัวผมคิดว่าใช้คำว่า “diffusion” เป็นคำเรียกรวมของตระกูลนี้ทั้งหมดก็ได้
  • แปลกดี ผมเป็นผู้เข้าชมจากสหราชอาณาจักร แต่ขึ้นแบบนี้:
    Website Not Allowed
    “⁦‪prismml.com‬⁩” is a restricted website.

  • ภายในวันเดียวต้องมีใครสักคนเทรน LoRA สำหรับโมเดล 1 บิตนี้เพื่อให้ Apple Watch สร้างคอนเทนต์เฮ็นไตได้แน่

  • ถ้าอยากรันโดยไม่ต้องไปยุ่งกับ local filesystem ก็ใช้ https://github.com/kordless/bonsai-docker ได้เลย

  • ผมดึงโค้ดจากเว็บเดโมมาแปะเป็น โหนดสร้างภาพบนเว็บ ในเครื่องมือ AI workflow ที่ทำงานในเบราว์เซอร์ แล้วมันค่อนข้างโอเคเลย
    ตอนนี้กำลังรอให้ xenova เพิ่มมันเข้า transformersjs 4.3 แล้วผมก็น่าจะปล่อยของตัวเองด้วย แค่อยากลองก่อนเลยทดสอบเองไปก่อน รอไม่ไหว

    • พอจะอธิบาย เครื่องมือ AI workflow ในเบราว์เซอร์นั้นได้ไหม? ผมอาจกำลังสร้างอะไรคล้าย ๆ กันอยู่ เลยอยากรู้มากว่าคนอื่นในสายนี้กำลังทำอะไรกันบ้าง