Easy Stable Diffusion XL ที่ใช้งานแบบออฟไลน์บนอุปกรณ์ได้
(noiselith.com)แนะนำแอป Noiselith
- เครื่องมือสร้างภาพแบบออฟไลน์: Noiselith ช่วยให้สร้างภาพบนอุปกรณ์ได้อย่างอิสระโดยไม่ต้องพึ่งคลาวด์
- การปกป้องความเป็นส่วนตัว: งานสร้างทั้งหมดทำบนเครื่องในเครื่อง และไม่มีการส่งข้อมูลขึ้นคลาวด์
- สร้างได้ไม่จำกัด: มีความสามารถในการสร้างภาพได้ไม่จำกัด ไม่ว่าจะวันละ 100, 200 หรือแม้แต่ 1000 ภาพ
- ความเร็ว: สร้างภาพได้ทันทีบนอุปกรณ์โดยไม่ต้องรอทรัพยากรจากเซิร์ฟเวอร์
ความต้องการของระบบ
- Windows: ต้องใช้ Windows 10 หรือ 11, GPU NVIDIA RTX ซีรีส์ 20 ขึ้นไป (VRAM 8GB ขึ้นไป), RAM 16GB ขึ้นไป, และพื้นที่เก็บข้อมูล 20GB ขึ้นไป
- macOS: ต้องใช้ macOS 12.3 ขึ้นไป, Apple Silicon, RAM 32GB ขึ้นไป, และพื้นที่เก็บข้อมูล 20GB ขึ้นไป
ประสบการณ์ผู้ใช้
- ติดตั้งง่าย: พร้อมใช้งาน Noiselith ได้ด้วยการคลิกเพียงไม่กี่ครั้ง
- ใช้งานได้อย่างเป็นธรรมชาติ: มีอินเทอร์เฟซที่เข้าใจง่ายสำหรับเปลี่ยนไอเดียให้เป็นภาพ โดยไม่ต้องกังวลกับรายละเอียดทางเทคนิค
- การจัดการโมเดล: ดาวน์โหลด ลบ และอัปเดตโมเดลได้อย่างง่ายดาย พร้อมแกลเลอรีที่ช่วยจัดระเบียบภาพที่สร้างขึ้นอย่างสวยงาม
โรดแมปการพัฒนา
- รองรับฟีเจอร์หลากหลาย: มีแผนรองรับ SDXL model, SDXL LoRA, ประวัติการใช้งาน, การจัดการโปรเจกต์ และการจัดการโมเดล
- ชุมชนและการขยายความสามารถ: รวมฟีเจอร์อย่างชุมชนผู้ใช้, การรองรับ SD 1.5 และ 2.1 model, ฐานข้อมูลโมเดล, upscaler และ smart prompt
- Noiselith App Store: มีแผนพัฒนา App Store ที่รวม cloud GPU และความสามารถในการทำงานร่วมกันระยะไกล
ความเห็นของ GN⁺
- ประเด็นสำคัญที่สุดของบทความนี้คือ Noiselith เป็นเครื่องมือใหม่ที่ช่วยให้ผู้ใช้สร้างภาพได้ไม่จำกัดบนอุปกรณ์ของตนเอง พร้อมปกป้องความเป็นส่วนตัวโดยไม่ต้องพึ่งคลาวด์
- แอปนี้น่าสนใจตรงที่ช่วยลดความซับซ้อนของการติดตั้งและการใช้งานซอฟต์แวร์ และทำให้ทุกคนเริ่มสร้างภาพได้ง่ายผ่านอินเทอร์เฟซที่ใช้งานง่าย จึงช่วยให้โฟกัสกับงานสร้างสรรค์ได้มากขึ้น
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
เพิ่งลองติดตั้งดู ค่อนข้างเจ๋งเลย AI แบบโลคัลคืออนาคตที่ผมอยากเห็น และผมเองก็กำลังทำงานด้านนี้อยู่เหมือนกัน
ข้อดีคือมันทำงานได้ค่อนข้างเป็นอิสระ ตัวติดตั้งโมเดลในตัวทำมาได้ดี ทำให้ดาวน์โหลดอะไรก็ได้จาก CivitAI ได้ง่าย (ลองติดตั้ง https://civitai.com/models/183354/sdxl-ms-paint-portraits แล้ว) คุณภาพการสร้างภาพสูงและเสถียร และแสดงขั้นตอนระหว่างการสร้างให้ดู
ข้อเสียคือมันดาวน์โหลด ไฟล์โมเดล SDXL ขนาด 6.94GB ไปไว้ที่ไหนสักแห่งโดยไม่ถาม และไม่แสดงตำแหน่งหรือขนาดให้ดู แต่ภายหลังถึงได้รู้ว่าสามารถหาและเปลี่ยนตำแหน่งได้ในการตั้งค่า การสร้างครั้งแรกช้ามากเพราะต้องโหลดโมเดล และแม้จะไม่ได้บันทึกเวลาการสร้างไว้ แต่บน M1 Max MacBook 64GB ดูเหมือนจะใช้เวลาประมาณไม่กี่นาที
มีโมดูลฟีดแบ็กหลายตัว แชตมุมซ้ายล่างน่ารำคาญมากและคิดว่าคงไม่มีวันใช้แน่ ๆ อีกทั้งมุมขวาบนก็มีคำขอฟีดแบ็กสำหรับเวอร์ชันเบต้าอยู่ด้วย ต่างจากคู่แข่งตรงที่ไม่ใช่โอเพนซอร์ส มีโปรเซสทำงานอยู่ 7 ตัว และตอนว่างใช้ RAM ประมาณ 1GB ไม่ใช่ UX แบบเนทีฟของ macOS และไม่มีคีย์ลัดหรือเมนูช่วยเหลือที่คาดหวังไว้ จึงให้ความรู้สึกเหมือนแอป Electron โดยรวมให้ 4/5 และมีแนวโน้มว่าจะเปิดกลับมาลองอีก
ดังนั้นใช่แล้ว มันเป็น แอป Electron และใช้ Svelte, headless-ui, tailwindcss ฯลฯ
จริง ๆ แล้วตัวเลือก การอนุมาน แบบโลคัลมีค่อนข้างมากอยู่แล้ว และประเด็นสำคัญคือเป็นโอเพนซอร์ส อีกทั้งฟีเจอร์ก็แข็งแรงกว่า
ต่อให้จะป้องกันว่า “แต่ Auto1111 หรือ Comfy UI ไม่เป็นมิตรกับผู้ใช้นี่นา” เรื่องนั้นก็ถูกแก้ไปแล้วเช่นกัน: https://github.com/invoke-ai/InvokeAI
ยังจัดระเบียบเป็นบอร์ดได้ด้วย และบอร์ด รูปภาพ เมทาดาทาทั้งหมดถูกเก็บในฐานข้อมูล SQLite ที่ออกแบบมาดี ซึ่งเข้าถึงได้ด้วย DataGrip
ขอแนะนำ Fooocus อย่างยิ่งสำหรับคนที่ยังไม่เคยลอง: https://github.com/lllyasviel/Fooocus
มี Stable Diffusion pipeline แบบโลคัลอยู่มากมายมหาศาล แต่นี่ให้คุณภาพผลลัพธ์เริ่มต้นที่ดีอย่างท่วมท้นแม้ใช้พร็อมป์สั้น ๆ น่าประทับใจจริง ๆ
เหตุผลคือมันรวม ฟีเจอร์เสริมของ SDXL จำนวนมากที่ UI อื่นไม่ได้ใช้งานหรือไม่ได้เปิดเป็นค่าเริ่มต้น ผมใช้มาตั้งแต่ Stable Diffusion 1.5 และติดตามวงการนี้มาพอสมควร แต่การตั้ง pipeline ที่เทียบเท่ากันใน diffusers ไม่ต้องพูดถึง ComfyUI น่าจะเป็นงานทรมานมาก ให้ความรู้สึกเหมือน “รวมฮิตกับค่าเริ่มต้นที่เหมาะที่สุด” สำหรับ SDXL
อย่างไรก็ตาม อย่างที่คอมเมนต์ข้าง ๆ บอก การฝัง GTM มาด้วยดูไม่ดีนัก
ตัวอย่าง:
https://imgz.org/i9oicVqo/
https://imgz.org/i8Ur3WjW/
https://imgz.org/i5j6r6TZ/
หวังว่าทั้งอุตสาหกรรมของเราจะตระหนักว่าการใส่ระบบติดตามแบบนี้เป็นทางเลือกที่แย่ แล้วหยุดทำกันเสียที
น่าสนใจดี กำลังจะลองเทียบกับ https://diffusionbee.com ที่ใช้เล่น ๆ มาหลายเดือนที่ผ่านมา
อาจจะดีในเชิงการตลาด แต่การชูว่า รันบนอุปกรณ์และใช้งานออฟไลน์ เป็นจุดแตกต่างหลักนั้นดูแปลก เพราะมีความเป็นไปได้สูงว่าคนส่วนใหญ่ก็ใช้ Stable Diffusion แบบนั้นอยู่แล้ว
น่าจะควรโฟกัสมากกว่าว่าติดตั้งและใช้งานง่าย ตรงนั้นยังเป็นส่วนที่ทำได้ไม่ค่อยดี สำหรับผม ถ้าไม่มี ControlNet, อัปสเกล, ตัวเก็บรายละเอียดใบหน้า และถ้าเป็นไปได้ก็พรอมป์แบบแยกตามพื้นที่ ผมก็ไม่ใช้
อีกอย่าง ผมก็คิดว่าคนที่อยากทำตัวสร้าง SD ของตัวเองน่าจะไปช่วย contribute ให้หนึ่งในโปรเจกต์โอเพนซอร์สที่มีอยู่แล้วก็น่าจะดี
แอปสโตร์อาจเป็นไอเดียที่ดีได้ แต่ในโลกที่มี Auto1111 กับส่วนขยายอีกมากมาย ผมไม่คิดว่าชุมชน Stable Diffusion จะตอบรับดีนัก
ถึงจะไม่น่าดึงดูดสำหรับผู้ใช้เดิม แต่ผลิตภัณฑ์ที่เรียบง่ายกว่าก็สามารถดึงดูด ผู้ใช้ใหม่ ได้มากพอ
ตอนลองจับ SD ครั้งแรก ผมรู้สึกแปลกที่มีแพ็กเกจจำนวนมากซึ่งแทนที่จะให้ดาวน์โหลดไฟล์หลายไฟล์มารันเฉย ๆ กลับใช้ของที่ส่งข้อมูลกลับบ้านแบบหนัก ๆ หรือใช้ VM
พรอมป์ที่ใช้ขายคือ “หญิงสาวผมบลอนด์หยิกนั่งกางขา สวมเสื้อเชิ้ตสีขาวกับกางเกงยีนส์ขาสั้น มองเย้ายวนอยู่หน้าฉากหลังโลกแฟนตาซี” เนี่ยนะ
อดคิดไม่ได้ว่าจริงเหรอแบบนี้
หลังติดตั้งแล้ว เมื่อต้องรันบนเครื่อง Windows จำเป็นต้องให้สิทธิ์เข้าถึง เครือข่ายสาธารณะและเครือข่ายส่วนตัว ทั้งที่บอกว่า “ออฟไลน์” เลยทำให้รู้สึกติดใจอยู่บ้าง
ตอนรันครั้งแรกมันดาวน์โหลดข้อมูลประมาณ 30GB ผมไม่รู้ว่าหลังจากนั้นมันจะทำงานแบบออฟไลน์ได้หรือไม่ เพราะในกรณีของผมหลังจากนั้นมันก็แครชตลอดและรันอีกไม่ได้
ตอนถอนการติดตั้ง มันก็ทิ้งข้อมูลทั้งหมดไว้ ไม่ใช่ข้อมูลผู้ใช้ แต่เป็นตัวไฟล์รันเอง, Python virtual environment, อัปเดตเตอร์ และโมเดลทั้งหมด การถอนการติดตั้งแทบจะเป็นแค่การลบชอร์ตคัตใน Start Menu เท่านั้น
ถ้าการรันต้องใช้การเชื่อมต่ออินเทอร์เน็ตที่ใช้งานได้ การโฆษณาว่า “ออฟไลน์” ก็ผิดเต็ม ๆ
ดีใจแน่นอนที่มีไคลเอนต์โลคัลออกมามากขึ้น อย่างที่คอมเมนต์อื่นพูดไว้ มีของดี ๆ อยู่แล้วหลายตัว ผมเคยลอง automatic1111 มันเร็วและไม่ต้องจูนมากนัก แต่ก็ยังมีปุ่มปรับและตัวเลือกเยอะ ทำให้ตอนเริ่มต้นรู้สึกยากอยู่ดี ส่วน Fooocus เร็วมาก แต่แน่นอนว่าปรับแต่งได้น้อยกว่า
แล้วยังมี ComfyUI อีก มันเหมือนจอกศักดิ์สิทธิ์แห่งความซับซ้อน แต่ก็เพราะความซับซ้อนนั้นเองที่ทำอะไรได้มากจริง ๆ เป็นแอปแบบ node-based จึงสร้างเวิร์กโฟลว์เองได้ และหลังจากสร้างภาพแล้วก็ส่ง “node” นั้นต่อไปยังที่อื่นเพื่อทำ post-processing อย่างการอัปสเกลได้
อยากเห็นว่า Noiselith หรือเครื่องมืออื่น ๆ จะรองรับ SDXLTurbo ไหม แม้มันเพิ่งออกมาไม่กี่วัน แต่ผมคิดว่ามันเปลี่ยนเกมโดยสิ้นเชิง บน GPU ระดับผู้บริโภคสามารถสร้างภาพ 512x512 ได้ในราว 0.5 วินาที คุณภาพไม่ได้สุดยอด แต่ความสามารถในการพิมพ์ว่า “สุนัขจิ้งจอกในป่า” แล้วเห็นทันที จากนั้นเพิ่มว่า “สวมหมวก” แล้วสร้างใหม่ได้ทันทีนั้นมีค่ามาก ก่อนหน้านี้ต้องรอภาพละ 12 วินาที ฟังดูอาจเหมือนไม่ใช่เรื่องใหญ่ แต่การวนลองซ้ำได้เร็วแบบนี้ทำให้การสร้างภาพแบบโลคัลสนุกขึ้นมาก
ยังไม่ได้ลองทดสอบ แต่ใน Comfy ใช้ CoreML อยู่ เลยสงสัยว่าถ้ามีฟรอนต์เอนด์ที่มีประโยชน์มากขึ้น งานปรับแต่งแบ็กเอนด์และประสิทธิภาพของแพลตฟอร์มเหล่านี้จะเพิ่มขึ้นตามไปด้วยไหม
1~4it/s สำหรับภาพ 512 นั้นน่าผิดหวังเกินไป และ 2~3s/it สำหรับ 1024 ก็ช้าเกินไปตามมาตรฐานยุคนี้ น่าเสียดายที่แม้แต่ ANE ก็ยังรันภาพ SD 1024x1024 บน MacBook Pro M3 ไม่ได้