Easy Stable Diffusion XL ที่ใช้งานแบบออฟไลน์บนอุปกรณ์ได้

(noiselith.com)

2 คะแนน โดย GN⁺ 2023-12-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แนะนำแอป Noiselith

เครื่องมือสร้างภาพแบบออฟไลน์: Noiselith ช่วยให้สร้างภาพบนอุปกรณ์ได้อย่างอิสระโดยไม่ต้องพึ่งคลาวด์
การปกป้องความเป็นส่วนตัว: งานสร้างทั้งหมดทำบนเครื่องในเครื่อง และไม่มีการส่งข้อมูลขึ้นคลาวด์
สร้างได้ไม่จำกัด: มีความสามารถในการสร้างภาพได้ไม่จำกัด ไม่ว่าจะวันละ 100, 200 หรือแม้แต่ 1000 ภาพ
ความเร็ว: สร้างภาพได้ทันทีบนอุปกรณ์โดยไม่ต้องรอทรัพยากรจากเซิร์ฟเวอร์

ความต้องการของระบบ

Windows: ต้องใช้ Windows 10 หรือ 11, GPU NVIDIA RTX ซีรีส์ 20 ขึ้นไป (VRAM 8GB ขึ้นไป), RAM 16GB ขึ้นไป, และพื้นที่เก็บข้อมูล 20GB ขึ้นไป
macOS: ต้องใช้ macOS 12.3 ขึ้นไป, Apple Silicon, RAM 32GB ขึ้นไป, และพื้นที่เก็บข้อมูล 20GB ขึ้นไป

ประสบการณ์ผู้ใช้

ติดตั้งง่าย: พร้อมใช้งาน Noiselith ได้ด้วยการคลิกเพียงไม่กี่ครั้ง
ใช้งานได้อย่างเป็นธรรมชาติ: มีอินเทอร์เฟซที่เข้าใจง่ายสำหรับเปลี่ยนไอเดียให้เป็นภาพ โดยไม่ต้องกังวลกับรายละเอียดทางเทคนิค
การจัดการโมเดล: ดาวน์โหลด ลบ และอัปเดตโมเดลได้อย่างง่ายดาย พร้อมแกลเลอรีที่ช่วยจัดระเบียบภาพที่สร้างขึ้นอย่างสวยงาม

โรดแมปการพัฒนา

รองรับฟีเจอร์หลากหลาย: มีแผนรองรับ SDXL model, SDXL LoRA, ประวัติการใช้งาน, การจัดการโปรเจกต์ และการจัดการโมเดล
ชุมชนและการขยายความสามารถ: รวมฟีเจอร์อย่างชุมชนผู้ใช้, การรองรับ SD 1.5 และ 2.1 model, ฐานข้อมูลโมเดล, upscaler และ smart prompt
Noiselith App Store: มีแผนพัฒนา App Store ที่รวม cloud GPU และความสามารถในการทำงานร่วมกันระยะไกล

ความเห็นของ GN⁺

ประเด็นสำคัญที่สุดของบทความนี้คือ Noiselith เป็นเครื่องมือใหม่ที่ช่วยให้ผู้ใช้สร้างภาพได้ไม่จำกัดบนอุปกรณ์ของตนเอง พร้อมปกป้องความเป็นส่วนตัวโดยไม่ต้องพึ่งคลาวด์
แอปนี้น่าสนใจตรงที่ช่วยลดความซับซ้อนของการติดตั้งและการใช้งานซอฟต์แวร์ และทำให้ทุกคนเริ่มสร้างภาพได้ง่ายผ่านอินเทอร์เฟซที่ใช้งานง่าย จึงช่วยให้โฟกัสกับงานสร้างสรรค์ได้มากขึ้น

1 ความคิดเห็น

GN⁺ 2023-12-03

ความคิดเห็นบน Hacker News

เพิ่งลองติดตั้งดู ค่อนข้างเจ๋งเลย AI แบบโลคัลคืออนาคตที่ผมอยากเห็น และผมเองก็กำลังทำงานด้านนี้อยู่เหมือนกัน
ข้อดีคือมันทำงานได้ค่อนข้างเป็นอิสระ ตัวติดตั้งโมเดลในตัวทำมาได้ดี ทำให้ดาวน์โหลดอะไรก็ได้จาก CivitAI ได้ง่าย (ลองติดตั้ง https://civitai.com/models/183354/sdxl-ms-paint-portraits แล้ว) คุณภาพการสร้างภาพสูงและเสถียร และแสดงขั้นตอนระหว่างการสร้างให้ดู
ข้อเสียคือมันดาวน์โหลด ไฟล์โมเดล SDXL ขนาด 6.94GB ไปไว้ที่ไหนสักแห่งโดยไม่ถาม และไม่แสดงตำแหน่งหรือขนาดให้ดู แต่ภายหลังถึงได้รู้ว่าสามารถหาและเปลี่ยนตำแหน่งได้ในการตั้งค่า การสร้างครั้งแรกช้ามากเพราะต้องโหลดโมเดล และแม้จะไม่ได้บันทึกเวลาการสร้างไว้ แต่บน M1 Max MacBook 64GB ดูเหมือนจะใช้เวลาประมาณไม่กี่นาที
มีโมดูลฟีดแบ็กหลายตัว แชตมุมซ้ายล่างน่ารำคาญมากและคิดว่าคงไม่มีวันใช้แน่ ๆ อีกทั้งมุมขวาบนก็มีคำขอฟีดแบ็กสำหรับเวอร์ชันเบต้าอยู่ด้วย ต่างจากคู่แข่งตรงที่ไม่ใช่โอเพนซอร์ส มีโปรเซสทำงานอยู่ 7 ตัว และตอนว่างใช้ RAM ประมาณ 1GB ไม่ใช่ UX แบบเนทีฟของ macOS และไม่มีคีย์ลัดหรือเมนูช่วยเหลือที่คาดหวังไว้ จึงให้ความรู้สึกเหมือนแอป Electron โดยรวมให้ 4/5 และมีแนวโน้มว่าจะเปิดกลับมาลองอีก
- บน macOS ก็น่าลองดู Draw Things ด้วย SDXL ทำงานได้ดีพอสมควรแม้บนเครื่อง macOS ที่มี 8GiB
- ถ้าสงสัยเรื่องเทคสแตก ดูได้ที่นี่: https://noiselith.notion.site/License-61290d5ed7ab4c918402fd2510533a9b
  ดังนั้นใช่แล้ว มันเป็น แอป Electron และใช้ Svelte, headless-ui, tailwindcss ฯลฯ
- ควรให้ผู้ใช้เลือกตำแหน่งดาวน์โหลด
- ข้อเสียอีกอย่างคือมันทำงานได้เฉพาะบน Apple Silicon Mac เท่านั้น
- อยากรู้ว่า RAM ตอนว่าง 1GB นั้นเป็นต่อโปรเซส หรือเป็นผลรวมของทั้ง 7 โปรเซส
จริง ๆ แล้วตัวเลือก การอนุมาน แบบโลคัลมีค่อนข้างมากอยู่แล้ว และประเด็นสำคัญคือเป็นโอเพนซอร์ส อีกทั้งฟีเจอร์ก็แข็งแรงกว่า
ต่อให้จะป้องกันว่า “แต่ Auto1111 หรือ Comfy UI ไม่เป็นมิตรกับผู้ใช้นี่นา” เรื่องนั้นก็ถูกแก้ไปแล้วเช่นกัน: https://github.com/invoke-ai/InvokeAI
- ผมย้ายไปใช้ InvokeAI แล้ว และคิดว่าคงไม่กลับไปใช้ a1111 webui พื้นฐานอีก ชอบเลย์เอาต์โดยรวม มีฟีเจอร์เวิร์กโฟลว์ และสามารถเรียกคืนพร็อมป์ โมเดล LoRA และแอตทริบิวต์ทั้งหมดที่ใช้สร้างภาพได้ง่าย
  ยังจัดระเบียบเป็นบอร์ดได้ด้วย และบอร์ด รูปภาพ เมทาดาทาทั้งหมดถูกเก็บในฐานข้อมูล SQLite ที่ออกแบบมาดี ซึ่งเข้าถึงได้ด้วย DataGrip
- อีกวิธีคือใช้ Krita พร้อมปลั๊กอิน diffusion AI: https://github.com/Acly/krita-ai-diffusion
- คำโปรโมตว่า “รัน Stable Diffusion แบบโลคัล” ฟังดูแปลกนิดหน่อย เพราะพูดตามตรง นี่เป็นสิ่งที่ทำได้ง่ายอยู่แล้ว
- ไม่แน่ใจว่า UI เป็นมิตรกับผู้ใช้แค่ไหน แต่แค่ ขั้นตอนติดตั้ง InvokeAI ก็เป็นกำแพงสำหรับคน 99.9% ของโลกแล้ว นั่นไม่ได้หมายความว่า Noiselith จะเป็นโอเพนซอร์สไม่ได้ แต่ชัดเจนว่ามันนำเสนอสิ่งที่ต่างจาก InvokeAI
ขอแนะนำ Fooocus อย่างยิ่งสำหรับคนที่ยังไม่เคยลอง: https://github.com/lllyasviel/Fooocus
มี Stable Diffusion pipeline แบบโลคัลอยู่มากมายมหาศาล แต่นี่ให้คุณภาพผลลัพธ์เริ่มต้นที่ดีอย่างท่วมท้นแม้ใช้พร็อมป์สั้น ๆ น่าประทับใจจริง ๆ
เหตุผลคือมันรวม ฟีเจอร์เสริมของ SDXL จำนวนมากที่ UI อื่นไม่ได้ใช้งานหรือไม่ได้เปิดเป็นค่าเริ่มต้น ผมใช้มาตั้งแต่ Stable Diffusion 1.5 และติดตามวงการนี้มาพอสมควร แต่การตั้ง pipeline ที่เทียบเท่ากันใน diffusers ไม่ต้องพูดถึง ComfyUI น่าจะเป็นงานทรมานมาก ให้ความรู้สึกเหมือน “รวมฮิตกับค่าเริ่มต้นที่เหมาะที่สุด” สำหรับ SDXL
- ตอนแรกกลัวการตั้งค่า Python ทั้งที่ตัวเองเป็นนักพัฒนา Python ด้วยซ้ำ แต่สุดท้ายก็แค่สร้าง virtual environment แล้วติดตั้ง dependency ก็จบ ยอดเยี่ยมจริง ๆ และภาพที่สร้างออกมาก็ดูสวยทันที
  อย่างไรก็ตาม อย่างที่คอมเมนต์ข้าง ๆ บอก การฝัง GTM มาด้วยดูไม่ดีนัก
  ตัวอย่าง:
  https://imgz.org/i9oicVqo/
  https://imgz.org/i8Ur3WjW/
  https://imgz.org/i5j6r6TZ/
- ดูเหมือน เว็บ UI ของ Fooocus เวอร์ชันติดตั้งแบบโฮสต์เองจะขายผู้ใช้ให้กับ Google Tag Manager
  หวังว่าทั้งอุตสาหกรรมของเราจะตระหนักว่าการใส่ระบบติดตามแบบนี้เป็นทางเลือกที่แย่ แล้วหยุดทำกันเสียที
- บน Mac ต้อง build เอง และทุกคนก็รู้กันดีว่า build โปรเจกต์ Python นั้น “สนุก” แค่ไหน
- ถ้าต้องการผลลัพธ์การสร้างภาพแบบโลคัลที่ดีที่สุด Fooocus ดีกว่ามาก Lvmin ทุ่มพลังทั้งหมดไปกับการสร้างภาพสวย ๆ ประเด็นเรื่องไลเซนส์ GPL ก็เป็นข้อดีสำหรับผมด้วย
- อยากรู้ว่าใช้ได้ดีไหมบน ระบบที่ใช้ CPU อย่างเดียว แต่มี RAM เยอะมาก
น่าสนใจดี กำลังจะลองเทียบกับ https://diffusionbee.com ที่ใช้เล่น ๆ มาหลายเดือนที่ผ่านมา
- ลองดูทั้งคู่แล้ว Noiselith ให้ผลลัพธ์ที่ดีกว่ามาก มากจริง ๆ
อาจจะดีในเชิงการตลาด แต่การชูว่า รันบนอุปกรณ์และใช้งานออฟไลน์ เป็นจุดแตกต่างหลักนั้นดูแปลก เพราะมีความเป็นไปได้สูงว่าคนส่วนใหญ่ก็ใช้ Stable Diffusion แบบนั้นอยู่แล้ว
น่าจะควรโฟกัสมากกว่าว่าติดตั้งและใช้งานง่าย ตรงนั้นยังเป็นส่วนที่ทำได้ไม่ค่อยดี สำหรับผม ถ้าไม่มี ControlNet, อัปสเกล, ตัวเก็บรายละเอียดใบหน้า และถ้าเป็นไปได้ก็พรอมป์แบบแยกตามพื้นที่ ผมก็ไม่ใช้
อีกอย่าง ผมก็คิดว่าคนที่อยากทำตัวสร้าง SD ของตัวเองน่าจะไปช่วย contribute ให้หนึ่งในโปรเจกต์โอเพนซอร์สที่มีอยู่แล้วก็น่าจะดี
แอปสโตร์อาจเป็นไอเดียที่ดีได้ แต่ในโลกที่มี Auto1111 กับส่วนขยายอีกมากมาย ผมไม่คิดว่าชุมชน Stable Diffusion จะตอบรับดีนัก
- ประเด็นสำคัญคือคำว่า “ดีในเชิงการตลาด” นั่นแหละ ควรดันต่อไป จุดที่ดูแปลกนั่นเองที่บอกว่ากลุ่มเป้าหมายของผลิตภัณฑ์นี้คือใคร ไม่ใช่คนที่ใช้ SD อยู่แล้ว แต่เป็นการพยายามเปลี่ยนคนที่ใช้ บริการออนไลน์เท่านั้นอย่าง Dall-E ให้ย้ายมาใช้
- ผมว่ามีคนจำนวนไม่น้อยที่ไม่ได้ใช้ของอย่าง A1111 เพราะโมเดลการติดตั้งที่ซับซ้อนแบบว่า ดาวน์โหลดอันนี้ แล้วมันไปดาวน์โหลดอันนั้น และอันนั้นก็ไปดาวน์โหลดอย่างอื่นต่อ จากนั้นยังต้องดาวน์โหลดไฟล์นี้ไฟล์นั้นเองอีก
  ถึงจะไม่น่าดึงดูดสำหรับผู้ใช้เดิม แต่ผลิตภัณฑ์ที่เรียบง่ายกว่าก็สามารถดึงดูด ผู้ใช้ใหม่ ได้มากพอ
- เห็นว่ามีคลาวด์แรปเปอร์ของ Stable Diffusion เยอะอย่างน่าประหลาดใจ เพราะงั้นผมชอบที่ระบุชัดไว้ตั้งแต่ต้นว่า บนอุปกรณ์/ออฟไลน์
  ตอนลองจับ SD ครั้งแรก ผมรู้สึกแปลกที่มีแพ็กเกจจำนวนมากซึ่งแทนที่จะให้ดาวน์โหลดไฟล์หลายไฟล์มารันเฉย ๆ กลับใช้ของที่ส่งข้อมูลกลับบ้านแบบหนัก ๆ หรือใช้ VM
- ผมเคยใช้ SD บนอุปกรณ์แล้ว แต่รู้สึกว่าการจ่ายเงินให้เวอร์ชันโฮสต์คุ้มค่า เพราะมันเร็วกว่ามาก
พรอมป์ที่ใช้ขายคือ “หญิงสาวผมบลอนด์หยิกนั่งกางขา สวมเสื้อเชิ้ตสีขาวกับกางเกงยีนส์ขาสั้น มองเย้ายวนอยู่หน้าฉากหลังโลกแฟนตาซี” เนี่ยนะ
อดคิดไม่ได้ว่าจริงเหรอแบบนี้
- ถ้าพรอมป์ไม่ได้ค่อนข้างมีนัยทางเพศ เป็นประเด็นถกเถียง หรือชวนไม่สบายใจ ก็คงโดนเสียงประสานว่า “ยังไงก็สู้ midjourney/dall-e/imagen ไม่ได้” เต็ม ๆ อิสระจากข้อจำกัด เป็นหนึ่งในจุดขายหลัก
- ผมสงสัยจริง ๆ ว่ามีคนในชุมชนโอเพนซอร์สกี่มากน้อยที่ทุ่มแรงกายแรงใจสร้างโปรเจกต์แบบนี้ ทั้งที่สุดท้ายผลลัพธ์คือช่วยให้ผู้ชายเปลี่ยน MacBook ให้กลายเป็น หนังสือโป๊อินสตาแกรม
- ดีใจที่ไม่ได้มีแค่ผมที่รู้สึกว่าไม่เหมาะสม มันให้ความรู้สึกเหมือนเป็น dog whistle อยู่มาก
- อันนั้นน่าขนลุกจริง ๆ
หลังติดตั้งแล้ว เมื่อต้องรันบนเครื่อง Windows จำเป็นต้องให้สิทธิ์เข้าถึง เครือข่ายสาธารณะและเครือข่ายส่วนตัว ทั้งที่บอกว่า “ออฟไลน์” เลยทำให้รู้สึกติดใจอยู่บ้าง
- เจออะไรคล้าย ๆ กัน
  ตอนรันครั้งแรกมันดาวน์โหลดข้อมูลประมาณ 30GB ผมไม่รู้ว่าหลังจากนั้นมันจะทำงานแบบออฟไลน์ได้หรือไม่ เพราะในกรณีของผมหลังจากนั้นมันก็แครชตลอดและรันอีกไม่ได้
  ตอนถอนการติดตั้ง มันก็ทิ้งข้อมูลทั้งหมดไว้ ไม่ใช่ข้อมูลผู้ใช้ แต่เป็นตัวไฟล์รันเอง, Python virtual environment, อัปเดตเตอร์ และโมเดลทั้งหมด การถอนการติดตั้งแทบจะเป็นแค่การลบชอร์ตคัตใน Start Menu เท่านั้น
- อยากรู้ว่าถ้าตัดอินเทอร์เน็ตออกทั้งหมดแล้วมันยังรันต่อได้ไหม
  ถ้าการรันต้องใช้การเชื่อมต่ออินเทอร์เน็ตที่ใช้งานได้ การโฆษณาว่า “ออฟไลน์” ก็ผิดเต็ม ๆ
ดีใจแน่นอนที่มีไคลเอนต์โลคัลออกมามากขึ้น อย่างที่คอมเมนต์อื่นพูดไว้ มีของดี ๆ อยู่แล้วหลายตัว ผมเคยลอง automatic1111 มันเร็วและไม่ต้องจูนมากนัก แต่ก็ยังมีปุ่มปรับและตัวเลือกเยอะ ทำให้ตอนเริ่มต้นรู้สึกยากอยู่ดี ส่วน Fooocus เร็วมาก แต่แน่นอนว่าปรับแต่งได้น้อยกว่า
แล้วยังมี ComfyUI อีก มันเหมือนจอกศักดิ์สิทธิ์แห่งความซับซ้อน แต่ก็เพราะความซับซ้อนนั้นเองที่ทำอะไรได้มากจริง ๆ เป็นแอปแบบ node-based จึงสร้างเวิร์กโฟลว์เองได้ และหลังจากสร้างภาพแล้วก็ส่ง “node” นั้นต่อไปยังที่อื่นเพื่อทำ post-processing อย่างการอัปสเกลได้
อยากเห็นว่า Noiselith หรือเครื่องมืออื่น ๆ จะรองรับ SDXLTurbo ไหม แม้มันเพิ่งออกมาไม่กี่วัน แต่ผมคิดว่ามันเปลี่ยนเกมโดยสิ้นเชิง บน GPU ระดับผู้บริโภคสามารถสร้างภาพ 512x512 ได้ในราว 0.5 วินาที คุณภาพไม่ได้สุดยอด แต่ความสามารถในการพิมพ์ว่า “สุนัขจิ้งจอกในป่า” แล้วเห็นทันที จากนั้นเพิ่มว่า “สวมหมวก” แล้วสร้างใหม่ได้ทันทีนั้นมีค่ามาก ก่อนหน้านี้ต้องรอภาพละ 12 วินาที ฟังดูอาจเหมือนไม่ใช่เรื่องใหญ่ แต่การวนลองซ้ำได้เร็วแบบนี้ทำให้การสร้างภาพแบบโลคัลสนุกขึ้นมาก
ยังไม่ได้ลองทดสอบ แต่ใน Comfy ใช้ CoreML อยู่ เลยสงสัยว่าถ้ามีฟรอนต์เอนด์ที่มีประโยชน์มากขึ้น งานปรับแต่งแบ็กเอนด์และประสิทธิภาพของแพลตฟอร์มเหล่านี้จะเพิ่มขึ้นตามไปด้วยไหม
1~4it/s สำหรับภาพ 512 นั้นน่าผิดหวังเกินไป และ 2~3s/it สำหรับ 1024 ก็ช้าเกินไปตามมาตรฐานยุคนี้ น่าเสียดายที่แม้แต่ ANE ก็ยังรันภาพ SD 1024x1024 บน MacBook Pro M3 ไม่ได้

Easy Stable Diffusion XL ที่ใช้งานแบบออฟไลน์บนอุปกรณ์ได้

แนะนำแอป Noiselith

ความต้องการของระบบ

ประสบการณ์ผู้ใช้

โรดแมปการพัฒนา

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News