แนะนำบน HN: การสร้างภาพแบบเรียลไทม์ด้วย SDXL Lightning

(fastsdxl.ai)

1 คะแนน โดย GN⁺ 2024-02-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

1 ความคิดเห็น

GN⁺ 2024-02-23

ความคิดเห็นจาก Hacker News

เมื่อวานลองเอาสิ่งนี้ไปใช้ร่วมกับ Groq เพื่อเสริมเกมความสนุกไร้ขีดจำกัดของ Neal Agrawal ให้เป็นส่วนขยาย Chrome และทำให้มันสร้างภาพจริง ไม่ใช่แค่อีโมจิ
การสร้างภาพและการสร้างด้วย LLM ที่เกือบจะเป็นแบบเรียลไทม์ให้ความรู้สึกเหมือนอนาคต ใช้ Mixtral ของ Groq สำหรับเขียนพรอมป์ และใช้ Fal API สำหรับการสร้างแบบเรียลไทม์
https://x.com/altryne/status/1760561501096575401?s=20
- ถ้าเปลี่ยนสิ่งนี้ให้เป็น เกมเลื่อนด้านข้าง แล้วให้พื้นหลังค่อย ๆ เปลี่ยนอย่างเป็นธรรมชาติไปเป็นการเรนเดอร์คำต่าง ๆ ที่กำลังเล่นอยู่ก็น่าจะดี
  นึกภาพว่าฉากทิวทัศน์สีฟ้าช่วงต้นเดโมค่อย ๆ เปลี่ยนเป็นภูมิประเทศภูเขาแห้งแล้งในภาพช่วงท้าย และมีตัวละครนกปรากฏอยู่ฉากหน้า
- สงสัยเหมือนกันว่าจะเปลี่ยนเป็นเกมแบบใช้การ์ดได้ไหม
- ดูดีมากจริง ๆ สงสัยว่าจะมีโอกาสแชร์ ส่วนขยาย Chrome ไหม
บันทึกไว้เป็นข้อมูลว่า SDXL Lightning เป็นโอเพนซอร์สที่เผยแพร่บน Hugging Face ภายใต้ไลเซนส์ที่ค่อนข้างผ่อนปรน: https://huggingface.co/ByteDance/SDXL-Lightning
ยังมี UI อื่น ๆ อีกหลายตัว เช่น: https://replicate.com/lucataco/sdxl-lightning-4step
- ใช่ ภายในใช้ SDXL Lightning ที่ ByteDance ฝึกบน Stable Diffusion XL แล้วปล่อยเป็นโอเพนซอร์ส
  จากนั้นเพิ่มเอนจินอนุมานของตัวเองและโครงสร้างพื้นฐานแบบเรียลไทม์เข้าไป เพื่อให้ประสบการณ์ลื่นไหลกว่า UI อื่น ๆ ถ้าวัดจากความเร็ว ผมมองว่าแทบเทียบกันไม่ได้เลย ที่นี่ 4 สเต็ปอยู่ราว 370ms ขณะที่ตัวอย่าง replicate ที่ลิงก์ไว้ประมาณ 2–3 วินาที
- ทำเดโมด้วย Gradio ไว้เหมือนกัน แต่ช้ากว่า fal.ai 2 เท่า ใช้ stable-fast compile บน A10G ตัวเดียว
  https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
  ถ้ามี GPU/CUDA/Docker ก็ลองรันในเครื่องได้ด้วย
  docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
- อยากรู้ว่าในการอนุมานแบบรันในเครื่อง การใช้หน่วยความจำ และความเร็วอยู่ประมาณไหน
ความเร็วยอดเยี่ยม
ส่วนคุณภาพ ผมลองยืมพรอมป์ที่วันนี้คนใช้ทดสอบ Stable Diffusion 3 กับโมเดลอื่น ๆ มา: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
ผลลัพธ์ที่ผมได้เป็นแบบนี้: https://imgur.com/a/XrAuqCB
เทียบกับ Stable Diffusion 3: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
1. https://news.ycombinator.com/item?id=39467526
- การทำตามพรอมป์เชิงตำแหน่งเชิงพื้นที่ เป็นจุดที่ SDXL หรือ Stable Diffusion รุ่นก่อน ๆ โดยรวมยังทำได้ไม่ดีนัก หวังว่า Stable Diffusion จะขัดเกลาส่วนนี้ได้ดีเหมือนในตัวอย่าง
  ผมลองทดสอบตัวอย่างเดียวกันกับ Stable Cascade ซึ่งเป็นโมเดล Stability แบบน้ำหนักเปิดรุ่นล่าสุดแล้ว ก็ยังไม่ค่อยดีนักเช่นกัน: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
- ผลลัพธ์ที่ผมได้ค่อนข้างถูกต้อง: https://imgur.com/a/vH0zq5b
  seed: 3919562
- ถ้ารันโดยเปลี่ยน seed ไปเรื่อย ๆ ผลลัพธ์จะต่างกันมาก
เดโมน่าประทับใจจริง ๆ แต่ถ้าลื่นกว่านี้คงน่าทึ่งกว่านี้มาก ตอนนี้อย่างเช่นพอลบคำหรือเพิ่มช่องว่าง จะเกิดการอนุมาน 4 ครั้งในช่วงเวลาสั้น ๆ ทำให้ยังรู้สึกสะดุด
อาจเป็นเพราะตั้งใจโชว์ผลลัพธ์แต่ละขั้นก็ได้ อนึ่ง นี่เป็นเดโมของ fal.ai และผมรู้จักพวกเขาครั้งแรกตอนเช้าวันที่ Stable Cascade เปิดตัว แล้วพวกเขาเอาเดโมขึ้นมา
ถ้าจะรัน inference นอก OpenAI ผมแนะนำ fal.ai อย่างแรง ผมอยู่ในวงการ AI มาเกือบ 3 ปี และตั้งแต่ปีก่อนก็แทบจะเกาะติดตลอด 24 ชั่วโมง Fal ดูเหมือนเป็นบริการแรกที่ใส่ใจรายละเอียดเพื่อให้เร็วระดับนี้ในการใช้งานจริง ไม่ใช่แค่ตัวเลขในเปเปอร์
เช่น การเชื่อมต่อ WebSocket หรือ JWT อายุสั้นที่ทำให้ไม่ต้องผ่าน edge function เพื่อเซ็นคำขอด้วย API key
- ถ้าเร็วได้ขนาดนี้ อาจจะดีกว่าถ้าสร้างภาพระหว่างทางตามเส้นทางที่ลื่นไหลใน latent space แทนที่จะกระโดดไปยังภาพเป้าหมายโดยตรง
ชอบเดโมนี้มาก เข้าถึงง่าย เร็ว และใช้งานได้ตรงไปตรงมา น่าทึ่งที่สามารถได้คุณภาพระดับนี้มาอย่างง่ายดายขนาดนี้
- เดโมนี้กับ Groq น่าทึ่งจริง ๆ ยังจำได้ว่าไม่นานมานี้ ถ้าสร้างบัญชีแล้วเว็บจะให้โควตาสร้างฟรีสัก 20 ครั้ง แล้วต้องรอนานเพื่อให้ได้ภาพพัง ๆ มาสักภาพ
  ตอนนี้เข้าเว็บไซต์ได้โดยไม่ต้องสมัครสมาชิกหรือผ่าน CAPTCHA แล้วสร้างข้อความกับภาพได้เร็วราวสายฟ้า น่าทึ่งมาก โดยเฉพาะเมื่อรวมถึงข้อเท็จจริงที่ว่า Groq กับ fal.ai เปิดเดโมไว้ให้ใช้ได้เต็มที่ด้วย ผมคาดไม่ถึงเลยว่าจะได้เห็นประสิทธิภาพพุ่งขึ้นแบบนี้ในต้นปี 2024
  ผมคิดว่าการสร้างที่รวดเร็วช่วยชดเชยข้อด้อยด้านคุณภาพภาพได้มาก แม้จะล้มเหลว ผลลัพธ์ที่ดีมักอยู่ห่างออกไปแค่ seed หนึ่งค่า หรือการแก้ prompt เล็กน้อยครั้งเดียวเท่านั้น
สงสัยว่ามันเร็วได้ขนาดนี้อย่างไร และไม่รู้ว่าภาพ blob:[https://blbahblah](<https://blbahblah>;) คืออะไร
อีกอย่าง ถ้าปรับ prompt นิดหน่อย แรคคูน มักจะมีหางสองหาง
- ตอบคำถามที่สอง นั่นคือ Object URL
  https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
  เป็นวิธีแปลงไฟล์หรือ Blob ให้เป็น URL ที่ใช้กับองค์ประกอบรูปภาพและอื่น ๆ ได้
- เป็น URL ชั่วคราวที่แทนบัฟเฟอร์ใน JavaScript: https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
น่าทึ่งจริง ๆ การลด latency ส่งผลอย่างมากต่อวิธีที่เราโต้ตอบกับเครื่องมือแบบนี้
ข้อได้เปรียบด้านความเร็วตรงนี้ไม่ใช่แค่สร้างภาพได้มากขึ้น แต่ทำให้ระหว่างลองหลาย ๆ แบบ เรายังรักษากระแสความคิดเดิมไว้ได้โดยไม่สะดุด
ประทับใจมาก แต่สงสัยว่ามีใครรู้วิธีสร้าง ตัวละครที่คงความสม่ำเสมอ ด้วย Stable Diffusion ไหม
ถ้า prompt แรกเป็นเด็กผู้หญิงคุยกับแมว และ prompt ที่สองเป็นเด็กผู้หญิงเล่นกับแมวตัวนั้น ผมอยากให้เด็กผู้หญิงกับแมวในสองภาพดูเป็นตัวเดียวกัน
ถ้าเป็นไปได้ ลิงก์หรือ tutorial ที่เกี่ยวข้องน่าจะช่วยได้มาก
- เท่าที่จำได้ Dashtoon Studio ช่วยให้สร้างการ์ตูนที่มีตัวละครสม่ำเสมอด้วย Stable Diffusion ได้: https://dashtoon.com/create
- ทำได้ใน Dashtoon Studio แค่อัปโหลดภาพเดียวก็ฝึก LoRA ตัวละครที่สม่ำเสมอ ให้ เป็นซอฟต์แวร์สำหรับสร้างการ์ตูน AI และผมเจอวิดีโอนี้ใน YouTube: https://www.youtube.com/watch?v=EEQwEvKQGvE
  LoRA น่าจะยืดหยุ่นที่สุด เพราะทำให้ได้ตัวละครที่คงเดิมในท่าทางและมุมกล้องที่ต้องการ IP-Adapter มักคัดลอกคุณลักษณะจากภาพอินพุตมากเกินไป และเลือกองค์ประกอบที่ไม่อยากให้คัดลอก เช่น ท่าทาง ได้ยาก ดังนั้นอาจทำให้ยากที่จะทำให้ตัวละครจากภาพพอร์ตเทรตไปทำแอ็กชันอื่น
  Reactor ต้องมีภาพที่สร้างขึ้นมาเพื่อสลับใบหน้าเข้าไป ใช้ได้ดีในภาพสมจริง แต่ในภาพสไตล์ไลซ์แล้วสไตล์จะไม่คงอยู่ และทรงผมก็ไม่ถูกคัดลอกด้วย
  จากที่หาเจอมาจนถึงตอนนี้ Dashtoon เสถียรและง่ายที่สุด เพราะการรวบรวมภาพตัวละครใหม่ 20 ภาพก็ยากอยู่แล้ว และในชุดข้อมูลฝึก LoRA คุณสมบัติของภาพอย่างจำนวนภาพโคลสอัปหรือจำนวนสีหน้าก็ค่อนข้างสำคัญ
- น่าลองดู https://scenario.gg สามารถฝึก LoRA เองด้วยภาพแบบกำหนดเองของตัวละครได้ และถ้าอยากได้ความสม่ำเสมอดี ๆ ต้องมีภาพจากหลายมุมประมาณ 20 ภาพ
  อีกวิธีที่ง่ายกว่าแต่ยังค่อนข้างดีคือ IP-Adapter ซึ่งบริการนี้ก็รองรับด้วย การทำให้แมวคงลักษณะเดิมน่าจะยากถ้าไม่มี LoRA แบบกำหนดเอง เอกสารอ้างอิง: https://help.scenario.com/training-a-character-lora
- ปกติแค่ใช้ชื่อก็เพียงพอแล้ว ในโมเดล SD ที่ดี Maria Smith แทบจะดูเหมือน Maria Smith เสมอ
- Mickey ดูค่อนข้างสม่ำเสมอ: https://fastsdxl.ai/share/4us7hrp3jm20
พฤติกรรมตอนใส่ตัวอักษรตัวเดียวก็น่าสนใจ ในกรณีของผม มันดูเหมือนจะลู่เข้าหาอาคารเล็ก ๆ ที่มีรายละเอียดค่อนข้างมากบ่อย ๆ
ยิ่งใส่ตัวอักษรเดิมซ้ำมากขึ้น เช่น จาก 111 เป็น 11111111 อาคารก็ยิ่งแปลกขึ้น ตอนนี้ดูเหมือนว่าจะไวต่อ seed อยู่พอสมควร
- คำหรือแนวคิดที่ไม่รู้จักแทบไม่มีผลต่อเอาต์พุต ลองเปลี่ยน baby raccoon ใน prompt เป็น maxolhx ดู มันจะเพิกเฉยต่อคำนั้นแล้วเรนเดอร์เจ้าสาวชาวอิตาลีออกมา
  พูดอย่างเคร่งครัดแล้วมันยังมีผลอยู่ แต่ไม่ใช่ในแบบที่เราอธิบายได้ง่าย ๆ แทบจะเหมือนกำลังเล่นกับ seed อยู่
ชอบมากจริง ๆ อยากให้แชร์ URL ได้
late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
ผลลัพธ์จากพรอมป์ต์นี้ยอดเยี่ยมมาก
- คนธรรมดาดูเป็นแบบนี้: https://fastsdxl.ai/share/1mb3d5lo5ic9
  ฮีโร่ดูเป็นแบบนี้: https://fastsdxl.ai/share/x9jxax4pnljd
  ผู้ก่อการร้ายดูเป็นแบบนี้: https://fastsdxl.ai/share/ejtyvv9ahpfs
  คนที่ฉันอยากเป็นดูเป็นแบบนี้: https://fastsdxl.ai/share/8ekkecm5rqsr
  ด้วยความเร็วที่สูง จึงน่าสนใจมาก เพราะสามารถเปลี่ยนแค่ seed แล้วประเมิน อคติ ที่แฝงอยู่ได้อย่างรวดเร็ว
- เพิ่งเพิ่มฟีเจอร์แชร์ไป ถ้าบอกได้ว่ากำลังสร้างอะไรอยู่ก็คงดี
- ถ้ามีการให้ seed มาด้วย ก็น่าจะแชร์ได้

แนะนำบน HN: การสร้างภาพแบบเรียลไทม์ด้วย SDXL Lightning

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News