ความเร็วยอดเยี่ยม
ส่วนคุณภาพ ผมลองยืมพรอมป์ที่วันนี้คนใช้ทดสอบ Stable Diffusion 3 กับโมเดลอื่น ๆ มา: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
ผลลัพธ์ที่ผมได้เป็นแบบนี้: https://imgur.com/a/XrAuqCB
เทียบกับ Stable Diffusion 3: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
เมื่อวานลองเอาสิ่งนี้ไปใช้ร่วมกับ Groq เพื่อเสริมเกมความสนุกไร้ขีดจำกัดของ Neal Agrawal ให้เป็นส่วนขยาย Chrome และทำให้มันสร้างภาพจริง ไม่ใช่แค่อีโมจิ
การสร้างภาพและการสร้างด้วย LLM ที่เกือบจะเป็นแบบเรียลไทม์ให้ความรู้สึกเหมือนอนาคต ใช้ Mixtral ของ Groq สำหรับเขียนพรอมป์ และใช้ Fal API สำหรับการสร้างแบบเรียลไทม์
https://x.com/altryne/status/1760561501096575401?s=20
นึกภาพว่าฉากทิวทัศน์สีฟ้าช่วงต้นเดโมค่อย ๆ เปลี่ยนเป็นภูมิประเทศภูเขาแห้งแล้งในภาพช่วงท้าย และมีตัวละครนกปรากฏอยู่ฉากหน้า
บันทึกไว้เป็นข้อมูลว่า SDXL Lightning เป็นโอเพนซอร์สที่เผยแพร่บน Hugging Face ภายใต้ไลเซนส์ที่ค่อนข้างผ่อนปรน: https://huggingface.co/ByteDance/SDXL-Lightning
ยังมี UI อื่น ๆ อีกหลายตัว เช่น: https://replicate.com/lucataco/sdxl-lightning-4step
จากนั้นเพิ่มเอนจินอนุมานของตัวเองและโครงสร้างพื้นฐานแบบเรียลไทม์เข้าไป เพื่อให้ประสบการณ์ลื่นไหลกว่า UI อื่น ๆ ถ้าวัดจากความเร็ว ผมมองว่าแทบเทียบกันไม่ได้เลย ที่นี่ 4 สเต็ปอยู่ราว 370ms ขณะที่ตัวอย่าง replicate ที่ลิงก์ไว้ประมาณ 2–3 วินาที
https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
ถ้ามี GPU/CUDA/Docker ก็ลองรันในเครื่องได้ด้วย
docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.pyความเร็วยอดเยี่ยม
ส่วนคุณภาพ ผมลองยืมพรอมป์ที่วันนี้คนใช้ทดสอบ Stable Diffusion 3 กับโมเดลอื่น ๆ มา: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
ผลลัพธ์ที่ผมได้เป็นแบบนี้: https://imgur.com/a/XrAuqCB
เทียบกับ Stable Diffusion 3: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
ผมลองทดสอบตัวอย่างเดียวกันกับ Stable Cascade ซึ่งเป็นโมเดล Stability แบบน้ำหนักเปิดรุ่นล่าสุดแล้ว ก็ยังไม่ค่อยดีนักเช่นกัน: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
seed: 3919562
เดโมน่าประทับใจจริง ๆ แต่ถ้าลื่นกว่านี้คงน่าทึ่งกว่านี้มาก ตอนนี้อย่างเช่นพอลบคำหรือเพิ่มช่องว่าง จะเกิดการอนุมาน 4 ครั้งในช่วงเวลาสั้น ๆ ทำให้ยังรู้สึกสะดุด
อาจเป็นเพราะตั้งใจโชว์ผลลัพธ์แต่ละขั้นก็ได้ อนึ่ง นี่เป็นเดโมของ fal.ai และผมรู้จักพวกเขาครั้งแรกตอนเช้าวันที่ Stable Cascade เปิดตัว แล้วพวกเขาเอาเดโมขึ้นมา
ถ้าจะรัน inference นอก OpenAI ผมแนะนำ fal.ai อย่างแรง ผมอยู่ในวงการ AI มาเกือบ 3 ปี และตั้งแต่ปีก่อนก็แทบจะเกาะติดตลอด 24 ชั่วโมง Fal ดูเหมือนเป็นบริการแรกที่ใส่ใจรายละเอียดเพื่อให้เร็วระดับนี้ในการใช้งานจริง ไม่ใช่แค่ตัวเลขในเปเปอร์
เช่น การเชื่อมต่อ WebSocket หรือ JWT อายุสั้นที่ทำให้ไม่ต้องผ่าน edge function เพื่อเซ็นคำขอด้วย API key
ชอบเดโมนี้มาก เข้าถึงง่าย เร็ว และใช้งานได้ตรงไปตรงมา น่าทึ่งที่สามารถได้คุณภาพระดับนี้มาอย่างง่ายดายขนาดนี้
ตอนนี้เข้าเว็บไซต์ได้โดยไม่ต้องสมัครสมาชิกหรือผ่าน CAPTCHA แล้วสร้างข้อความกับภาพได้เร็วราวสายฟ้า น่าทึ่งมาก โดยเฉพาะเมื่อรวมถึงข้อเท็จจริงที่ว่า Groq กับ fal.ai เปิดเดโมไว้ให้ใช้ได้เต็มที่ด้วย ผมคาดไม่ถึงเลยว่าจะได้เห็นประสิทธิภาพพุ่งขึ้นแบบนี้ในต้นปี 2024
ผมคิดว่าการสร้างที่รวดเร็วช่วยชดเชยข้อด้อยด้านคุณภาพภาพได้มาก แม้จะล้มเหลว ผลลัพธ์ที่ดีมักอยู่ห่างออกไปแค่ seed หนึ่งค่า หรือการแก้ prompt เล็กน้อยครั้งเดียวเท่านั้น
สงสัยว่ามันเร็วได้ขนาดนี้อย่างไร และไม่รู้ว่าภาพ
blob:[https://blbahblah](<https://blbahblah>)คืออะไรอีกอย่าง ถ้าปรับ prompt นิดหน่อย แรคคูน มักจะมีหางสองหาง
https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
เป็นวิธีแปลงไฟล์หรือ Blob ให้เป็น URL ที่ใช้กับองค์ประกอบรูปภาพและอื่น ๆ ได้
น่าทึ่งจริง ๆ การลด latency ส่งผลอย่างมากต่อวิธีที่เราโต้ตอบกับเครื่องมือแบบนี้
ข้อได้เปรียบด้านความเร็วตรงนี้ไม่ใช่แค่สร้างภาพได้มากขึ้น แต่ทำให้ระหว่างลองหลาย ๆ แบบ เรายังรักษากระแสความคิดเดิมไว้ได้โดยไม่สะดุด
ประทับใจมาก แต่สงสัยว่ามีใครรู้วิธีสร้าง ตัวละครที่คงความสม่ำเสมอ ด้วย Stable Diffusion ไหม
ถ้า prompt แรกเป็นเด็กผู้หญิงคุยกับแมว และ prompt ที่สองเป็นเด็กผู้หญิงเล่นกับแมวตัวนั้น ผมอยากให้เด็กผู้หญิงกับแมวในสองภาพดูเป็นตัวเดียวกัน
ถ้าเป็นไปได้ ลิงก์หรือ tutorial ที่เกี่ยวข้องน่าจะช่วยได้มาก
LoRA น่าจะยืดหยุ่นที่สุด เพราะทำให้ได้ตัวละครที่คงเดิมในท่าทางและมุมกล้องที่ต้องการ IP-Adapter มักคัดลอกคุณลักษณะจากภาพอินพุตมากเกินไป และเลือกองค์ประกอบที่ไม่อยากให้คัดลอก เช่น ท่าทาง ได้ยาก ดังนั้นอาจทำให้ยากที่จะทำให้ตัวละครจากภาพพอร์ตเทรตไปทำแอ็กชันอื่น
Reactor ต้องมีภาพที่สร้างขึ้นมาเพื่อสลับใบหน้าเข้าไป ใช้ได้ดีในภาพสมจริง แต่ในภาพสไตล์ไลซ์แล้วสไตล์จะไม่คงอยู่ และทรงผมก็ไม่ถูกคัดลอกด้วย
จากที่หาเจอมาจนถึงตอนนี้ Dashtoon เสถียรและง่ายที่สุด เพราะการรวบรวมภาพตัวละครใหม่ 20 ภาพก็ยากอยู่แล้ว และในชุดข้อมูลฝึก LoRA คุณสมบัติของภาพอย่างจำนวนภาพโคลสอัปหรือจำนวนสีหน้าก็ค่อนข้างสำคัญ
อีกวิธีที่ง่ายกว่าแต่ยังค่อนข้างดีคือ IP-Adapter ซึ่งบริการนี้ก็รองรับด้วย การทำให้แมวคงลักษณะเดิมน่าจะยากถ้าไม่มี LoRA แบบกำหนดเอง เอกสารอ้างอิง: https://help.scenario.com/training-a-character-lora
พฤติกรรมตอนใส่ตัวอักษรตัวเดียวก็น่าสนใจ ในกรณีของผม มันดูเหมือนจะลู่เข้าหาอาคารเล็ก ๆ ที่มีรายละเอียดค่อนข้างมากบ่อย ๆ
ยิ่งใส่ตัวอักษรเดิมซ้ำมากขึ้น เช่น จาก
111เป็น11111111อาคารก็ยิ่งแปลกขึ้น ตอนนี้ดูเหมือนว่าจะไวต่อ seed อยู่พอสมควรbaby raccoonใน prompt เป็นmaxolhxดู มันจะเพิกเฉยต่อคำนั้นแล้วเรนเดอร์เจ้าสาวชาวอิตาลีออกมาพูดอย่างเคร่งครัดแล้วมันยังมีผลอยู่ แต่ไม่ใช่ในแบบที่เราอธิบายได้ง่าย ๆ แทบจะเหมือนกำลังเล่นกับ seed อยู่
ชอบมากจริง ๆ อยากให้แชร์ URL ได้
late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1ผลลัพธ์จากพรอมป์ต์นี้ยอดเยี่ยมมาก
ฮีโร่ดูเป็นแบบนี้: https://fastsdxl.ai/share/x9jxax4pnljd
ผู้ก่อการร้ายดูเป็นแบบนี้: https://fastsdxl.ai/share/ejtyvv9ahpfs
คนที่ฉันอยากเป็นดูเป็นแบบนี้: https://fastsdxl.ai/share/8ekkecm5rqsr
ด้วยความเร็วที่สูง จึงน่าสนใจมาก เพราะสามารถเปลี่ยนแค่ seed แล้วประเมิน อคติ ที่แฝงอยู่ได้อย่างรวดเร็ว