1 ความคิดเห็น

 
GN⁺ 2024-02-23
ความคิดเห็นจาก Hacker News
  • เมื่อวานลองเอาสิ่งนี้ไปใช้ร่วมกับ Groq เพื่อเสริมเกมความสนุกไร้ขีดจำกัดของ Neal Agrawal ให้เป็นส่วนขยาย Chrome และทำให้มันสร้างภาพจริง ไม่ใช่แค่อีโมจิ
    การสร้างภาพและการสร้างด้วย LLM ที่เกือบจะเป็นแบบเรียลไทม์ให้ความรู้สึกเหมือนอนาคต ใช้ Mixtral ของ Groq สำหรับเขียนพรอมป์ และใช้ Fal API สำหรับการสร้างแบบเรียลไทม์
    https://x.com/altryne/status/1760561501096575401?s=20

    • ถ้าเปลี่ยนสิ่งนี้ให้เป็น เกมเลื่อนด้านข้าง แล้วให้พื้นหลังค่อย ๆ เปลี่ยนอย่างเป็นธรรมชาติไปเป็นการเรนเดอร์คำต่าง ๆ ที่กำลังเล่นอยู่ก็น่าจะดี
      นึกภาพว่าฉากทิวทัศน์สีฟ้าช่วงต้นเดโมค่อย ๆ เปลี่ยนเป็นภูมิประเทศภูเขาแห้งแล้งในภาพช่วงท้าย และมีตัวละครนกปรากฏอยู่ฉากหน้า
    • สงสัยเหมือนกันว่าจะเปลี่ยนเป็นเกมแบบใช้การ์ดได้ไหม
    • ดูดีมากจริง ๆ สงสัยว่าจะมีโอกาสแชร์ ส่วนขยาย Chrome ไหม
  • บันทึกไว้เป็นข้อมูลว่า SDXL Lightning เป็นโอเพนซอร์สที่เผยแพร่บน Hugging Face ภายใต้ไลเซนส์ที่ค่อนข้างผ่อนปรน: https://huggingface.co/ByteDance/SDXL-Lightning
    ยังมี UI อื่น ๆ อีกหลายตัว เช่น: https://replicate.com/lucataco/sdxl-lightning-4step

    • ใช่ ภายในใช้ SDXL Lightning ที่ ByteDance ฝึกบน Stable Diffusion XL แล้วปล่อยเป็นโอเพนซอร์ส
      จากนั้นเพิ่มเอนจินอนุมานของตัวเองและโครงสร้างพื้นฐานแบบเรียลไทม์เข้าไป เพื่อให้ประสบการณ์ลื่นไหลกว่า UI อื่น ๆ ถ้าวัดจากความเร็ว ผมมองว่าแทบเทียบกันไม่ได้เลย ที่นี่ 4 สเต็ปอยู่ราว 370ms ขณะที่ตัวอย่าง replicate ที่ลิงก์ไว้ประมาณ 2–3 วินาที
    • ทำเดโมด้วย Gradio ไว้เหมือนกัน แต่ช้ากว่า fal.ai 2 เท่า ใช้ stable-fast compile บน A10G ตัวเดียว
      https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
      ถ้ามี GPU/CUDA/Docker ก็ลองรันในเครื่องได้ด้วย
      docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
    • อยากรู้ว่าในการอนุมานแบบรันในเครื่อง การใช้หน่วยความจำ และความเร็วอยู่ประมาณไหน
  • ความเร็วยอดเยี่ยม
    ส่วนคุณภาพ ผมลองยืมพรอมป์ที่วันนี้คนใช้ทดสอบ Stable Diffusion 3 กับโมเดลอื่น ๆ มา: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
    ผลลัพธ์ที่ผมได้เป็นแบบนี้: https://imgur.com/a/XrAuqCB
    เทียบกับ Stable Diffusion 3: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...

    1. https://news.ycombinator.com/item?id=39467526
    • การทำตามพรอมป์เชิงตำแหน่งเชิงพื้นที่ เป็นจุดที่ SDXL หรือ Stable Diffusion รุ่นก่อน ๆ โดยรวมยังทำได้ไม่ดีนัก หวังว่า Stable Diffusion จะขัดเกลาส่วนนี้ได้ดีเหมือนในตัวอย่าง
      ผมลองทดสอบตัวอย่างเดียวกันกับ Stable Cascade ซึ่งเป็นโมเดล Stability แบบน้ำหนักเปิดรุ่นล่าสุดแล้ว ก็ยังไม่ค่อยดีนักเช่นกัน: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
    • ผลลัพธ์ที่ผมได้ค่อนข้างถูกต้อง: https://imgur.com/a/vH0zq5b
      seed: 3919562
    • ถ้ารันโดยเปลี่ยน seed ไปเรื่อย ๆ ผลลัพธ์จะต่างกันมาก
  • เดโมน่าประทับใจจริง ๆ แต่ถ้าลื่นกว่านี้คงน่าทึ่งกว่านี้มาก ตอนนี้อย่างเช่นพอลบคำหรือเพิ่มช่องว่าง จะเกิดการอนุมาน 4 ครั้งในช่วงเวลาสั้น ๆ ทำให้ยังรู้สึกสะดุด
    อาจเป็นเพราะตั้งใจโชว์ผลลัพธ์แต่ละขั้นก็ได้ อนึ่ง นี่เป็นเดโมของ fal.ai และผมรู้จักพวกเขาครั้งแรกตอนเช้าวันที่ Stable Cascade เปิดตัว แล้วพวกเขาเอาเดโมขึ้นมา
    ถ้าจะรัน inference นอก OpenAI ผมแนะนำ fal.ai อย่างแรง ผมอยู่ในวงการ AI มาเกือบ 3 ปี และตั้งแต่ปีก่อนก็แทบจะเกาะติดตลอด 24 ชั่วโมง Fal ดูเหมือนเป็นบริการแรกที่ใส่ใจรายละเอียดเพื่อให้เร็วระดับนี้ในการใช้งานจริง ไม่ใช่แค่ตัวเลขในเปเปอร์
    เช่น การเชื่อมต่อ WebSocket หรือ JWT อายุสั้นที่ทำให้ไม่ต้องผ่าน edge function เพื่อเซ็นคำขอด้วย API key

    • ถ้าเร็วได้ขนาดนี้ อาจจะดีกว่าถ้าสร้างภาพระหว่างทางตามเส้นทางที่ลื่นไหลใน latent space แทนที่จะกระโดดไปยังภาพเป้าหมายโดยตรง
  • ชอบเดโมนี้มาก เข้าถึงง่าย เร็ว และใช้งานได้ตรงไปตรงมา น่าทึ่งที่สามารถได้คุณภาพระดับนี้มาอย่างง่ายดายขนาดนี้

    • เดโมนี้กับ Groq น่าทึ่งจริง ๆ ยังจำได้ว่าไม่นานมานี้ ถ้าสร้างบัญชีแล้วเว็บจะให้โควตาสร้างฟรีสัก 20 ครั้ง แล้วต้องรอนานเพื่อให้ได้ภาพพัง ๆ มาสักภาพ
      ตอนนี้เข้าเว็บไซต์ได้โดยไม่ต้องสมัครสมาชิกหรือผ่าน CAPTCHA แล้วสร้างข้อความกับภาพได้เร็วราวสายฟ้า น่าทึ่งมาก โดยเฉพาะเมื่อรวมถึงข้อเท็จจริงที่ว่า Groq กับ fal.ai เปิดเดโมไว้ให้ใช้ได้เต็มที่ด้วย ผมคาดไม่ถึงเลยว่าจะได้เห็นประสิทธิภาพพุ่งขึ้นแบบนี้ในต้นปี 2024
      ผมคิดว่าการสร้างที่รวดเร็วช่วยชดเชยข้อด้อยด้านคุณภาพภาพได้มาก แม้จะล้มเหลว ผลลัพธ์ที่ดีมักอยู่ห่างออกไปแค่ seed หนึ่งค่า หรือการแก้ prompt เล็กน้อยครั้งเดียวเท่านั้น
  • สงสัยว่ามันเร็วได้ขนาดนี้อย่างไร และไม่รู้ว่าภาพ blob:[https://blbahblah](<https://blbahblah>;) คืออะไร
    อีกอย่าง ถ้าปรับ prompt นิดหน่อย แรคคูน มักจะมีหางสองหาง

  • น่าทึ่งจริง ๆ การลด latency ส่งผลอย่างมากต่อวิธีที่เราโต้ตอบกับเครื่องมือแบบนี้
    ข้อได้เปรียบด้านความเร็วตรงนี้ไม่ใช่แค่สร้างภาพได้มากขึ้น แต่ทำให้ระหว่างลองหลาย ๆ แบบ เรายังรักษากระแสความคิดเดิมไว้ได้โดยไม่สะดุด

  • ประทับใจมาก แต่สงสัยว่ามีใครรู้วิธีสร้าง ตัวละครที่คงความสม่ำเสมอ ด้วย Stable Diffusion ไหม
    ถ้า prompt แรกเป็นเด็กผู้หญิงคุยกับแมว และ prompt ที่สองเป็นเด็กผู้หญิงเล่นกับแมวตัวนั้น ผมอยากให้เด็กผู้หญิงกับแมวในสองภาพดูเป็นตัวเดียวกัน
    ถ้าเป็นไปได้ ลิงก์หรือ tutorial ที่เกี่ยวข้องน่าจะช่วยได้มาก

    • เท่าที่จำได้ Dashtoon Studio ช่วยให้สร้างการ์ตูนที่มีตัวละครสม่ำเสมอด้วย Stable Diffusion ได้: https://dashtoon.com/create
    • ทำได้ใน Dashtoon Studio แค่อัปโหลดภาพเดียวก็ฝึก LoRA ตัวละครที่สม่ำเสมอ ให้ เป็นซอฟต์แวร์สำหรับสร้างการ์ตูน AI และผมเจอวิดีโอนี้ใน YouTube: https://www.youtube.com/watch?v=EEQwEvKQGvE
      LoRA น่าจะยืดหยุ่นที่สุด เพราะทำให้ได้ตัวละครที่คงเดิมในท่าทางและมุมกล้องที่ต้องการ IP-Adapter มักคัดลอกคุณลักษณะจากภาพอินพุตมากเกินไป และเลือกองค์ประกอบที่ไม่อยากให้คัดลอก เช่น ท่าทาง ได้ยาก ดังนั้นอาจทำให้ยากที่จะทำให้ตัวละครจากภาพพอร์ตเทรตไปทำแอ็กชันอื่น
      Reactor ต้องมีภาพที่สร้างขึ้นมาเพื่อสลับใบหน้าเข้าไป ใช้ได้ดีในภาพสมจริง แต่ในภาพสไตล์ไลซ์แล้วสไตล์จะไม่คงอยู่ และทรงผมก็ไม่ถูกคัดลอกด้วย
      จากที่หาเจอมาจนถึงตอนนี้ Dashtoon เสถียรและง่ายที่สุด เพราะการรวบรวมภาพตัวละครใหม่ 20 ภาพก็ยากอยู่แล้ว และในชุดข้อมูลฝึก LoRA คุณสมบัติของภาพอย่างจำนวนภาพโคลสอัปหรือจำนวนสีหน้าก็ค่อนข้างสำคัญ
    • น่าลองดู https://scenario.gg สามารถฝึก LoRA เองด้วยภาพแบบกำหนดเองของตัวละครได้ และถ้าอยากได้ความสม่ำเสมอดี ๆ ต้องมีภาพจากหลายมุมประมาณ 20 ภาพ
      อีกวิธีที่ง่ายกว่าแต่ยังค่อนข้างดีคือ IP-Adapter ซึ่งบริการนี้ก็รองรับด้วย การทำให้แมวคงลักษณะเดิมน่าจะยากถ้าไม่มี LoRA แบบกำหนดเอง เอกสารอ้างอิง: https://help.scenario.com/training-a-character-lora
    • ปกติแค่ใช้ชื่อก็เพียงพอแล้ว ในโมเดล SD ที่ดี Maria Smith แทบจะดูเหมือน Maria Smith เสมอ
    • Mickey ดูค่อนข้างสม่ำเสมอ: https://fastsdxl.ai/share/4us7hrp3jm20
  • พฤติกรรมตอนใส่ตัวอักษรตัวเดียวก็น่าสนใจ ในกรณีของผม มันดูเหมือนจะลู่เข้าหาอาคารเล็ก ๆ ที่มีรายละเอียดค่อนข้างมากบ่อย ๆ
    ยิ่งใส่ตัวอักษรเดิมซ้ำมากขึ้น เช่น จาก 111 เป็น 11111111 อาคารก็ยิ่งแปลกขึ้น ตอนนี้ดูเหมือนว่าจะไวต่อ seed อยู่พอสมควร

    • คำหรือแนวคิดที่ไม่รู้จักแทบไม่มีผลต่อเอาต์พุต ลองเปลี่ยน baby raccoon ใน prompt เป็น maxolhx ดู มันจะเพิกเฉยต่อคำนั้นแล้วเรนเดอร์เจ้าสาวชาวอิตาลีออกมา
      พูดอย่างเคร่งครัดแล้วมันยังมีผลอยู่ แต่ไม่ใช่ในแบบที่เราอธิบายได้ง่าย ๆ แทบจะเหมือนกำลังเล่นกับ seed อยู่
  • ชอบมากจริง ๆ อยากให้แชร์ URL ได้
    late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
    ผลลัพธ์จากพรอมป์ต์นี้ยอดเยี่ยมมาก

    • คนธรรมดาดูเป็นแบบนี้: https://fastsdxl.ai/share/1mb3d5lo5ic9
      ฮีโร่ดูเป็นแบบนี้: https://fastsdxl.ai/share/x9jxax4pnljd
      ผู้ก่อการร้ายดูเป็นแบบนี้: https://fastsdxl.ai/share/ejtyvv9ahpfs
      คนที่ฉันอยากเป็นดูเป็นแบบนี้: https://fastsdxl.ai/share/8ekkecm5rqsr
      ด้วยความเร็วที่สูง จึงน่าสนใจมาก เพราะสามารถเปลี่ยนแค่ seed แล้วประเมิน อคติ ที่แฝงอยู่ได้อย่างรวดเร็ว
    • เพิ่งเพิ่มฟีเจอร์แชร์ไป ถ้าบอกได้ว่ากำลังสร้างอะไรอยู่ก็คงดี
    • ถ้ามีการให้ seed มาด้วย ก็น่าจะแชร์ได้