2 คะแนน โดย GN⁺ 2023-08-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • บทความกล่าวถึงความพยายามของผู้เขียนในการปรับปรุงประสิทธิภาพของ Stable Diffusion XL 1.0 (SDXL) ของ Stability AI ซึ่งเป็นโมเดลโอเพนซอร์สสำหรับสร้างภาพที่ความละเอียด 1024x1024
  • SDXL ประกอบด้วยโมเดลสองส่วน: โมเดลหลักและโมเดล refiner แบบเลือกใช้ ซึ่งช่วยเพิ่มรายละเอียดอย่างมากโดยไม่กระทบความเร็ว
  • ผู้เขียนใช้ไลบรารี Python diffusers ของ Hugging Face เพื่อทำงานร่วมกับ SDXL และได้ยกตัวอย่างวิธีโหลดและใช้งานทั้งโมเดลหลักและโมเดล refiner
  • ผู้เขียนใช้คลาวด์เวอร์ชวลแมชชีนที่มี GPU L4 ระดับกลางในการสร้างภาพ และระบุว่าภาพขนาด 1024x1024 แต่ละภาพใช้เวลาสร้างประมาณ 22 วินาที
  • ผู้เขียนได้ทดลองใช้ความสามารถใหม่สองอย่างของ diffusers ได้แก่ prompt weighting และการฝึกกับ inference ของ Dreambooth LoRA
  • prompt weighting ช่วยปรับปรุงผลลัพธ์สุดท้ายโดยเปิดให้กำหนดค่าน้ำหนักทางคณิตศาสตร์ของคำต่าง ๆ ใน positional text embeddings ที่ได้
  • การรองรับ Dreambooth LoRA ทำให้สามารถปรับจูน Stable Diffusion ด้วยภาพต้นฉบับจำนวนเล็กน้อยและ trigger keyword เพื่อให้สามารถนำ "แนวคิด" ของภาพนั้นไปใช้ในสถานการณ์อื่น ๆ ที่ระบุด้วยคีย์เวิร์ดได้
  • ผู้เขียนได้ทดสอบศักยภาพของ SDXL โดยฝึก LoRA กับแนวคิดของ Ugly Sonic ซึ่งไม่มีอยู่ในชุดข้อมูลต้นฉบับของ Stable Diffusion และผลลัพธ์ออกมาดีกว่าและสม่ำเสมอกว่ามาก
  • ผู้เขียนยังฝึก LoRA กับภาพขยะที่บิดเบี้ยวอย่างหนัก โดยใช้ prompt ว่า "wrong" ด้วยความหวังว่า LoRA จะใช้ "wrong" เป็น "negative prompt" และหลีกเลี่ยงภาพลักษณะนี้เพื่อสร้างภาพที่บิดเบี้ยวน้อยลง
  • ผู้เขียนพบว่า LoRA ช่วยทำให้ SDXL ฉลาดขึ้นและยึดตามเจตนาของ prompt ได้ดีกว่าเดิม ส่งผลให้คุณภาพและความชัดเจนของภาพที่สร้างดีขึ้น
  • ผู้เขียนสรุปว่าการฝึก SDXL ด้วยภาพที่แย่นั้นคล้ายกับรูปแบบหนึ่งของ reinforcement learning from human feedback (RLHF) ซึ่งเป็นเทคนิคที่ทำให้ ChatGPT ทรงพลัง
  • ผู้เขียนมีแผนจะสำรวจศักยภาพของ "negative LoRAs" ต่อไป รวมถึงการนำไปผสานกับ LoRA อื่น ๆ เพื่อเพิ่มประสิทธิภาพ

1 ความคิดเห็น

 
GN⁺ 2023-08-23
ความเห็นจาก Hacker News
  • แนวคิด RLHF แบบปรับให้เหมาะกับแต่ละบุคคล (Reinforcement Learning from Human Feedback) กำลังได้รับความสนใจ และมีศักยภาพในการชี้นำผลลัพธ์ของ AI ให้ตรงกับความชอบของแต่ละคน
  • มีการเสนอให้ใส่ตัวเลือกฟีดแบ็ก "ชอบ/ไม่ชอบ" กับทุกภาพที่ระบบ AI สร้างขึ้น พร้อมทั้งเสนอป้ายข้อความแบบเลือกใช้สำหรับละเว้นภาพที่ "ผิด"
  • มีการตั้งคำถามถึงลูปการทำซ้ำที่เร็วที่สุดเท่าที่จะเป็นไปได้สำหรับการเก็บฟีดแบ็ก และมีการเสนอแนวคิดในการรวบรวมข้อมูลความชอบราว 10k ครั้งต่อวินาที เพื่อเพิ่มความน่าจะเป็นที่โมเดลจะสร้างภาพตามที่ผู้ใช้ชอบเป็นการส่วนตัว
  • มีการยอมรับการใช้ Stable Diffusion (SD) สำหรับการสร้างงานศิลปะ และเน้นว่าความแตกต่างระหว่าง SD 1.5/2.0 กับ SDXL นั้นสำคัญ
  • นักวิทยาศาสตร์ข้อมูลได้บันทึกการกดแป้นพิมพ์ทั้งหมดที่ทำบนพีซีของตนเอง และตอนนี้สิ่งนี้ถูกมองว่าเป็นข้อมูลที่มีประโยชน์ต่อระบบ AI
  • มีการแบ่งปันแนวคิดในการใช้ SDXL Base Model สร้างภาพด้วยการผสมพรอมป์ต์หลายสไตล์ จากนั้นใช้สิ่งนี้ในการฝึก LoRA (Learning from Observations and Rewards) แล้วจึงนำ LoRA + ชุดฝึกนี้กลับไปใช้สร้างอีกครั้งด้วยพรอมป์ต์ที่ใช้สร้าง LoRA + ชุดฝึกดังกล่าว
  • ผลลัพธ์ของกระบวนการข้างต้นถูกอธิบายว่าเป็นการเสริมผลให้รุนแรงขึ้น — มีข้อผิดพลาดมากขึ้น แปลกประหลาดขึ้น และมีความละเอียดสูง
  • เชื่อกันว่าการเปิดตัว AI สร้างภาพรุ่นนี้ไม่ได้รับความสนใจมากนัก เนื่องจากต้องการ vram และพลังประมวลผลสูงกว่า และให้ผลลัพธ์คุณภาพต่ำกว่าเมื่อเทียบกับโมเดล SD1.5 แบบเฉพาะทาง
  • มีรายงานว่า LORAs ที่สร้างขึ้นสำหรับ Stable Diffusion XL ทำงานได้ดีเฉพาะกับ negative prompt แบบทั่วไปเท่านั้น
  • มีข้อถกเถียงเกี่ยวกับความสามารถในการเปิดใช้งาน LoRA หลายตัวพร้อมกันในคราวเดียว
  • มีการยอมรับว่าการใช้ RLHF ทำให้ GPT3 ใช้งานได้ง่ายขึ้น และมีความหวังว่าโมเดลในอนาคตจะรวมผลลัพธ์ที่ไม่ดีเข้าไปเป็นข้อมูลฝึกเชิงลบ
  • มีการกล่าวถึงความเป็นไปได้ในการรวม LoRA เข้าด้วยกัน โดยมีความสนใจที่จะใช้ LoRA หนึ่งตัวสำหรับหัวข้อส่วนบุคคล อีกตัวหนึ่งเพื่อปรับปรุงผลลัพธ์ และตัวที่สามสำหรับสไตล์เฉพาะ