เปิดตัว Stable Diffusion 3.5

xguru · 2024-10-24T11:26:01+09:00

มีหลายเวอร์ชันของโมเดลที่สามารถรันได้บนฮาร์ดแวร์ระดับผู้บริโภคและปรับแต่งได้อย่างยืดหยุ่น และส่วนใหญ่ใช้งานได้ฟรีสำหรับกรณีการใช้งานส่วนใหญ่ ดาวน์โหลดโมเดล Stable Diffusion 3.5 Large และ Stable Diffusion 3.5 Large Turbo ได้จาก Hugging Face และดาวน์โหลดโค้ดสำหรับ inference ได้จาก GitHub โมเดลที่เปิดตัว Stable Diffusion 3.5 Large: โมเดลพื้นฐานที่มีพารามิเตอร์ 8 พันล้านตัว และทรงพลังที่สุดในตระกูล Stable Diffusion เหมาะสำหรับงานระดับมืออาชีพที่ความละเอียด 1 เมกะพิกเซล Stable Diffusion 3.5 Large Turbo: เวอร์ชันกลั่นของ Stable Diffusion 3.5 Large ที่สร้างภาพคุณภาพสูงพร้อมการทำตามพรอมป์ต์ได้อย่างยอดเยี่ยมภายในเพียง 4 ขั้นตอน เร็วกว่า Stable Diffusion 3.5 Large อย่างมาก Stable Diffusion 3.5 Medium (มีกำหนดเปิดตัววันที่ 29 ตุลาคม): มีพารามิเตอร์ 2.5 พันล้านตัว และออกแบบมาให้รันได้โดยตรงบนฮาร์ดแวร์ระดับผู้บริโภคด้วยสถาปัตยกรรม MMDiT-X และวิธีการฝึกที่ปรับปรุงแล้ว สร้างสมดุลระหว่างคุณภาพกับความง่ายในการปรับแต่ง สามารถสร้างภาพที่ความละเอียด 0.25~2 เมกะพิกเซล กระบวนการพัฒนาโมเดล ให้ความสำคัญกับความสามารถในการปรับแต่งเป็นอันดับแรก เพื่อมอบรากฐานที่ยืดหยุ่นในการพัฒนาโมเดล เพื่อสิ่งนี้ จึงผสาน Query-Key Normalization เข้ากับบล็อกทรานส์ฟอร์เมอร์เพื่อทำให้กระบวนการฝึกโมเดลมีเสถียรภาพ และทำให้การ fine-tuning และการพัฒนาต่อทำได้ง่ายขึ้น จำเป็นต้องมีการแลกเปลี่ยนบางอย่างเพื่อรองรับความยืดหยุ่นในงานปลายน้ำ เมื่อใช้พรอมป์ต์เดียวกันแต่เปลี่ยน seed ความแปรผันของผลลัพธ์อาจเพิ่มขึ้น ซึ่งเป็นความตั้งใจเพื่อช่วยคงฐานความรู้ที่กว้างขึ้นและสไตล์ที่หลากหลายมากขึ้นในโมเดลพื้นฐาน อย่างไรก็ตาม พรอมป์ต์ที่ขาดความเฉพาะเจาะจงอาจเพิ่มความไม่แน่นอนของผลลัพธ์ และระดับความสวยงามอาจแตกต่างกัน สำหรับโมเดล Medium ได้มีการปรับสถาปัตยกรรมและโปรโตคอลการฝึกหลายครั้งเพื่อปรับปรุงคุณภาพ ความสม่ำเสมอ และความสามารถในการสร้างหลายความละเอียด จุดเด่นของ Stable Diffusion 3.5 ปรับแต่งได้ง่าย: สามารถ fine-tuning โมเดลให้ตรงกับความต้องการด้านการสร้างสรรค์เฉพาะทางได้ง่าย หรือสร้างแอปพลิเคชันตามเวิร์กโฟลว์ที่ปรับแต่งเองได้ ประสิทธิภาพที่มีประสิทธิผล: โดยเฉพาะโมเดล Stable Diffusion 3.5 Medium และ Stable Diffusion 3.5 Large Turbo ถูกปรับให้รันได้อย่างเหมาะสมบนฮาร์ดแวร์มาตรฐานระดับผู้บริโภคโดยไม่ต้องการสเปกหนัก ผลลัพธ์ที่หลากหลาย: สามารถสร้างภาพที่แทนผู้คนจากทั่วโลกซึ่งมีสีผิวและลักษณะเฉพาะที่หลากหลายได้ โดยไม่ต้องพึ่งการเขียนพรอมป์ต์อย่างกว้างขวาง Stable Diffusion 3.5 Large เป็นผู้นำตลาดด้านการทำตามพรอมป์ต์ และคุณภาพของภาพสามารถเทียบเคียงโมเดลที่มีขนาดใหญ่กว่ามากได้ Stable Diffusion 3.5 Large Turbo ให้เวลา inference ที่เร็วที่สุดเมื่อเทียบกับขนาด ขณะเดียวกันก็ยังแข่งขันได้อย่างมากทั้งในด้านคุณภาพของภาพและการทำตามพรอมป์ต์ Stable Diffusion 3.5 Medium เหนือกว่าโมเดลขนาดกลางอื่น ๆ โดยสร้างสมดุลระหว่างการทำตามพรอมป์ต์กับคุณภาพของภาพ เพื่อมอบประสิทธิภาพที่มีคุณภาพสูงและมีประสิทธิผล ภาพรวมของ Stability AI Community License ใช้งานฟรีสำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์: บุคคลและองค์กรสามารถใช้งานได้ฟรีเพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ รวมถึงการวิจัยทางวิทยาศาสตร์ ใช้งานฟรีสำหรับการใช้งานเชิงพาณิชย์ที่มีรายได้ต่อปีไม่เกิน 1 ล้านดอลลาร์: สตาร์ตอัป ธุรกิจขนาดกลางและขนาดย่อม และครีเอเตอร์ สามารถใช้งานเชิงพาณิชย์ได้ฟรีหากมีรายได้ต่อปีต่ำกว่า 1 ล้านดอลลาร์ ความเป็นเจ้าของผลลัพธ์: สามารถถือครองความเป็นเจ้าของสื่อที่สร้างขึ้นได้ โดยไม่มีนัยด้านการอนุญาตใช้งานที่เป็นข้อจำกัด องค์กรที่มีรายได้ต่อปีมากกว่า 1 ล้านดอลลาร์สามารถติดต่อ Stability AI เพื่อสอบถามเกี่ยวกับไลเซนส์ระดับองค์กรได้ วิธีเข้าถึงโมเดล ขณะนี้น้ำหนักของโมเดลพร้อมใช้งานบน Hugging Face สำหรับการ self-hosting สามารถเข้าถึงโมเดลได้ผ่านแพลตฟอร์มอย่าง Stability AI API, Replicate, ComfyUI และ DeepInfra เช่นกัน ความมุ่งมั่นของ Stability AI ด้านความปลอดภัย Stability AI เชื่อมั่นในการปฏิบัติด้าน AI ที่ปลอดภัยและมีความรับผิดชอบ และได้ดำเนินมาตรการอย่างตั้งใจเพื่อรับรองความซื่อสัตย์ตั้งแต่ระยะเริ่มต้นของการพัฒนา กำลังดำเนินมาตรการที่เหมาะสมเพื่อป้องกันการนำ Stable Diffusion 3.5 ไปใช้ในทางที่ผิดโดยผู้ไม่หวังดี แผนในอนาคต มีกำหนดเปิดตัว Stable Diffusion 3.5 Medium อย่างเป็นทางการในวันที่ 29 ตุลาคม หลังจากนั้นจะเปิดตัว ControlNets ที่ให้ความสามารถในการควบคุมขั้นสูงสำหรับกรณีการใช้งานระดับมืออาชีพที่หลากหลาย

(stability.ai)

10 คะแนน โดย xguru 2024-10-24 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

มีหลายเวอร์ชันของโมเดลที่สามารถรันได้บนฮาร์ดแวร์ระดับผู้บริโภคและปรับแต่งได้อย่างยืดหยุ่น และส่วนใหญ่ใช้งานได้ฟรีสำหรับกรณีการใช้งานส่วนใหญ่
ดาวน์โหลดโมเดล Stable Diffusion 3.5 Large และ Stable Diffusion 3.5 Large Turbo ได้จาก Hugging Face และดาวน์โหลดโค้ดสำหรับ inference ได้จาก GitHub
โมเดลที่เปิดตัว
- Stable Diffusion 3.5 Large: โมเดลพื้นฐานที่มีพารามิเตอร์ 8 พันล้านตัว และทรงพลังที่สุดในตระกูล Stable Diffusion เหมาะสำหรับงานระดับมืออาชีพที่ความละเอียด 1 เมกะพิกเซล
- Stable Diffusion 3.5 Large Turbo: เวอร์ชันกลั่นของ Stable Diffusion 3.5 Large ที่สร้างภาพคุณภาพสูงพร้อมการทำตามพรอมป์ต์ได้อย่างยอดเยี่ยมภายในเพียง 4 ขั้นตอน เร็วกว่า Stable Diffusion 3.5 Large อย่างมาก
- Stable Diffusion 3.5 Medium (มีกำหนดเปิดตัววันที่ 29 ตุลาคม): มีพารามิเตอร์ 2.5 พันล้านตัว และออกแบบมาให้รันได้โดยตรงบนฮาร์ดแวร์ระดับผู้บริโภคด้วยสถาปัตยกรรม MMDiT-X และวิธีการฝึกที่ปรับปรุงแล้ว สร้างสมดุลระหว่างคุณภาพกับความง่ายในการปรับแต่ง สามารถสร้างภาพที่ความละเอียด 0.25~2 เมกะพิกเซล

กระบวนการพัฒนาโมเดล

ให้ความสำคัญกับความสามารถในการปรับแต่งเป็นอันดับแรก เพื่อมอบรากฐานที่ยืดหยุ่นในการพัฒนาโมเดล
เพื่อสิ่งนี้ จึงผสาน Query-Key Normalization เข้ากับบล็อกทรานส์ฟอร์เมอร์เพื่อทำให้กระบวนการฝึกโมเดลมีเสถียรภาพ และทำให้การ fine-tuning และการพัฒนาต่อทำได้ง่ายขึ้น
จำเป็นต้องมีการแลกเปลี่ยนบางอย่างเพื่อรองรับความยืดหยุ่นในงานปลายน้ำ
เมื่อใช้พรอมป์ต์เดียวกันแต่เปลี่ยน seed ความแปรผันของผลลัพธ์อาจเพิ่มขึ้น ซึ่งเป็นความตั้งใจเพื่อช่วยคงฐานความรู้ที่กว้างขึ้นและสไตล์ที่หลากหลายมากขึ้นในโมเดลพื้นฐาน
อย่างไรก็ตาม พรอมป์ต์ที่ขาดความเฉพาะเจาะจงอาจเพิ่มความไม่แน่นอนของผลลัพธ์ และระดับความสวยงามอาจแตกต่างกัน
สำหรับโมเดล Medium ได้มีการปรับสถาปัตยกรรมและโปรโตคอลการฝึกหลายครั้งเพื่อปรับปรุงคุณภาพ ความสม่ำเสมอ และความสามารถในการสร้างหลายความละเอียด

จุดเด่นของ Stable Diffusion 3.5

ปรับแต่งได้ง่าย: สามารถ fine-tuning โมเดลให้ตรงกับความต้องการด้านการสร้างสรรค์เฉพาะทางได้ง่าย หรือสร้างแอปพลิเคชันตามเวิร์กโฟลว์ที่ปรับแต่งเองได้
ประสิทธิภาพที่มีประสิทธิผล: โดยเฉพาะโมเดล Stable Diffusion 3.5 Medium และ Stable Diffusion 3.5 Large Turbo ถูกปรับให้รันได้อย่างเหมาะสมบนฮาร์ดแวร์มาตรฐานระดับผู้บริโภคโดยไม่ต้องการสเปกหนัก
ผลลัพธ์ที่หลากหลาย: สามารถสร้างภาพที่แทนผู้คนจากทั่วโลกซึ่งมีสีผิวและลักษณะเฉพาะที่หลากหลายได้ โดยไม่ต้องพึ่งการเขียนพรอมป์ต์อย่างกว้างขวาง
Stable Diffusion 3.5 Large เป็นผู้นำตลาดด้านการทำตามพรอมป์ต์ และคุณภาพของภาพสามารถเทียบเคียงโมเดลที่มีขนาดใหญ่กว่ามากได้
Stable Diffusion 3.5 Large Turbo ให้เวลา inference ที่เร็วที่สุดเมื่อเทียบกับขนาด ขณะเดียวกันก็ยังแข่งขันได้อย่างมากทั้งในด้านคุณภาพของภาพและการทำตามพรอมป์ต์
Stable Diffusion 3.5 Medium เหนือกว่าโมเดลขนาดกลางอื่น ๆ โดยสร้างสมดุลระหว่างการทำตามพรอมป์ต์กับคุณภาพของภาพ เพื่อมอบประสิทธิภาพที่มีคุณภาพสูงและมีประสิทธิผล

ภาพรวมของ Stability AI Community License

ใช้งานฟรีสำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์: บุคคลและองค์กรสามารถใช้งานได้ฟรีเพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ รวมถึงการวิจัยทางวิทยาศาสตร์
ใช้งานฟรีสำหรับการใช้งานเชิงพาณิชย์ที่มีรายได้ต่อปีไม่เกิน 1 ล้านดอลลาร์: สตาร์ตอัป ธุรกิจขนาดกลางและขนาดย่อม และครีเอเตอร์ สามารถใช้งานเชิงพาณิชย์ได้ฟรีหากมีรายได้ต่อปีต่ำกว่า 1 ล้านดอลลาร์
ความเป็นเจ้าของผลลัพธ์: สามารถถือครองความเป็นเจ้าของสื่อที่สร้างขึ้นได้ โดยไม่มีนัยด้านการอนุญาตใช้งานที่เป็นข้อจำกัด
องค์กรที่มีรายได้ต่อปีมากกว่า 1 ล้านดอลลาร์สามารถติดต่อ Stability AI เพื่อสอบถามเกี่ยวกับไลเซนส์ระดับองค์กรได้

วิธีเข้าถึงโมเดล

ขณะนี้น้ำหนักของโมเดลพร้อมใช้งานบน Hugging Face สำหรับการ self-hosting
สามารถเข้าถึงโมเดลได้ผ่านแพลตฟอร์มอย่าง Stability AI API, Replicate, ComfyUI และ DeepInfra เช่นกัน

ความมุ่งมั่นของ Stability AI ด้านความปลอดภัย

Stability AI เชื่อมั่นในการปฏิบัติด้าน AI ที่ปลอดภัยและมีความรับผิดชอบ และได้ดำเนินมาตรการอย่างตั้งใจเพื่อรับรองความซื่อสัตย์ตั้งแต่ระยะเริ่มต้นของการพัฒนา
กำลังดำเนินมาตรการที่เหมาะสมเพื่อป้องกันการนำ Stable Diffusion 3.5 ไปใช้ในทางที่ผิดโดยผู้ไม่หวังดี

แผนในอนาคต

มีกำหนดเปิดตัว Stable Diffusion 3.5 Medium อย่างเป็นทางการในวันที่ 29 ตุลาคม
หลังจากนั้นจะเปิดตัว ControlNets ที่ให้ความสามารถในการควบคุมขั้นสูงสำหรับกรณีการใช้งานระดับมืออาชีพที่หลากหลาย