การเปิดตัว Stable Diffusion 3

xguru · 2024-02-23T09:16:02+09:00

Stable Diffusion 3 เป็นโมเดลข้อความเป็นภาพที่ยอดเยี่ยม ให้ประสิทธิภาพที่ดีขึ้นอย่างมากในปริมาณ prompt หลายหัวข้อ คุณภาพของรูปภาพ และความสามารถในการสะกดคำ แม้ยังไม่พร้อมให้ใช้งานอย่างแพร่หลาย แต่ได้เริ่มรับลงทะเบียนรายชื่อผู้รอเข้าร่วม Early Preview เช่นเดียวกับโมเดลก่อนหน้า ช่วงตัวอย่างก่อนเปิดตัวนี้เป็นขั้นตอนสำคัญในการได้รับข้อมูลเชิงลึกเพื่อปรับปรุงประสิทธิภาพและความปลอดภัยให้ดียิ่งขึ้น ขอบเขตและเทคโนโลยีของโมเดล ชุดโมเดล Stable Diffusion 3 ครอบคลุมช่วงพารามิเตอร์ 800M ถึง 8B แนวทางนี้สอดคล้องกับค่านิยมหลัก และมีเป้าหมายให้ทุกคนเข้าถึงได้ โดยเสนอทางเลือกที่หลากหลายที่มีการขยายตัวและคุณภาพสูงสุดเพื่อให้สอดรับกับความต้องการเชิงสร้างสรรค์ของผู้ใช้ได้ดีที่สุด SD3 ผสานสถาปัตยกรรม Diffusion Transformer เข้ากับ Flow Matching รายงานทางเทคนิคโดยละเอียดจะถูกเผยแพร่เร็วๆ นี้ การปฏิบัติ AI อย่างปลอดภัยและมีความรับผิดชอบ เราให้ความสำคัญกับการผลักดัน AI ที่ปลอดภัยและรับผิดชอบ เพื่อป้องกันการใช้ Stable Diffusion 3 ในทางที่ไม่เหมาะสม เราได้ดำเนินมาตรการที่เหมาะสม ซึ่งครอบคลุมตั้งแต่ช่วงเริ่มต้นของการฝึกโมเดลผ่านการทดสอบ การประเมินผล และการปรับใช้งานอย่างต่อเนื่อง เราได้เพิ่มมาตรการความปลอดภัยจำนวนมากในการเตรียม Early Preview เราคาดหวังว่าจะพัฒนาขึ้นต่อไปได้อีกมากผ่านความร่วมมืออย่างต่อเนื่องกับนักวิจัย ผู้เชี่ยวชาญ และชุมชน เมื่อโมเดลได้รับการนำเสนอสู่สาธารณะ คำมั่นสัญญาและการกระตุ้นความคิดสร้างสรรค์ ความมุ่งมั่นในการทำให้ AI สร้างสรรค์เป็นระบบที่เปิดกว้าง ปลอดภัย และเข้าถึงได้อย่างกว้างขวางยังคงมั่นคง ด้วย Stable Diffusion 3 เราจะนำเสนอโซลูชันที่ยืดหยุ่น เพื่อให้บุคคล นักพัฒนา และองค์กรได้แสดงศักยภาพความคิดสร้างสรรค์ของตน หากต้องการใช้โมเดลสร้างภาพอื่นเพื่อการใช้งานเชิงพาณิชย์ก่อนการเปิดตัว Stable Diffusion 3 ให้ไปที่หน้า Membership ของ Stability AI หรื อเข้าถึง API ผ่านแพลตฟอร์มสำหรับนักพัฒนาได้

(stability.ai)

9 คะแนน โดย xguru 2024-02-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Stable Diffusion 3 เป็นโมเดลข้อความเป็นภาพที่ยอดเยี่ยม ให้ประสิทธิภาพที่ดีขึ้นอย่างมากในปริมาณ prompt หลายหัวข้อ คุณภาพของรูปภาพ และความสามารถในการสะกดคำ
แม้ยังไม่พร้อมให้ใช้งานอย่างแพร่หลาย แต่ได้เริ่มรับลงทะเบียนรายชื่อผู้รอเข้าร่วม Early Preview
เช่นเดียวกับโมเดลก่อนหน้า ช่วงตัวอย่างก่อนเปิดตัวนี้เป็นขั้นตอนสำคัญในการได้รับข้อมูลเชิงลึกเพื่อปรับปรุงประสิทธิภาพและความปลอดภัยให้ดียิ่งขึ้น

ขอบเขตและเทคโนโลยีของโมเดล

ชุดโมเดล Stable Diffusion 3 ครอบคลุมช่วงพารามิเตอร์ 800M ถึง 8B
แนวทางนี้สอดคล้องกับค่านิยมหลัก และมีเป้าหมายให้ทุกคนเข้าถึงได้ โดยเสนอทางเลือกที่หลากหลายที่มีการขยายตัวและคุณภาพสูงสุดเพื่อให้สอดรับกับความต้องการเชิงสร้างสรรค์ของผู้ใช้ได้ดีที่สุด
SD3 ผสานสถาปัตยกรรม Diffusion Transformer เข้ากับ Flow Matching
รายงานทางเทคนิคโดยละเอียดจะถูกเผยแพร่เร็วๆ นี้

การปฏิบัติ AI อย่างปลอดภัยและมีความรับผิดชอบ

เราให้ความสำคัญกับการผลักดัน AI ที่ปลอดภัยและรับผิดชอบ
เพื่อป้องกันการใช้ Stable Diffusion 3 ในทางที่ไม่เหมาะสม เราได้ดำเนินมาตรการที่เหมาะสม ซึ่งครอบคลุมตั้งแต่ช่วงเริ่มต้นของการฝึกโมเดลผ่านการทดสอบ การประเมินผล และการปรับใช้งานอย่างต่อเนื่อง
เราได้เพิ่มมาตรการความปลอดภัยจำนวนมากในการเตรียม Early Preview
เราคาดหวังว่าจะพัฒนาขึ้นต่อไปได้อีกมากผ่านความร่วมมืออย่างต่อเนื่องกับนักวิจัย ผู้เชี่ยวชาญ และชุมชน เมื่อโมเดลได้รับการนำเสนอสู่สาธารณะ

คำมั่นสัญญาและการกระตุ้นความคิดสร้างสรรค์

ความมุ่งมั่นในการทำให้ AI สร้างสรรค์เป็นระบบที่เปิดกว้าง ปลอดภัย และเข้าถึงได้อย่างกว้างขวางยังคงมั่นคง
ด้วย Stable Diffusion 3 เราจะนำเสนอโซลูชันที่ยืดหยุ่น เพื่อให้บุคคล นักพัฒนา และองค์กรได้แสดงศักยภาพความคิดสร้างสรรค์ของตน
หากต้องการใช้โมเดลสร้างภาพอื่นเพื่อการใช้งานเชิงพาณิชย์ก่อนการเปิดตัว Stable Diffusion 3 ให้ไปที่หน้า Membership ของ Stability AI หรื อเข้าถึง API ผ่านแพลตฟอร์มสำหรับนักพัฒนาได้

1 ความคิดเห็น

xguru 2024-02-23

ความคิดเห็นจาก Hacker News

ใช้ตัวแปลงแบบดิฟฟิวชันประเภทใหม่ โดยผสานความสอดคล้องของการไหล (flow matching) และการปรับปรุงอื่น ๆ
- ใช้การปรับปรุงตัวแปลงเพื่อขยายขนาดได้มากขึ้น และรับข้อมูลแบบมัลติโมดัลได้
- วางแผนเปิดตัวพร้อมยกระดับคุณภาพและความปลอดภัย และปล่อยพร้อมระบบนิเวศเครื่องมือทั้งหมดยิ่งขึ้น
- เป็นสถาปัตยกรรมฐานใหม่ที่ใช้ฮาร์ดแวร์รุ่นล่าสุด และมีให้บริการในทุกขนาด
- ทำให้วิดีโอ, 3D และอื่น ๆ เป็นไปได้
- ต้องการ GPU มากขึ้น
- รายละเอียดทางเทคนิคจะถูกเผยแพร่อย่างไม่ช้า
- หากมี GPU และข้อมูลที่ดีเพียงพอ จะสามารถสร้างวิดีโอแบบคล้าย Sora ได้
- มีให้หลายขนาด ตั้งแต่ 80 ล้านถึง 8 พันล้านพารามิเตอร์ จึงสามารถใช้กับ GPU ทุกประเภทได้
การยึดติดในเรื่องความปลอดภัยดูเหมือนเป็นการพลาดโอกาสด้านการตลาด โดยพิจารณาจากเหตุการณ์ Gemini ที่เกิดขึ้นล่าสุด
- การตั้งค่าความปลอดภัยที่เข้มงวดเกินไปทำให้ภาพส่วนใหญ่เบลอ และพรอมต์ที่เคยใช้ได้ในเวอร์ชันก่อนหน้านี้ กลับออกมาเบลอใน SDXL
- หากเวอร์ชันถัดไปก็เป็นแบบนี้ ผมจะหยุดใช้ Stability API
- อยากรู้ว่ามีบริการแปลงข้อความเป็นภาพตัวอื่นที่ให้คุณค่าและคุณภาพใกล้เคียง Stable Diffusion โดยไม่ทำให้ภาพเบลอเกินไปหรือไม่
เมื่อมองจากสถานการณ์การเซ็นเซอร์ในตอนนี้ จะน่าสนใจที่จะดูว่าครั้งนี้คำว่า "ความปลอดภัย" หมายถึงอะไร
- มีความยากลำบากพอสมควรเมื่อพยายามใช้ DALL·E สร้างภาพอาวุธสำหรับทรัพย์สินในเกม
ครึ่งหนึ่งของแถลงการณ์การเปิดตัวคือข้อความว่า "เรามีความรับผิดชอบและปลอดภัยอย่างแท้จริง"
รูปสาธิตทั้งหมดเป็น 'artwork'
- ควรสงสัยว่าโมเดลสามารถสร้างภาพถ่าย, แผนผังทางเทคนิค และสื่อกราฟิกอื่น ๆ ได้ดีหรือไม่
ด้านข้อความ/การสะกดเป็นความก้าวหน้าที่สำคัญมาก
มีการเขียนส่วน "ความปลอดภัย" ใหม่ โดยเปลี่ยนเป็นมีดในจินตนาการชื่อ 'Big Knife' แทนเครื่องมือ AI
- "เราเชื่อในการใช้มีดอย่างปลอดภัยและรับผิดชอบ ซึ่งหมายถึงการดำเนินการที่สมเหตุสมผลเพื่อป้องกันการนำ Big Knife ไปใช้อย่างไม่เหมาะสมโดยผู้ไม่หวังดี"