9 คะแนน โดย xguru 2024-02-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Stable Diffusion 3 เป็นโมเดลข้อความเป็นภาพที่ยอดเยี่ยม ให้ประสิทธิภาพที่ดีขึ้นอย่างมากในปริมาณ prompt หลายหัวข้อ คุณภาพของรูปภาพ และความสามารถในการสะกดคำ
  • แม้ยังไม่พร้อมให้ใช้งานอย่างแพร่หลาย แต่ได้เริ่มรับลงทะเบียนรายชื่อผู้รอเข้าร่วม Early Preview
  • เช่นเดียวกับโมเดลก่อนหน้า ช่วงตัวอย่างก่อนเปิดตัวนี้เป็นขั้นตอนสำคัญในการได้รับข้อมูลเชิงลึกเพื่อปรับปรุงประสิทธิภาพและความปลอดภัยให้ดียิ่งขึ้น

ขอบเขตและเทคโนโลยีของโมเดล

  • ชุดโมเดล Stable Diffusion 3 ครอบคลุมช่วงพารามิเตอร์ 800M ถึง 8B
  • แนวทางนี้สอดคล้องกับค่านิยมหลัก และมีเป้าหมายให้ทุกคนเข้าถึงได้ โดยเสนอทางเลือกที่หลากหลายที่มีการขยายตัวและคุณภาพสูงสุดเพื่อให้สอดรับกับความต้องการเชิงสร้างสรรค์ของผู้ใช้ได้ดีที่สุด
  • SD3 ผสานสถาปัตยกรรม Diffusion Transformer เข้ากับ Flow Matching
  • รายงานทางเทคนิคโดยละเอียดจะถูกเผยแพร่เร็วๆ นี้

การปฏิบัติ AI อย่างปลอดภัยและมีความรับผิดชอบ

  • เราให้ความสำคัญกับการผลักดัน AI ที่ปลอดภัยและรับผิดชอบ
  • เพื่อป้องกันการใช้ Stable Diffusion 3 ในทางที่ไม่เหมาะสม เราได้ดำเนินมาตรการที่เหมาะสม ซึ่งครอบคลุมตั้งแต่ช่วงเริ่มต้นของการฝึกโมเดลผ่านการทดสอบ การประเมินผล และการปรับใช้งานอย่างต่อเนื่อง
  • เราได้เพิ่มมาตรการความปลอดภัยจำนวนมากในการเตรียม Early Preview
  • เราคาดหวังว่าจะพัฒนาขึ้นต่อไปได้อีกมากผ่านความร่วมมืออย่างต่อเนื่องกับนักวิจัย ผู้เชี่ยวชาญ และชุมชน เมื่อโมเดลได้รับการนำเสนอสู่สาธารณะ

คำมั่นสัญญาและการกระตุ้นความคิดสร้างสรรค์

  • ความมุ่งมั่นในการทำให้ AI สร้างสรรค์เป็นระบบที่เปิดกว้าง ปลอดภัย และเข้าถึงได้อย่างกว้างขวางยังคงมั่นคง
  • ด้วย Stable Diffusion 3 เราจะนำเสนอโซลูชันที่ยืดหยุ่น เพื่อให้บุคคล นักพัฒนา และองค์กรได้แสดงศักยภาพความคิดสร้างสรรค์ของตน
  • หากต้องการใช้โมเดลสร้างภาพอื่นเพื่อการใช้งานเชิงพาณิชย์ก่อนการเปิดตัว Stable Diffusion 3 ให้ไปที่หน้า Membership ของ Stability AI หรื อเข้าถึง API ผ่านแพลตฟอร์มสำหรับนักพัฒนาได้

1 ความคิดเห็น

 
xguru 2024-02-23

ความคิดเห็นจาก Hacker News

  • ใช้ตัวแปลงแบบดิฟฟิวชันประเภทใหม่ โดยผสานความสอดคล้องของการไหล (flow matching) และการปรับปรุงอื่น ๆ

    • ใช้การปรับปรุงตัวแปลงเพื่อขยายขนาดได้มากขึ้น และรับข้อมูลแบบมัลติโมดัลได้
    • วางแผนเปิดตัวพร้อมยกระดับคุณภาพและความปลอดภัย และปล่อยพร้อมระบบนิเวศเครื่องมือทั้งหมดยิ่งขึ้น
    • เป็นสถาปัตยกรรมฐานใหม่ที่ใช้ฮาร์ดแวร์รุ่นล่าสุด และมีให้บริการในทุกขนาด
    • ทำให้วิดีโอ, 3D และอื่น ๆ เป็นไปได้
    • ต้องการ GPU มากขึ้น
    • รายละเอียดทางเทคนิคจะถูกเผยแพร่อย่างไม่ช้า
    • หากมี GPU และข้อมูลที่ดีเพียงพอ จะสามารถสร้างวิดีโอแบบคล้าย Sora ได้
    • มีให้หลายขนาด ตั้งแต่ 80 ล้านถึง 8 พันล้านพารามิเตอร์ จึงสามารถใช้กับ GPU ทุกประเภทได้
  • การยึดติดในเรื่องความปลอดภัยดูเหมือนเป็นการพลาดโอกาสด้านการตลาด โดยพิจารณาจากเหตุการณ์ Gemini ที่เกิดขึ้นล่าสุด

    • การตั้งค่าความปลอดภัยที่เข้มงวดเกินไปทำให้ภาพส่วนใหญ่เบลอ และพรอมต์ที่เคยใช้ได้ในเวอร์ชันก่อนหน้านี้ กลับออกมาเบลอใน SDXL
    • หากเวอร์ชันถัดไปก็เป็นแบบนี้ ผมจะหยุดใช้ Stability API
    • อยากรู้ว่ามีบริการแปลงข้อความเป็นภาพตัวอื่นที่ให้คุณค่าและคุณภาพใกล้เคียง Stable Diffusion โดยไม่ทำให้ภาพเบลอเกินไปหรือไม่
  • เมื่อมองจากสถานการณ์การเซ็นเซอร์ในตอนนี้ จะน่าสนใจที่จะดูว่าครั้งนี้คำว่า "ความปลอดภัย" หมายถึงอะไร

    • มีความยากลำบากพอสมควรเมื่อพยายามใช้ DALL·E สร้างภาพอาวุธสำหรับทรัพย์สินในเกม
  • ครึ่งหนึ่งของแถลงการณ์การเปิดตัวคือข้อความว่า "เรามีความรับผิดชอบและปลอดภัยอย่างแท้จริง"

  • รูปสาธิตทั้งหมดเป็น 'artwork'

    • ควรสงสัยว่าโมเดลสามารถสร้างภาพถ่าย, แผนผังทางเทคนิค และสื่อกราฟิกอื่น ๆ ได้ดีหรือไม่
  • ด้านข้อความ/การสะกดเป็นความก้าวหน้าที่สำคัญมาก

  • มีการเขียนส่วน "ความปลอดภัย" ใหม่ โดยเปลี่ยนเป็นมีดในจินตนาการชื่อ 'Big Knife' แทนเครื่องมือ AI

    • "เราเชื่อในการใช้มีดอย่างปลอดภัยและรับผิดชอบ ซึ่งหมายถึงการดำเนินการที่สมเหตุสมผลเพื่อป้องกันการนำ Big Knife ไปใช้อย่างไม่เหมาะสมโดยผู้ไม่หวังดี"