DeepFloyd IF - โมเดล Text-to-Image โอเพนซอร์ส
(github.com/deep-floyd)- โมเดลภาพใหม่จาก Stability AI
- มีความเข้าใจภาษาสูงกว่าโมเดลเดิม และสร้างภาพแบบโฟโตเรียลลิสติกได้
- ผสาน Frozen text encoder ที่อิง T5 Transformer เข้ากับโมดูล pixel diffusion แบบ 3 ขั้นตอน
- 64x64, 256x256, 1024x1024px
- คะแนน Zero-shot FID 6.66 (ชุดข้อมูล COCO)
ยังไม่มีความคิดเห็น