DeepFloyd IF - โมเดล Text-to-Image โอเพนซอร์ส

xguru · 2023-04-30T10:03:02+09:00

โมเดลภาพใหม่จาก Stability AI มีความเข้าใจภาษาสูงกว่าโมเดลเดิม และสร้างภาพแบบโฟโตเรียลลิสติกได้ ผสาน Frozen text encoder ที่อิง T5 Transformer เข้ากับโมดูล pixel diffusion แบบ 3 ขั้นตอน 64x64, 256x256, 1024x1024px คะแนน Zero-shot FID 6.66 (ชุดข้อมูล COCO)

(github.com/deep-floyd)

14 คะแนน โดย xguru 2023-04-30 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

โมเดลภาพใหม่จาก Stability AI
มีความเข้าใจภาษาสูงกว่าโมเดลเดิม และสร้างภาพแบบโฟโตเรียลลิสติกได้
ผสาน Frozen text encoder ที่อิง T5 Transformer เข้ากับโมดูล pixel diffusion แบบ 3 ขั้นตอน
- 64x64, 256x256, 1024x1024px
คะแนน Zero-shot FID 6.66 (ชุดข้อมูล COCO)

DeepFloyd IF - โมเดล Text-to-Image โอเพนซอร์ส

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น