DALL-E 2 ทำงานอย่างไร?
(assemblyai.com)- การเชื่อมโยงข้อความกับความหมายเชิงภาพ (Semantics)
→ ใช้โมเดล CLIP: เรียนรู้จากภาพหลายร้อยล้านภาพและคำบรรยายที่เกี่ยวข้อง เพื่อเรียนรู้ว่าคำบรรยายนั้นเกี่ยวข้องกับภาพมากน้อยเพียงใด - การสร้างภาพจากความหมายเชิงภาพ
→ ใช้โมเดล GLIDE: เรียนรู้วิธีย้อนกระบวนการเข้ารหัสภาพ โดยใช้โมเดลการแพร่กระจาย (Diffusion) - การแมปจากความหมายของข้อความไปยังความหมายเชิงภาพที่สอดคล้องกัน
→ ใช้โมเดล Prior: แมปการเข้ารหัสข้อความของคำบรรยายภาพไปเป็นการเข้ารหัสภาพของภาพนั้น - การรวมทุกอย่างเข้าด้วยกัน
→ ตัวเข้ารหัสข้อความของ CLIP แมปคำอธิบายภาพไปยังพื้นที่ตัวแทน
→ Diffusion Prior แมปจากการเข้ารหัสข้อความของ CLIP ไปยังการเข้ารหัสภาพของ CLIP ที่เกี่ยวข้อง
→ โมเดลสร้างภาพ GLIDE ที่ปรับแก้แล้วใช้การแพร่ย้อนกลับเพื่อแมปจากพื้นที่ตัวแทนไปยังพื้นที่ภาพ และสร้างภาพที่เป็นไปได้จำนวนมากซึ่งถ่ายทอดข้อมูลความหมายภายในคำบรรยายที่ป้อนเข้าไป
3 ประเด็นสำคัญ
- DALL-E 2 แสดงให้เห็นพลังของโมเดลการแพร่กระจาย
- เน้นย้ำถึงความจำเป็นและพลังของการใช้ภาษาธรรมชาติเป็นวิธีการสำหรับฝึกโมเดลดีปเลิร์นนิงล้ำสมัย
- ยืนยันอีกครั้งว่า Transformers ยังคงอยู่ในตำแหน่งสูงสุดสำหรับโมเดลที่ฝึกบนชุดข้อมูลระดับเว็บ
1 ความคิดเห็น
การเปิดตัว DALL·E 2
สิ่งที่น่าลองทำด้วย DALL·E