DALL·E : สร้างภาพจากข้อความ
(openai.com)-
GPT-3 เวอร์ชันที่มีพารามิเตอร์ 12 พันล้านตัว
-
เป็นโมเดลที่ฝึกให้สร้างภาพจากคำอธิบายข้อความ โดยใช้ชุดข้อมูลที่เป็นคู่ระหว่างข้อความและภาพ
-
แสดงความสามารถได้หลากหลาย เช่น การสร้างเวอร์ชันทำให้สัตว์และวัตถุมีลักษณะเหมือนมนุษย์ การผสานแนวคิดที่ไม่เกี่ยวข้องกันให้ดูสมจริง การเรนเดอร์ข้อความ หรือการดัดแปลงภาพที่มีอยู่แล้ว
→ ควบคุมคุณลักษณะได้: รูปร่าง สี วัสดุ จำนวนครั้งที่ปรากฏ เป็นต้น
→ วาดวัตถุหลายชิ้นพร้อมกันและแสดงความสัมพันธ์ระหว่างกัน
→ แสดงมุมมองแบบเพอร์สเปกทีฟและการมองเห็นแบบสามมิติ
→ แสดงโครงสร้างภายในและภายนอก: ด้านในของวอลนัต, brain coral เป็นต้น
→ อนุมานรายละเอียดตามสถานการณ์: แสดงผลโดยเปลี่ยนสไตล์/ฉาก/เวลา เช่น การแสดงเงาให้เหมาะกับสถานการณ์
→ การออกแบบแฟชั่นและการตกแต่งภายใน
→ ผสมแนวคิดที่ไม่เกี่ยวข้องกันเลย: หอยทากที่ทำจากพิณ, เก้าอี้รูปอะโวคาโด
→ Zero-shot visual reasoning
→ สร้างภาพโดยอิงจากข้อมูลภูมิศาสตร์/เวลา
- DALL·E รับโทเค็นข้อความ 256 โทเค็นและโทเค็นภาพ 1024 โทเค็นเป็นสตรีมเดียว แล้วสร้างแบบจำลองด้วยวิธีออโตรีเกรสซีฟในรูปแบบ Decoder-only transformer
1 ความคิดเห็น
โอ้โห นี่สุดยอดมากจริง ๆ ตั้งตารอวันที่มันจะถูกนำมาใช้ในชีวิตประจำวันครับ