10 คะแนน โดย xguru 2021-01-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • GPT-3 เวอร์ชันที่มีพารามิเตอร์ 12 พันล้านตัว

  • เป็นโมเดลที่ฝึกให้สร้างภาพจากคำอธิบายข้อความ โดยใช้ชุดข้อมูลที่เป็นคู่ระหว่างข้อความและภาพ

  • แสดงความสามารถได้หลากหลาย เช่น การสร้างเวอร์ชันทำให้สัตว์และวัตถุมีลักษณะเหมือนมนุษย์ การผสานแนวคิดที่ไม่เกี่ยวข้องกันให้ดูสมจริง การเรนเดอร์ข้อความ หรือการดัดแปลงภาพที่มีอยู่แล้ว

→ ควบคุมคุณลักษณะได้: รูปร่าง สี วัสดุ จำนวนครั้งที่ปรากฏ เป็นต้น

→ วาดวัตถุหลายชิ้นพร้อมกันและแสดงความสัมพันธ์ระหว่างกัน

→ แสดงมุมมองแบบเพอร์สเปกทีฟและการมองเห็นแบบสามมิติ

→ แสดงโครงสร้างภายในและภายนอก: ด้านในของวอลนัต, brain coral เป็นต้น

→ อนุมานรายละเอียดตามสถานการณ์: แสดงผลโดยเปลี่ยนสไตล์/ฉาก/เวลา เช่น การแสดงเงาให้เหมาะกับสถานการณ์

→ การออกแบบแฟชั่นและการตกแต่งภายใน

→ ผสมแนวคิดที่ไม่เกี่ยวข้องกันเลย: หอยทากที่ทำจากพิณ, เก้าอี้รูปอะโวคาโด

→ Zero-shot visual reasoning

→ สร้างภาพโดยอิงจากข้อมูลภูมิศาสตร์/เวลา

  • DALL·E รับโทเค็นข้อความ 256 โทเค็นและโทเค็นภาพ 1024 โทเค็นเป็นสตรีมเดียว แล้วสร้างแบบจำลองด้วยวิธีออโตรีเกรสซีฟในรูปแบบ Decoder-only transformer

1 ความคิดเห็น

 
heycalmdown 2021-01-08

โอ้โห นี่สุดยอดมากจริง ๆ ตั้งตารอวันที่มันจะถูกนำมาใช้ในชีวิตประจำวันครับ