• ชุดข้อมูลภาพที่ใหญ่ที่สุดในโลกในบรรดาที่เปิดให้ใช้งานฟรี

→ ดัมพ์ข้อมูลจากการครอลเว็บเพจในช่วงปี 2014~2021

  • ภาพ/ข้อความทั้งหมดผ่านการกรองด้วย CLIP ของ OpenAI แล้ว

→ กรองคู่ที่มีความคล้ายคลึงกันระหว่างภาพ/ข้อความต่ำกว่า 0.3 ออก แล้วตรวจสอบด้วยมือ

  • โครงสร้างของชุดข้อมูล

→ ไฟล์ Parquet เมตะดาต้า URL+คำบรรยาย ขนาด 50GB

→ เว็บดาต้าเซ็ตเวอร์ชันเต็มขนาด 10TB พร้อมภาพ 256x256/คำบรรยาย/เมตะดาต้า สามารถนำไปใช้ฝึกได้ทันที

→ คลิปเอมเบดดิงข้อความ/ภาพ 400M รายการ ขนาด 1TB มีประโยชน์สำหรับการสร้าง KNN indices ใหม่

→ KNN indices ขนาด 4GB จำนวน 2 ชุด ที่ช่วยให้ค้นหาชุดข้อมูลได้ง่ายขึ้น

SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น