- ชุดข้อมูลภาพที่ใหญ่ที่สุดในโลกในบรรดาที่เปิดให้ใช้งานฟรี
→ ดัมพ์ข้อมูลจากการครอลเว็บเพจในช่วงปี 2014~2021
- ภาพ/ข้อความทั้งหมดผ่านการกรองด้วย CLIP ของ OpenAI แล้ว
→ กรองคู่ที่มีความคล้ายคลึงกันระหว่างภาพ/ข้อความต่ำกว่า 0.3 ออก แล้วตรวจสอบด้วยมือ
- โครงสร้างของชุดข้อมูล
→ ไฟล์ Parquet เมตะดาต้า URL+คำบรรยาย ขนาด 50GB
→ เว็บดาต้าเซ็ตเวอร์ชันเต็มขนาด 10TB พร้อมภาพ 256x256/คำบรรยาย/เมตะดาต้า สามารถนำไปใช้ฝึกได้ทันที
→ คลิปเอมเบดดิงข้อความ/ภาพ 400M รายการ ขนาด 1TB มีประโยชน์สำหรับการสร้าง KNN indices ใหม่
→ KNN indices ขนาด 4GB จำนวน 2 ชุด ที่ช่วยให้ค้นหาชุดข้อมูลได้ง่ายขึ้น
SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT
ยังไม่มีความคิดเห็น