COYO-700M - ชุดข้อมูลคู่ภาพ-ข้อความ 740 ล้านคู่ที่ Kakao Brain เปิดเผย
(github.com/kakaobrain)- ชุดข้อมูลสำหรับการฝึกขนาดใหญ่ที่มีคู่ภาพ-ข้อความราว 740 ล้านคู่ พร้อมแอตทริบิวต์อื่น ๆ อีกมากมาย
- รวบรวมรูปภาพในเอกสาร HTML และแอตทริบิวต์
alt(สตริงที่จะแสดงเมื่อรูปภาพไม่สามารถแสดงบนหน้าจอได้ใน HTML) - คาดว่าจะถูกนำไปใช้ฝึกโมเดลพื้นฐานขนาดใหญ่ โดยช่วยเสริมชุดข้อมูลอื่นที่คล้ายกัน
- ก่อนหน้านี้ ‘COYO’ ถูกนำไปใช้ในการพัฒนาโมเดลสร้างภาพด้วย AI ขนาดมหึมา ‘RQ-Transformer’ และ AI Artist ‘Karlo’ ที่เปิดเผยไปแล้ว
- รายละเอียดกระบวนการเก็บข้อมูลสามารถดูได้ในบทความวิชาการที่จะเผยแพร่ในภายหลัง
1 ความคิดเห็น
COYO-700M: ชุดข้อมูลคู่ภาพ-ข้อความ
Kakao Brain เปิดตัว ‘COYO’ ชุดข้อมูลระดับแนวหน้าของโลก