TabLib - ชุดข้อมูล Tabular Token 867B
(approximatelabs.com)- ชุดข้อมูลสำหรับการฝึก LLM ที่ประกอบด้วยตาราง 627M (627 ล้าน) ตาราง และโทเค็น 867B (8.67 แสนล้าน) โทเค็น
- รวมตารางที่ดึงมาจากเว็บเพจ, Excel, CSV, SQLite เป็นต้น
- มีข้อมูลเชิงบริบทที่หลากหลาย เช่น ชื่อไฟล์, URL ต้นทาง, ข้อความรอบแต่ละตาราง
- หวังว่าจะช่วยให้เข้าใจและพัฒนาเทคนิคสำหรับงานด้านข้อมูลในรูปแบบตารางได้ดียิ่งขึ้น
- มี 6.5 แสนล้านแถว และสูงสุด 8 พันล้านคอลัมน์
- ตารางที่ใหญ่ที่สุดมี 32 ล้านแถว
- ตารางที่กว้างที่สุดมี 3 ล้านคอลัมน์
ยังไม่มีความคิดเห็น