• ชุดข้อมูลสำหรับการฝึก LLM ที่ประกอบด้วยตาราง 627M (627 ล้าน) ตาราง และโทเค็น 867B (8.67 แสนล้าน) โทเค็น
    • รวมตารางที่ดึงมาจากเว็บเพจ, Excel, CSV, SQLite เป็นต้น
    • มีข้อมูลเชิงบริบทที่หลากหลาย เช่น ชื่อไฟล์, URL ต้นทาง, ข้อความรอบแต่ละตาราง
  • หวังว่าจะช่วยให้เข้าใจและพัฒนาเทคนิคสำหรับงานด้านข้อมูลในรูปแบบตารางได้ดียิ่งขึ้น
  • มี 6.5 แสนล้านแถว และสูงสุด 8 พันล้านคอลัมน์
  • ตารางที่ใหญ่ที่สุดมี 32 ล้านแถว
  • ตารางที่กว้างที่สุดมี 3 ล้านคอลัมน์

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น