• ขนาดติดตั้งพื้นฐานอยู่ที่ 21MB ซึ่งเล็กกว่าไลบรารีทางเลือก 80-171MB
  • เร็วกว่าไลบรารียอดนิยมอื่น ๆ ในการแบ่งชังก์ตามโทเค็นถึง 33 เท่า
  • รองรับกลยุทธ์การแบ่งชังก์หลากหลายแบบ เช่น โทเค็น คำ ประโยค เชิงความหมาย และ SDPM
  • ใช้งานร่วมกับโทเค็นไนเซอร์หลักทั้งหมดได้ เช่น transformers, tokenizers, tiktoken
  • ไม่มีการพึ่งพาภายนอกสำหรับฟังก์ชันพื้นฐาน

การปรับแต่งทางเทคนิค

  • ใช้ tiktoken ที่รองรับมัลติเธรดเพื่อให้ทำโทเค็นไนซ์ได้เร็วขึ้น
  • ใช้การแคชเชิงรุกและการคำนวณล่วงหน้า
  • ใช้ Running Mean Pooling เพื่อการแบ่งชังก์เชิงความหมายที่มีประสิทธิภาพ
  • มีระบบการพึ่งพาแบบโมดูลาร์ที่ให้ติดตั้งเฉพาะสิ่งที่ต้องใช้ได้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น