- ขนาดติดตั้งพื้นฐานอยู่ที่ 21MB ซึ่งเล็กกว่าไลบรารีทางเลือก 80-171MB
- เร็วกว่าไลบรารียอดนิยมอื่น ๆ ในการแบ่งชังก์ตามโทเค็นถึง 33 เท่า
- รองรับกลยุทธ์การแบ่งชังก์หลากหลายแบบ เช่น โทเค็น คำ ประโยค เชิงความหมาย และ SDPM
- ใช้งานร่วมกับโทเค็นไนเซอร์หลักทั้งหมดได้ เช่น transformers, tokenizers, tiktoken
- ไม่มีการพึ่งพาภายนอกสำหรับฟังก์ชันพื้นฐาน
การปรับแต่งทางเทคนิค
- ใช้ tiktoken ที่รองรับมัลติเธรดเพื่อให้ทำโทเค็นไนซ์ได้เร็วขึ้น
- ใช้การแคชเชิงรุกและการคำนวณล่วงหน้า
- ใช้ Running Mean Pooling เพื่อการแบ่งชังก์เชิงความหมายที่มีประสิทธิภาพ
- มีระบบการพึ่งพาแบบโมดูลาร์ที่ให้ติดตั้งเฉพาะสิ่งที่ต้องใช้ได้
ยังไม่มีความคิดเห็น