- โทเคไนเซอร์ประสิทธิภาพสูงที่เข้ากันได้กับ TikToken ของ OpenAI ได้ 100% โดยให้ ทรูพุตมากกว่า 2 เท่าและความเร็วในการโทเคไนซ์โค้ดเร็วขึ้น 4 เท่า สำหรับการประมวลผลข้อความขนาดใหญ่
- ใช้ เอนจินแยกวิเคราะห์ regular expression ความเร็วสูงที่อิงตาม PCRE2 เพื่อเพิ่มความเร็วในการจับคู่แพตเทิร์นของโทเค็นให้สูงสุด
- ใช้ อัลกอริทึม BPE แบบเรียบง่าย เพื่อลดการลดลงของประสิทธิภาพให้เหลือน้อยที่สุดเมื่อต้องจัดการ special token จำนวนมาก
- จากเบนช์มาร์กจริง การโทเคไนซ์โค้ดเร็วขึ้นมากกว่า 4 เท่า และสามารถนำไปใช้แทนโค้ดเดิมที่ใช้ TikToken ได้ทันที
- รองรับ Python 3.8+ ติดตั้งได้ง่ายผ่าน PyPI ด้วย
pip install tokendagger และมีการพึ่งพา PCRE2
1 ความคิดเห็น
ความคิดเห็นบน Hacker News