ทำความเข้าใจ GPT Tokenizer
(simonwillison.net)- โมเดล LLM อย่าง GPT/LLaMA/PaLM ทำงานบนพื้นฐานของโทเค็น
- รับข้อความแล้วแปลงเป็นโทเค็น (จำนวนเต็ม) จากนั้นคาดเดาว่าโทเค็นใดจะออกมาถัดไป
- แม้ OpenAI จะเปิดเผย Tokenizer แล้ว แต่ผู้เขียนได้เผยแพร่เวอร์ชันของตนเองผ่าน Observable notebook (เพื่อการศึกษาโดยอิงจาก GPT-2)
- รองรับการแปลงข้อความเป็นโทเค็น, โทเค็นเป็นข้อความ และการค้นหาตารางโทเค็นทั้งหมด
-
The dog eats the apples
El perro come las manzanas
片仮名 - อธิบายโดยใช้ผลลัพธ์จากการแปลงประโยคข้างต้นเป็นโทเค็น
Theและtheเป็นคนละโทเค็นกัน- หลายคำมีโทเค็นที่รวมช่องว่างนำหน้าอยู่ด้วย (มีประสิทธิภาพกว่ามากสำหรับการเข้ารหัสทั้งประโยค)
- คำที่ไม่ใช่ภาษาอังกฤษจะถูกแปลงเป็นโทเค็นอย่างไม่มีประสิทธิภาพ
ยังไม่มีความคิดเห็น