• โมเดล LLM อย่าง GPT/LLaMA/PaLM ทำงานบนพื้นฐานของโทเค็น
  • รับข้อความแล้วแปลงเป็นโทเค็น (จำนวนเต็ม) จากนั้นคาดเดาว่าโทเค็นใดจะออกมาถัดไป
  • แม้ OpenAI จะเปิดเผย Tokenizer แล้ว แต่ผู้เขียนได้เผยแพร่เวอร์ชันของตนเองผ่าน Observable notebook (เพื่อการศึกษาโดยอิงจาก GPT-2)
    • รองรับการแปลงข้อความเป็นโทเค็น, โทเค็นเป็นข้อความ และการค้นหาตารางโทเค็นทั้งหมด
  • The dog eats the apples
    El perro come las manzanas
    片仮名

  • อธิบายโดยใช้ผลลัพธ์จากการแปลงประโยคข้างต้นเป็นโทเค็น
    • The และ the เป็นคนละโทเค็นกัน
    • หลายคำมีโทเค็นที่รวมช่องว่างนำหน้าอยู่ด้วย (มีประสิทธิภาพกว่ามากสำหรับการเข้ารหัสทั้งประโยค)
    • คำที่ไม่ใช่ภาษาอังกฤษจะถูกแปลงเป็นโทเค็นอย่างไม่มีประสิทธิภาพ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น