ทำความเข้าใจ GPT Tokenizer

xguru · 2023-06-12T10:57:14+09:00

โมเดล LLM อย่าง GPT/LLaMA/PaLM ทำงานบนพื้นฐานของโทเค็น รับข้อความแล้วแปลงเป็นโทเค็น (จำนวนเต็ม) จากนั้นคาดเดาว่าโทเค็นใดจะออกมาถัดไป แม้ OpenAI จะเปิดเผย Tokenizer แล้ว แต่ผู้เขียนได้เผยแพร่เวอร์ชันของตนเองผ่าน Observable notebook (เพื่อการศึกษาโดยอิงจาก GPT-2) รองรับการแปลงข้อความเป็นโทเค็น, โทเค็นเป็นข้อความ และการค้นหาตารางโทเค็นทั้งหมด The dog eats the apples El perro come las manzanas 片仮名 อธิบายโดยใช้ผลลัพธ์จากการแปลงประโยคข้างต้นเป็นโทเค็น The และ the เป็นคนละโทเค็นกัน หลายคำมีโทเค็นที่รวมช่องว่างนำหน้าอยู่ด้วย (มีประสิทธิภาพกว่ามากสำหรับการเข้ารหัสทั้งประโยค) คำที่ไม่ใช่ภาษาอังกฤษจะถูกแปลงเป็นโทเค็นอย่างไม่มีประสิทธิภาพ

(simonwillison.net)

15 คะแนน โดย xguru 2023-06-12 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

โมเดล LLM อย่าง GPT/LLaMA/PaLM ทำงานบนพื้นฐานของโทเค็น
รับข้อความแล้วแปลงเป็นโทเค็น (จำนวนเต็ม) จากนั้นคาดเดาว่าโทเค็นใดจะออกมาถัดไป
แม้ OpenAI จะเปิดเผย Tokenizer แล้ว แต่ผู้เขียนได้เผยแพร่เวอร์ชันของตนเองผ่าน Observable notebook (เพื่อการศึกษาโดยอิงจาก GPT-2)
- รองรับการแปลงข้อความเป็นโทเค็น, โทเค็นเป็นข้อความ และการค้นหาตารางโทเค็นทั้งหมด
The dog eats the apples
El perro come las manzanas
片仮名
อธิบายโดยใช้ผลลัพธ์จากการแปลงประโยคข้างต้นเป็นโทเค็น
- The และ the เป็นคนละโทเค็นกัน
- หลายคำมีโทเค็นที่รวมช่องว่างนำหน้าอยู่ด้วย (มีประสิทธิภาพกว่ามากสำหรับการเข้ารหัสทั้งประโยค)
- คำที่ไม่ใช่ภาษาอังกฤษจะถูกแปลงเป็นโทเค็นอย่างไม่มีประสิทธิภาพ

ทำความเข้าใจ GPT Tokenizer

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น