- แนะนำกระบวนการทำงานของ โมเดลภาษาขนาดใหญ่แบบ GPT อย่าง nano-gpt แบบย่อ
- โมเดลนี้มีเป้าหมายในการรับลำดับ ตัวอักษร 6 ตัว แล้วจัดเรียงตาม ลำดับตัวอักษร
- ตัวอักษรแต่ละตัวถือเป็น โทเค็น และทุกโทเค็นมี ดัชนีโทเค็น เฉพาะของตัวเอง
- ดัชนีโทเค็นแต่ละตัวจะถูกแปลงเป็น เวกเตอร์ embedding ขนาด 48 มิติ แล้วส่งผ่านชุดของ เลเยอร์ทรานส์ฟอร์เมอร์
- โมเดลจะทำนาย โทเค็นถัดไป และสามารถนำผลลัพธ์มาใส่กลับเป็นอินพุตซ้ำเพื่อพัฒนาลำดับอินพุตต่อไปได้
แนะนำโมเดลภาษา GPT
- เอกสารนี้เป็นสื่อที่อธิบายกระบวนการทำงานของ โมเดลภาษาขนาดใหญ่ GPT ในเชิงภาพ
- ที่นี่ใช้โมเดลขนาดเล็กมากชื่อ nano-gpt (มีพารามิเตอร์ประมาณ 85,000 ตัว)
- เป้าหมายของโมเดลคือรับลำดับที่ประกอบด้วยตัวอักษร 6 ตัว แล้วจัดเรียงตามลำดับตัวอักษร (เช่น "ABBBCC")
โทเค็นและคำศัพท์
- ตัวอักษรแต่ละตัวถูกกำหนดให้เป็น โทเค็น (token) และชุดของโทเค็นทั้งหมดที่โมเดลรู้จักเรียกว่า คำศัพท์ (vocabulary)
- ในตาราง โทเค็นแต่ละตัวจะได้รับ หมายเลขเฉพาะ (token index)
- ลำดับตัวเลขของดัชนีโทเค็นนี้จะถูกใช้เป็นอินพุตของโมเดล
การแปลงอินพุตและ embedding
- ในภาพ 3D เซลล์สีเขียว แสดงตัวเลขที่กำลังถูกประมวลผล และ เซลล์สีน้ำเงิน แสดง ค่าน้ำหนัก (weight) ของโมเดล
- ตัวเลขอินพุตแต่ละตัวจะถูกแปลงเป็น เวกเตอร์ embedding ขนาด 48 มิติ
- embedding นี้จะผ่าน เลเยอร์ทรานส์ฟอร์เมอร์ หลายชั้นภายในโครงสร้างของโมเดลอย่างต่อเนื่อง
เอาต์พุตและกระบวนการทำนาย
- เอาต์พุตของโมเดลจะแสดงเป็นความน่าจะเป็นของ โทเค็นถัดไป ที่คาดการณ์ได้ในลำดับนั้น
- ที่ตำแหน่งอินพุตลำดับที่ 6 โมเดลจะทำนายการกระจายความน่าจะเป็นที่โทเค็นถัดไปจะเป็น 'A', 'B', 'C'
- ในตัวอย่างนี้ โมเดลทำนายว่า มีความน่าจะเป็นสูงสุดที่จะเป็น 'A'
- สามารถนำผลการทำนายนี้ใส่กลับเข้าเป็นอินพุตแล้วทำกระบวนการซ้ำ เพื่อสร้างลำดับทั้งหมดขึ้นมา
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
LLM Visualization - ธันวาคม 2023, ความคิดเห็น 131 รายการ
https://poloclub.github.io/transformer-explainer/
และยังแนะนำสื่ออธิบายภาพชื่อดังอย่าง 'The Illustrated Transformer' ด้วย
https://jalammar.github.io/illustrated-transformer/
ยังมีโพสต์ที่ Sebastian Raschka, PhD เขียนเกี่ยวกับสถาปัตยกรรมด้วย
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
และในคอมเมนต์นี้บน Hacker News ก็สามารถดูแหล่งข้อมูลหลากหลายได้ในที่เดียว
https://news.ycombinator.com/item?id=35712334
https://alphacode.deepmind.com/
(ถ้าใช้มือถือ ให้กดเล่นแล้วซูมออกจนสุด จากนั้นเลื่อนลง)