- คู่มือที่อธิบายหลักการทำงานของโมเดลภาษาขนาดใหญ่ เช่น GPT-2, nano-gpt และ GPT-3 ในรูปแบบภาพ
- สารบัญ: บทนำและความรู้เบื้องต้น, เอ็มเบดดิ้ง, การทำให้เลเยอร์เป็นมาตรฐาน, เซลฟ์แอทเทนชัน, การฉายภาพ, MLP, ทรานส์ฟอร์เมอร์, Softmax, เอาต์พุต
สรุปส่วนแนะนำทั้งหมด
- ในกรณีของ
nano-gpt มีพารามิเตอร์ 85,000 ตัว
- เป้าหมายคือการเรียงสตริงความยาวหกตัวอักษรตามลำดับตัวอักษร
- สามารถยกตัวอย่างเป็นกระบวนการรับสตริง
C B A B B C แล้วเรียงเป็น ABBBCC
- ตัวอักษรแต่ละตัวในสตริงเรียกว่า "โทเค็น" และคำศัพท์ของโมเดลประกอบด้วยโทเค็นหลากหลายประเภท
- โทเค็นแต่ละตัวจะถูกกำหนดดัชนีตัวเลข และป้อนเข้าสู่โมเดล
- ตัวเลขแต่ละตัวจะถูกแปลงเป็นเวกเตอร์ที่มี 48 องค์ประกอบ ซึ่งเรียกว่า "เอ็มเบดดิ้ง"
- เอ็มเบดดิ้งจะผ่านชุดของเลเยอร์ที่เรียกว่า "ทรานส์ฟอร์เมอร์"
- ในท้ายที่สุด โมเดลจะทำนายความน่าจะเป็นของโทเค็นถัดไปสำหรับลำดับที่กำหนด
- โทเค็นที่ทำนายได้จะถูกป้อนกลับเข้าไปที่ด้านบนของโมเดล และกระบวนการทั้งหมดจะทำซ้ำ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
เป็นเครื่องมือที่มีประโยชน์มากในการทำความเข้าใจ LLM อย่างถึงราก
model.pyของ minGPTรู้สึกทึ่งที่ความซับซ้อนของอัลกอริทึมถูกแสดงออกมาอย่างชัดเจนในพื้นที่ 3 มิติ
ภาพทำความเข้าใจนี้น่าทึ่งจริง ๆ
นี่คือวิธีการทำภาพที่ตามหามาหลายเดือน
ถึงขั้นตั้งชื่อได้ว่า 'ชำแหละเวทมนตร์ด้วยการคูณเมทริกซ์และดอตโปรดักต์'
โมเดล 3 มิติน่าทึ่งมากในเชิงการศึกษา
ยิ่งทึ่งเข้าไปอีกว่า LLM ทำงานได้ดีอย่างไร
คำอธิบายเรื่องพลังของ self attention มักถูกละไว้บ่อยครั้ง
มีการแชร์บริบทเพิ่มเติมเกี่ยวกับงานนี้ในเธรด Twitter ของผู้เขียน
หากต้องการเวอร์ชันมิติต่ำสำหรับโมเดลของตัวเอง ก็มีการแนะนำไลบรารี Netron
นี่ไม่ใช่แค่โมเดล 3 มิติแบบง่าย ๆ แต่เป็นงานที่ลงลึก
ภาพทำความเข้าใจนี้น่าทึ่งจริง ๆ
นี่คือเหตุผลที่รัก Hacker News