47 คะแนน โดย GN⁺ 2023-12-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • คู่มือที่อธิบายหลักการทำงานของโมเดลภาษาขนาดใหญ่ เช่น GPT-2, nano-gpt และ GPT-3 ในรูปแบบภาพ
  • สารบัญ: บทนำและความรู้เบื้องต้น, เอ็มเบดดิ้ง, การทำให้เลเยอร์เป็นมาตรฐาน, เซลฟ์แอทเทนชัน, การฉายภาพ, MLP, ทรานส์ฟอร์เมอร์, Softmax, เอาต์พุต

สรุปส่วนแนะนำทั้งหมด

  • ในกรณีของ nano-gpt มีพารามิเตอร์ 85,000 ตัว
  • เป้าหมายคือการเรียงสตริงความยาวหกตัวอักษรตามลำดับตัวอักษร
  • สามารถยกตัวอย่างเป็นกระบวนการรับสตริง C B A B B C แล้วเรียงเป็น ABBBCC
  • ตัวอักษรแต่ละตัวในสตริงเรียกว่า "โทเค็น" และคำศัพท์ของโมเดลประกอบด้วยโทเค็นหลากหลายประเภท
  • โทเค็นแต่ละตัวจะถูกกำหนดดัชนีตัวเลข และป้อนเข้าสู่โมเดล
  • ตัวเลขแต่ละตัวจะถูกแปลงเป็นเวกเตอร์ที่มี 48 องค์ประกอบ ซึ่งเรียกว่า "เอ็มเบดดิ้ง"
  • เอ็มเบดดิ้งจะผ่านชุดของเลเยอร์ที่เรียกว่า "ทรานส์ฟอร์เมอร์"
  • ในท้ายที่สุด โมเดลจะทำนายความน่าจะเป็นของโทเค็นถัดไปสำหรับลำดับที่กำหนด
  • โทเค็นที่ทำนายได้จะถูกป้อนกลับเข้าไปที่ด้านบนของโมเดล และกระบวนการทั้งหมดจะทำซ้ำ

1 ความคิดเห็น

 
GN⁺ 2023-12-04
ความคิดเห็นจาก Hacker News
  • เป็นเครื่องมือที่มีประโยชน์มากในการทำความเข้าใจ LLM อย่างถึงราก

    • ได้รับการยกย่องว่าเป็นเครื่องมือชั้นยอดที่ช่วยให้เข้าใจอย่างลึกซึ้งว่า LLM ทำงานอย่างไรจริง ๆ
    • หากไม่เข้าใจว่าทำไมอาร์เรย์แรกจึงมี 48 องค์ประกอบ ก็มีคำแนะนำให้ไปดู model.py ของ minGPT
    • มีความเห็นว่าควรกล่าวถึงเรื่องนี้ไว้ในบทความ เพราะการตัดสินใจเชิงโครงสร้างแบบนี้อาจทำให้คนที่ไม่คุ้นกับบริบทสับสนได้
  • รู้สึกทึ่งที่ความซับซ้อนของอัลกอริทึมถูกแสดงออกมาอย่างชัดเจนในพื้นที่ 3 มิติ

    • แสดงความชื่นชมที่ความซับซ้อนของอัลกอริทึมถูกถ่ายทอดออกมาเป็น 3 มิติได้อย่างชัดเจน
    • บอกถึงความหวังส่วนตัวว่าอยากมีความรู้มากพอที่จะเข้าใจความถูกต้องของมันอย่างเต็มที่
  • ภาพทำความเข้าใจนี้น่าทึ่งจริง ๆ

    • อยากเจาะลึกเรื่องนี้มานานแล้ว และโมเดล 3 มิติก็น่าทึ่งมากในฐานะเครื่องมือการเรียนรู้
  • นี่คือวิธีการทำภาพที่ตามหามาหลายเดือน

    • พอได้พบวิธีการทำภาพที่ตามหามานานก็รู้สึกพอใจมาก
    • แสดงความขอบคุณที่มีการเผยแพร่เนื้อหาแบบนี้ให้ใช้ฟรี
  • ถึงขั้นตั้งชื่อได้ว่า 'ชำแหละเวทมนตร์ด้วยการคูณเมทริกซ์และดอตโปรดักต์'

    • ยิ่งทึ่งมากขึ้นไปอีกกับความจริงที่ว่า LLM ทำงานได้ดีขนาดนี้
  • โมเดล 3 มิติน่าทึ่งมากในเชิงการศึกษา

    • แสดงความคิดเห็นว่าโมเดล 3 มิติน่าประทับใจอย่างมากในฐานะเครื่องมือเพื่อการเรียนรู้
    • ประเมินว่าเป็นสื่อชั้นยอดสำหรับการศึกษาที่ลงลึก
  • ยิ่งทึ่งเข้าไปอีกว่า LLM ทำงานได้ดีอย่างไร

    • ให้การประเมินเชิงบวกต่อเนื้อหาที่วิเคราะห์หลักการทำงานของ LLM ในระดับพื้นฐาน
    • แสดงความประหลาดใจมากขึ้นกับการที่ LLM ทำงานได้ดี
  • คำอธิบายเรื่องพลังของ self attention มักถูกละไว้บ่อยครั้ง

    • ต่างจากโครงข่ายประสาทแบบดั้งเดิม เลเยอร์ self attention จะปรับน้ำหนักความเชื่อมโยงระหว่างอินพุตแบบยืดหยุ่นตามบริบท
    • ด้วยเหตุนี้ ทรานส์ฟอร์เมอร์จึงสามารถทำงานที่เครือข่ายแบบดั้งเดิมต้องใช้หลายเลเยอร์ได้ภายในเลเยอร์เดียว
  • มีการแชร์บริบทเพิ่มเติมเกี่ยวกับงานนี้ในเธรด Twitter ของผู้เขียน

    • ผู้เขียนได้แบ่งปันภูมิหลังเพิ่มเติมของงานนี้ผ่านเธรด Twitter
  • หากต้องการเวอร์ชันมิติต่ำสำหรับโมเดลของตัวเอง ก็มีการแนะนำไลบรารี Netron

    • ให้การประเมินในเชิงบวกและแนะนำไลบรารี Netron สำหรับการทำภาพสถาปัตยกรรมของโมเดล
  • นี่ไม่ใช่แค่โมเดล 3 มิติแบบง่าย ๆ แต่เป็นงานที่ลงลึก

    • ตอนแรกคิดว่าเป็นเพียงโมเดล 3 มิติธรรมดา แต่ก็ทึ่งกับเนื้อหาที่ลงลึกซึ่งมาพร้อมแอนิเมชัน
  • ภาพทำความเข้าใจนี้น่าทึ่งจริง ๆ

    • ถ้าได้เห็นสิ่งนี้ตอนที่กำลังพยายามทำความเข้าใจทรานส์ฟอร์เมอร์ ก็คงง่ายกว่านี้มาก
  • นี่คือเหตุผลที่รัก Hacker News

    • แสดงปฏิกิริยาเชิงบวกที่มีการแชร์สื่อคุณภาพแบบนี้บน Hacker News