43 คะแนน โดย GN⁺ 2025-09-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • แนะนำกระบวนการทำงานของ โมเดลภาษาขนาดใหญ่แบบ GPT อย่าง nano-gpt แบบย่อ
  • โมเดลนี้มีเป้าหมายในการรับลำดับ ตัวอักษร 6 ตัว แล้วจัดเรียงตาม ลำดับตัวอักษร
  • ตัวอักษรแต่ละตัวถือเป็น โทเค็น และทุกโทเค็นมี ดัชนีโทเค็น เฉพาะของตัวเอง
  • ดัชนีโทเค็นแต่ละตัวจะถูกแปลงเป็น เวกเตอร์ embedding ขนาด 48 มิติ แล้วส่งผ่านชุดของ เลเยอร์ทรานส์ฟอร์เมอร์
  • โมเดลจะทำนาย โทเค็นถัดไป และสามารถนำผลลัพธ์มาใส่กลับเป็นอินพุตซ้ำเพื่อพัฒนาลำดับอินพุตต่อไปได้

แนะนำโมเดลภาษา GPT

  • เอกสารนี้เป็นสื่อที่อธิบายกระบวนการทำงานของ โมเดลภาษาขนาดใหญ่ GPT ในเชิงภาพ
  • ที่นี่ใช้โมเดลขนาดเล็กมากชื่อ nano-gpt (มีพารามิเตอร์ประมาณ 85,000 ตัว)
  • เป้าหมายของโมเดลคือรับลำดับที่ประกอบด้วยตัวอักษร 6 ตัว แล้วจัดเรียงตามลำดับตัวอักษร (เช่น "ABBBCC")

โทเค็นและคำศัพท์

  • ตัวอักษรแต่ละตัวถูกกำหนดให้เป็น โทเค็น (token) และชุดของโทเค็นทั้งหมดที่โมเดลรู้จักเรียกว่า คำศัพท์ (vocabulary)
  • ในตาราง โทเค็นแต่ละตัวจะได้รับ หมายเลขเฉพาะ (token index)
  • ลำดับตัวเลขของดัชนีโทเค็นนี้จะถูกใช้เป็นอินพุตของโมเดล

การแปลงอินพุตและ embedding

  • ในภาพ 3D เซลล์สีเขียว แสดงตัวเลขที่กำลังถูกประมวลผล และ เซลล์สีน้ำเงิน แสดง ค่าน้ำหนัก (weight) ของโมเดล
  • ตัวเลขอินพุตแต่ละตัวจะถูกแปลงเป็น เวกเตอร์ embedding ขนาด 48 มิติ
  • embedding นี้จะผ่าน เลเยอร์ทรานส์ฟอร์เมอร์ หลายชั้นภายในโครงสร้างของโมเดลอย่างต่อเนื่อง

เอาต์พุตและกระบวนการทำนาย

  • เอาต์พุตของโมเดลจะแสดงเป็นความน่าจะเป็นของ โทเค็นถัดไป ที่คาดการณ์ได้ในลำดับนั้น
  • ที่ตำแหน่งอินพุตลำดับที่ 6 โมเดลจะทำนายการกระจายความน่าจะเป็นที่โทเค็นถัดไปจะเป็น 'A', 'B', 'C'
  • ในตัวอย่างนี้ โมเดลทำนายว่า มีความน่าจะเป็นสูงสุดที่จะเป็น 'A'
  • สามารถนำผลการทำนายนี้ใส่กลับเข้าเป็นอินพุตแล้วทำกระบวนการซ้ำ เพื่อสร้างลำดับทั้งหมดขึ้นมา

1 ความคิดเห็น

 
GN⁺ 2025-09-05
ความคิดเห็นบน Hacker News
  • ซับซ้อนมากแต่น่าทึ่งจริง ๆ วิธีที่ใช้ทำภาพให้เห็นกระบวนการนั้นยอดเยี่ยมมาก
  • มีข้อมูลที่เกี่ยวข้องอยู่ด้วย ถ้าอยากรู้อย่างอื่นเพิ่มเติมก็อ้างอิงได้
    LLM Visualization - ธันวาคม 2023, ความคิดเห็น 131 รายการ
  • ยังมีสื่ออธิบายภาพ transformer อีกชิ้นที่นักวิจัยจาก Georgia Tech ทำไว้
    https://poloclub.github.io/transformer-explainer/
    และยังแนะนำสื่ออธิบายภาพชื่อดังอย่าง 'The Illustrated Transformer' ด้วย
    https://jalammar.github.io/illustrated-transformer/
    ยังมีโพสต์ที่ Sebastian Raschka, PhD เขียนเกี่ยวกับสถาปัตยกรรมด้วย
    https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
    และในคอมเมนต์นี้บน Hacker News ก็สามารถดูแหล่งข้อมูลหลากหลายได้ในที่เดียว
    https://news.ycombinator.com/item?id=35712334
  • ภาพอธิบายนี้น่าสนใจมาก เรามองเห็นทั้งกระบวนการในเชิงภาพได้ แต่ก็ยังเป็นเรื่องน่าขันที่เราไม่เข้าใจเกณฑ์การตัดสินใจภายในของโมเดลอย่างถ่องแท้ ตอนที่เคยค้นดูเมื่อราว 1 ปีก่อน ส่วนนี้ก็ยังไม่มีความคืบหน้า
  • คอนเทนต์ภาพอธิบายนี้ยอดเยี่ยมมากจนกำลังวางแผนจะเอาไปให้เด็ก ๆ ดูในชมรมคอมพิวเตอร์ที่ลูกชายวัย 5 ขวบของผมไปอยู่
    • ถ้าใช้วิธีนั้น น่าจะเป็นวิธีที่ดีที่สุดในการทำให้เด็ก ๆ งีบหลับ
  • มันยอดเยี่ยมและน่าทึ่งจริง ๆ เหมือนงานศิลปะชิ้นหนึ่งเลย ขอบคุณที่ทำสิ่งนี้ขึ้นมา
  • ชอบสื่ออธิบายภาพชิ้นนี้มากมานานแล้ว
    https://alphacode.deepmind.com/
    (ถ้าใช้มือถือ ให้กดเล่นแล้วซูมออกจนสุด จากนั้นเลื่อนลง)
  • ถ้า LLM visualization กลายเป็นเครื่องมือการเรียนรู้ในลักษณะนี้ได้ก็คงยอดเยี่ยมมาก เช่น อาจแสดงให้เห็นว่า attention เคลื่อนที่อย่างไรระหว่างกระบวนการสร้าง หรือ prompt มีผลต่อผลลัพธ์อย่างไร ภาพแบบโต้ตอบได้ลักษณะนี้น่าจะช่วยให้เข้าใจมากขึ้นว่าเบื้องหลังจริง ๆ เกิดอะไรขึ้น
  • คิดว่ายอดเยี่ยมจริง ๆ ถ้ามีเวลาอยากสำรวจให้ลึกกว่านี้ และถ้านำไปรวมกับเครื่องมือสังเกตการณ์ ก็คิดว่าสื่อนี้จะช่วยให้นักวิทยาศาสตร์เจาะเข้าไปในภายในโมเดลที่ถูกเรียกว่า "กล่องดำ" ได้
  • ตอนนี้เพิ่งเข้าใจ นี่เป็นแหล่งข้อมูลที่ยอดเยี่ยมจริง ๆ ขอบคุณสำหรับเวลาและความพยายาม