การทำภาพให้เห็นการทำงานของ LLM

(bbycroft.net)

43 คะแนน โดย GN⁺ 2025-09-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แนะนำกระบวนการทำงานของ โมเดลภาษาขนาดใหญ่แบบ GPT อย่าง nano-gpt แบบย่อ
โมเดลนี้มีเป้าหมายในการรับลำดับ ตัวอักษร 6 ตัว แล้วจัดเรียงตาม ลำดับตัวอักษร
ตัวอักษรแต่ละตัวถือเป็น โทเค็น และทุกโทเค็นมี ดัชนีโทเค็น เฉพาะของตัวเอง
ดัชนีโทเค็นแต่ละตัวจะถูกแปลงเป็น เวกเตอร์ embedding ขนาด 48 มิติ แล้วส่งผ่านชุดของ เลเยอร์ทรานส์ฟอร์เมอร์
โมเดลจะทำนาย โทเค็นถัดไป และสามารถนำผลลัพธ์มาใส่กลับเป็นอินพุตซ้ำเพื่อพัฒนาลำดับอินพุตต่อไปได้

แนะนำโมเดลภาษา GPT

เอกสารนี้เป็นสื่อที่อธิบายกระบวนการทำงานของ โมเดลภาษาขนาดใหญ่ GPT ในเชิงภาพ
ที่นี่ใช้โมเดลขนาดเล็กมากชื่อ nano-gpt (มีพารามิเตอร์ประมาณ 85,000 ตัว)
เป้าหมายของโมเดลคือรับลำดับที่ประกอบด้วยตัวอักษร 6 ตัว แล้วจัดเรียงตามลำดับตัวอักษร (เช่น "ABBBCC")

โทเค็นและคำศัพท์

ตัวอักษรแต่ละตัวถูกกำหนดให้เป็น โทเค็น (token) และชุดของโทเค็นทั้งหมดที่โมเดลรู้จักเรียกว่า คำศัพท์ (vocabulary)
ในตาราง โทเค็นแต่ละตัวจะได้รับ หมายเลขเฉพาะ (token index)
ลำดับตัวเลขของดัชนีโทเค็นนี้จะถูกใช้เป็นอินพุตของโมเดล

การแปลงอินพุตและ embedding

ในภาพ 3D เซลล์สีเขียว แสดงตัวเลขที่กำลังถูกประมวลผล และ เซลล์สีน้ำเงิน แสดง ค่าน้ำหนัก (weight) ของโมเดล
ตัวเลขอินพุตแต่ละตัวจะถูกแปลงเป็น เวกเตอร์ embedding ขนาด 48 มิติ
embedding นี้จะผ่าน เลเยอร์ทรานส์ฟอร์เมอร์ หลายชั้นภายในโครงสร้างของโมเดลอย่างต่อเนื่อง

เอาต์พุตและกระบวนการทำนาย

เอาต์พุตของโมเดลจะแสดงเป็นความน่าจะเป็นของ โทเค็นถัดไป ที่คาดการณ์ได้ในลำดับนั้น
ที่ตำแหน่งอินพุตลำดับที่ 6 โมเดลจะทำนายการกระจายความน่าจะเป็นที่โทเค็นถัดไปจะเป็น 'A', 'B', 'C'
ในตัวอย่างนี้ โมเดลทำนายว่า มีความน่าจะเป็นสูงสุดที่จะเป็น 'A'
สามารถนำผลการทำนายนี้ใส่กลับเข้าเป็นอินพุตแล้วทำกระบวนการซ้ำ เพื่อสร้างลำดับทั้งหมดขึ้นมา

1 ความคิดเห็น

GN⁺ 2025-09-05

ความคิดเห็นบน Hacker News

ซับซ้อนมากแต่น่าทึ่งจริง ๆ วิธีที่ใช้ทำภาพให้เห็นกระบวนการนั้นยอดเยี่ยมมาก
มีข้อมูลที่เกี่ยวข้องอยู่ด้วย ถ้าอยากรู้อย่างอื่นเพิ่มเติมก็อ้างอิงได้
LLM Visualization - ธันวาคม 2023, ความคิดเห็น 131 รายการ
ยังมีสื่ออธิบายภาพ transformer อีกชิ้นที่นักวิจัยจาก Georgia Tech ทำไว้
https://poloclub.github.io/transformer-explainer/
และยังแนะนำสื่ออธิบายภาพชื่อดังอย่าง 'The Illustrated Transformer' ด้วย
https://jalammar.github.io/illustrated-transformer/
ยังมีโพสต์ที่ Sebastian Raschka, PhD เขียนเกี่ยวกับสถาปัตยกรรมด้วย
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
และในคอมเมนต์นี้บน Hacker News ก็สามารถดูแหล่งข้อมูลหลากหลายได้ในที่เดียว
https://news.ycombinator.com/item?id=35712334
ภาพอธิบายนี้น่าสนใจมาก เรามองเห็นทั้งกระบวนการในเชิงภาพได้ แต่ก็ยังเป็นเรื่องน่าขันที่เราไม่เข้าใจเกณฑ์การตัดสินใจภายในของโมเดลอย่างถ่องแท้ ตอนที่เคยค้นดูเมื่อราว 1 ปีก่อน ส่วนนี้ก็ยังไม่มีความคืบหน้า
คอนเทนต์ภาพอธิบายนี้ยอดเยี่ยมมากจนกำลังวางแผนจะเอาไปให้เด็ก ๆ ดูในชมรมคอมพิวเตอร์ที่ลูกชายวัย 5 ขวบของผมไปอยู่
- ถ้าใช้วิธีนั้น น่าจะเป็นวิธีที่ดีที่สุดในการทำให้เด็ก ๆ งีบหลับ
มันยอดเยี่ยมและน่าทึ่งจริง ๆ เหมือนงานศิลปะชิ้นหนึ่งเลย ขอบคุณที่ทำสิ่งนี้ขึ้นมา
ชอบสื่ออธิบายภาพชิ้นนี้มากมานานแล้ว
https://alphacode.deepmind.com/
(ถ้าใช้มือถือ ให้กดเล่นแล้วซูมออกจนสุด จากนั้นเลื่อนลง)
ถ้า LLM visualization กลายเป็นเครื่องมือการเรียนรู้ในลักษณะนี้ได้ก็คงยอดเยี่ยมมาก เช่น อาจแสดงให้เห็นว่า attention เคลื่อนที่อย่างไรระหว่างกระบวนการสร้าง หรือ prompt มีผลต่อผลลัพธ์อย่างไร ภาพแบบโต้ตอบได้ลักษณะนี้น่าจะช่วยให้เข้าใจมากขึ้นว่าเบื้องหลังจริง ๆ เกิดอะไรขึ้น
คิดว่ายอดเยี่ยมจริง ๆ ถ้ามีเวลาอยากสำรวจให้ลึกกว่านี้ และถ้านำไปรวมกับเครื่องมือสังเกตการณ์ ก็คิดว่าสื่อนี้จะช่วยให้นักวิทยาศาสตร์เจาะเข้าไปในภายในโมเดลที่ถูกเรียกว่า "กล่องดำ" ได้
ตอนนี้เพิ่งเข้าใจ นี่เป็นแหล่งข้อมูลที่ยอดเยี่ยมจริง ๆ ขอบคุณสำหรับเวลาและความพยายาม

การทำภาพให้เห็นการทำงานของ LLM

แนะนำโมเดลภาษา GPT

โทเค็นและคำศัพท์

การแปลงอินพุตและ embedding

เอาต์พุตและกระบวนการทำนาย

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News