สรุปวิดีโอ "เจาะลึก LLM แบบ ChatGPT" ของ Andrej Karpathy

(anfalmushtaq.com)

2 คะแนน โดย GN⁺ 2025-02-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การเจาะลึกนี้เหมาะกับใคร?

ผู้ที่ต้องการเข้าใจว่า LLM ทำงานจริงอย่างไร: สำหรับคนที่ต้องการรู้หลักการทำงานของ LLM ให้ลึกกว่าความเข้าใจแบบผิวเผิน
ผู้ที่ต้องการเข้าใจคำศัพท์ด้าน fine-tuning ที่ชวนสับสน: สำหรับคนที่อยากเข้าใจคำอย่าง chat_template และ ChatML
ผู้ที่ต้องการพัฒนา prompt engineering: สำหรับคนที่อยากเข้าใจว่า prompt แบบใดทำงานได้ดีกว่า
ผู้ที่ต้องการลดอาการหลอน: สำหรับคนที่ต้องการไม่ให้ LLM สร้างข้อมูลที่ผิดพลาด
ผู้ที่ต้องการเข้าใจความสำคัญของ DeepSeek-R1: สำหรับคนที่อยากรู้ว่าทำไม DeepSeek-R1 จึงได้รับความสนใจในตอนนี้

ข้อมูลสำหรับ pre-training

อินเทอร์เน็ต

LLM สร้างชุดข้อมูลข้อความขนาดมหาศาลด้วยการ crawl อินเทอร์เน็ต
ข้อมูลดิบเต็มไปด้วยเนื้อหาซ้ำ ข้อความคุณภาพต่ำ และข้อมูลที่ไม่เกี่ยวข้อง จึงต้องมีการกรองอย่างเข้มข้นก่อนฝึก
ตัวอย่างเช่น ชุดข้อมูล FineWeb มีเว็บเพจมากกว่า 1.2 พันล้านหน้า

การทำ tokenization

tokenization คือวิธีแบ่งข้อความออกเป็นชิ้นเล็ก ๆ (token) ก่อนที่โมเดลจะประมวลผล
มีการใช้เทคนิคอย่าง Byte Pair Encoding (BPE)
GPT-4 ใช้โทเคน 100,277 รายการ

อินพุต/เอาต์พุตของโครงข่ายประสาท

ข้อมูลที่ผ่านการทำ tokenization แล้วจะถูกป้อนเข้าสู่โครงข่ายประสาท
โมเดลจะทำนายโทเคนถัดไปจากรูปแบบที่ได้เรียนรู้มา
มีการปรับค่าน้ำหนักเพื่อลดข้อผิดพลาด

ภายในโครงข่ายประสาท

ภายในโมเดล พารามิเตอร์หลายพันล้านตัวจะโต้ตอบกับโทเคนขาเข้าเพื่อสร้างการกระจายความน่าจะเป็นของโทเคนถัดไป
สถาปัตยกรรมของโมเดลถูกออกแบบให้สมดุลระหว่างความเร็ว ความแม่นยำ และการประมวลผลแบบขนาน

การอนุมาน

LLM ไม่ได้สร้างผลลัพธ์แบบกำหนดตายตัว แต่เป็นเชิงความน่าจะเป็น
เอาต์พุตจะแตกต่างกันเล็กน้อยในแต่ละครั้งที่รัน
ความสุ่มนี้ทำให้ LLM มีความสร้างสรรค์ได้ แต่บางครั้งก็สร้างข้อมูลที่ผิดพลาดเช่นกัน

GPT-2

GPT-2 ที่ OpenAI เปิดตัวในปี 2019 เป็นตัวอย่างของ LLM ยุคแรกที่อิงสถาปัตยกรรมทรานส์ฟอร์เมอร์
มีพารามิเตอร์ 1.6 พันล้านตัว, context length 1024 โทเคน และฝึกด้วยโทเคนประมาณ 1 แสนล้านรายการ
Andrej Karpathy สร้าง GPT-2 ขึ้นมาใหม่ด้วย llm.c ในราคา $672

โมเดลฐานแบบโอเพนซอร์ส

บางบริษัทฝึก LLM ขนาดใหญ่แล้วเปิดเผยโมเดลฐานให้ใช้งานฟรี
โมเดลฐานถูกฝึกด้วยข้อความดิบจากอินเทอร์เน็ต จึงสร้างข้อความต่อได้ แต่ยังไม่เข้าใจเจตนาของมนุษย์
OpenAI เปิด GPT-2 เป็นโอเพนซอร์ส
Meta เปิด Llama 3.1 (พารามิเตอร์ 405B) เป็นโอเพนซอร์ส

จาก pre-training ไปสู่ post-training

โมเดลฐานสร้างอาการหลอนจำนวนมาก
post-training คือการ fine-tune โมเดลเพื่อให้ตอบสนองได้ดีขึ้น
post-training มีต้นทุนถูกกว่า pre-training มาก

Supervised Fine-Tuning (SFT)

บทสนทนาในข้อมูล

หลังจากโมเดลฐานถูกฝึกด้วยข้อมูลจากอินเทอร์เน็ตแล้ว จะมีการทำ post-training เพิ่มด้วยบทสนทนาระหว่างมนุษย์/ผู้ช่วย
มีการใช้ conversation template เพื่อให้โมเดลเข้าใจโครงสร้างของบทสนทนา

อาการหลอน, การใช้เครื่องมือ และหน่วยความจำ

ปัญหาหลักของ LLM คืออาการหลอน
Meta อธิบายวิธีปรับปรุงความถูกต้องเชิงข้อเท็จจริงไว้ในบทความวิจัย Llama 3
ยังมีวิธีลดอาการหลอนด้วยการใช้เครื่องมือ

Reinforcement Learning

แม้โมเดลจะถูกฝึกด้วยข้อมูลจากอินเทอร์เน็ต แต่ก็ยังไม่รู้วิธีใช้ความรู้ที่มีอย่างมีประสิทธิภาพ
Reinforcement Learning (RL) ช่วยปรับปรุงโมเดลผ่านการลองผิดลองถูก

วิธีการทำงานของ RL

RL เปิดโอกาสให้โมเดลทดลองวิธีแก้ปัญหาหลากหลายแบบและค้นหาวิธีที่ดีที่สุด
ตัวอย่างเช่น สร้างคำตอบขึ้นมา 15 แบบ และมีเพียง 4 แบบที่ถูกต้อง

Reinforcement Learning from Human Feedback (RLHF)

ในโดเมนที่ตรวจสอบได้ยาก จำเป็นต้องมีมนุษย์เข้ามาเกี่ยวข้อง
RLHF ใช้ฟีดแบ็กจากมนุษย์เพื่อปรับปรุงโมเดล

แนวโน้มในอนาคต

ความสามารถแบบมัลติโหมด: เข้าใจและสร้างได้ไม่ใช่แค่ข้อความ แต่รวมถึงภาพ เสียง และวิดีโอ
โมเดลแบบเอเจนต์: ทำได้มากกว่างานเดี่ยว มีหน่วยความจำระยะยาว ให้เหตุผล และแก้ไขความผิดพลาดได้
AI ที่เป็นสากลและมองไม่เห็น: ผสานเข้ากับเวิร์กโฟลว์อย่างเป็นธรรมชาติ
AI ที่ใช้งานคอมพิวเตอร์ได้: โต้ตอบกับซอฟต์แวร์และทำงานได้มากกว่าการสร้างข้อความ

วิธีค้นหา LLM

โมเดลแบบปิด: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude) เป็นต้น
โมเดล open-weight: DeepSeek, Meta (Llama) เป็นต้น
การรันแบบโลคัล: ใช้ Ollama หรือ LM Studio
โมเดลฐาน: สำรวจผ่าน Hyperbolic

1 ความคิดเห็น

GN⁺ 2025-02-11

ความคิดเห็นจาก Hacker News

กำลังมองหาที่ดี ๆ สำหรับคุยต่อ แม้ว่าวิดีโอต้นฉบับจะหลุดจากหน้าแรกของ Hacker News ไปแล้ว
ระหว่างดูวิดีโอ มีคำถามบางอย่างผุดขึ้นมา
- คณิตศาสตร์และ LLMs
  - สงสัยว่าทำไมตัวอย่างที่ Andrej ยกมาเกี่ยวกับ LLM ส่วนใหญ่จึงเป็นโจทย์คำนวณ
  - คิดว่าความสามารถด้านการคำนวณของ LLM กำลังแข็งแกร่งและมีประโยชน์มากขึ้น แต่ไม่ใช่ความสามารถพื้นฐาน
  - อยากให้แยกระหว่างพรอมต์ที่แสดงความสามารถหลักของ LLM กับการคำนวณทางคณิตศาสตร์
  - ถ้ามีแหล่งอ้างอิงดี ๆ เกี่ยวกับการพูดถึงความสามารถทางคณิตศาสตร์หรือแนวคิดว่าทำไม LLM จึงทำคณิตศาสตร์ได้ก็คงดี
- เมตา
  - Andrej พูดถึงสั้น ๆ ว่า LLM ถูกใช้ในการฝึกและประเมิน LLM อื่น แต่แทบไม่มีการพูดถึงเรื่องนี้มากนัก
  - อยากรู้เพิ่มเติมเกี่ยวกับข้อจำกัดและความเสี่ยงของการใช้ LLM เพื่อฝึก/ประเมิน LLM อื่น
  - รู้สึกว่าผลลัพธ์ระยะแรกและความก้าวหน้าถูกป้อนกลับทันทีไปสู่การพัฒนาเทคโนโลยีที่ทรงพลังยิ่งขึ้น คล้ายกับโครงการแมนฮัตตันและอาวุธนิวเคลียร์
แนวทางของ Meta ในการแก้ปัญหา hallucination น่าสนใจ
- ดึงบางส่วนของข้อมูลฝึกออกมา แล้วใช้ Llama 3 สร้างคำถามเชิงข้อเท็จจริง
- ให้ Llama 3 สร้างคำตอบ แล้วนำไปเทียบกับข้อมูลต้นฉบับเพื่อให้คะแนน
- ถ้าผิด ก็ฝึกให้โมเดลรับรู้ว่าคำตอบนั้นผิดและปฏิเสธมัน
- สิ่งนี้สวนทางกับแนวโน้มตามธรรมชาติของวิศวกร ML และการสอนให้โมเดลรู้ว่าตัวเองไม่รู้อะไรเป็นเรื่องสำคัญ
วิดีโอของ Andrej ยอดเยี่ยม แต่รู้สึกว่าส่วนอธิบาย RL ยังคลุมเครือเล็กน้อย
- สงสัยว่าฝึกให้ได้คำตอบที่ถูกต้องอย่างไร
- สงสัยว่าเก็บกระบวนการให้เหตุผลมาฝึกแบบ supervised learning หรือคำนวณคะแนนแล้วใช้เป็น loss function
- สงสัยว่ารางวัลอาจจะเบาบางมาก และจะเกิดอะไรขึ้นถ้าปัญหายากเกินไปจน LLM ไม่สามารถสร้างคำตอบที่ถูกต้องได้
- สงสัยว่าการอัปเดตพารามิเตอร์เป็นแบบลำดับ แล้วจะทำให้การฝึก LLM ขนานกันได้อย่างไร
ในนาทีที่ 53 ของวิดีโอต้นฉบับ แสดงให้เห็นความแม่นยำของ LLM ในการอ้างอิงจากข้อความที่มันเรียนรู้มา
- สงสัยว่าบริษัทใหญ่ ๆ โน้มน้าวศาลได้อย่างไรว่าสิ่งนี้ไม่ใช่การละเมิดลิขสิทธิ์
- ถ้าฉันฝึกโมเดลให้วาดตัวละครของ Disney ก็จินตนาการได้เลยว่าน่าจะโดนฟ้องทันที
หากโมเดลจะเป็นโอเพนซอร์สอย่าง 'สมบูรณ์' นอกจากตัวโมเดลเองและวิธีรันแล้ว ยังต้องมีโปรแกรมที่สามารถฝึกข้อมูลได้ด้วย
- อ้างอิงนิยาม Open Source AI ของ OSI
อ่านบทความเกี่ยวกับ LLM มามาก และโดยทั่วไปก็เข้าใจว่ามันทำงานอย่างไร แต่ก็สงสัยมาตลอดว่าทำไมโมเดลอื่นถึงทำงานได้ไม่ดีเท่าโมเดล SOTA
- สงสัยถึงประวัติและเหตุผลของสถาปัตยกรรมโมเดลในปัจจุบัน
วันนี้เห็นเธรดดี ๆ: [ลิงก์]
น่าเสียดายที่ LLC in C ของเขาเป็นเพียงฐานตั้งต้นสำหรับคอร์สของเขาเท่านั้น
น่าจะเป็นสรุปที่ยอดเยี่ยมของเลกเชอร์ที่ยอดเยี่ยมจริง ๆ
- กำลังชั่งใจว่าจะตามดูต้นฉบับดีไหม
ยังไม่ได้ดูวิดีโอ แต่สงสัยเกี่ยวกับส่วน tokenization ใน TL;DR
- ถ้าดูข้อความที่ถูก tokenize ในบทความที่ลิงก์ไว้ มันไม่ใช่ "I View" แต่จริง ๆ แล้วคือ pipe "|"
- ในขั้นตอนที่ 3 ของลิงก์ที่ @miletus โพสต์ในคอมเมนต์ Hacker News ข้อความที่ถูก tokenize คือ "|Viewing Single (Post From) . . ."
- การใช้ตัวพิมพ์ใหญ่ (View, Single) ดูมีความหมายมากกว่าเมื่อมองส่วนนี้ของประโยค

สรุปวิดีโอ "เจาะลึก LLM แบบ ChatGPT" ของ Andrej Karpathy

การเจาะลึกนี้เหมาะกับใคร?

ข้อมูลสำหรับ pre-training

อินเทอร์เน็ต

การทำ tokenization

อินพุต/เอาต์พุตของโครงข่ายประสาท

ภายในโครงข่ายประสาท

การอนุมาน

GPT-2

โมเดลฐานแบบโอเพนซอร์ส

จาก pre-training ไปสู่ post-training

Supervised Fine-Tuning (SFT)

บทสนทนาในข้อมูล

อาการหลอน, การใช้เครื่องมือ และหน่วยความจำ

Reinforcement Learning

วิธีการทำงานของ RL

Reinforcement Learning from Human Feedback (RLHF)

แนวโน้มในอนาคต

วิธีค้นหา LLM

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News