13 คะแนน โดย GN⁺ 2025-02-07 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • วิดีโอที่อธิบายเชิงลึกเกี่ยวกับเทคโนโลยี AI ของโมเดลภาษาขนาดใหญ่ (LLM) ที่ขับเคลื่อน ChatGPT และผลิตภัณฑ์ที่เกี่ยวข้อง สำหรับผู้ใช้งานทั่วไป (3 ชั่วโมง 31 นาที)
  • ครอบคลุมทั้งสแตกการฝึกทั้งหมดของการพัฒนาโมเดล วิธีคิดเกี่ยวกับ 'จิตวิทยา' ของโมเดล และเมนทัลโมเดลในการนำโมเดลไปใช้ให้เกิดประโยชน์สูงสุดในแอปพลิเคชันจริง
  • เป็นเวอร์ชันที่ครอบคลุมมากขึ้นจากวิดีโอ "Intro to LLMs" ที่เผยแพร่เมื่อ 1 ปีก่อน

บท

00:00:00 introduction
00:01:00 pretraining data (internet)
00:07:47 tokenization
00:14:27 neural network I/O
00:20:11 neural network internals
00:26:01 inference
00:31:09 GPT-2: training and inference
00:42:52 Llama 3.1 base model inference
00:59:23 pretraining to post-training
01:01:06 post-training data (conversations)
01:20:32 hallucinations, tool use, knowledge/working memory
01:41:46 knowledge of self
01:46:56 models need tokens to think
02:01:11 tokenization revisited: models struggle with spelling
02:04:53 jagged intelligence
02:07:28 supervised finetuning to reinforcement learning
02:14:42 reinforcement learning
02:27:47 DeepSeek-R1
02:42:07 AlphaGo
02:48:26 reinforcement learning from human feedback (RLHF)
03:09:39 preview of things to come
03:15:15 keeping track of LLMs
03:18:34 where to find LLMs
03:21:46 grand summary

2 ความคิดเห็น

 
nicewook 2025-02-08

ข้อเสีย(?) ของวิดีโอของ Andrej Karpathy น่าจะเป็นอย่างหนึ่งคือเปิดความเร็ว 1.5 เท่าไม่ได้เลยครับ เขาพูดเร็วมากจริงๆ :-)

 
GN⁺ 2025-02-07
ความคิดเห็นจาก Hacker News
  • เคารพคนคนนี้มาก เขาเหมือน Neo ที่เชื่อมช่องว่างระหว่างมนุษย์กับเครื่องจักร สิ่งที่ฉันเรียนฟรีจากคลังโค้ดและวิดีโอของเขา:

    • minGPT, nanoGPT (transformers)
    • NLP (อยากให้ทำซีรีส์เพิ่มอีก)
    • tokenizers (ใน YouTube ของเขา)
    • RNN (ในบล็อกของเขา)
    • ในหลายสาขาไม่มีคนแบบ karpathy และเราไม่เคยได้ยินเกี่ยวกับพวกเขา ดีใจที่คนนี้ช่วยเผยแพร่สัญชาตญาณความเข้าใจเกี่ยวกับ ML
  • ฉันบอกเพื่อนๆ ว่า Andrej เป็นอาจารย์ที่ดีที่สุดที่ฉันเคยเจอในระดับบัณฑิตศึกษา แม้ฉันจะไม่ได้เรียน Stanford แต่ก็ดูวิดีโอ CS321n ของเขาบน YouTube ดีใจมากที่เขายังทำวิดีโอต่อ

  • เขาทำวิดีโอมากกว่า 5 ตัวที่พูดถึงหัวข้อพื้นฐานเดียวกันเกี่ยวกับสถาปัตยกรรมและการฝึก transformer เลยสงสัยว่าวิดีโอนี้ต่างจากอันก่อนๆ อย่างไร

  • ฉันชอบซีรีส์ "let's build" ของเขามาก นอกจากเนื้อหาระดับสูงแล้ว ยังได้เรียนรู้เทคนิค Python เจ๋งๆ ด้วย

  • รู้สึกหงุดหงิดที่ตัวเองโฟกัสกับวิดีโอแบบยาวไม่ได้ ทั้งที่วิดีโอพวกนี้น่าจะดีกว่าวิดีโอสั้นมาก

  • ฉันยังจำได้ว่าตอนเป็นส่วนหนึ่งของโปรเจกต์ CS231n เคยทำ backpropagation โดยใช้ Python list เรื่องที่น่าทึ่งคือฉันไม่ได้เรียน Stanford

  • ขอบคุณ Andrej ฉันพอมีความเข้าใจที่ค่อนข้างดีว่า LLM ทำงานและถูกฝึกอย่างไร แต่เพื่อนหลายคนไม่ได้เป็นแบบนั้น วิดีโอและการบรรยายนี้ช่วยให้พวกเขาเห็นภาพได้ "ประมาณหนึ่ง"

  • อยากให้มีวิธีเผยแพร่วิดีโอแบบอื่นด้วย เพราะคอนเทนต์บน YouTube สุดท้ายก็หายไป ฉันคิดว่าเนื้อหานี้สำคัญ ยิ่งคนรู้ว่า AI ทำงานอย่างไรมากขึ้นเท่าไร สังคมก็จะแข็งแกร่งขึ้นเท่านั้น

  • ดูจนจบทั้งหมดแล้ว... แก้มจะหลับอยู่แล้วแต่ก็คุ้มค่า ขอบคุณ Andrej

  • ฉันเป็นคนเรียบง่าย เห็นวิดีโอของ Karpathy ก็คลิก ดู และเพลิดเพลิน