ลองสร้าง LLM ตั้งแต่พื้นฐาน: เวิร์กช็อปเขียนโค้ด 3 ชั่วโมง
(magazine.sebastianraschka.com)- หากอยากทำความเข้าใจโมเดลภาษาขนาดใหญ่ (LLM) โดยใช้เวลาช่วงสุดสัปดาห์สักไม่กี่ชั่วโมง ได้เตรียมพรีเซนเทชันเวิร์กช็อปเขียนโค้ด 3 ชั่วโมงเกี่ยวกับการนำไปใช้งาน การฝึก และการใช้งานไว้แล้ว
- ด้านล่างคือสารบัญที่แสดงเนื้อหาที่ครอบคลุมในวิดีโอ (ในตัววิดีโอเองมี chapter mark ที่กดคลิกได้เพื่อข้ามไปยังหัวข้อที่สนใจได้ทันที)
สารบัญ
-
0:00 – ภาพรวมเวิร์กช็อป
-
2:17 – Part 1: แนะนำ LLM
-
9:14 – เอกสารเวิร์กช็อป
-
10:48 – Part 2: ทำความเข้าใจข้อมูลอินพุตของ LLM
-
23:25 – คลาส tokenizer อย่างง่าย
-
41:03 – Part 3: เขียนโค้ดสถาปัตยกรรม LLM
-
45:01 – GPT-2 และ Llama 2
-
1:07:11 – Part 4: การพรีเทรน
-
1:29:37 – Part 5.1: การโหลดน้ำหนักที่พรีเทรนไว้แล้ว
-
1:45:12 – Part 5.2: น้ำหนักที่พรีเทรนไว้แล้วผ่าน LitGPT
-
1:53:09 – Part 6.1: การปรับจูนตามคำสั่ง
-
2:08:21 – Part 6.2: การปรับจูนตามคำสั่งผ่าน LitGPT
-
2:26:45 – Part 6.3: การประเมินผล benchmark
-
2:36:55 – Part 6.4: การประเมินประสิทธิภาพการสนทนา
-
2:42:40 – บทสรุป
-
แม้จะแตกต่างจากคอนเทนต์แบบข้อความตามปกติเล็กน้อย แต่ครั้งที่ทำเมื่อไม่กี่เดือนก่อนก็ได้รับเสียงตอบรับที่ดีมาก เลยคิดว่าน่าจะลองทำอีกครั้ง
-
ขอให้รับชมอย่างสนุก!
เอกสารอ้างอิง
- หนังสือ Build an LLM from Scratch
- ที่เก็บ GitHub ของ Build an LLM from Scratch
- ที่เก็บ GitHub ที่มีโค้ดเวิร์กช็อป
- Lightning Studio สำหรับเวิร์กช็อปนี้
- ที่เก็บ GitHub ของ LitGPT
สมัครรับ Ahead of AI
- โปรเจ็กต์ที่ Sebastian Raschka เริ่มไว้เมื่อ 2 ปีก่อน
- Ahead AI เชี่ยวชาญด้านการวิจัยแมชชีนเลิร์นนิงและ AI และมีนักวิจัยกับผู้ปฏิบัติงานหลายหมื่นคนที่ต้องการก้าวให้ทันสาขาที่เปลี่ยนแปลงตลอดเวลาเป็นผู้อ่าน
สรุปโดย GN⁺
- เวิร์กช็อปนี้มีประโยชน์มากสำหรับผู้ที่ต้องการเรียนรู้วิธีสร้างและฝึก LLM ตั้งแต่ต้น
- ครอบคลุมโมเดลอย่าง GPT-2 และ Llama 2 พร้อมอธิบายวิธีโหลดน้ำหนักที่พรีเทรนไว้แล้วและทำ instruction fine-tuning
- น่าสนใจและอาจเป็นประโยชน์อย่างมากสำหรับผู้ที่สนใจแมชชีนเลิร์นนิงและการวิจัย AI
- โปรเจ็กต์อื่นที่มีความสามารถคล้ายกัน ได้แก่ไลบรารี Transformers ของ Hugging Face และโมเดล GPT ของ OpenAI
1 ความคิดเห็น
ความเห็นบน Hacker News
มีความเห็นว่า "การกลับไปสู่พื้นฐานนั้นดีเสมอ" พร้อมขอบคุณที่แชร์
มีคำถามว่า "ขอโทษที่ไม่รู้ แต่สงสัยว่านี่ต่างจากของ Andrej Karpathy ที่ https://www.youtube.com/watch?v=kCc8FmEb1nY หรือไม่"
มีความเห็นว่า "บทความของ Sebastian ดีมาก" พร้อมบอกว่ารออ่านหนังสืออยู่