1 คะแนน โดย GN⁺ 2024-09-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • หากอยากทำความเข้าใจโมเดลภาษาขนาดใหญ่ (LLM) โดยใช้เวลาช่วงสุดสัปดาห์สักไม่กี่ชั่วโมง ได้เตรียมพรีเซนเทชันเวิร์กช็อปเขียนโค้ด 3 ชั่วโมงเกี่ยวกับการนำไปใช้งาน การฝึก และการใช้งานไว้แล้ว
  • ด้านล่างคือสารบัญที่แสดงเนื้อหาที่ครอบคลุมในวิดีโอ (ในตัววิดีโอเองมี chapter mark ที่กดคลิกได้เพื่อข้ามไปยังหัวข้อที่สนใจได้ทันที)

สารบัญ

  • 0:00 – ภาพรวมเวิร์กช็อป

  • 2:17 – Part 1: แนะนำ LLM

  • 9:14 – เอกสารเวิร์กช็อป

  • 10:48 – Part 2: ทำความเข้าใจข้อมูลอินพุตของ LLM

  • 23:25 – คลาส tokenizer อย่างง่าย

  • 41:03 – Part 3: เขียนโค้ดสถาปัตยกรรม LLM

  • 45:01 – GPT-2 และ Llama 2

  • 1:07:11 – Part 4: การพรีเทรน

  • 1:29:37 – Part 5.1: การโหลดน้ำหนักที่พรีเทรนไว้แล้ว

  • 1:45:12 – Part 5.2: น้ำหนักที่พรีเทรนไว้แล้วผ่าน LitGPT

  • 1:53:09 – Part 6.1: การปรับจูนตามคำสั่ง

  • 2:08:21 – Part 6.2: การปรับจูนตามคำสั่งผ่าน LitGPT

  • 2:26:45 – Part 6.3: การประเมินผล benchmark

  • 2:36:55 – Part 6.4: การประเมินประสิทธิภาพการสนทนา

  • 2:42:40 – บทสรุป

  • แม้จะแตกต่างจากคอนเทนต์แบบข้อความตามปกติเล็กน้อย แต่ครั้งที่ทำเมื่อไม่กี่เดือนก่อนก็ได้รับเสียงตอบรับที่ดีมาก เลยคิดว่าน่าจะลองทำอีกครั้ง

  • ขอให้รับชมอย่างสนุก!

เอกสารอ้างอิง

  1. หนังสือ Build an LLM from Scratch
  2. ที่เก็บ GitHub ของ Build an LLM from Scratch
  3. ที่เก็บ GitHub ที่มีโค้ดเวิร์กช็อป
  4. Lightning Studio สำหรับเวิร์กช็อปนี้
  5. ที่เก็บ GitHub ของ LitGPT

สมัครรับ Ahead of AI

  • โปรเจ็กต์ที่ Sebastian Raschka เริ่มไว้เมื่อ 2 ปีก่อน
  • Ahead AI เชี่ยวชาญด้านการวิจัยแมชชีนเลิร์นนิงและ AI และมีนักวิจัยกับผู้ปฏิบัติงานหลายหมื่นคนที่ต้องการก้าวให้ทันสาขาที่เปลี่ยนแปลงตลอดเวลาเป็นผู้อ่าน

สรุปโดย GN⁺

  • เวิร์กช็อปนี้มีประโยชน์มากสำหรับผู้ที่ต้องการเรียนรู้วิธีสร้างและฝึก LLM ตั้งแต่ต้น
  • ครอบคลุมโมเดลอย่าง GPT-2 และ Llama 2 พร้อมอธิบายวิธีโหลดน้ำหนักที่พรีเทรนไว้แล้วและทำ instruction fine-tuning
  • น่าสนใจและอาจเป็นประโยชน์อย่างมากสำหรับผู้ที่สนใจแมชชีนเลิร์นนิงและการวิจัย AI
  • โปรเจ็กต์อื่นที่มีความสามารถคล้ายกัน ได้แก่ไลบรารี Transformers ของ Hugging Face และโมเดล GPT ของ OpenAI

1 ความคิดเห็น

 
GN⁺ 2024-09-01
ความเห็นบน Hacker News
  • มีความเห็นว่า "การกลับไปสู่พื้นฐานนั้นดีเสมอ" พร้อมขอบคุณที่แชร์

  • มีคำถามว่า "ขอโทษที่ไม่รู้ แต่สงสัยว่านี่ต่างจากของ Andrej Karpathy ที่ https://www.youtube.com/watch?v=kCc8FmEb1nY หรือไม่"

    • มีความเห็นต่อว่า "ไม่ว่าอย่างไร คืนนี้ก่อนนอนก็ตั้งใจจะดูอยู่ดี"
  • มีความเห็นว่า "บทความของ Sebastian ดีมาก" พร้อมบอกว่ารออ่านหนังสืออยู่

    • มีรายละเอียดมากมายเกี่ยวกับองค์ประกอบของ LLM และอยากให้ขยายเพิ่มเติมว่า Llama และ OpenAI จัดระเบียบและโครงสร้างข้อมูลฝึกอย่างไร
    • มีความเห็นว่า "นี่น่าจะเป็นศึกสำคัญในระยะยาว"