8 คะแนน โดย GN⁺ 2024-01-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

สร้างโมเดลภาษาขนาดใหญ่ (ตั้งแต่เริ่มต้น)

  • หนังสือที่ช่วยให้เข้าใจหลักการทำงานภายในของโมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs)
  • อธิบายวิธีสร้าง LLM ของตนเองแบบทีละขั้นตอน พร้อมข้อความที่ชัดเจน ไดอะแกรม และตัวอย่าง
  • วิธีฝึกและพัฒนาโมเดลขนาดเล็กแต่ใช้งานได้จริงเพื่อการเรียนรู้ สะท้อนแนวทางในการสร้างโมเดลพื้นฐานขนาดใหญ่ เช่น ChatGPT

สารบัญ

  • ไฟล์ Readme.md เป็นไฟล์ Markdown และแนะนำให้เปิดดูด้วยโปรแกรมแก้ไข Markdown หรือโหมดพรีวิวเพื่อการแสดงผลที่เหมาะสม
  • มีการสรุปชื่อบท โค้ดหลัก และโค้ดประกอบของแต่ละบทไว้ในสารบัญ
  • มีภาคผนวกแนะนำ PyTorch และคำแนะนำเพิ่มเติมเกี่ยวกับการติดตั้ง Python และแพ็กเกจ Python

ความเห็นของ GN⁺:

  • หนังสือเล่มนี้อธิบายกระบวนการสร้างโมเดลภาษาขนาดใหญ่ตั้งแต่ต้นอย่างละเอียด และมีประโยชน์อย่างมากสำหรับวิศวกรซอฟต์แวร์ระดับเริ่มต้นที่สนใจด้านปัญญาประดิษฐ์
  • มอบเนื้อหาที่น่าสนใจแก่ผู้อ่านที่ต้องการเข้าใจพื้นฐานของเทคโนโลยีล้ำสมัยอย่าง ChatGPT
  • คำแนะนำแบบทีละขั้นตอนพร้อมตัวอย่างโค้ดจริงจะช่วยให้ผู้เรียนสามารถนำทฤษฎีไปทดลองใช้ได้จริง

1 ความคิดเห็น

 
GN⁺ 2024-01-28
ความคิดเห็นใน Hacker News
  • กำลังเขียนไกด์บุ๊กเป็นสื่อเพิ่มเติมอยู่ ซึ่งมีความคืบหน้าอยู่หลายระดับ ตอนนี้ไกด์การปรับจูนเป็นเนื้อหาที่ดีที่สุดเท่าที่มี

  • ไกด์บุ๊กนี้ดูน่าทึ่งมาก สิ่งที่สงสัยคือ เป้าหมายหลักคือช่วยให้เข้าใจและทำให้เรื่องนี้ไม่ดูลึกลับเกินไป หรือเพื่อกระตุ้นให้ผู้คนสร้างโมเดลขนาดเล็กของตัวเองตามความต้องการกันแน่

  • การเขียนหนังสือเทคนิคแบบเปิดเผยต่อสาธารณะย่อมมาพร้อมความกังวลในระดับที่แทบจินตนาการไม่ออก จึงขอคารวะผู้เขียน

  • สงสัยว่าสามารถใช้ข้อมูลจากหนังสือเล่มนี้เพื่อเรียนรู้เรื่องการเรียนรู้แบบเสริมกำลังได้หรือไม่ เป้าหมายคือให้มันเรียนรู้การลงจอดแบบยานลงจอดบนดวงจันทร์ เริ่มแบบง่าย ๆ ที่ความสูง 100 ฟุต แล้วขับดันไปในทิศทางเดียวและลองซ้ำจนกว่าจะไม่สร้างหลุมอุกกาบาต จากนั้นค่อยเพิ่มตัวแปร เช่น การเคลื่อนที่ในแนวนอนพร้อมเพิ่มเครื่องขับดันแนวนอน อยากรู้ว่าหนังสือนี้จะช่วยกับ ML กระแสหลักแบบนั้นได้ไหม

  • อย่างที่เห็นจากตัวอย่างโค้ดแรก มันไม่ได้เริ่มจากศูนย์ทั้งหมดจริง ๆ

    import torch
    
  • ตอนแรกคิดว่าสื่อนี้น่าจะฟรีเลยกดไปที่ Github ด้วยความเคารพอย่างยิ่งต่อผลงานของผู้เขียน จึงอยากรู้ว่ามีสื่อฟรีแบบ "ตั้งแต่เริ่มต้น" ที่ใช้แทนได้และมีอะไรแนะนำบ้าง

  • ตัวสถาปัตยกรรมของโมเดลเองไม่ได้ซับซ้อนมากนัก โดยเฉพาะเมื่อใช้ torch กระบวนการทั้งหมดค่อนข้างตรงไปตรงมาและเป็นโปรเจ็กต์ที่ทำได้จริง

  • นี่น่าจะถูกจัดเป็น "Show HN"

  • ขอบคุณสำหรับงานชิ้นนี้ มีกรอบเวลาว่าหนังสือจะเสร็จเมื่อไรไหม

  • ซื้อมาแล้วหนึ่งเล่ม! ตั้งตารออ่านอยู่ :) ระหว่างที่เขียนหนังสือ มีช่องทางให้ผู้อ่านส่งฟีดแบ็กได้ไหม?