การสร้าง LLM ที่คล้าย ChatGPT แบบทีละขั้นตอนตั้งแต่เริ่มต้น
(github.com/rasbt)สร้างโมเดลภาษาขนาดใหญ่ (ตั้งแต่เริ่มต้น)
- หนังสือที่ช่วยให้เข้าใจหลักการทำงานภายในของโมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs)
- อธิบายวิธีสร้าง LLM ของตนเองแบบทีละขั้นตอน พร้อมข้อความที่ชัดเจน ไดอะแกรม และตัวอย่าง
- วิธีฝึกและพัฒนาโมเดลขนาดเล็กแต่ใช้งานได้จริงเพื่อการเรียนรู้ สะท้อนแนวทางในการสร้างโมเดลพื้นฐานขนาดใหญ่ เช่น ChatGPT
สารบัญ
- ไฟล์
Readme.mdเป็นไฟล์ Markdown และแนะนำให้เปิดดูด้วยโปรแกรมแก้ไข Markdown หรือโหมดพรีวิวเพื่อการแสดงผลที่เหมาะสม - มีการสรุปชื่อบท โค้ดหลัก และโค้ดประกอบของแต่ละบทไว้ในสารบัญ
- มีภาคผนวกแนะนำ PyTorch และคำแนะนำเพิ่มเติมเกี่ยวกับการติดตั้ง Python และแพ็กเกจ Python
ความเห็นของ GN⁺:
- หนังสือเล่มนี้อธิบายกระบวนการสร้างโมเดลภาษาขนาดใหญ่ตั้งแต่ต้นอย่างละเอียด และมีประโยชน์อย่างมากสำหรับวิศวกรซอฟต์แวร์ระดับเริ่มต้นที่สนใจด้านปัญญาประดิษฐ์
- มอบเนื้อหาที่น่าสนใจแก่ผู้อ่านที่ต้องการเข้าใจพื้นฐานของเทคโนโลยีล้ำสมัยอย่าง ChatGPT
- คำแนะนำแบบทีละขั้นตอนพร้อมตัวอย่างโค้ดจริงจะช่วยให้ผู้เรียนสามารถนำทฤษฎีไปทดลองใช้ได้จริง
1 ความคิดเห็น
ความคิดเห็นใน Hacker News
กำลังเขียนไกด์บุ๊กเป็นสื่อเพิ่มเติมอยู่ ซึ่งมีความคืบหน้าอยู่หลายระดับ ตอนนี้ไกด์การปรับจูนเป็นเนื้อหาที่ดีที่สุดเท่าที่มี
ไกด์บุ๊กนี้ดูน่าทึ่งมาก สิ่งที่สงสัยคือ เป้าหมายหลักคือช่วยให้เข้าใจและทำให้เรื่องนี้ไม่ดูลึกลับเกินไป หรือเพื่อกระตุ้นให้ผู้คนสร้างโมเดลขนาดเล็กของตัวเองตามความต้องการกันแน่
การเขียนหนังสือเทคนิคแบบเปิดเผยต่อสาธารณะย่อมมาพร้อมความกังวลในระดับที่แทบจินตนาการไม่ออก จึงขอคารวะผู้เขียน
สงสัยว่าสามารถใช้ข้อมูลจากหนังสือเล่มนี้เพื่อเรียนรู้เรื่องการเรียนรู้แบบเสริมกำลังได้หรือไม่ เป้าหมายคือให้มันเรียนรู้การลงจอดแบบยานลงจอดบนดวงจันทร์ เริ่มแบบง่าย ๆ ที่ความสูง 100 ฟุต แล้วขับดันไปในทิศทางเดียวและลองซ้ำจนกว่าจะไม่สร้างหลุมอุกกาบาต จากนั้นค่อยเพิ่มตัวแปร เช่น การเคลื่อนที่ในแนวนอนพร้อมเพิ่มเครื่องขับดันแนวนอน อยากรู้ว่าหนังสือนี้จะช่วยกับ ML กระแสหลักแบบนั้นได้ไหม
อย่างที่เห็นจากตัวอย่างโค้ดแรก มันไม่ได้เริ่มจากศูนย์ทั้งหมดจริง ๆ
ตอนแรกคิดว่าสื่อนี้น่าจะฟรีเลยกดไปที่ Github ด้วยความเคารพอย่างยิ่งต่อผลงานของผู้เขียน จึงอยากรู้ว่ามีสื่อฟรีแบบ "ตั้งแต่เริ่มต้น" ที่ใช้แทนได้และมีอะไรแนะนำบ้าง
ตัวสถาปัตยกรรมของโมเดลเองไม่ได้ซับซ้อนมากนัก โดยเฉพาะเมื่อใช้ torch กระบวนการทั้งหมดค่อนข้างตรงไปตรงมาและเป็นโปรเจ็กต์ที่ทำได้จริง
นี่น่าจะถูกจัดเป็น "Show HN"
ขอบคุณสำหรับงานชิ้นนี้ มีกรอบเวลาว่าหนังสือจะเสร็จเมื่อไรไหม
ซื้อมาแล้วหนึ่งเล่ม! ตั้งตารออ่านอยู่ :) ระหว่างที่เขียนหนังสือ มีช่องทางให้ผู้อ่านส่งฟีดแบ็กได้ไหม?