- ความสนใจของสาธารณชนต่อโมเดลภาษาขนาดใหญ่ (LLM) เพิ่มสูงขึ้น และการถกเถียงเกี่ยวกับโอเพนซอร์สและซอร์สแบบปิดก็ขยายวงกว้าง
สูตรสำหรับ Pretrained LLM
- สถาปัตยกรรมโมเดล: อธิบายการทำงานเฉพาะและรูปแบบทางคณิตศาสตร์
- ชุดข้อมูลฝึก: รวมตัวอย่างและเอกสารที่โมเดลใช้เรียนรู้
- โทเคไนเซอร์: กำหนดวิธีแปลงข้อความเป็นตัวเลข
- ไฮเปอร์พารามิเตอร์การฝึก: กำหนดวิธีฝึกโมเดล
- ต้องใช้พลังการประมวลผลและการกำกับดูแลจากผู้เชี่ยวชาญ
- ค่าน้ำหนักของโมเดลที่ผ่านการพรีเทรนถูกใช้ในการอนุมาน
ปี 2022 จากการแข่งขันด้านขนาดสู่การแข่งขันด้านข้อมูล
- จนถึงต้นปี 2022 ขนาดของโมเดลยังเป็นปัจจัยสำคัญต่อประสิทธิภาพ
- มีการเปิดตัวโมเดลอย่าง BLOOM, OPT, GLM-130B
- งานวิจัยใหม่ของ DeepMind เน้นย้ำความสำคัญของขนาดข้อมูลและทำให้เกิดการเปลี่ยนกระบวนทัศน์
ปี 2023 ปีแห่งการเปิดรีลีส
- การเติบโตของ LLM ขนาดเล็ก: กุมภาพันธ์มี LLaMA (Meta), เมษายนมี Pythia (Eleuther AI), พฤษภาคมมี MPT (MosaicML), มิถุนายนมี X-GEN (Salesforce), Falcon (TIIUAE), กรกฎาคมมี Llama 2 (Meta) เปิดตัว ส่วนในเดือนกันยายนมี Qwen (Alibaba) และ Mistral (Mistral.AI), เดือนพฤศจิกายนมี Yi (01-ai), และเดือนธันวาคมมี DeciLM (Deci), Phi-2 (Microsoft) และ SOLAR (Upstage) เปิดตัว
- มีการรวมค่าน้ำหนักของโมเดลไว้ด้วย และโมเดลฝั่งขนาดเล็กก็แสดงประสิทธิภาพได้ดี จึงถูกชุมชนนำไปใช้อย่างรวดเร็ว
- ความแตกต่างหลักอยู่ที่ข้อมูลฝึกและไลเซนส์ของโมเดล
การมาของโมเดลเชิงสนทนา
- ในปี 2023 โมเดลที่ผ่านการพรีเทรนส่วนใหญ่เปิดตัวพร้อมเวอร์ชันสำหรับสนทนา
- ใช้วิธีอย่าง chat-based fine-tuning, instruction fine-tuning, reinforcement learning from human feedback (RLHF), DPO (Direct Preference Optimization)
- มีการเปิดตัวเวอร์ชันสนทนาของโมเดล MPT, Falcon, XGen, Llama-2, Qwen, Yi, DeciLM
บทบาทของชุมชน
- ชุมชนและนักวิจัยได้นำโมเดลฐานที่มีให้มาใช้พัฒนาชุดข้อมูลใหม่และโมเดลที่ผ่านการปรับจูนละเอียด
- มีการเปิดตัวชุดข้อมูลและกลยุทธ์การปรับจูนละเอียดที่หลากหลาย
- Human Preference: ชุดข้อมูล WebGPT ของ OpenAI, ชุดข้อมูล HH-RLHF (Anthropic) และ Summarize (OpenAI)
- Instruction : Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions
- Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..
การเข้าถึงที่แพร่หลายมากขึ้น
- การรวมโมเดล/ข้อมูล: รวมค่าน้ำหนักของโมเดลเพื่อผสานจุดแข็งเข้าด้วยกัน
- PEFT: ปรับจูนละเอียดได้โดยไม่ต้องใช้ทั้งโมเดลเต็ม
- Quantization: เทคนิคลดขนาดโมเดลที่ช่วยให้ผู้คนจำนวนมากขึ้นสามารถใช้ LLM ได้
อะไรจะเกิดขึ้นต่อไป?
- การเกิดขึ้นของสถาปัตยกรรมใหม่ที่อาจก้าวข้าม Transformer และยกระดับประสิทธิภาพ
- การเปิดตัวโมเดลใหม่อย่าง Mixtral, Mamba, Striped Hyena
1 ความคิดเห็น
มีโมเดลโอเพนซอร์สดี ๆ ออกมาเยอะก็ดีจริงครับ ทั้ง LLaMA เอง แล้วก็โมเดลโอเพนซอร์สที่มีให้ใช้งานได้บนเว็บด้วย ผมก็ลองดาวน์โหลดมาทดลองหลายอย่างอยู่เหมือนกันครับ แต่พอมาดูสิ่งที่ใช้งานจริงและใช้ในชีวิตประจำวัน กลับมีแค่ ChatGPT หรือพวกที่เอา GPT-4 ไปให้บริการในรูปแบบ SaaS เท่านั้น เลยก็รู้สึกว่ามันค่อนข้างย้อนแย้งอยู่เหมือนกันครับ โมเดลโอเพนซอร์สก็สำคัญ แต่สุดท้ายถ้าไม่มีทั้งโครงสร้างพื้นฐานที่จะทำให้รันได้อย่างเสถียร และผู้สนับสนุนด้านการเงิน(?) ที่จะช่วยซัพพอร์ตมันอย่างมั่นคง ก็คงเป็นเรื่องยาก เลยทำให้ผมคิดแบบนั้นครับ