ปี 2023 คือปีแห่ง Open LLM

xguru · 2023-12-21T10:33:04+09:00

ความสนใจของสาธารณชนต่อโมเดลภาษาขนาดใหญ่ (LLM) เพิ่มสูงขึ้น และการถกเถียงเกี่ยวกับโอเพนซอร์สและซอร์สแบบปิดก็ขยายวงกว้าง สูตรสำหรับ Pretrained LLM สถาปัตยกรรมโมเดล: อธิบายการทำงานเฉพาะและรูปแบบทางคณิตศาสตร์ ชุดข้อมูลฝึก: รวมตัวอย่างและเอกสารที่โมเดลใช้เรียนรู้ โทเคไนเซอร์: กำหนดวิธีแปลงข้อความเป็นตัวเลข ไฮเปอร์พารามิเตอร์การฝึก: กำหนดวิธีฝึกโมเดล ต้องใช้พลังการประมวลผลและการกำกับดูแลจากผู้เชี่ยวชาญ ค่าน้ำหนักของโมเดลที่ผ่านการพรีเทรนถูกใช้ในการอนุมาน ปี 2022 จากการแข่งขันด้านขนาดสู่การแข่งขันด้านข้อมูล จนถึงต้นปี 2022 ขนาดของโมเดลยังเป็นปัจจัยสำคัญต่อประสิทธิภาพ มีการเปิดตัวโมเดลอย่าง BLOOM, OPT, GLM-130B งานวิจัยใหม่ของ DeepMind เน้นย้ำความสำคัญของขนาดข้อมูลและทำให้เกิดการเปลี่ยนกระบวนทัศน์ ปี 2023 ปีแห่งการเปิดรีลีส การเติบโตของ LLM ขนาดเล็ก: กุมภาพันธ์มี LLaMA (Meta), เมษายนมี Pythia (Eleuther AI), พฤษภาคมมี MPT (MosaicML), มิถุนายนมี X-GEN (Salesforce), Falcon (TIIUAE), กรกฎาคมมี Llama 2 (Meta) เปิดตัว ส่วนในเดือนกันยายนมี Qwen (Alibaba) และ Mistral (Mistral.AI), เดือนพฤศจิกายนมี Yi (01-ai), และเดือนธันวาคมมี DeciLM (Deci), Phi-2 (Microsoft) และ SOLAR (Upstage) เปิดตัว มีการรวมค่าน้ำหนักของโมเดลไว้ด้วย และโมเดลฝั่งขนาดเล็กก็แสดงประสิทธิภาพได้ดี จึงถูกชุมชนนำไปใช้อย่างรวดเร็ว ความแตกต่างหลักอยู่ที่ข้อมูลฝึกและไลเซนส์ของโมเดล การมาของโมเดลเชิงสนทนา ในปี 2023 โมเดลที่ผ่านการพรีเทรนส่วนใหญ่เปิดตัวพร้อมเวอร์ชันสำหรับสนทนา ใช้วิธีอย่าง chat-based fine-tuning, instruction fine-tuning, reinforcement learning from human feedback (RLHF), DPO (Direct Preference Optimization) มีการเปิดตัวเวอร์ชันสนทนาของโมเดล MPT, Falcon, XGen, Llama-2, Qwen, Yi, DeciLM บทบาทของชุมชน ชุมชนและนักวิจัยได้นำโมเดลฐานที่มีให้มาใช้พัฒนาชุดข้อมูลใหม่และโมเดลที่ผ่านการปรับจูนละเอียด มีการเปิดตัวชุดข้อมูลและกลยุทธ์การปรับจูนละเอียดที่หลากหลาย Human Preference: ชุดข้อมูล WebGPT ของ OpenAI, ชุดข้อมูล HH-RLHF (Anthropic) และ Summarize (OpenAI) Instruction : Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,.. การเข้าถึงที่แพร่หลายมากขึ้น การรวมโมเดล/ข้อมูล: รวมค่าน้ำหนักของโมเดลเพื่อผสานจุดแข็งเข้าด้วยกัน PEFT: ปรับจูนละเอียดได้โดยไม่ต้องใช้ทั้งโมเดลเต็ม Quantization: เทคนิคลดขนาดโมเดลที่ช่วยให้ผู้คนจำนวนมากขึ้นสามารถใช้ LLM ได้ อะไรจะเกิดขึ้นต่อไป? การเกิดขึ้นของสถาปัตยกรรมใหม่ที่อาจก้าวข้าม Transformer และยกระดับประสิทธิภาพ การเปิดตัวโมเดลใหม่อย่าง Mixtral, Mamba, Striped Hyena

(huggingface.co)

19 คะแนน โดย xguru 2023-12-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ความสนใจของสาธารณชนต่อโมเดลภาษาขนาดใหญ่ (LLM) เพิ่มสูงขึ้น และการถกเถียงเกี่ยวกับโอเพนซอร์สและซอร์สแบบปิดก็ขยายวงกว้าง

สูตรสำหรับ Pretrained LLM

สถาปัตยกรรมโมเดล: อธิบายการทำงานเฉพาะและรูปแบบทางคณิตศาสตร์
ชุดข้อมูลฝึก: รวมตัวอย่างและเอกสารที่โมเดลใช้เรียนรู้
โทเคไนเซอร์: กำหนดวิธีแปลงข้อความเป็นตัวเลข
ไฮเปอร์พารามิเตอร์การฝึก: กำหนดวิธีฝึกโมเดล
ต้องใช้พลังการประมวลผลและการกำกับดูแลจากผู้เชี่ยวชาญ
ค่าน้ำหนักของโมเดลที่ผ่านการพรีเทรนถูกใช้ในการอนุมาน

ปี 2022 จากการแข่งขันด้านขนาดสู่การแข่งขันด้านข้อมูล

จนถึงต้นปี 2022 ขนาดของโมเดลยังเป็นปัจจัยสำคัญต่อประสิทธิภาพ
มีการเปิดตัวโมเดลอย่าง BLOOM, OPT, GLM-130B
งานวิจัยใหม่ของ DeepMind เน้นย้ำความสำคัญของขนาดข้อมูลและทำให้เกิดการเปลี่ยนกระบวนทัศน์

ปี 2023 ปีแห่งการเปิดรีลีส

การเติบโตของ LLM ขนาดเล็ก: กุมภาพันธ์มี LLaMA (Meta), เมษายนมี Pythia (Eleuther AI), พฤษภาคมมี MPT (MosaicML), มิถุนายนมี X-GEN (Salesforce), Falcon (TIIUAE), กรกฎาคมมี Llama 2 (Meta) เปิดตัว ส่วนในเดือนกันยายนมี Qwen (Alibaba) และ Mistral (Mistral.AI), เดือนพฤศจิกายนมี Yi (01-ai), และเดือนธันวาคมมี DeciLM (Deci), Phi-2 (Microsoft) และ SOLAR (Upstage) เปิดตัว
มีการรวมค่าน้ำหนักของโมเดลไว้ด้วย และโมเดลฝั่งขนาดเล็กก็แสดงประสิทธิภาพได้ดี จึงถูกชุมชนนำไปใช้อย่างรวดเร็ว
ความแตกต่างหลักอยู่ที่ข้อมูลฝึกและไลเซนส์ของโมเดล

การมาของโมเดลเชิงสนทนา

ในปี 2023 โมเดลที่ผ่านการพรีเทรนส่วนใหญ่เปิดตัวพร้อมเวอร์ชันสำหรับสนทนา
ใช้วิธีอย่าง chat-based fine-tuning, instruction fine-tuning, reinforcement learning from human feedback (RLHF), DPO (Direct Preference Optimization)
มีการเปิดตัวเวอร์ชันสนทนาของโมเดล MPT, Falcon, XGen, Llama-2, Qwen, Yi, DeciLM

บทบาทของชุมชน

ชุมชนและนักวิจัยได้นำโมเดลฐานที่มีให้มาใช้พัฒนาชุดข้อมูลใหม่และโมเดลที่ผ่านการปรับจูนละเอียด
มีการเปิดตัวชุดข้อมูลและกลยุทธ์การปรับจูนละเอียดที่หลากหลาย
- Human Preference: ชุดข้อมูล WebGPT ของ OpenAI, ชุดข้อมูล HH-RLHF (Anthropic) และ Summarize (OpenAI)
- Instruction : Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions
- Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

การเข้าถึงที่แพร่หลายมากขึ้น

การรวมโมเดล/ข้อมูล: รวมค่าน้ำหนักของโมเดลเพื่อผสานจุดแข็งเข้าด้วยกัน
PEFT: ปรับจูนละเอียดได้โดยไม่ต้องใช้ทั้งโมเดลเต็ม
Quantization: เทคนิคลดขนาดโมเดลที่ช่วยให้ผู้คนจำนวนมากขึ้นสามารถใช้ LLM ได้

อะไรจะเกิดขึ้นต่อไป?

การเกิดขึ้นของสถาปัตยกรรมใหม่ที่อาจก้าวข้าม Transformer และยกระดับประสิทธิภาพ
การเปิดตัวโมเดลใหม่อย่าง Mixtral, Mamba, Striped Hyena

1 ความคิดเห็น

laeyoung 2023-12-22

มีโมเดลโอเพนซอร์สดี ๆ ออกมาเยอะก็ดีจริงครับ ทั้ง LLaMA เอง แล้วก็โมเดลโอเพนซอร์สที่มีให้ใช้งานได้บนเว็บด้วย ผมก็ลองดาวน์โหลดมาทดลองหลายอย่างอยู่เหมือนกันครับ แต่พอมาดูสิ่งที่ใช้งานจริงและใช้ในชีวิตประจำวัน กลับมีแค่ ChatGPT หรือพวกที่เอา GPT-4 ไปให้บริการในรูปแบบ SaaS เท่านั้น เลยก็รู้สึกว่ามันค่อนข้างย้อนแย้งอยู่เหมือนกันครับ โมเดลโอเพนซอร์สก็สำคัญ แต่สุดท้ายถ้าไม่มีทั้งโครงสร้างพื้นฐานที่จะทำให้รันได้อย่างเสถียร และผู้สนับสนุนด้านการเงิน(?) ที่จะช่วยซัพพอร์ตมันอย่างมั่นคง ก็คงเป็นเรื่องยาก เลยทำให้ผมคิดแบบนั้นครับ