19 คะแนน โดย xguru 2023-12-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ความสนใจของสาธารณชนต่อโมเดลภาษาขนาดใหญ่ (LLM) เพิ่มสูงขึ้น และการถกเถียงเกี่ยวกับโอเพนซอร์สและซอร์สแบบปิดก็ขยายวงกว้าง

สูตรสำหรับ Pretrained LLM

  • สถาปัตยกรรมโมเดล: อธิบายการทำงานเฉพาะและรูปแบบทางคณิตศาสตร์
  • ชุดข้อมูลฝึก: รวมตัวอย่างและเอกสารที่โมเดลใช้เรียนรู้
  • โทเคไนเซอร์: กำหนดวิธีแปลงข้อความเป็นตัวเลข
  • ไฮเปอร์พารามิเตอร์การฝึก: กำหนดวิธีฝึกโมเดล
  • ต้องใช้พลังการประมวลผลและการกำกับดูแลจากผู้เชี่ยวชาญ
  • ค่าน้ำหนักของโมเดลที่ผ่านการพรีเทรนถูกใช้ในการอนุมาน

ปี 2022 จากการแข่งขันด้านขนาดสู่การแข่งขันด้านข้อมูล

  • จนถึงต้นปี 2022 ขนาดของโมเดลยังเป็นปัจจัยสำคัญต่อประสิทธิภาพ
  • มีการเปิดตัวโมเดลอย่าง BLOOM, OPT, GLM-130B
  • งานวิจัยใหม่ของ DeepMind เน้นย้ำความสำคัญของขนาดข้อมูลและทำให้เกิดการเปลี่ยนกระบวนทัศน์

ปี 2023 ปีแห่งการเปิดรีลีส

  • การเติบโตของ LLM ขนาดเล็ก: กุมภาพันธ์มี LLaMA (Meta), เมษายนมี Pythia (Eleuther AI), พฤษภาคมมี MPT (MosaicML), มิถุนายนมี X-GEN (Salesforce), Falcon (TIIUAE), กรกฎาคมมี Llama 2 (Meta) เปิดตัว ส่วนในเดือนกันยายนมี Qwen (Alibaba) และ Mistral (Mistral.AI), เดือนพฤศจิกายนมี Yi (01-ai), และเดือนธันวาคมมี DeciLM (Deci), Phi-2 (Microsoft) และ SOLAR (Upstage) เปิดตัว
  • มีการรวมค่าน้ำหนักของโมเดลไว้ด้วย และโมเดลฝั่งขนาดเล็กก็แสดงประสิทธิภาพได้ดี จึงถูกชุมชนนำไปใช้อย่างรวดเร็ว
  • ความแตกต่างหลักอยู่ที่ข้อมูลฝึกและไลเซนส์ของโมเดล

การมาของโมเดลเชิงสนทนา

  • ในปี 2023 โมเดลที่ผ่านการพรีเทรนส่วนใหญ่เปิดตัวพร้อมเวอร์ชันสำหรับสนทนา
  • ใช้วิธีอย่าง chat-based fine-tuning, instruction fine-tuning, reinforcement learning from human feedback (RLHF), DPO (Direct Preference Optimization)
  • มีการเปิดตัวเวอร์ชันสนทนาของโมเดล MPT, Falcon, XGen, Llama-2, Qwen, Yi, DeciLM

บทบาทของชุมชน

  • ชุมชนและนักวิจัยได้นำโมเดลฐานที่มีให้มาใช้พัฒนาชุดข้อมูลใหม่และโมเดลที่ผ่านการปรับจูนละเอียด
  • มีการเปิดตัวชุดข้อมูลและกลยุทธ์การปรับจูนละเอียดที่หลากหลาย
    • Human Preference: ชุดข้อมูล WebGPT ของ OpenAI, ชุดข้อมูล HH-RLHF (Anthropic) และ Summarize (OpenAI)
    • Instruction : Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions
    • Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

การเข้าถึงที่แพร่หลายมากขึ้น

  • การรวมโมเดล/ข้อมูล: รวมค่าน้ำหนักของโมเดลเพื่อผสานจุดแข็งเข้าด้วยกัน
  • PEFT: ปรับจูนละเอียดได้โดยไม่ต้องใช้ทั้งโมเดลเต็ม
  • Quantization: เทคนิคลดขนาดโมเดลที่ช่วยให้ผู้คนจำนวนมากขึ้นสามารถใช้ LLM ได้

อะไรจะเกิดขึ้นต่อไป?

  • การเกิดขึ้นของสถาปัตยกรรมใหม่ที่อาจก้าวข้าม Transformer และยกระดับประสิทธิภาพ
  • การเปิดตัวโมเดลใหม่อย่าง Mixtral, Mamba, Striped Hyena

1 ความคิดเห็น

 
laeyoung 2023-12-22

มีโมเดลโอเพนซอร์สดี ๆ ออกมาเยอะก็ดีจริงครับ ทั้ง LLaMA เอง แล้วก็โมเดลโอเพนซอร์สที่มีให้ใช้งานได้บนเว็บด้วย ผมก็ลองดาวน์โหลดมาทดลองหลายอย่างอยู่เหมือนกันครับ แต่พอมาดูสิ่งที่ใช้งานจริงและใช้ในชีวิตประจำวัน กลับมีแค่ ChatGPT หรือพวกที่เอา GPT-4 ไปให้บริการในรูปแบบ SaaS เท่านั้น เลยก็รู้สึกว่ามันค่อนข้างย้อนแย้งอยู่เหมือนกันครับ โมเดลโอเพนซอร์สก็สำคัญ แต่สุดท้ายถ้าไม่มีทั้งโครงสร้างพื้นฐานที่จะทำให้รันได้อย่างเสถียร และผู้สนับสนุนด้านการเงิน(?) ที่จะช่วยซัพพอร์ตมันอย่างมั่นคง ก็คงเป็นเรื่องยาก เลยทำให้ผมคิดแบบนั้นครับ