14 คะแนน โดย GN⁺ 2025-07-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan ฯลฯ สรุปข้อมูลเชิงข้อเท็จจริงและพัฒนาการของ ขนาดพารามิเตอร์และสถาปัตยกรรม ของโมเดลภาษาขนาดใหญ่หลัก
  • GPT-2 (ปี 2019) มีพารามิเตอร์ 130 ล้าน~1.6 พันล้าน, GPT-3 (ปี 2020) มีพารามิเตอร์ 175 พันล้าน (175B), และ Llama-3.1 (ปี 2024) มีพารามิเตอร์ 405 พันล้าน (405B) แสดงให้เห็นว่าขนาดของโมเดลใหญ่ขึ้นอย่างรวดเร็ว
  • การมาของ สถาปัตยกรรม MoE(Mixture-of-Experts) ทำให้โมเดลระดับ GPT-3 ขึ้นไปเริ่มเปิดซอร์ส/ดาวน์โหลดได้ โดยมีตัวอย่างเด่นอย่าง DeepSeek V3 Base(671 พันล้าน), ERNIE-4.5(424 พันล้าน), Mixtral-8x22B(141 พันล้าน) และโมเดลขนาดยักษ์อื่น ๆ อีกหลากหลาย
  • การเปรียบเทียบระหว่างโมเดล Dense(ใช้ทุกพารามิเตอร์) กับ MoE(เปิดใช้งานเฉพาะพารามิเตอร์ของผู้เชี่ยวชาญบางส่วน) มีความซับซ้อนมากขึ้น และทำให้การเปรียบเทียบ "ความฉลาด" ที่แท้จริงไม่ใช่เรื่องง่าย
  • ระยะหลังเริ่มเห็นแนวโน้มการพัฒนาหลากหลาย เช่น การรองรับหลายโมดาลิตี·หลายภาษา, สถาปัตยกรรมใหม่, การใช้ข้อมูลสังเคราะห์

  • เอกสารนี้สรุปข้อมูลข้อเท็จจริงเกี่ยวกับการเปลี่ยนแปลงของขนาด โมเดลพื้นฐาน (base model) ของโมเดลภาษาขนาดใหญ่ (LLM) ในช่วงไม่กี่ปีที่ผ่านมา
  • โฟกัสอยู่ที่ ตัวโมเดลที่เป็นเอนจินสร้างข้อความโดยตรง ไม่ใช่แชตบอตหรือผู้ช่วย AI

ประวัติ

  • GPT-2(-medium, -large, -xl) (2019): มีพารามิเตอร์ 137 ล้าน, 380 ล้าน, 812 ล้าน, 1.61 พันล้าน ตามลำดับ
    • ฝึกด้วยชุดข้อมูล WebText ราว 40GB (คาดว่าประมาณ 1 พันล้านโทเคน)
    • สามารถดูรายชื่อเว็บไซต์ที่ใช้ได้ใน domains.txt
  • GPT-3(davinci, davinci-002) (2020): 175 พันล้านพารามิเตอร์
    • ฝึกด้วยข้อมูลประมาณ 400 พันล้านโทเคนจาก CommonCrawl, WebText2, Books1·2, Wikipedia ฯลฯ
    • ต้องใช้เวลาเทรนหลายเดือนด้วย GPU A100 จำนวนหลายพันตัว
  • GPT-3.5, GPT-4 (2022, 2023): ไม่มีการเปิดเผยข้อมูลทางการเกี่ยวกับสถาปัตยกรรมและข้อมูลฝึก

Llama

  • Llama เป็นซีรีส์โมเดลภาษาขนาดใหญ่ที่พัฒนาโดย Meta (เดิมคือ Facebook) ซึ่งได้รับความสนใจจากการ เปิดซอร์ส และการออกแบบที่ใช้งานได้แม้มีทรัพยากรไม่มากนัก
  • ขนาดโมเดล (จำนวนพารามิเตอร์) รวมถึงข้อมูลฝึกและวิวัฒนาการของสถาปัตยกรรม ได้ช่วยขับเคลื่อนเทรนด์โอเพนซอร์สของ LLM
  • Llama 1 (2023)

    • 7B, 13B, 33B, 65B: ให้โมเดลขนาด 7 พันล้าน, 13 พันล้าน, 33 พันล้าน, 65 พันล้านพารามิเตอร์
    • ข้อมูลฝึก: ข้อความขนาดใหญ่ 1.4 ล้านล้าน (1.4T) โทเคน (เช่น Books3, CommonCrawl)
    • Llama 65B เป็นหนึ่งในโมเดลเปิดที่ใหญ่ที่สุดในเวลานั้น
    • Books3 เป็นชุดข้อมูลขนาดใหญ่ที่กลายเป็นจุดสำคัญของการถกเถียงด้านกฎหมายลิขสิทธิ์
    • จุดเด่น
      • รันได้แม้ใช้ GPU ขนาดไม่ใหญ่มาก (แม้แต่ 65B ก็ทำงานได้บน GPU 8 ใบ)
      • การแจกจ่าย weights แบบเปิด ช่วยให้เกิดโมเดลต่อยอดและการทดลองจากชุมชนจำนวนมาก
  • Llama 2 (ครึ่งหลังปี 2023)

    • ตอนเปิดตัวมีขนาด 7 พันล้าน, 13 พันล้าน, 70 พันล้านพารามิเตอร์ (7B, 13B, 70B)
    • มีการเปิดตัวเวอร์ชันสนทนา (แชตบอต) ด้วย พร้อมรองรับ fine-tuning และ RLHF (การเรียนรู้แบบเสริมกำลังจากคำติชมของมนุษย์)
    • ใบอนุญาตอนุญาตให้ใช้ได้ทั้งในชุมชนและเชิงพาณิชย์ (แต่มีข้อจำกัดบางส่วน)
  • Llama 3.1 (2024)

    • 405B: พารามิเตอร์แบบ dense (ใช้ทุกพารามิเตอร์) 405 พันล้าน
    • ข้อมูลฝึก: 2.87 ล้านล้านโทเคน + long context 800 พันล้าน + annealing 40 ล้าน (เพิ่มข้อมูลคุณภาพสูง เช่น โค้ด/คณิตศาสตร์) → รวม 3.67 ล้านล้านโทเคน
    • สถาปัตยกรรม
      • อิง Transformer และใช้พารามิเตอร์ทั้งหมดพร้อมกันในกระบวนการอนุมาน (dense)
      • เพิ่มข้อมูลโค้ดและคณิตศาสตร์คุณภาพสูงเพื่อดันคะแนน benchmark หลักให้สูงสุด (annealing)
    • จุดเด่น
      • เป็นโมเดล dense ขนาดใหญ่รุ่นใหม่ที่สามารถดาวน์โหลดได้ (โอเพนซอร์ส)
      • Meta ไม่เปิดเผยองค์ประกอบของชุดข้อมูลอย่างเป็นสาธารณะ และอาจมีข้อมูลที่มีข้อถกเถียงด้านลิขสิทธิ์บางส่วนรวมอยู่ด้วย (เช่น Books3)
      • ในบางการประเมิน โมเดลมีแนวโน้มแบบ "ผู้ช่วย" มากขึ้น ทำให้บทบาทในฐานะเอนจินข้อความล้วน ๆ แตกต่างออกไปเล็กน้อย
  • Llama 4 (2025)

    • โมเดลใหญ่ที่สุด: 2 ล้านล้าน (2T) พารามิเตอร์ แบบ MoE (Mixture-of-Experts)
      • A288B 16E: พารามิเตอร์ที่เปิดใช้งาน 288 พันล้าน, มีผู้เชี่ยวชาญ 16 ตัว, โดยจะเปิดใช้เพียงบางส่วนจากทั้งหมด 2 ล้านล้านพารามิเตอร์
    • สถานการณ์
      • โมเดล 2T ยังไม่เปิดเผยต่อสาธารณะ (ใช้ทดลองภายใน) โดยเปิดภายนอกเฉพาะเวอร์ชันต่อยอด/ย่อขนาด เช่น maverick, scout
      • โมเดลต่อยอดจำนวนมากถูกประเมินว่ามี "ความฉลาด" ต่ำกว่าต้นฉบับ
      • ระหว่างการเปิดตัวมีข้อถกเถียงเรื่องการปั่นคะแนน benchmark (กรณี lmarena) ทำให้ความน่าเชื่อถือลดลง และมีข่าวลือเรื่องการยุบทีม
    • ลักษณะเด่นของโครงสร้าง MoE
      • เปิดใช้งานเฉพาะพารามิเตอร์ของผู้เชี่ยวชาญบางส่วน จึงมีประสิทธิภาพเชิงคำนวณดีกว่า dense เมื่อเทียบที่จำนวนพารามิเตอร์เท่ากัน
      • ทำให้โมเดลขนาดยักษ์ใช้งานจริงได้ (ในสภาพแวดล้อมแบบกระจายและทรัพยากรที่จำกัดกว่า)
  • ความสำคัญและอิทธิพลของ Llama

    • ซีรีส์ Llama ช่วยผลักดัน การขยายตัวของระบบนิเวศโอเพนซอร์ส และการทำให้โมเดลภาษาขนาดใหญ่เข้าถึงได้กว้างขึ้น
    • หลังการเปิดตัว Llama-3.1 405B การดาวน์โหลด/ทดลอง โมเดลขนาดใหญ่ระดับ GPT-3/4 กลายเป็นเรื่องที่เป็นไปได้จริง
    • การนำโครงสร้าง MoE มาใช้ ทำให้การฝึกและการเผยแพร่โมเดลขนาดยักษ์คึกคักขึ้น (ส่งอิทธิพลต่อ DeepSeek, Mixtral เป็นต้น)
    • อย่างไรก็ตาม โมเดลระยะหลังมีการปรับให้เหมาะกับ benchmark (annealing) และเพิ่มแนวโน้มแบบผู้ช่วยมากขึ้น จึงเกิดการถกเถียงว่าคุณลักษณะของ "โมเดลภาษาแท้ ๆ" กำลังเปลี่ยนไป

The desert – ช่วงว่างของโมเดลใหญ่โอเพนซอร์สและการเปลี่ยนแปลง

  • หมายถึง ช่วงว่างยาวนาน ที่ไม่สามารถหาโมเดลภาษาขนาดใหญ่ระดับ GPT-3 (175 พันล้านพารามิเตอร์) ขึ้นไปในรูปแบบโอเพนซอร์สได้
  • ในช่วงนั้น (2020~กลางปี 2023) มีการเปิดเผยเพียง โมเดลขนาดค่อนข้างเล็กอย่าง Llama ที่ต่ำกว่า 70B เท่านั้น
    • บางโครงการพยายามยกระดับประสิทธิภาพโดย fine-tune Llama ขนาดเล็ก (เช่น 70B) ด้วยข้อมูลสังเคราะห์ที่ GPT-3 สร้างขึ้น
    • แต่หาก นำข้อความที่ AI สร้างมาฝึก AI อีกครั้ง อาจเกิดปัญหาคุณภาพข้อมูลลดลง (data "degeneration")
  • เหตุผลที่ โมเดล open weights ระดับ GPT-3 ขาดหายไปเป็นเวลานาน ได้แก่
    • ต้นทุนการฝึก (โครงสร้างพื้นฐาน GPU หลายพันถึงหลายหมื่นตัว), การจัดหาข้อมูล, และความยากในการเผยแพร่โครงสร้างพารามิเตอร์ขนาดใหญ่ ล้วนเป็นปัจจัยร่วมกัน
  • เมื่อมีการเปิดตัว Llama-3.1 405B (พารามิเตอร์ dense 405 พันล้าน) การเปิดซอร์สโมเดลขนาดยักษ์จึงเริ่มขึ้นอย่างจริงจัง
    • ก่อนหน้านั้นเล็กน้อย (ธันวาคม 2023) มี Mistral Mixtral-8x7B (โครงสร้าง MoE, พารามิเตอร์รวม 56 พันล้าน) และในเดือนเมษายน 2024 Mixtral-8x22B (รวม 141 พันล้าน, เปิดใช้งาน 39 พันล้านพารามิเตอร์) เป็นต้น
      • โดยอาศัยสถาปัตยกรรม MoE (Mixture-of-Experts) ทำให้สามารถฝึกและเผยแพร่โมเดลขนาดใหญ่ระดับ GPT-3 ได้ด้วยทรัพยากรที่น้อยลงเมื่อเทียบกัน
  • โครงสร้าง MoE มีเครือข่ายผู้เชี่ยวชาญ (Expert) หลายชุด และในการอนุมานแต่ละครั้งจะเปิดใช้งานเพียงบางส่วน
    • จึงทำให้สามารถใช้งานโมเดลขนาดใหญ่ได้ด้วยทรัพยากรน้อยกว่าโครงสร้าง dense (ทั้งหน่วยความจำและการคำนวณ)
    • จากข้อจำกัดด้านจำนวน GPU และหน่วยความจำ MoE จึงมีบทบาทชี้ขาดในการทำให้โมเดลเปิดขนาดใหญ่แพร่หลาย

โมเดลขนาดใหญ่แบบ MoE รุ่นล่าสุด

Deepseek V3 Base (2024)

  • 671 พันล้านพารามิเตอร์ (MoE), เปิดใช้งาน 37 พันล้าน, ฝึกด้วยโทเคนคุณภาพสูง 14.8 ล้านล้าน
  • R1 (โมเดลเฉพาะทางด้านการให้เหตุผล) ก็เปิดตัวเช่นกัน และเป็นโมเดลที่ดาวน์โหลดได้รุ่นแรก ๆ ที่เข้าใกล้สมรรถนะระดับ GPT-4
  • หลังเปิดตัวไม่นาน ราคาหุ้น NVIDIA (NVDA) ร่วงลงชั่วคราว สะท้อนผลกระทบต่อตลาดอย่างมาก
  • หลังจากนั้น โมเดล MoE ขนาดใหญ่หน้าใหม่จำนวนมาก รวมถึงจากจีน ก็ทยอยปรากฏตามมา
    • บางโมเดลนำข้อมูลรูปแบบใหม่หลากหลายประเภทมาใช้ในการฝึก เพื่อรองรับทั้งมัลติโมดัลและหลายภาษา

Databricks (DBRX, มีนาคม 2024)

  • พารามิเตอร์รวม 132 พันล้าน, เปิดใช้งาน 36 พันล้าน, 12 ล้านล้านโทเคน
  • เลือกใช้ผู้เชี่ยวชาญ 4 จาก 16 ตัว (ละเอียดกว่า Mistral·Grok)

Minimax (มกราคม 2025)

  • พารามิเตอร์รวม 456 พันล้าน, เปิดใช้งาน 45.9 พันล้าน, ควบคุมคุณภาพข้อมูลฝึกด้วย reward labeler ของตนเอง

Dots (มิถุนายน 2025)

  • พารามิเตอร์รวม 143 พันล้าน, เปิดใช้งาน 14 พันล้าน, 11.2 ล้านล้านโทเคน, คอนเท็กซ์ 32K
  • โครงสร้างผู้เชี่ยวชาญแบบ top-6/128, สมรรถนะใกล้เคียง Qwen2.5-72B

Hunyuan (มิถุนายน 2025)

  • 80 พันล้านแบบ MoE, เปิดใช้งาน 13 พันล้าน, 20 ล้านล้านโทเคน, คอนเท็กซ์ 256K
  • เปิดใช้งานผู้เชี่ยวชาญแบบไม่ใช้ร่วมกัน 8 ตัว และมีผู้เชี่ยวชาญแบบ shared ที่เปิดใช้งานตลอดเวลา

Ernie (มิถุนายน 2025)

  • พารามิเตอร์รวม 424 พันล้าน, เปิดใช้งาน 47 พันล้าน, ระดับหลายล้านล้านโทเคน

บทสรุปและแนวโน้ม

  • ณ ช่วงปี 2024~2025 มีการเปิดเผยโมเดลขนาดยักษ์ระดับ GPT-3 (175 พันล้าน) ขึ้นไปอย่างหลากหลาย
  • แม้ 405B (405 พันล้าน) จะเป็น dense base model รุ่นล่าสุด แต่โมเดล MoE รุ่นใหม่ก็ยังคงขยายขนาดและความหลากหลายอย่างต่อเนื่อง
  • การเปรียบเทียบสมรรถนะระหว่าง Dense vs MoE ยังไม่ชัดเจน และยังต้องมีการถกเถียงถึงโครงสร้างและขนาดที่จำเป็นต่อ "ความฉลาด" ที่แท้จริง
  • แม้จะมีการทดลองโครงสร้างใหม่ (RWKV, byte-latent, bitnet) รวมถึงการใช้ข้อมูลสังเคราะห์ แต่การพัฒนาเชิงแก่นแท้ในฐานะ เอนจินข้อความล้วน ก็ยังเป็นโจทย์สำคัญ
  • ระยะหลังโมเดลขนาดใหญ่ส่วนมากมักถูก fine-tune ให้ทำหน้าที่เป็น "AI assistant" มากขึ้น จึงเป็นช่วงเวลาที่ควรสำรวจ LLM ทางเลือก

1 ความคิดเห็น

 
GN⁺ 2025-07-03
ความเห็นจาก Hacker News
  • ฉันยังอดทึ่งไม่ได้กับความจริงที่ว่า ข้อมูลจำนวนมหาศาลแค่ไหน ถูกบีบอัดอยู่ในโมเดลที่ดาวน์โหลดได้เหล่านี้ มากกว่าจะเป็นความเห็นเชิงเทคนิคเพียว ๆ เมื่อวานฉันดาวน์โหลดโมเดล gemma3:12b (8.1GB) ผ่าน Ollama บนเครื่องบินที่ไม่มีอินเทอร์เน็ตไร้สาย แล้วลองให้ลูก ๆ ถามนั่นถามนี่ แม้จะไม่ได้สมบูรณ์แบบกับคำถามหลากหลายอย่างเช่นวิดีโอเกม สัตว์ หรือประวัติศาสตร์ล่าสุด แต่ก็รู้สึกว่าน่าทึ่งมากที่ความรู้ของมนุษยชาติขนาดนี้ถูกใส่ไว้ในไฟล์เล็ก ๆ แบบนี้ และยังใช้งานแบบออฟไลน์ได้ด้วย ถึงจะเป็นการบีบอัดแบบสูญเสียข้อมูล แต่การที่บีบอัดความรู้ของมนุษย์ให้เล็กได้ขนาดนี้ก็น่าอัศจรรย์มาก

    • ฉันคิดว่าน่าสนใจมากว่าโมเดลภาษาสามารถเป็น เครื่องมือบีบอัด ที่ทรงพลังได้แค่ไหน ถ้าฝึกโมเดลให้ใช้งานแบบ assistant มันจะบีบอัดบันทึกบทสนทนาแบบผู้ช่วยได้ดีกว่าข้อความทั่วไป มีงานประเมินชื่อ UncheatableEval ที่ใช้ทำความเข้าใจความสามารถในการบีบอัดของโมเดลภาษากับงานหลากหลายประเภท เกณฑ์ประเมินนี้แทบจะเป็นการทดสอบที่ “โกงไม่ได้” จริง ๆ ฉันคิดว่าประสิทธิภาพการบีบอัดเป็น benchmark ที่แท้จริง เพราะไม่สามารถใช้ลูกเล่นแบบเกมมาหลบเลี่ยงได้

    • ขอแนะนำ โครงการ Kiwix สำหรับดาวน์โหลดสื่อต่าง ๆ ไปใช้งานแบบออฟไลน์ได้หลายรูปแบบ พวกเขายังมีอุปกรณ์ที่บรรจุข้อมูลไว้ล่วงหน้าสำหรับพื้นที่ที่อินเทอร์เน็ตไม่เสถียรหรือไม่มีเลยด้วย

    • สำหรับ Wikipedia ภาษาอังกฤษ (ณ 26 มิถุนายน 2025) มีบทความมากกว่า 7 ล้านบทความ และ 63 ล้านหน้า เฉพาะข้อความมีขนาดประมาณ 156GB และถ้ารวมทุกเวอร์ชันแล้ว ฐานข้อมูลทั้งหมดมีขนาดประมาณ 26TB

    • 8.1GB เป็นขนาดที่ใหญ่มากจริง ๆ มันคือ 64.8 พันล้าน (64,800,000,000) บิต เราอาจพอนึกภาพ 100 บิต หรือ 1,000 บิตออก แต่ 10,000, 1,000,000, 64,000,000 และตัวเลขนี้ที่มากกว่านั้นอีก 1,000 เท่า ทำให้รู้สึกได้จริง ๆ ว่ามันมหาศาลแค่ไหน

    • แวดวงที่ศึกษาว่า โมเดลภาษา มองจากมุมทฤษฎีสารสนเทศหรือการบีบอัดนั้นยังเล็กอยู่ แต่กำลังสำคัญขึ้นเรื่อย ๆ ในด้านประสิทธิภาพและการขยายขนาด วันนี้ฉันมีจัดวงสนทนาเรื่องนี้ ใครสนใจก็ลองดูได้

  • Deepseek v1 มีพารามิเตอร์ราว 670 พันล้านตัว และมี ขนาดทางกายภาพประมาณ 1.4TB ถ้าบีบอัดหนังสือที่ถูกทำเป็นดิจิทัลทั้งหมดในตอนนี้ก็น่าจะอยู่ในระดับไม่กี่ TB ส่วนเว็บสาธารณะน่าจะประมาณ 50TB และถ้ารวมข้อความอิเล็กทรอนิกส์ภาษาอังกฤษทั้งหมดแล้ว zip ก็น่าจะอยู่แถว O(100TB) ขนาดโมเดลในปัจจุบันยังเป็นเพียง ราว 1% ของทั้งหมด และดูเหมือนว่าเราเข้าสู่ช่วงที่การเพิ่มขนาดต่อไปไม่ได้เพิ่มประสิทธิภาพมากอย่างที่คาดแล้ว (ดู gpt4.5 เทียบกับ 4o) ด้วยเหตุนี้ช่วงหลังต้นทุนการคำนวณจึงย้ายไปอยู่ฝั่ง inference มากขึ้นเพราะโมเดลแบบ reasoning เพื่อให้ได้ประโยชน์เพิ่มต่อไป คาดว่าอนาคตจะพัฒนาไปสู่ โมเดลเฉพาะทาง ที่โฟกัสโดเมนเฉพาะ ฉันคิดว่า 1TB inference VRAM อาจเป็นเป้าหมายระยะกลางสำหรับโมเดลโอเพนซอร์สคุณภาพสูง ซึ่งเป็นสเปกระดับที่ SME ก็พอเอื้อมถึงได้ (คาดว่าราว 250B พารามิเตอร์)

    • ถ้าเพิ่มภาพและวิดีโอเข้าไปด้วย ค่าประมาณข้างต้นอาจฟังดูเหมือนคำพูดเก่า ๆ ที่ว่า 640KB ก็พอแล้ว หลังจากนั้นถ้าหุ่นยนต์ออกไปสำรวจโลกเองเพื่อเก็บข้อมูล ก็จะมีข้อมูลเพิ่มขึ้นอีก ถ้าพูดกันจริงจัง การเพิ่มข้อมูลภาพและข้อมูลปฏิสัมพันธ์ก็น่าจะมี ประโยชน์มากพอสมควร ต่อการสร้างข้อความด้วยเช่นกัน

    • ฉันลองคำนวณตัวเลขจริงดูครั้งหนึ่ง โดยอิงจากงานวิจัย 157 ล้านฉบับ และหนังสือ 52 ล้านเล่ม กำหนดให้บทความเฉลี่ย 10,000 คำ หนังสือเฉลี่ย 100,000 คำ แล้วใช้ข้อมูลตัวอย่างหนังสือเพื่อคำนวณอัตราการบีบอัด ได้ผลว่า ถ้าไม่บีบอัดจะราว 30TB และถ้าบีบอัดแล้วจะอยู่ที่ 5.5TB เก็บได้ด้วย microSD 2TB จำนวน 3 ใบ (รวม 750 ดอลลาร์)

    • ขอทักนิดหนึ่งว่า การใช้สัญกรณ์ big O กับความจุเก็บข้อมูลแบบคงที่อย่าง O(100TB) น่าจะไม่เหมาะนัก

    • ขอถามหน่อยว่า 50TB นี่อ้างอิงจาก Library of Congress ของสหรัฐหรือเปล่า เพราะอินเทอร์เน็ตทั้งหมดย่อมใหญ่กว่านี้มาก

    • อยากรู้ว่าตัวเลขที่ว่า “หนังสือดิจิทัลทั้งหมดบีบอัดแล้วเหลือไม่กี่ TB และเว็บสาธารณะอยู่ที่ 50TB” มาจากไหน ถ้ามีแหล่งที่มาก็อยากดู ฉันเคยอ่านเจอบทความหนึ่งที่บอกว่าบันทึกข้อความทั้งหมดของมนุษย์จนถึงศตวรรษก่อนมีเพียงราว 50MB แต่ตอนนี้หาแหล่งไม่เจอ เลยอาจจำผิดก็ได้

  • โมเดลตระกูล Gemma และ Gemini (Google) หายไปจากรายการ และก็น่าเสียดายที่ไม่มีการพูดถึง ตระกูล T5 ซึ่งมีบทบาทสำคัญต่อ transfer learning และการแพร่หลายของวงการนี้ T5 เรียกได้ว่าเป็นจุดเริ่มของหลายแนวคิด

    • โมเดล Gemma ไม่ได้ถูกรวมไว้ในลิสต์เพราะขนาดเล็ก ส่วน T5 มีความสำคัญมากในเชิงประวัติศาสตร์ แต่มีขนาดต่ำกว่า 11B จึงไม่ได้ถูกกล่าวถึงมากนัก ถึงอย่างนั้นก็ยังเป็นโมเดลที่มีความหมายและน่าสนใจมาก
  • ถ้าอยากดูแบบภาพ มีข้อมูลที่ทำกราฟสรุปจำนวนพารามิเตอร์รวมตามปีไว้ที่ Total Parameters vs. Release Year by Family

    • กราฟนี้แสดงให้เห็นอย่างชัดเจนมากว่า GPT-3 เป็นก้าวกระโดดใหญ่แค่ไหน และหลังจากนั้นก็อยู่อีกนานกว่าจะมีใครตามระดับนั้นทัน

    • เป็นข้อมูลที่ยอดเยี่ยมจริง ๆ ขอบคุณที่ทำขึ้นมา ฉันทิ้งภาพหน้าจอกราฟ ลิงก์ และเครดิตไว้ในคอมเมนต์ของโพสต์ตัวเองแล้ว

  • เป็นบทความที่ดีมาก เพียงแต่ดูเหมือนตั้งสมมติฐานว่าเฉพาะโมเดลภาษาขนาดมหึมาเท่านั้นคือสุดยอดนวัตกรรม ผู้เล่นรายใหญ่ค่อนข้างเงียบมาสักพักแล้ว แต่จากภายนอกที่เห็น OpenAI เหมือนจะส่งสัญญาณผ่านการกระทำว่าพวกเขาสร้างโมเดลที่ใหญ่กว่านี้มากได้ แต่ผลลัพธ์น่าผิดหวังจึงหยุดทดลองแบบเงียบ ๆ ในความเป็นจริง โมเดล reasoning แนวหน้าที่ทรงพลังที่สุดอาจมีขนาดเล็กกว่าโมเดลยักษ์ที่เปิดเผยต่อสาธารณะก็ได้

  • สถานการณ์นี้ช่างน่าประหลาดใจ ชุมชนโอเพนซอร์สพยายามสารพัดเพื่อไล่ให้ทัน GPT-3 (175B) ทั้งโมเดล 30~70B, RLHF, ข้อมูลสังเคราะห์ ฯลฯ แต่ช่องว่างก็ยังอยู่ สุดท้ายจึงเห็นชัดว่า ขนาดของตัวโมเดลเองสำคัญมากจริง ๆ และกว่าที่ reasoning ระดับ GPT-4 จะเกิดขึ้นนอกแล็บปิดได้ ก็ต้องรอให้มีทั้งโมเดล dense ขนาดมหึมา (405B) หรือโมเดล MoE (DeepSeek V3, DBRX ฯลฯ) ปรากฏขึ้น

  • ฉัน ไม่เห็นด้วย กับเชิงอรรถที่ว่า “เพื่อให้โมเดลโอเพนซอร์สเข้าใกล้ระดับ GPT-3 โมเดล Llama ขนาดราว 70B ส่วนใหญ่ถูก ฝึกด้วยข้อมูลสังเคราะห์ที่ GPT-3 สร้างขึ้น” ถ้าข้อมูลสังเคราะห์ทำให้ประสิทธิภาพแย่ลงเสมอ ห้องแล็บ AI ก็คงไม่ใช้มันแน่ ๆ ในความเป็นจริงพวกเขากำลังใช้ข้อมูลสังเคราะห์เพื่อสร้างโมเดลที่ดีกว่าเดิม มีงานวิจัยที่พบว่าประสิทธิภาพลดลงในกรณีที่ตั้งใจทำ “ลูปฝึกด้วยเอาต์พุตของตัวเอง” โดยตรงมาก ๆ แต่สิ่งนั้นต่างจากวิธีที่แล็บ AI ใช้ข้อมูลสังเคราะห์จริง ๆ เหตุที่งานวิจัยนั้นดังขึ้นมา ก็เพราะคอนเซปต์แบบ “AI กินหางตัวเองจนล่มสลาย” มันดึงดูดมากเกินไป

    • เห็นด้วย โดยเฉพาะในบริบทที่ฝึกโมเดลขนาดเล็กกว่าด้วยเอาต์พุตจากโมเดลขนาดใหญ่ distillation เป็นเทคนิคที่ได้ผลมาก ฉันเองก็เคยทำโดเมนจูนเฉพาะทางให้โมเดล Llama และ Mistral ด้วยทั้งข้อมูลจากมนุษย์และข้อมูลที่ GPT-4 สร้างขึ้น และผลลัพธ์ก็ดีขึ้นหลังเพิ่มข้อมูลสังเคราะห์ (ที่มีคุณภาพดี)
  • น่าเสียดายที่ผู้คนยังคงพูดซ้ำว่า LLM คือการบีบอัดแบบสูญเสียข้อมูล มันอาจเป็นอุปมาแบบคร่าว ๆ ที่พอใช้ได้ แต่ข้อเท็จจริงที่แม่นยำและน่าสนใจกว่าคือ LLM ก็ทำหน้าที่เป็นอัลกอริทึมบีบอัดแบบไม่สูญเสียข้อมูลได้เช่นกัน มีสองกรณีคือ 1) เราสามารถใช้ arithmetic coding กับข้อความใด ๆ ก็ได้โดยมีต้นทุนใกล้เคียงกับ log-likelihood ของ LLM (โดยมีเงื่อนไขว่าผู้ส่งและผู้รับต้องมีพารามิเตอร์ LLM เดียวกัน) 2) เราสามารถใช้ LLM และ SGD (โค้ดฝึก) เพื่อทำการบีบอัดแบบไม่สูญเสียข้อมูลได้ (โดยไม่นับพารามิเตอร์โมเดลเป็นความยาวคำอธิบาย) ดูเนื้อหา “compression for AGI” ของ Jack Rae เพิ่มเติมได้

    • สำหรับข้อ 1 วิธีบีบอัดแบบดั้งเดิมก็มีประสิทธิภาพมากเช่นกัน ถ้าทั้งผู้ส่งและผู้รับมีพจนานุกรมขนาดใหญ่ชุดเดียวกัน
  • แค่เห็นตัวเลขอย่าง “1.61B” ก็ยังนึกภาพไม่ออกว่ามันเป็นไฟล์ใหญ่แค่ไหน หรือต้องใช้ VRAM เท่าไร ฉันอยากรู้ทั้งพื้นที่เก็บข้อมูลจริง ความต้องการฮาร์ดแวร์ ถ้าซื้อตอนนี้จะรันได้ถึงระดับไหน และอีก 10 ปีข้างหน้าจะรันโมเดลระดับใดได้

    • ถ้าหนึ่งพารามิเตอร์ใช้ 1 ไบต์ (f8) ก็ 1.6GB ถ้า 2 ไบต์ (f16) ก็ 2.3GB นอกจากการโหลดขึ้น GPU แล้วยังมีการใช้หน่วยความจำเพิ่มเติมด้วย จึงควรเผื่อไว้ประมาณ 4 เท่าของจำนวนพารามิเตอร์ กล่าวคือ ถ้าเป็นโมเดล 2B แนะนำ VRAM 8GB

    • โมเดลส่วนใหญ่ฝึกด้วย 16 บิต (2 ไบต์) โมเดล 1 พันล้านพารามิเตอร์จึงมีขนาด 2GB สำหรับการใช้งานจริง มักพอเพียงด้วยการ quantize ลงมาเป็น 8 บิตที่เล็กกว่า และโดยทั่วไปการลดจาก 16 บิตเป็น 8 บิตแทบไม่ทำให้ประสิทธิภาพลดลง ดังนั้นโมเดล 1 พันล้านจะเป็น 1GB และโมเดล 20B ก็จะเป็น 20GB แบบคำนวณตรง ๆ ได้ ถ้าลดไปต่ำกว่านั้นอีก (เช่น 5 บิต, 4 บิต ฯลฯ) แล้วคุณภาพยังไม่ตกมาก ก็ใช้งานจริงได้ตามกรณีการใช้งาน มีแม้กระทั่งกรณีที่โมเดลซึ่งฝึกตรงที่ 4 บิตให้คุณภาพดีกว่าโมเดลที่ถูก quantize ลงมาจาก 16 บิตเสียอีก คอขวดของโมเดลขนาดใหญ่ไม่ใช่ความจุ VRAM แต่เป็นแบนด์วิดท์ ดังนั้น GPU ที่มี VRAM มากจึงสำคัญ แม้จะมี system RAM 128GB แต่ถ้าแบนด์วิดท์ระหว่าง GPU-CPU ไม่พอ พอเกินหน่วยความจำ GPU แล้ว CPU จะกลับช้ากว่า GPU เอง GPU (เช่น RTX 5090) มี VRAM 32GB และแบนด์วิดท์ระดับ 1Tb/s ส่วน Apple M series อยู่ที่ 512Gb/s และ AMD Strix Halo ให้หน่วยความจำรวม 128GB กับแบนด์วิดท์ 256Gb/s ประสบการณ์ใช้งานจริงในการรัน LLM บนฮาร์ดแวร์ผู้บริโภค ดูได้ใน Reddit r/LocalLLaMA แต่ควรระวังเพราะที่นั่นมีทั้งการทดลองที่ค่อนข้างสุดโต่งปะปนอยู่ด้วย ส่วนสถานการณ์อีก 10 ปีข้างหน้าคาดเดายากมาก เพราะ TSMC, Samsung, Intel ต่างกำลังทุ่มไปที่การผลิต GPU ระดับเรือธงเพื่อตอบสนองดีมานด์ของ hyperscaler และอุตสาหกรรมเซมิคอนดักเตอร์เองก็อยู่ในช่วงที่มีตัวแปรมากมาย ทั้งการเมือง การค้า AI และเหตุการณ์แบบ black swan เป็นต้น