- GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan ฯลฯ สรุปข้อมูลเชิงข้อเท็จจริงและพัฒนาการของ ขนาดพารามิเตอร์และสถาปัตยกรรม ของโมเดลภาษาขนาดใหญ่หลัก
- GPT-2 (ปี 2019) มีพารามิเตอร์ 130 ล้าน~1.6 พันล้าน, GPT-3 (ปี 2020) มีพารามิเตอร์ 175 พันล้าน (175B), และ Llama-3.1 (ปี 2024) มีพารามิเตอร์ 405 พันล้าน (405B) แสดงให้เห็นว่าขนาดของโมเดลใหญ่ขึ้นอย่างรวดเร็ว
- การมาของ สถาปัตยกรรม MoE(Mixture-of-Experts) ทำให้โมเดลระดับ GPT-3 ขึ้นไปเริ่มเปิดซอร์ส/ดาวน์โหลดได้ โดยมีตัวอย่างเด่นอย่าง DeepSeek V3 Base(671 พันล้าน), ERNIE-4.5(424 พันล้าน), Mixtral-8x22B(141 พันล้าน) และโมเดลขนาดยักษ์อื่น ๆ อีกหลากหลาย
- การเปรียบเทียบระหว่างโมเดล Dense(ใช้ทุกพารามิเตอร์) กับ MoE(เปิดใช้งานเฉพาะพารามิเตอร์ของผู้เชี่ยวชาญบางส่วน) มีความซับซ้อนมากขึ้น และทำให้การเปรียบเทียบ "ความฉลาด" ที่แท้จริงไม่ใช่เรื่องง่าย
- ระยะหลังเริ่มเห็นแนวโน้มการพัฒนาหลากหลาย เช่น การรองรับหลายโมดาลิตี·หลายภาษา, สถาปัตยกรรมใหม่, การใช้ข้อมูลสังเคราะห์
- เอกสารนี้สรุปข้อมูลข้อเท็จจริงเกี่ยวกับการเปลี่ยนแปลงของขนาด โมเดลพื้นฐาน (base model) ของโมเดลภาษาขนาดใหญ่ (LLM) ในช่วงไม่กี่ปีที่ผ่านมา
- โฟกัสอยู่ที่ ตัวโมเดลที่เป็นเอนจินสร้างข้อความโดยตรง ไม่ใช่แชตบอตหรือผู้ช่วย AI
ประวัติ
- GPT-2(-medium, -large, -xl) (2019): มีพารามิเตอร์ 137 ล้าน, 380 ล้าน, 812 ล้าน, 1.61 พันล้าน ตามลำดับ
- ฝึกด้วยชุดข้อมูล WebText ราว 40GB (คาดว่าประมาณ 1 พันล้านโทเคน)
- สามารถดูรายชื่อเว็บไซต์ที่ใช้ได้ใน
domains.txt
- GPT-3(davinci, davinci-002) (2020): 175 พันล้านพารามิเตอร์
- ฝึกด้วยข้อมูลประมาณ 400 พันล้านโทเคนจาก CommonCrawl, WebText2, Books1·2, Wikipedia ฯลฯ
- ต้องใช้เวลาเทรนหลายเดือนด้วย GPU A100 จำนวนหลายพันตัว
- GPT-3.5, GPT-4 (2022, 2023): ไม่มีการเปิดเผยข้อมูลทางการเกี่ยวกับสถาปัตยกรรมและข้อมูลฝึก
Llama
- Llama เป็นซีรีส์โมเดลภาษาขนาดใหญ่ที่พัฒนาโดย Meta (เดิมคือ Facebook) ซึ่งได้รับความสนใจจากการ เปิดซอร์ส และการออกแบบที่ใช้งานได้แม้มีทรัพยากรไม่มากนัก
- ขนาดโมเดล (จำนวนพารามิเตอร์) รวมถึงข้อมูลฝึกและวิวัฒนาการของสถาปัตยกรรม ได้ช่วยขับเคลื่อนเทรนด์โอเพนซอร์สของ LLM
-
Llama 1 (2023)
- 7B, 13B, 33B, 65B: ให้โมเดลขนาด 7 พันล้าน, 13 พันล้าน, 33 พันล้าน, 65 พันล้านพารามิเตอร์
- ข้อมูลฝึก: ข้อความขนาดใหญ่ 1.4 ล้านล้าน (1.4T) โทเคน (เช่น Books3, CommonCrawl)
- Llama 65B เป็นหนึ่งในโมเดลเปิดที่ใหญ่ที่สุดในเวลานั้น
- Books3 เป็นชุดข้อมูลขนาดใหญ่ที่กลายเป็นจุดสำคัญของการถกเถียงด้านกฎหมายลิขสิทธิ์
- จุดเด่น
- รันได้แม้ใช้ GPU ขนาดไม่ใหญ่มาก (แม้แต่ 65B ก็ทำงานได้บน GPU 8 ใบ)
- การแจกจ่าย weights แบบเปิด ช่วยให้เกิดโมเดลต่อยอดและการทดลองจากชุมชนจำนวนมาก
-
Llama 2 (ครึ่งหลังปี 2023)
- ตอนเปิดตัวมีขนาด 7 พันล้าน, 13 พันล้าน, 70 พันล้านพารามิเตอร์ (7B, 13B, 70B)
- มีการเปิดตัวเวอร์ชันสนทนา (แชตบอต) ด้วย พร้อมรองรับ fine-tuning และ RLHF (การเรียนรู้แบบเสริมกำลังจากคำติชมของมนุษย์)
- ใบอนุญาตอนุญาตให้ใช้ได้ทั้งในชุมชนและเชิงพาณิชย์ (แต่มีข้อจำกัดบางส่วน)
-
Llama 3.1 (2024)
- 405B: พารามิเตอร์แบบ dense (ใช้ทุกพารามิเตอร์) 405 พันล้าน
- ข้อมูลฝึก: 2.87 ล้านล้านโทเคน + long context 800 พันล้าน + annealing 40 ล้าน (เพิ่มข้อมูลคุณภาพสูง เช่น โค้ด/คณิตศาสตร์) → รวม 3.67 ล้านล้านโทเคน
- สถาปัตยกรรม
- อิง Transformer และใช้พารามิเตอร์ทั้งหมดพร้อมกันในกระบวนการอนุมาน (dense)
- เพิ่มข้อมูลโค้ดและคณิตศาสตร์คุณภาพสูงเพื่อดันคะแนน benchmark หลักให้สูงสุด (annealing)
- จุดเด่น
- เป็นโมเดล dense ขนาดใหญ่รุ่นใหม่ที่สามารถดาวน์โหลดได้ (โอเพนซอร์ส)
- Meta ไม่เปิดเผยองค์ประกอบของชุดข้อมูลอย่างเป็นสาธารณะ และอาจมีข้อมูลที่มีข้อถกเถียงด้านลิขสิทธิ์บางส่วนรวมอยู่ด้วย (เช่น Books3)
- ในบางการประเมิน โมเดลมีแนวโน้มแบบ "ผู้ช่วย" มากขึ้น ทำให้บทบาทในฐานะเอนจินข้อความล้วน ๆ แตกต่างออกไปเล็กน้อย
-
Llama 4 (2025)
- โมเดลใหญ่ที่สุด: 2 ล้านล้าน (2T) พารามิเตอร์ แบบ MoE (Mixture-of-Experts)
- A288B 16E: พารามิเตอร์ที่เปิดใช้งาน 288 พันล้าน, มีผู้เชี่ยวชาญ 16 ตัว, โดยจะเปิดใช้เพียงบางส่วนจากทั้งหมด 2 ล้านล้านพารามิเตอร์
- สถานการณ์
- โมเดล 2T ยังไม่เปิดเผยต่อสาธารณะ (ใช้ทดลองภายใน) โดยเปิดภายนอกเฉพาะเวอร์ชันต่อยอด/ย่อขนาด เช่น maverick, scout
- โมเดลต่อยอดจำนวนมากถูกประเมินว่ามี "ความฉลาด" ต่ำกว่าต้นฉบับ
- ระหว่างการเปิดตัวมีข้อถกเถียงเรื่องการปั่นคะแนน benchmark (กรณี lmarena) ทำให้ความน่าเชื่อถือลดลง และมีข่าวลือเรื่องการยุบทีม
- ลักษณะเด่นของโครงสร้าง MoE
- เปิดใช้งานเฉพาะพารามิเตอร์ของผู้เชี่ยวชาญบางส่วน จึงมีประสิทธิภาพเชิงคำนวณดีกว่า dense เมื่อเทียบที่จำนวนพารามิเตอร์เท่ากัน
- ทำให้โมเดลขนาดยักษ์ใช้งานจริงได้ (ในสภาพแวดล้อมแบบกระจายและทรัพยากรที่จำกัดกว่า)
-
ความสำคัญและอิทธิพลของ Llama
- ซีรีส์ Llama ช่วยผลักดัน การขยายตัวของระบบนิเวศโอเพนซอร์ส และการทำให้โมเดลภาษาขนาดใหญ่เข้าถึงได้กว้างขึ้น
- หลังการเปิดตัว Llama-3.1 405B การดาวน์โหลด/ทดลอง โมเดลขนาดใหญ่ระดับ GPT-3/4 กลายเป็นเรื่องที่เป็นไปได้จริง
- การนำโครงสร้าง MoE มาใช้ ทำให้การฝึกและการเผยแพร่โมเดลขนาดยักษ์คึกคักขึ้น (ส่งอิทธิพลต่อ DeepSeek, Mixtral เป็นต้น)
- อย่างไรก็ตาม โมเดลระยะหลังมีการปรับให้เหมาะกับ benchmark (annealing) และเพิ่มแนวโน้มแบบผู้ช่วยมากขึ้น จึงเกิดการถกเถียงว่าคุณลักษณะของ "โมเดลภาษาแท้ ๆ" กำลังเปลี่ยนไป
The desert – ช่วงว่างของโมเดลใหญ่โอเพนซอร์สและการเปลี่ยนแปลง
- หมายถึง ช่วงว่างยาวนาน ที่ไม่สามารถหาโมเดลภาษาขนาดใหญ่ระดับ GPT-3 (175 พันล้านพารามิเตอร์) ขึ้นไปในรูปแบบโอเพนซอร์สได้
- ในช่วงนั้น (2020~กลางปี 2023) มีการเปิดเผยเพียง โมเดลขนาดค่อนข้างเล็กอย่าง Llama ที่ต่ำกว่า 70B เท่านั้น
- บางโครงการพยายามยกระดับประสิทธิภาพโดย fine-tune Llama ขนาดเล็ก (เช่น 70B) ด้วยข้อมูลสังเคราะห์ที่ GPT-3 สร้างขึ้น
- แต่หาก นำข้อความที่ AI สร้างมาฝึก AI อีกครั้ง อาจเกิดปัญหาคุณภาพข้อมูลลดลง (data "degeneration")
- เหตุผลที่ โมเดล open weights ระดับ GPT-3 ขาดหายไปเป็นเวลานาน ได้แก่
- ต้นทุนการฝึก (โครงสร้างพื้นฐาน GPU หลายพันถึงหลายหมื่นตัว), การจัดหาข้อมูล, และความยากในการเผยแพร่โครงสร้างพารามิเตอร์ขนาดใหญ่ ล้วนเป็นปัจจัยร่วมกัน
- เมื่อมีการเปิดตัว Llama-3.1 405B (พารามิเตอร์ dense 405 พันล้าน) การเปิดซอร์สโมเดลขนาดยักษ์จึงเริ่มขึ้นอย่างจริงจัง
- ก่อนหน้านั้นเล็กน้อย (ธันวาคม 2023) มี Mistral Mixtral-8x7B (โครงสร้าง MoE, พารามิเตอร์รวม 56 พันล้าน) และในเดือนเมษายน 2024 Mixtral-8x22B (รวม 141 พันล้าน, เปิดใช้งาน 39 พันล้านพารามิเตอร์) เป็นต้น
- โดยอาศัยสถาปัตยกรรม MoE (Mixture-of-Experts) ทำให้สามารถฝึกและเผยแพร่โมเดลขนาดใหญ่ระดับ GPT-3 ได้ด้วยทรัพยากรที่น้อยลงเมื่อเทียบกัน
- โครงสร้าง MoE มีเครือข่ายผู้เชี่ยวชาญ (Expert) หลายชุด และในการอนุมานแต่ละครั้งจะเปิดใช้งานเพียงบางส่วน
- จึงทำให้สามารถใช้งานโมเดลขนาดใหญ่ได้ด้วยทรัพยากรน้อยกว่าโครงสร้าง dense (ทั้งหน่วยความจำและการคำนวณ)
- จากข้อจำกัดด้านจำนวน GPU และหน่วยความจำ MoE จึงมีบทบาทชี้ขาดในการทำให้โมเดลเปิดขนาดใหญ่แพร่หลาย
โมเดลขนาดใหญ่แบบ MoE รุ่นล่าสุด
Deepseek V3 Base (2024)
- 671 พันล้านพารามิเตอร์ (MoE), เปิดใช้งาน 37 พันล้าน, ฝึกด้วยโทเคนคุณภาพสูง 14.8 ล้านล้าน
- R1 (โมเดลเฉพาะทางด้านการให้เหตุผล) ก็เปิดตัวเช่นกัน และเป็นโมเดลที่ดาวน์โหลดได้รุ่นแรก ๆ ที่เข้าใกล้สมรรถนะระดับ GPT-4
- หลังเปิดตัวไม่นาน ราคาหุ้น NVIDIA (NVDA) ร่วงลงชั่วคราว สะท้อนผลกระทบต่อตลาดอย่างมาก
- หลังจากนั้น โมเดล MoE ขนาดใหญ่หน้าใหม่จำนวนมาก รวมถึงจากจีน ก็ทยอยปรากฏตามมา
- บางโมเดลนำข้อมูลรูปแบบใหม่หลากหลายประเภทมาใช้ในการฝึก เพื่อรองรับทั้งมัลติโมดัลและหลายภาษา
Databricks (DBRX, มีนาคม 2024)
- พารามิเตอร์รวม 132 พันล้าน, เปิดใช้งาน 36 พันล้าน, 12 ล้านล้านโทเคน
- เลือกใช้ผู้เชี่ยวชาญ 4 จาก 16 ตัว (ละเอียดกว่า Mistral·Grok)
Minimax (มกราคม 2025)
- พารามิเตอร์รวม 456 พันล้าน, เปิดใช้งาน 45.9 พันล้าน, ควบคุมคุณภาพข้อมูลฝึกด้วย reward labeler ของตนเอง
Dots (มิถุนายน 2025)
- พารามิเตอร์รวม 143 พันล้าน, เปิดใช้งาน 14 พันล้าน, 11.2 ล้านล้านโทเคน, คอนเท็กซ์ 32K
- โครงสร้างผู้เชี่ยวชาญแบบ top-6/128, สมรรถนะใกล้เคียง Qwen2.5-72B
Hunyuan (มิถุนายน 2025)
- 80 พันล้านแบบ MoE, เปิดใช้งาน 13 พันล้าน, 20 ล้านล้านโทเคน, คอนเท็กซ์ 256K
- เปิดใช้งานผู้เชี่ยวชาญแบบไม่ใช้ร่วมกัน 8 ตัว และมีผู้เชี่ยวชาญแบบ shared ที่เปิดใช้งานตลอดเวลา
Ernie (มิถุนายน 2025)
- พารามิเตอร์รวม 424 พันล้าน, เปิดใช้งาน 47 พันล้าน, ระดับหลายล้านล้านโทเคน
บทสรุปและแนวโน้ม
- ณ ช่วงปี 2024~2025 มีการเปิดเผยโมเดลขนาดยักษ์ระดับ GPT-3 (175 พันล้าน) ขึ้นไปอย่างหลากหลาย
- แม้ 405B (405 พันล้าน) จะเป็น dense base model รุ่นล่าสุด แต่โมเดล MoE รุ่นใหม่ก็ยังคงขยายขนาดและความหลากหลายอย่างต่อเนื่อง
- การเปรียบเทียบสมรรถนะระหว่าง Dense vs MoE ยังไม่ชัดเจน และยังต้องมีการถกเถียงถึงโครงสร้างและขนาดที่จำเป็นต่อ "ความฉลาด" ที่แท้จริง
- แม้จะมีการทดลองโครงสร้างใหม่ (RWKV, byte-latent, bitnet) รวมถึงการใช้ข้อมูลสังเคราะห์ แต่การพัฒนาเชิงแก่นแท้ในฐานะ เอนจินข้อความล้วน ก็ยังเป็นโจทย์สำคัญ
- ระยะหลังโมเดลขนาดใหญ่ส่วนมากมักถูก fine-tune ให้ทำหน้าที่เป็น "AI assistant" มากขึ้น จึงเป็นช่วงเวลาที่ควรสำรวจ LLM ทางเลือก
1 ความคิดเห็น
ความเห็นจาก Hacker News
ฉันยังอดทึ่งไม่ได้กับความจริงที่ว่า ข้อมูลจำนวนมหาศาลแค่ไหน ถูกบีบอัดอยู่ในโมเดลที่ดาวน์โหลดได้เหล่านี้ มากกว่าจะเป็นความเห็นเชิงเทคนิคเพียว ๆ เมื่อวานฉันดาวน์โหลดโมเดล gemma3:12b (8.1GB) ผ่าน Ollama บนเครื่องบินที่ไม่มีอินเทอร์เน็ตไร้สาย แล้วลองให้ลูก ๆ ถามนั่นถามนี่ แม้จะไม่ได้สมบูรณ์แบบกับคำถามหลากหลายอย่างเช่นวิดีโอเกม สัตว์ หรือประวัติศาสตร์ล่าสุด แต่ก็รู้สึกว่าน่าทึ่งมากที่ความรู้ของมนุษยชาติขนาดนี้ถูกใส่ไว้ในไฟล์เล็ก ๆ แบบนี้ และยังใช้งานแบบออฟไลน์ได้ด้วย ถึงจะเป็นการบีบอัดแบบสูญเสียข้อมูล แต่การที่บีบอัดความรู้ของมนุษย์ให้เล็กได้ขนาดนี้ก็น่าอัศจรรย์มาก
ฉันคิดว่าน่าสนใจมากว่าโมเดลภาษาสามารถเป็น เครื่องมือบีบอัด ที่ทรงพลังได้แค่ไหน ถ้าฝึกโมเดลให้ใช้งานแบบ assistant มันจะบีบอัดบันทึกบทสนทนาแบบผู้ช่วยได้ดีกว่าข้อความทั่วไป มีงานประเมินชื่อ UncheatableEval ที่ใช้ทำความเข้าใจความสามารถในการบีบอัดของโมเดลภาษากับงานหลากหลายประเภท เกณฑ์ประเมินนี้แทบจะเป็นการทดสอบที่ “โกงไม่ได้” จริง ๆ ฉันคิดว่าประสิทธิภาพการบีบอัดเป็น benchmark ที่แท้จริง เพราะไม่สามารถใช้ลูกเล่นแบบเกมมาหลบเลี่ยงได้
ขอแนะนำ โครงการ Kiwix สำหรับดาวน์โหลดสื่อต่าง ๆ ไปใช้งานแบบออฟไลน์ได้หลายรูปแบบ พวกเขายังมีอุปกรณ์ที่บรรจุข้อมูลไว้ล่วงหน้าสำหรับพื้นที่ที่อินเทอร์เน็ตไม่เสถียรหรือไม่มีเลยด้วย
สำหรับ Wikipedia ภาษาอังกฤษ (ณ 26 มิถุนายน 2025) มีบทความมากกว่า 7 ล้านบทความ และ 63 ล้านหน้า เฉพาะข้อความมีขนาดประมาณ 156GB และถ้ารวมทุกเวอร์ชันแล้ว ฐานข้อมูลทั้งหมดมีขนาดประมาณ 26TB
8.1GB เป็นขนาดที่ใหญ่มากจริง ๆ มันคือ 64.8 พันล้าน (64,800,000,000) บิต เราอาจพอนึกภาพ 100 บิต หรือ 1,000 บิตออก แต่ 10,000, 1,000,000, 64,000,000 และตัวเลขนี้ที่มากกว่านั้นอีก 1,000 เท่า ทำให้รู้สึกได้จริง ๆ ว่ามันมหาศาลแค่ไหน
แวดวงที่ศึกษาว่า โมเดลภาษา มองจากมุมทฤษฎีสารสนเทศหรือการบีบอัดนั้นยังเล็กอยู่ แต่กำลังสำคัญขึ้นเรื่อย ๆ ในด้านประสิทธิภาพและการขยายขนาด วันนี้ฉันมีจัดวงสนทนาเรื่องนี้ ใครสนใจก็ลองดูได้
Deepseek v1 มีพารามิเตอร์ราว 670 พันล้านตัว และมี ขนาดทางกายภาพประมาณ 1.4TB ถ้าบีบอัดหนังสือที่ถูกทำเป็นดิจิทัลทั้งหมดในตอนนี้ก็น่าจะอยู่ในระดับไม่กี่ TB ส่วนเว็บสาธารณะน่าจะประมาณ 50TB และถ้ารวมข้อความอิเล็กทรอนิกส์ภาษาอังกฤษทั้งหมดแล้ว zip ก็น่าจะอยู่แถว O(100TB) ขนาดโมเดลในปัจจุบันยังเป็นเพียง ราว 1% ของทั้งหมด และดูเหมือนว่าเราเข้าสู่ช่วงที่การเพิ่มขนาดต่อไปไม่ได้เพิ่มประสิทธิภาพมากอย่างที่คาดแล้ว (ดู gpt4.5 เทียบกับ 4o) ด้วยเหตุนี้ช่วงหลังต้นทุนการคำนวณจึงย้ายไปอยู่ฝั่ง inference มากขึ้นเพราะโมเดลแบบ reasoning เพื่อให้ได้ประโยชน์เพิ่มต่อไป คาดว่าอนาคตจะพัฒนาไปสู่ โมเดลเฉพาะทาง ที่โฟกัสโดเมนเฉพาะ ฉันคิดว่า 1TB inference VRAM อาจเป็นเป้าหมายระยะกลางสำหรับโมเดลโอเพนซอร์สคุณภาพสูง ซึ่งเป็นสเปกระดับที่ SME ก็พอเอื้อมถึงได้ (คาดว่าราว 250B พารามิเตอร์)
ถ้าเพิ่มภาพและวิดีโอเข้าไปด้วย ค่าประมาณข้างต้นอาจฟังดูเหมือนคำพูดเก่า ๆ ที่ว่า 640KB ก็พอแล้ว หลังจากนั้นถ้าหุ่นยนต์ออกไปสำรวจโลกเองเพื่อเก็บข้อมูล ก็จะมีข้อมูลเพิ่มขึ้นอีก ถ้าพูดกันจริงจัง การเพิ่มข้อมูลภาพและข้อมูลปฏิสัมพันธ์ก็น่าจะมี ประโยชน์มากพอสมควร ต่อการสร้างข้อความด้วยเช่นกัน
ฉันลองคำนวณตัวเลขจริงดูครั้งหนึ่ง โดยอิงจากงานวิจัย 157 ล้านฉบับ และหนังสือ 52 ล้านเล่ม กำหนดให้บทความเฉลี่ย 10,000 คำ หนังสือเฉลี่ย 100,000 คำ แล้วใช้ข้อมูลตัวอย่างหนังสือเพื่อคำนวณอัตราการบีบอัด ได้ผลว่า ถ้าไม่บีบอัดจะราว 30TB และถ้าบีบอัดแล้วจะอยู่ที่ 5.5TB เก็บได้ด้วย microSD 2TB จำนวน 3 ใบ (รวม 750 ดอลลาร์)
ขอทักนิดหนึ่งว่า การใช้สัญกรณ์ big O กับความจุเก็บข้อมูลแบบคงที่อย่าง O(100TB) น่าจะไม่เหมาะนัก
ขอถามหน่อยว่า 50TB นี่อ้างอิงจาก Library of Congress ของสหรัฐหรือเปล่า เพราะอินเทอร์เน็ตทั้งหมดย่อมใหญ่กว่านี้มาก
อยากรู้ว่าตัวเลขที่ว่า “หนังสือดิจิทัลทั้งหมดบีบอัดแล้วเหลือไม่กี่ TB และเว็บสาธารณะอยู่ที่ 50TB” มาจากไหน ถ้ามีแหล่งที่มาก็อยากดู ฉันเคยอ่านเจอบทความหนึ่งที่บอกว่าบันทึกข้อความทั้งหมดของมนุษย์จนถึงศตวรรษก่อนมีเพียงราว 50MB แต่ตอนนี้หาแหล่งไม่เจอ เลยอาจจำผิดก็ได้
โมเดลตระกูล Gemma และ Gemini (Google) หายไปจากรายการ และก็น่าเสียดายที่ไม่มีการพูดถึง ตระกูล T5 ซึ่งมีบทบาทสำคัญต่อ transfer learning และการแพร่หลายของวงการนี้ T5 เรียกได้ว่าเป็นจุดเริ่มของหลายแนวคิด
ถ้าอยากดูแบบภาพ มีข้อมูลที่ทำกราฟสรุปจำนวนพารามิเตอร์รวมตามปีไว้ที่ Total Parameters vs. Release Year by Family
กราฟนี้แสดงให้เห็นอย่างชัดเจนมากว่า GPT-3 เป็นก้าวกระโดดใหญ่แค่ไหน และหลังจากนั้นก็อยู่อีกนานกว่าจะมีใครตามระดับนั้นทัน
เป็นข้อมูลที่ยอดเยี่ยมจริง ๆ ขอบคุณที่ทำขึ้นมา ฉันทิ้งภาพหน้าจอกราฟ ลิงก์ และเครดิตไว้ในคอมเมนต์ของโพสต์ตัวเองแล้ว
เป็นบทความที่ดีมาก เพียงแต่ดูเหมือนตั้งสมมติฐานว่าเฉพาะโมเดลภาษาขนาดมหึมาเท่านั้นคือสุดยอดนวัตกรรม ผู้เล่นรายใหญ่ค่อนข้างเงียบมาสักพักแล้ว แต่จากภายนอกที่เห็น OpenAI เหมือนจะส่งสัญญาณผ่านการกระทำว่าพวกเขาสร้างโมเดลที่ใหญ่กว่านี้มากได้ แต่ผลลัพธ์น่าผิดหวังจึงหยุดทดลองแบบเงียบ ๆ ในความเป็นจริง โมเดล reasoning แนวหน้าที่ทรงพลังที่สุดอาจมีขนาดเล็กกว่าโมเดลยักษ์ที่เปิดเผยต่อสาธารณะก็ได้
สถานการณ์นี้ช่างน่าประหลาดใจ ชุมชนโอเพนซอร์สพยายามสารพัดเพื่อไล่ให้ทัน GPT-3 (175B) ทั้งโมเดล 30~70B, RLHF, ข้อมูลสังเคราะห์ ฯลฯ แต่ช่องว่างก็ยังอยู่ สุดท้ายจึงเห็นชัดว่า ขนาดของตัวโมเดลเองสำคัญมากจริง ๆ และกว่าที่ reasoning ระดับ GPT-4 จะเกิดขึ้นนอกแล็บปิดได้ ก็ต้องรอให้มีทั้งโมเดล dense ขนาดมหึมา (405B) หรือโมเดล MoE (DeepSeek V3, DBRX ฯลฯ) ปรากฏขึ้น
ฉัน ไม่เห็นด้วย กับเชิงอรรถที่ว่า “เพื่อให้โมเดลโอเพนซอร์สเข้าใกล้ระดับ GPT-3 โมเดล Llama ขนาดราว 70B ส่วนใหญ่ถูก ฝึกด้วยข้อมูลสังเคราะห์ที่ GPT-3 สร้างขึ้น” ถ้าข้อมูลสังเคราะห์ทำให้ประสิทธิภาพแย่ลงเสมอ ห้องแล็บ AI ก็คงไม่ใช้มันแน่ ๆ ในความเป็นจริงพวกเขากำลังใช้ข้อมูลสังเคราะห์เพื่อสร้างโมเดลที่ดีกว่าเดิม มีงานวิจัยที่พบว่าประสิทธิภาพลดลงในกรณีที่ตั้งใจทำ “ลูปฝึกด้วยเอาต์พุตของตัวเอง” โดยตรงมาก ๆ แต่สิ่งนั้นต่างจากวิธีที่แล็บ AI ใช้ข้อมูลสังเคราะห์จริง ๆ เหตุที่งานวิจัยนั้นดังขึ้นมา ก็เพราะคอนเซปต์แบบ “AI กินหางตัวเองจนล่มสลาย” มันดึงดูดมากเกินไป
น่าเสียดายที่ผู้คนยังคงพูดซ้ำว่า LLM คือการบีบอัดแบบสูญเสียข้อมูล มันอาจเป็นอุปมาแบบคร่าว ๆ ที่พอใช้ได้ แต่ข้อเท็จจริงที่แม่นยำและน่าสนใจกว่าคือ LLM ก็ทำหน้าที่เป็นอัลกอริทึมบีบอัดแบบไม่สูญเสียข้อมูลได้เช่นกัน มีสองกรณีคือ 1) เราสามารถใช้ arithmetic coding กับข้อความใด ๆ ก็ได้โดยมีต้นทุนใกล้เคียงกับ log-likelihood ของ LLM (โดยมีเงื่อนไขว่าผู้ส่งและผู้รับต้องมีพารามิเตอร์ LLM เดียวกัน) 2) เราสามารถใช้ LLM และ SGD (โค้ดฝึก) เพื่อทำการบีบอัดแบบไม่สูญเสียข้อมูลได้ (โดยไม่นับพารามิเตอร์โมเดลเป็นความยาวคำอธิบาย) ดูเนื้อหา “compression for AGI” ของ Jack Rae เพิ่มเติมได้
แค่เห็นตัวเลขอย่าง “1.61B” ก็ยังนึกภาพไม่ออกว่ามันเป็นไฟล์ใหญ่แค่ไหน หรือต้องใช้ VRAM เท่าไร ฉันอยากรู้ทั้งพื้นที่เก็บข้อมูลจริง ความต้องการฮาร์ดแวร์ ถ้าซื้อตอนนี้จะรันได้ถึงระดับไหน และอีก 10 ปีข้างหน้าจะรันโมเดลระดับใดได้
ถ้าหนึ่งพารามิเตอร์ใช้ 1 ไบต์ (f8) ก็ 1.6GB ถ้า 2 ไบต์ (f16) ก็ 2.3GB นอกจากการโหลดขึ้น GPU แล้วยังมีการใช้หน่วยความจำเพิ่มเติมด้วย จึงควรเผื่อไว้ประมาณ 4 เท่าของจำนวนพารามิเตอร์ กล่าวคือ ถ้าเป็นโมเดล 2B แนะนำ VRAM 8GB
โมเดลส่วนใหญ่ฝึกด้วย 16 บิต (2 ไบต์) โมเดล 1 พันล้านพารามิเตอร์จึงมีขนาด 2GB สำหรับการใช้งานจริง มักพอเพียงด้วยการ quantize ลงมาเป็น 8 บิตที่เล็กกว่า และโดยทั่วไปการลดจาก 16 บิตเป็น 8 บิตแทบไม่ทำให้ประสิทธิภาพลดลง ดังนั้นโมเดล 1 พันล้านจะเป็น 1GB และโมเดล 20B ก็จะเป็น 20GB แบบคำนวณตรง ๆ ได้ ถ้าลดไปต่ำกว่านั้นอีก (เช่น 5 บิต, 4 บิต ฯลฯ) แล้วคุณภาพยังไม่ตกมาก ก็ใช้งานจริงได้ตามกรณีการใช้งาน มีแม้กระทั่งกรณีที่โมเดลซึ่งฝึกตรงที่ 4 บิตให้คุณภาพดีกว่าโมเดลที่ถูก quantize ลงมาจาก 16 บิตเสียอีก คอขวดของโมเดลขนาดใหญ่ไม่ใช่ความจุ VRAM แต่เป็นแบนด์วิดท์ ดังนั้น GPU ที่มี VRAM มากจึงสำคัญ แม้จะมี system RAM 128GB แต่ถ้าแบนด์วิดท์ระหว่าง GPU-CPU ไม่พอ พอเกินหน่วยความจำ GPU แล้ว CPU จะกลับช้ากว่า GPU เอง GPU (เช่น RTX 5090) มี VRAM 32GB และแบนด์วิดท์ระดับ 1Tb/s ส่วน Apple M series อยู่ที่ 512Gb/s และ AMD Strix Halo ให้หน่วยความจำรวม 128GB กับแบนด์วิดท์ 256Gb/s ประสบการณ์ใช้งานจริงในการรัน LLM บนฮาร์ดแวร์ผู้บริโภค ดูได้ใน Reddit r/LocalLLaMA แต่ควรระวังเพราะที่นั่นมีทั้งการทดลองที่ค่อนข้างสุดโต่งปะปนอยู่ด้วย ส่วนสถานการณ์อีก 10 ปีข้างหน้าคาดเดายากมาก เพราะ TSMC, Samsung, Intel ต่างกำลังทุ่มไปที่การผลิต GPU ระดับเรือธงเพื่อตอบสนองดีมานด์ของ hyperscaler และอุตสาหกรรมเซมิคอนดักเตอร์เองก็อยู่ในช่วงที่มีตัวแปรมากมาย ทั้งการเมือง การค้า AI และเหตุการณ์แบบ black swan เป็นต้น