สถานะปัจจุบันของโมเดลเชิงกำเนิด

xguru · 2025-01-06T10:21:01+09:00

ตลอดปี 2024 มีความก้าวหน้าอย่างมากทั้งในด้านการสร้างข้อความและการสร้างภาพ ต่างจากช่วงแรกที่ OpenAI นำอยู่แบบทิ้งห่าง ช่วงปลายปีที่ผ่านมาเริ่มมีห้องวิจัยหลากหลายแห่งอย่าง Anthropic, DeepSeek, Qwen ฯลฯ ขยายแนวรบและแข่งขันกันอย่างเข้มข้น สรุปแนวโน้มงานวิจัยช่วงปี 2024~2025 และรวบรวมสั้น ๆ ถึงด้านที่คาดหวังในอนาคต “คูเมืองที่สร้างขึ้นจากซอร์สแบบปิดเพียงอย่างเดียวจะอยู่ได้ไม่นาน แม้แต่ OpenAI เองก็ไม่อาจหยุดการไล่ตามของผู้อื่นได้ ท้ายที่สุด การสร้างองค์กรและวัฒนธรรมของเราให้เติบโต เพื่อบ่มเพาะคนที่สร้างนวัตกรรมได้ นั่นต่างหากคือคูเมืองที่แท้จริง” ─ Liang Wenfeng, CEO of DeepSeek # Language โมเดลภาษาขนาดใหญ่ (LLM) คือแกนหลักของกระแส AI ในปัจจุบัน และเป็นด้านที่มีทั้งงานวิจัยและการลงทุนมากที่สุด ในปี 2024 มีความคืบหน้าอย่างมากทั้งด้านประสิทธิภาพของโมเดลและกระบวนทัศน์การสเกลแบบใหม่ Architecture แม้จะมีการทดลองสถาปัตยกรรมใหม่ ๆ (เช่น Mamba, xLSTM) แต่至少ในตอนนี้คาดว่า decoder-only Transformer จะยังคงเป็นกระแสหลัก Dense Transformer Llama 3 เป็นตัวแทนที่เด่นชัด และ Meta กำลังปรับแต่ง vanilla Dense Transformer ไปจนถึงขีดสุด รูปแบบที่ถูกเรียกว่า Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE ฯลฯ) ได้กลายเป็นมาตรฐานโดยพฤตินัย แนวทางอย่าง Multi Latent Attention (MLA) ที่ DeepSeek นำเสนอจะได้รับความสนใจมากขึ้น และก็มีโอกาสที่จะเกิดเทคนิคที่มาแทนหรือปรับแก้ RoPE Mixture-of-Experts หลังจากมีข่าวลือว่า GPT-4 เป็น MoE ขนาดมหึมา แนวทางนี้ก็กลับมาโดดเด่นอีกครั้งในปี 2024 ในฝั่งโอเพนซอร์ส ตัวอย่างที่เด่นคือ Mixtral ของ Mistral และ DeepSeek v2·v3 ข้อเสียของ MoE คือให้บริการใช้งานจริงได้ไม่ง่ายนัก แต่ DeepSeek ก็กำลังวิจัยด้านนี้อย่างจริงจัง ต่อจากนี้คาดว่าจะมีงานวิจัยหลายทิศทาง ทั้งเรื่องกลไก routing วิธีใช้ MoE ในแต่ละเลเยอร์ และความสามารถในการตีความผู้เชี่ยวชาญแต่ละตัว Tokenization มีหลายความเห็นว่าจำเป็นต้องมีนวัตกรรมมาแทน Byte Pair Encoding แต่เพราะยังไม่ได้เป็นปัญหาใหญ่ จึงยังคงถูกใช้งานต่อไป Meta เสนอความพยายามสองแนวทางที่น่าสนใจ คือประมวลผล CoT ใน latent space (แบบ byte-based) หรือฝึก Transformer ในระดับ bytes โดยตรง ใน Byte Latent Transformer (BLT) ใช้โครงสร้าง Encoder/Decoder เพื่อจัดการอินพุตแบบไบต์ มีความกังวลว่าคุณภาพของ byte decoder อาจกลายเป็นคอขวด Reasoning ในช่วงครึ่งหลังของปี 2024 ความสามารถในการให้เหตุผลด้านคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโค้ดของโมเดลพัฒนาแบบก้าวกระโดด (o1, o3, DeepSeek r1 เป็นต้น) สิ่งนี้เกี่ยวข้องกับกระบวนทัศน์การสเกลแบบใหม่ที่เรียกว่า “inference-time compute” เป็นวิธีที่โมเดลสร้าง Chain of Thought ที่ยาวมาก แล้วตรวจสอบและนำกระบวนการนั้นมาใช้ด้วยตนเอง ยังไม่มีการเปิดเผยว่า OpenAI สร้าง o1 และ o3 อย่างไร แต่มีความเป็นไปได้สูงว่าใช้แนวทาง RL จากงานอย่าง “Let’s Verify Step by Step” คาดว่าในอนาคต Anthropic หรือแล็บอื่น ๆ ก็จะเผย reasoner ลักษณะคล้ายกันออกมา น่าสนใจว่าจะขยายจากแนวทางที่เน้น STEM ไปสู่โดเมนที่กว้างขึ้น เช่น การเขียนเชิงสร้างสรรค์ ได้หรือไม่ Distillation ตอนที่ o1 เปิดตัว มีข้อสันนิษฐานว่าเหตุผลที่ OpenAI ไม่เปิดเผย Chain of Thought เป็นเพราะการนำเอาผลลัพธ์ของโมเดลไปฝึกซ้ำ (เช่น DeepSeek v3) ช่วยยกระดับประสิทธิภาพได้มาก DeepSeek v3 อาจไม่ได้จำลอง CoT ยาวแบบ reasoner ออกมาตรง ๆ แต่ดูเหมือนว่าจะมีการแยกโหมดภายใน และให้เหตุผลเมื่อจำเป็น อีกประเด็นวิจัยที่น่าสนใจคือโมเดลขนาดเล็ก (เช่น o1-mini) จะเข้าใกล้ประสิทธิภาพของโมเดลใหญ่ได้หรือไม่ หรือมีเทคนิคการกลั่นแบบลับ ๆ อยู่ภายในหรือเปล่า # Image ด้านภาพมีห้องวิจัยขนาดกลางและเล็กจำนวนมากเข้ามาเล่น ทำให้นวัตกรรมเกิดขึ้นอย่างรวดเร็ว ปัจจุบันโมเดลหลัก (Flux, Stable Diffusion 3, MidJourney, Sora ฯลฯ) ล้วนอยู่บนพื้นฐาน Diffusion Transformer และใช้กรอบงาน Flow Matching เป็นหลัก Architecture รูปแบบที่นิยมใช้คือ Diffusion Transformer ที่ผสาน adaptive normalization และโครงสร้าง MM-DIT ในปี 2025 น่าจะมีความพยายามมากขึ้นในการแทนที่ text encoder แบบ CLIP ด้วย LLM ขนาดเล็กกว่า Framework เกิดกระแสนิยมแนวทาง Flow Matching แทนวิธีเชิงความน่าจะเป็นแบบดั้งเดิม โมเดล AutoRegressive ก็มีโอกาสกลับมาโดดเด่นอีกครั้ง และงานวิจัย Visual Autoregressive Modelling ก็ได้รับความสนใจอย่างมาก เทคนิคการสร้างภาพที่ xAI เปิดเผยก็น่าจะเป็นแบบ autoregressive เช่นกัน แต่ยังไม่ทราบเหตุผลที่ชัดเจน # Multimodality ก่อนหน้านี้ OpenAI, Anthropic และรายอื่น ๆ ได้ให้ความสามารถในการป้อนภาพเข้าโมเดลมาแล้ว แต่ในช่วงครึ่งแรกของปี 2024 งานวิจัยมัลติโหมดในรูปแบบที่เปิดกว้างมากขึ้นเริ่มคึกคัก Visual Language Models มี VLM หลากหลายตัวอย่าง Qwen, PaliGemma ฯลฯ ปรากฏขึ้น และถูกนำไปใช้กับงานอย่างการสร้างคำบรรยายภาพและการแยกวิเคราะห์เอกสาร โครงสร้างที่เชื่อม Vision Transformer เข้ากับ LLM ที่ผ่านการ pre-train มาแล้ว ได้กลายเป็นมาตรฐาน ในปี 2025 คาดว่า VLM ลักษณะนี้จะถูกรวมเข้ากับ Omni-Models Omni-Modal Models OpenAI เคยแสดงตัวอย่าง GPT-4o ที่สร้างภาพได้ด้วย แต่ยังไม่ได้เปิดเผยอย่างสมบูรณ์ โมเดลอย่าง Chameleon ได้ลองแนวทาง early fusion โดยใช้ image tokenizer + detokenizer มีทั้งเสียงเห็นด้วยและคัดค้านต่อแนวทางที่จัดการเอาต์พุตที่ไม่ใช่ข้อความเป็น discrete token มีข่าวลือว่า Llama 4 กำลังถูกฝึกให้เป็นโมเดลออมนิโมดัลตั้งแต่เนิ่น ๆ จึงถูกจับตามองอย่างมาก # Agents and Human-AI Interfaces แม้คำจำกัดความของ “AI Agent” จะยังคลุมเครือ แต่ในที่นี้จะเรียกแนวทางที่ให้ LLM มีสิทธิ์ใช้เครื่องมือเพื่อบรรลุเป้าหมายได้ด้วยตนเองว่าเอเจนต์ หากอิงตาม SWE-Bench คาดว่าภายในปลายปี 2025 การดีบักโค้ดและการพัฒนาฟีเจอร์บางส่วนจะถูกทำให้เป็นอัตโนมัติได้ในระดับหนึ่ง อย่างไรก็ตาม ยังเร็วเกินไปที่จะไปถึงระดับแทนวิศวกรได้จริง และน่าจะเริ่มถูกนำไปใช้จากงานที่ยอมรับความผิดพลาดได้กว้างกว่า เช่น การจัดแผนการเดินทางหรือการค้นหาข้อมูล UI แบบเอดิเตอร์อย่าง Cursor อาจเหมาะกับการใช้งานเอเจนต์มากกว่า การเรียกใช้เอเจนต์มีต้นทุนโทเคนสูง จึงยังไม่แน่ชัดว่าเอเจนต์อัตโนมัติเต็มรูปแบบจะคุ้มค่าต่อค่าใช้จ่ายหรือไม่ # 2025 เราคุ้นเคยกับคำพูดที่ว่า AI พัฒนาเร็วมาก แต่ในความเป็นจริงการเปลี่ยนแปลงนั้นมากเสียจนยากจะประเมินความเร็วได้ด้วยซ้ำ บทความนี้กล่าวถึงเพียงสถานะปัจจุบันของฝั่งข้อความและภาพ รวมถึงสิ่งที่คาดหวังในปี 2025 แบบย่อ ๆ เท่านั้น ส่วนด้านอื่นที่ไม่ได้ครอบคลุมแต่ควรจับตา ได้แก่: การเพิ่มประสิทธิภาพการฝึก (Muon, NanoGPT speedruns) โมเดลวิดีโอ (การแก้ปัญหาความสม่ำเสมอและความเร็วในการให้เหตุผล) Quantization (การควอนไทซ์ 1 บิต, ความละเอียดระดับ FP8 หรือต่ำกว่า เป็นต้น) งานวิจัยด้านความสามารถในการตีความโมเดล การประเมินผลและ benchmark (หวังว่าจะมีการประเมินแบบอิงงานจริงเพิ่มขึ้น เช่น SWE-Bench) หวังว่าในปี 2025 จะมีความก้าวหน้าเกิดขึ้นมากยิ่งกว่าเดิม

(nrehiew.github.io)

20 คะแนน โดย xguru 2025-01-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ตลอดปี 2024 มีความก้าวหน้าอย่างมากทั้งในด้านการสร้างข้อความและการสร้างภาพ
ต่างจากช่วงแรกที่ OpenAI นำอยู่แบบทิ้งห่าง ช่วงปลายปีที่ผ่านมาเริ่มมีห้องวิจัยหลากหลายแห่งอย่าง Anthropic, DeepSeek, Qwen ฯลฯ ขยายแนวรบและแข่งขันกันอย่างเข้มข้น
สรุปแนวโน้มงานวิจัยช่วงปี 2024~2025 และรวบรวมสั้น ๆ ถึงด้านที่คาดหวังในอนาคต

“คูเมืองที่สร้างขึ้นจากซอร์สแบบปิดเพียงอย่างเดียวจะอยู่ได้ไม่นาน
แม้แต่ OpenAI เองก็ไม่อาจหยุดการไล่ตามของผู้อื่นได้
ท้ายที่สุด การสร้างองค์กรและวัฒนธรรมของเราให้เติบโต เพื่อบ่มเพาะคนที่สร้างนวัตกรรมได้ นั่นต่างหากคือคูเมืองที่แท้จริง”
─ Liang Wenfeng, CEO of DeepSeek

# Language

โมเดลภาษาขนาดใหญ่ (LLM) คือแกนหลักของกระแส AI ในปัจจุบัน และเป็นด้านที่มีทั้งงานวิจัยและการลงทุนมากที่สุด
ในปี 2024 มีความคืบหน้าอย่างมากทั้งด้านประสิทธิภาพของโมเดลและกระบวนทัศน์การสเกลแบบใหม่
Architecture
- แม้จะมีการทดลองสถาปัตยกรรมใหม่ ๆ (เช่น Mamba, xLSTM) แต่至少ในตอนนี้คาดว่า decoder-only Transformer จะยังคงเป็นกระแสหลัก
- Dense Transformer
  - Llama 3 เป็นตัวแทนที่เด่นชัด และ Meta กำลังปรับแต่ง vanilla Dense Transformer ไปจนถึงขีดสุด
  - รูปแบบที่ถูกเรียกว่า Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE ฯลฯ) ได้กลายเป็นมาตรฐานโดยพฤตินัย
  - แนวทางอย่าง Multi Latent Attention (MLA) ที่ DeepSeek นำเสนอจะได้รับความสนใจมากขึ้น และก็มีโอกาสที่จะเกิดเทคนิคที่มาแทนหรือปรับแก้ RoPE
- Mixture-of-Experts
  - หลังจากมีข่าวลือว่า GPT-4 เป็น MoE ขนาดมหึมา แนวทางนี้ก็กลับมาโดดเด่นอีกครั้งในปี 2024
  - ในฝั่งโอเพนซอร์ส ตัวอย่างที่เด่นคือ Mixtral ของ Mistral และ DeepSeek v2·v3
  - ข้อเสียของ MoE คือให้บริการใช้งานจริงได้ไม่ง่ายนัก แต่ DeepSeek ก็กำลังวิจัยด้านนี้อย่างจริงจัง
  - ต่อจากนี้คาดว่าจะมีงานวิจัยหลายทิศทาง ทั้งเรื่องกลไก routing วิธีใช้ MoE ในแต่ละเลเยอร์ และความสามารถในการตีความผู้เชี่ยวชาญแต่ละตัว
Tokenization
- มีหลายความเห็นว่าจำเป็นต้องมีนวัตกรรมมาแทน Byte Pair Encoding แต่เพราะยังไม่ได้เป็นปัญหาใหญ่ จึงยังคงถูกใช้งานต่อไป
- Meta เสนอความพยายามสองแนวทางที่น่าสนใจ คือประมวลผล CoT ใน latent space (แบบ byte-based) หรือฝึก Transformer ในระดับ bytes โดยตรง
- ใน Byte Latent Transformer (BLT) ใช้โครงสร้าง Encoder/Decoder เพื่อจัดการอินพุตแบบไบต์
- มีความกังวลว่าคุณภาพของ byte decoder อาจกลายเป็นคอขวด
Reasoning
- ในช่วงครึ่งหลังของปี 2024 ความสามารถในการให้เหตุผลด้านคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโค้ดของโมเดลพัฒนาแบบก้าวกระโดด (o1, o3, DeepSeek r1 เป็นต้น)
- สิ่งนี้เกี่ยวข้องกับกระบวนทัศน์การสเกลแบบใหม่ที่เรียกว่า “inference-time compute”
  - เป็นวิธีที่โมเดลสร้าง Chain of Thought ที่ยาวมาก แล้วตรวจสอบและนำกระบวนการนั้นมาใช้ด้วยตนเอง
- ยังไม่มีการเปิดเผยว่า OpenAI สร้าง o1 และ o3 อย่างไร แต่มีความเป็นไปได้สูงว่าใช้แนวทาง RL จากงานอย่าง “Let’s Verify Step by Step”
- คาดว่าในอนาคต Anthropic หรือแล็บอื่น ๆ ก็จะเผย reasoner ลักษณะคล้ายกันออกมา
- น่าสนใจว่าจะขยายจากแนวทางที่เน้น STEM ไปสู่โดเมนที่กว้างขึ้น เช่น การเขียนเชิงสร้างสรรค์ ได้หรือไม่
Distillation
- ตอนที่ o1 เปิดตัว มีข้อสันนิษฐานว่าเหตุผลที่ OpenAI ไม่เปิดเผย Chain of Thought เป็นเพราะการนำเอาผลลัพธ์ของโมเดลไปฝึกซ้ำ (เช่น DeepSeek v3) ช่วยยกระดับประสิทธิภาพได้มาก
- DeepSeek v3 อาจไม่ได้จำลอง CoT ยาวแบบ reasoner ออกมาตรง ๆ แต่ดูเหมือนว่าจะมีการแยกโหมดภายใน และให้เหตุผลเมื่อจำเป็น
- อีกประเด็นวิจัยที่น่าสนใจคือโมเดลขนาดเล็ก (เช่น o1-mini) จะเข้าใกล้ประสิทธิภาพของโมเดลใหญ่ได้หรือไม่ หรือมีเทคนิคการกลั่นแบบลับ ๆ อยู่ภายในหรือเปล่า

# Image

ด้านภาพมีห้องวิจัยขนาดกลางและเล็กจำนวนมากเข้ามาเล่น ทำให้นวัตกรรมเกิดขึ้นอย่างรวดเร็ว
ปัจจุบันโมเดลหลัก (Flux, Stable Diffusion 3, MidJourney, Sora ฯลฯ) ล้วนอยู่บนพื้นฐาน Diffusion Transformer และใช้กรอบงาน Flow Matching เป็นหลัก
Architecture
- รูปแบบที่นิยมใช้คือ Diffusion Transformer ที่ผสาน adaptive normalization และโครงสร้าง MM-DIT
- ในปี 2025 น่าจะมีความพยายามมากขึ้นในการแทนที่ text encoder แบบ CLIP ด้วย LLM ขนาดเล็กกว่า
Framework
- เกิดกระแสนิยมแนวทาง Flow Matching แทนวิธีเชิงความน่าจะเป็นแบบดั้งเดิม
- โมเดล AutoRegressive ก็มีโอกาสกลับมาโดดเด่นอีกครั้ง และงานวิจัย Visual Autoregressive Modelling ก็ได้รับความสนใจอย่างมาก
- เทคนิคการสร้างภาพที่ xAI เปิดเผยก็น่าจะเป็นแบบ autoregressive เช่นกัน แต่ยังไม่ทราบเหตุผลที่ชัดเจน

# Multimodality

ก่อนหน้านี้ OpenAI, Anthropic และรายอื่น ๆ ได้ให้ความสามารถในการป้อนภาพเข้าโมเดลมาแล้ว แต่ในช่วงครึ่งแรกของปี 2024 งานวิจัยมัลติโหมดในรูปแบบที่เปิดกว้างมากขึ้นเริ่มคึกคัก
Visual Language Models
- มี VLM หลากหลายตัวอย่าง Qwen, PaliGemma ฯลฯ ปรากฏขึ้น และถูกนำไปใช้กับงานอย่างการสร้างคำบรรยายภาพและการแยกวิเคราะห์เอกสาร
- โครงสร้างที่เชื่อม Vision Transformer เข้ากับ LLM ที่ผ่านการ pre-train มาแล้ว ได้กลายเป็นมาตรฐาน
- ในปี 2025 คาดว่า VLM ลักษณะนี้จะถูกรวมเข้ากับ Omni-Models
Omni-Modal Models
- OpenAI เคยแสดงตัวอย่าง GPT-4o ที่สร้างภาพได้ด้วย แต่ยังไม่ได้เปิดเผยอย่างสมบูรณ์
- โมเดลอย่าง Chameleon ได้ลองแนวทาง early fusion โดยใช้ image tokenizer + detokenizer
- มีทั้งเสียงเห็นด้วยและคัดค้านต่อแนวทางที่จัดการเอาต์พุตที่ไม่ใช่ข้อความเป็น discrete token
- มีข่าวลือว่า Llama 4 กำลังถูกฝึกให้เป็นโมเดลออมนิโมดัลตั้งแต่เนิ่น ๆ จึงถูกจับตามองอย่างมาก

# Agents and Human-AI Interfaces

แม้คำจำกัดความของ “AI Agent” จะยังคลุมเครือ แต่ในที่นี้จะเรียกแนวทางที่ให้ LLM มีสิทธิ์ใช้เครื่องมือเพื่อบรรลุเป้าหมายได้ด้วยตนเองว่าเอเจนต์
หากอิงตาม SWE-Bench คาดว่าภายในปลายปี 2025 การดีบักโค้ดและการพัฒนาฟีเจอร์บางส่วนจะถูกทำให้เป็นอัตโนมัติได้ในระดับหนึ่ง
อย่างไรก็ตาม ยังเร็วเกินไปที่จะไปถึงระดับแทนวิศวกรได้จริง และน่าจะเริ่มถูกนำไปใช้จากงานที่ยอมรับความผิดพลาดได้กว้างกว่า เช่น การจัดแผนการเดินทางหรือการค้นหาข้อมูล
UI แบบเอดิเตอร์อย่าง Cursor อาจเหมาะกับการใช้งานเอเจนต์มากกว่า
การเรียกใช้เอเจนต์มีต้นทุนโทเคนสูง จึงยังไม่แน่ชัดว่าเอเจนต์อัตโนมัติเต็มรูปแบบจะคุ้มค่าต่อค่าใช้จ่ายหรือไม่

# 2025

เราคุ้นเคยกับคำพูดที่ว่า AI พัฒนาเร็วมาก แต่ในความเป็นจริงการเปลี่ยนแปลงนั้นมากเสียจนยากจะประเมินความเร็วได้ด้วยซ้ำ
บทความนี้กล่าวถึงเพียงสถานะปัจจุบันของฝั่งข้อความและภาพ รวมถึงสิ่งที่คาดหวังในปี 2025 แบบย่อ ๆ เท่านั้น ส่วนด้านอื่นที่ไม่ได้ครอบคลุมแต่ควรจับตา ได้แก่:
- การเพิ่มประสิทธิภาพการฝึก (Muon, NanoGPT speedruns)
- โมเดลวิดีโอ (การแก้ปัญหาความสม่ำเสมอและความเร็วในการให้เหตุผล)
- Quantization (การควอนไทซ์ 1 บิต, ความละเอียดระดับ FP8 หรือต่ำกว่า เป็นต้น)
- งานวิจัยด้านความสามารถในการตีความโมเดล
- การประเมินผลและ benchmark (หวังว่าจะมีการประเมินแบบอิงงานจริงเพิ่มขึ้น เช่น SWE-Bench)
หวังว่าในปี 2025 จะมีความก้าวหน้าเกิดขึ้นมากยิ่งกว่าเดิม

2 ความคิดเห็น

lonzino 2025-01-06

ขอบคุณ

zkdlfrlwl2 2025-01-06

ขอบคุณสำหรับการสรุปที่เรียบเรียงไว้อย่างดี