20 คะแนน โดย xguru 2025-01-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • ตลอดปี 2024 มีความก้าวหน้าอย่างมากทั้งในด้านการสร้างข้อความและการสร้างภาพ
  • ต่างจากช่วงแรกที่ OpenAI นำอยู่แบบทิ้งห่าง ช่วงปลายปีที่ผ่านมาเริ่มมีห้องวิจัยหลากหลายแห่งอย่าง Anthropic, DeepSeek, Qwen ฯลฯ ขยายแนวรบและแข่งขันกันอย่างเข้มข้น
  • สรุปแนวโน้มงานวิจัยช่วงปี 2024~2025 และรวบรวมสั้น ๆ ถึงด้านที่คาดหวังในอนาคต

    “คูเมืองที่สร้างขึ้นจากซอร์สแบบปิดเพียงอย่างเดียวจะอยู่ได้ไม่นาน
    แม้แต่ OpenAI เองก็ไม่อาจหยุดการไล่ตามของผู้อื่นได้
    ท้ายที่สุด การสร้างองค์กรและวัฒนธรรมของเราให้เติบโต เพื่อบ่มเพาะคนที่สร้างนวัตกรรมได้ นั่นต่างหากคือคูเมืองที่แท้จริง”
    ─ Liang Wenfeng, CEO of DeepSeek

# Language

  • โมเดลภาษาขนาดใหญ่ (LLM) คือแกนหลักของกระแส AI ในปัจจุบัน และเป็นด้านที่มีทั้งงานวิจัยและการลงทุนมากที่สุด
  • ในปี 2024 มีความคืบหน้าอย่างมากทั้งด้านประสิทธิภาพของโมเดลและกระบวนทัศน์การสเกลแบบใหม่
  • Architecture
    • แม้จะมีการทดลองสถาปัตยกรรมใหม่ ๆ (เช่น Mamba, xLSTM) แต่至少ในตอนนี้คาดว่า decoder-only Transformer จะยังคงเป็นกระแสหลัก
    • Dense Transformer
      • Llama 3 เป็นตัวแทนที่เด่นชัด และ Meta กำลังปรับแต่ง vanilla Dense Transformer ไปจนถึงขีดสุด
      • รูปแบบที่ถูกเรียกว่า Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE ฯลฯ) ได้กลายเป็นมาตรฐานโดยพฤตินัย
      • แนวทางอย่าง Multi Latent Attention (MLA) ที่ DeepSeek นำเสนอจะได้รับความสนใจมากขึ้น และก็มีโอกาสที่จะเกิดเทคนิคที่มาแทนหรือปรับแก้ RoPE
    • Mixture-of-Experts
      • หลังจากมีข่าวลือว่า GPT-4 เป็น MoE ขนาดมหึมา แนวทางนี้ก็กลับมาโดดเด่นอีกครั้งในปี 2024
      • ในฝั่งโอเพนซอร์ส ตัวอย่างที่เด่นคือ Mixtral ของ Mistral และ DeepSeek v2·v3
      • ข้อเสียของ MoE คือให้บริการใช้งานจริงได้ไม่ง่ายนัก แต่ DeepSeek ก็กำลังวิจัยด้านนี้อย่างจริงจัง
      • ต่อจากนี้คาดว่าจะมีงานวิจัยหลายทิศทาง ทั้งเรื่องกลไก routing วิธีใช้ MoE ในแต่ละเลเยอร์ และความสามารถในการตีความผู้เชี่ยวชาญแต่ละตัว
  • Tokenization
    • มีหลายความเห็นว่าจำเป็นต้องมีนวัตกรรมมาแทน Byte Pair Encoding แต่เพราะยังไม่ได้เป็นปัญหาใหญ่ จึงยังคงถูกใช้งานต่อไป
    • Meta เสนอความพยายามสองแนวทางที่น่าสนใจ คือประมวลผล CoT ใน latent space (แบบ byte-based) หรือฝึก Transformer ในระดับ bytes โดยตรง
    • ใน Byte Latent Transformer (BLT) ใช้โครงสร้าง Encoder/Decoder เพื่อจัดการอินพุตแบบไบต์
    • มีความกังวลว่าคุณภาพของ byte decoder อาจกลายเป็นคอขวด
  • Reasoning
    • ในช่วงครึ่งหลังของปี 2024 ความสามารถในการให้เหตุผลด้านคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโค้ดของโมเดลพัฒนาแบบก้าวกระโดด (o1, o3, DeepSeek r1 เป็นต้น)
    • สิ่งนี้เกี่ยวข้องกับกระบวนทัศน์การสเกลแบบใหม่ที่เรียกว่า “inference-time compute”
      • เป็นวิธีที่โมเดลสร้าง Chain of Thought ที่ยาวมาก แล้วตรวจสอบและนำกระบวนการนั้นมาใช้ด้วยตนเอง
    • ยังไม่มีการเปิดเผยว่า OpenAI สร้าง o1 และ o3 อย่างไร แต่มีความเป็นไปได้สูงว่าใช้แนวทาง RL จากงานอย่าง “Let’s Verify Step by Step”
    • คาดว่าในอนาคต Anthropic หรือแล็บอื่น ๆ ก็จะเผย reasoner ลักษณะคล้ายกันออกมา
    • น่าสนใจว่าจะขยายจากแนวทางที่เน้น STEM ไปสู่โดเมนที่กว้างขึ้น เช่น การเขียนเชิงสร้างสรรค์ ได้หรือไม่
  • Distillation
    • ตอนที่ o1 เปิดตัว มีข้อสันนิษฐานว่าเหตุผลที่ OpenAI ไม่เปิดเผย Chain of Thought เป็นเพราะการนำเอาผลลัพธ์ของโมเดลไปฝึกซ้ำ (เช่น DeepSeek v3) ช่วยยกระดับประสิทธิภาพได้มาก
    • DeepSeek v3 อาจไม่ได้จำลอง CoT ยาวแบบ reasoner ออกมาตรง ๆ แต่ดูเหมือนว่าจะมีการแยกโหมดภายใน และให้เหตุผลเมื่อจำเป็น
    • อีกประเด็นวิจัยที่น่าสนใจคือโมเดลขนาดเล็ก (เช่น o1-mini) จะเข้าใกล้ประสิทธิภาพของโมเดลใหญ่ได้หรือไม่ หรือมีเทคนิคการกลั่นแบบลับ ๆ อยู่ภายในหรือเปล่า

# Image

  • ด้านภาพมีห้องวิจัยขนาดกลางและเล็กจำนวนมากเข้ามาเล่น ทำให้นวัตกรรมเกิดขึ้นอย่างรวดเร็ว
  • ปัจจุบันโมเดลหลัก (Flux, Stable Diffusion 3, MidJourney, Sora ฯลฯ) ล้วนอยู่บนพื้นฐาน Diffusion Transformer และใช้กรอบงาน Flow Matching เป็นหลัก
  • Architecture
    • รูปแบบที่นิยมใช้คือ Diffusion Transformer ที่ผสาน adaptive normalization และโครงสร้าง MM-DIT
    • ในปี 2025 น่าจะมีความพยายามมากขึ้นในการแทนที่ text encoder แบบ CLIP ด้วย LLM ขนาดเล็กกว่า
  • Framework
    • เกิดกระแสนิยมแนวทาง Flow Matching แทนวิธีเชิงความน่าจะเป็นแบบดั้งเดิม
    • โมเดล AutoRegressive ก็มีโอกาสกลับมาโดดเด่นอีกครั้ง และงานวิจัย Visual Autoregressive Modelling ก็ได้รับความสนใจอย่างมาก
    • เทคนิคการสร้างภาพที่ xAI เปิดเผยก็น่าจะเป็นแบบ autoregressive เช่นกัน แต่ยังไม่ทราบเหตุผลที่ชัดเจน

# Multimodality

  • ก่อนหน้านี้ OpenAI, Anthropic และรายอื่น ๆ ได้ให้ความสามารถในการป้อนภาพเข้าโมเดลมาแล้ว แต่ในช่วงครึ่งแรกของปี 2024 งานวิจัยมัลติโหมดในรูปแบบที่เปิดกว้างมากขึ้นเริ่มคึกคัก
  • Visual Language Models
    • มี VLM หลากหลายตัวอย่าง Qwen, PaliGemma ฯลฯ ปรากฏขึ้น และถูกนำไปใช้กับงานอย่างการสร้างคำบรรยายภาพและการแยกวิเคราะห์เอกสาร
    • โครงสร้างที่เชื่อม Vision Transformer เข้ากับ LLM ที่ผ่านการ pre-train มาแล้ว ได้กลายเป็นมาตรฐาน
    • ในปี 2025 คาดว่า VLM ลักษณะนี้จะถูกรวมเข้ากับ Omni-Models
  • Omni-Modal Models
    • OpenAI เคยแสดงตัวอย่าง GPT-4o ที่สร้างภาพได้ด้วย แต่ยังไม่ได้เปิดเผยอย่างสมบูรณ์
    • โมเดลอย่าง Chameleon ได้ลองแนวทาง early fusion โดยใช้ image tokenizer + detokenizer
    • มีทั้งเสียงเห็นด้วยและคัดค้านต่อแนวทางที่จัดการเอาต์พุตที่ไม่ใช่ข้อความเป็น discrete token
    • มีข่าวลือว่า Llama 4 กำลังถูกฝึกให้เป็นโมเดลออมนิโมดัลตั้งแต่เนิ่น ๆ จึงถูกจับตามองอย่างมาก

# Agents and Human-AI Interfaces

  • แม้คำจำกัดความของ “AI Agent” จะยังคลุมเครือ แต่ในที่นี้จะเรียกแนวทางที่ให้ LLM มีสิทธิ์ใช้เครื่องมือเพื่อบรรลุเป้าหมายได้ด้วยตนเองว่าเอเจนต์
  • หากอิงตาม SWE-Bench คาดว่าภายในปลายปี 2025 การดีบักโค้ดและการพัฒนาฟีเจอร์บางส่วนจะถูกทำให้เป็นอัตโนมัติได้ในระดับหนึ่ง
  • อย่างไรก็ตาม ยังเร็วเกินไปที่จะไปถึงระดับแทนวิศวกรได้จริง และน่าจะเริ่มถูกนำไปใช้จากงานที่ยอมรับความผิดพลาดได้กว้างกว่า เช่น การจัดแผนการเดินทางหรือการค้นหาข้อมูล
  • UI แบบเอดิเตอร์อย่าง Cursor อาจเหมาะกับการใช้งานเอเจนต์มากกว่า
  • การเรียกใช้เอเจนต์มีต้นทุนโทเคนสูง จึงยังไม่แน่ชัดว่าเอเจนต์อัตโนมัติเต็มรูปแบบจะคุ้มค่าต่อค่าใช้จ่ายหรือไม่

# 2025

  • เราคุ้นเคยกับคำพูดที่ว่า AI พัฒนาเร็วมาก แต่ในความเป็นจริงการเปลี่ยนแปลงนั้นมากเสียจนยากจะประเมินความเร็วได้ด้วยซ้ำ
  • บทความนี้กล่าวถึงเพียงสถานะปัจจุบันของฝั่งข้อความและภาพ รวมถึงสิ่งที่คาดหวังในปี 2025 แบบย่อ ๆ เท่านั้น ส่วนด้านอื่นที่ไม่ได้ครอบคลุมแต่ควรจับตา ได้แก่:
    • การเพิ่มประสิทธิภาพการฝึก (Muon, NanoGPT speedruns)
    • โมเดลวิดีโอ (การแก้ปัญหาความสม่ำเสมอและความเร็วในการให้เหตุผล)
    • Quantization (การควอนไทซ์ 1 บิต, ความละเอียดระดับ FP8 หรือต่ำกว่า เป็นต้น)
    • งานวิจัยด้านความสามารถในการตีความโมเดล
    • การประเมินผลและ benchmark (หวังว่าจะมีการประเมินแบบอิงงานจริงเพิ่มขึ้น เช่น SWE-Bench)
  • หวังว่าในปี 2025 จะมีความก้าวหน้าเกิดขึ้นมากยิ่งกว่าเดิม

2 ความคิดเห็น

 
lonzino 2025-01-06

ขอบคุณ

 
zkdlfrlwl2 2025-01-06

ขอบคุณสำหรับการสรุปที่เรียบเรียงไว้อย่างดี