รายการอ่านสำหรับวิศวกร AI ปี 2025

(latent.space)

45 คะแนน โดย GN⁺ 2025-01-14 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

คัดเลือกงานวิจัย โมเดล และบล็อก 50 รายการสำหรับวิศวกร AI โดยแบ่งเป็น 10 สาขา
ครอบคลุมสาขา LLMs, benchmark, prompting, RAG, agent, การสร้างโค้ด, วิสัยทัศน์คอมพิวเตอร์, เสียง, diffusion และ fine-tuning

ส่วนที่ 1: LLMs แนวหน้าสุด

โมเดล OpenAI
- GPT1 (งานวิจัย), GPT2 (งานวิจัย), GPT3 (งานวิจัย), Codex (งานวิจัย), InstructGPT (งานวิจัย), GPT4 (งานวิจัย)
- GPT3.5 (แนะนำ ChatGPT), 4o (แนะนำ GPT-4o), o1 (พรีวิว o1), o3 (system card)
โมเดล Anthropic และ Google
- Claude 3 (งานวิจัย), Gemini 1 (งานวิจัย)
- Claude 3.5 Sonnet (รายละเอียด), Gemini 2.0 Flash (บล็อกทางการ), Flash Thinking (เอกสาร Gemini API), Gemma 2 (งานวิจัย)
ตระกูล LLaMA ที่เกี่ยวข้องกับ Meta
- LLaMA 1 (งานวิจัย), LLaMA 2 (งานวิจัย), LLaMA 3 (งานวิจัย)
- โมเดลต่อยอด: Mistral 7B (งานวิจัย), Mixtral (งานวิจัย), Pixtral (งานวิจัย)
โมเดล DeepSeek
- DeepSeek V1 (งานวิจัย), Coder (งานวิจัย), MoE (งานวิจัย), V2 (งานวิจัย), V3 (GitHub)
Apple Intelligence
- Apple Intelligence (งานวิจัย) - โมเดลที่รวมอยู่ใน Mac และ iPhone ทุกเครื่อง
โมเดลและงานวิจัยเพิ่มเติมที่น่าสนใจ
- โมเดล LLM
  - ตระกูล AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
  - อื่น ๆ: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- งานวิจัย Scaling Laws
  - Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- โมเดลล้ำสมัยที่สุด:
  - o1, o3, R1, QwQ, QVQ, f1
- งานวิจัยด้านโมเดล reasoning:
  - Let’s Verify Step By Step, STaR, บรรยายของ Noam Brown

ส่วนที่ 2: เบนช์มาร์กและการประเมินผล

MMLU
- MMLU (บทความ): มาตรฐานของเบนช์มาร์กความรู้แบบหลายสาขา
  - งานวิจัยล้ำสมัยในปี 2025 ใช้ MMLU Pro (บทความ), GPQA Diamond (บทความ), BIG-Bench Hard (บทความ)
- GPQA (บทความ): เน้นการสร้างคำถามและการประเมินคำตอบที่ถูกต้อง
- BIG-Bench (บทความ): เบนช์มาร์กขนาดใหญ่ที่ครอบคลุมปัญหาหลากหลายด้าน
MuSR (บทความ): การประเมินภายในบริบทยาว
- งานวิจัยที่เกี่ยวข้อง: LongBench (บทความ), BABILong (บทความ), RULER (แนะนำ)
- ประเด็นปัญหา: Lost in the Middle (บทความ), Needle in a Haystack (GitHub)
MATH (บทความ): ชุดรวมโจทย์คณิตศาสตร์แข่งขัน
- งานวิจัยล้ำสมัยมุ่งเน้นที่ FrontierMath (บทความ) และโจทย์ระดับยากสูง
- ชุดย่อย: MATH Level 5, AIME, AMC10/AMC12
IFEval (บทความ): เบนช์มาร์กหลักสำหรับประเมินการทำตามคำสั่ง
- Apple นำไปใช้อย่างเป็นทางการ (ลิงก์)
- เบนช์มาร์กที่เกี่ยวข้อง: MT-Bench (บทความ)
ARC AGI (หน้าทางการ): เบนช์มาร์กการให้เหตุผลเชิงนามธรรมและ “การทดสอบ IQ”
- ยังคงมีความท้าทายในระยะยาว ต่างจากเบนช์มาร์กอื่นที่อิ่มตัวอย่างรวดเร็ว
แหล่งข้อมูลเพิ่มเติม
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: การวิเคราะห์เชิงลึกเกี่ยวกับเบนช์มาร์ก
- แหล่งข้อมูลเกี่ยวกับ LLM: LLM-as-Judge, Applied LLMs
- ทรัพยากรชุดข้อมูล: Datasets

ส่วนที่ 3: Prompting, ICL และ Chain-of-Thought

GPT-3 และ In-Context Learning (ICL)
- บทความ GPT-3(บทความ): แนะนำแนวคิด In-Context Learning (ICL)
- ICL มีความเกี่ยวข้องอย่างใกล้ชิดกับ prompting และทำให้ LLM สามารถเรียนรู้และประยุกต์ใช้ภายในบริบทได้
- Prompt Injection: การโจมตีด้วยการชักจูงพรอมป์ต์และประเด็นด้านความปลอดภัย (สรุปของ Lilian Weng, ชุดบทความของ Simon Willison)
The Prompt Report: งานสำรวจบทความเกี่ยวกับ prompting
- ภาพรวม: สรุปพัฒนาการโดยรวมของเทคนิค prompting และเทรนด์ล่าสุด (พอดแคสต์ที่เกี่ยวข้อง)
Chain-of-Thought (CoT):
- การจำลองกระบวนการคิดทีละขั้นตอน
- งานวิจัยที่เกี่ยวข้อง:
  - Scratchpads (บทความ)
  - Let’s Think Step By Step (บทความ)
Tree of Thought:
- แนะนำแนวคิดของ Lookahead และ Backtracking
- วิธีที่มีประสิทธิภาพสำหรับการแก้ปัญหาที่ซับซ้อน (พอดแคสต์ที่เกี่ยวข้อง)
Prompt Tuning:
- ปรับประสิทธิภาพโมเดลได้โดยไม่ต้องใช้พรอมป์ต์:
  - Prefix-Tuning (บทความ)
  - การปรับ decoding บนพื้นฐานของ entropy (GitHub)
  - Representation Engineering (บล็อก)
Automatic Prompt Engineering:
- วิธีที่ LLM สร้างและปรับแต่งพรอมป์ต์ด้วยตนเอง
- นำไปใช้ใน DSPy framework (บทความ)
นอกจากบทความวิจัยแล้ว คู่มือเชิงปฏิบัติก็มีประโยชน์มาก:
- Prompt Engineering บล็อก ของ Lilian Weng
- คู่มือ Prompting ของ Eugene Yan
- บทแนะนำและเวิร์กช็อปของ Anthropic:
  - Interactive Prompt Engineering Tutorial
  - AI Engineer Workshop

ส่วนที่ 4: RAG (Retrieval-Augmented Generation)

Introduction to Information Retrieval: หนังสืออ้างอิงคลาสสิกที่ครอบคลุมพื้นฐานของการสืบค้นสารสนเทศ
- RAG เป็นปัญหาด้านการสืบค้นสารสนเทศ (IR) และเกี่ยวข้องอย่างใกล้ชิดกับสาขาที่มีประวัติยาวนานกว่า 60 ปี
- เทคโนโลยีหลัก:
  - TF-IDF, BM25: การค้นหาแบบอิงข้อความ
  - FAISS, HNSW: การค้นหาเวกเตอร์และการค้นหาเพื่อนบ้านใกล้เคียง
Meta RAG (งานวิจัยปี 2020): การปรากฏตัวครั้งแรกของคำว่า RAG
- HyDE (เอกสาร)
- Chunking (งานวิจัย)
- Rerankers (บล็อกของ Cohere)
- การประมวลผลข้อมูลหลายโมดัล (YouTube)
MTEB: เบนช์มาร์กสำหรับประเมิน embeddings
- ข้อถกเถียงและข้อจำกัด (การอภิปรายที่เกี่ยวข้อง)
- ตัวอย่างโมเดล embedding:
  - SentenceTransformers
  - OpenAI, Nomic Embed, ModernBERT Embed
  - Matryoshka Embeddings (บล็อก HuggingFace)
GraphRAG: การผสาน RAG ของ Microsoft เข้ากับกราฟความรู้
- GraphRAG:
  - ผสานกราฟความรู้เข้ากับเวิร์กโฟลว์ RAG เพื่อให้ได้ผลลัพธ์ที่ดีกว่าจากข้อมูลส่วนบุคคล
  - โอเพนซอร์สแล้ว (บล็อก Microsoft)
- งานวิจัยที่เกี่ยวข้อง:
  - ColBERT, ColPali, ColQwen
RAGAS: วิธีประเมิน RAG แบบเรียบง่ายที่ OpenAI แนะนำ
- Nvidia FACTS Framework (งานวิจัย)
- Extrinsic Hallucinations in LLMs (บทสำรวจของ Lilian Weng)
- Recall vs Precision ของ Jason Wei (ทวีต)
แหล่งเรียนรู้และการใช้งาน RAG ในทางปฏิบัติ
- LlamaIndex (เอกสาร, คอร์ส)
- LangChain (เอกสาร, วิดีโอสอน)
- RAG vs Long Context Debate:
  - งานวิจัย: การเปรียบเทียบ RAG กับแนวทาง Long Context

ส่วนที่ 5: เอเจนต์

SWE-Bench:
- เบนช์มาร์กตัวแทนสำหรับ การประเมินเอเจนต์ (เน้นงานโค้ด)
- ถูกนำไปใช้โดย Anthropic, Devin, OpenAI และอื่น ๆ จึงได้รับความสนใจสูง
- แหล่งข้อมูลที่เกี่ยวข้อง:
  - SWE-Agent (บทความ)
  - SWE-Bench Multimodal (บทความ)
  - Konwinski Prize (เว็บไซต์)
- เปรียบเทียบกับ: WebArena (GitHub), SWE-Gym (ทวีตที่เกี่ยวข้อง)
ReAct:
- จุดเริ่มต้นของงานวิจัย LLM ด้าน การใช้เครื่องมือและการเรียกฟังก์ชัน
- งานวิจัยที่เกี่ยวข้อง:
  - Gorilla (ลีดเดอร์บอร์ด)
  - Toolformer (บทความ)
  - HuggingGPT (บทความ)
MemGPT:
- แนวทาง จำลองหน่วยความจำระยะยาว
- การใช้งานหลัก:
  - ฟีเจอร์ Memory และ Controls ของ ChatGPT
  - Episodic Memory ของ LangGraph
- ระบบที่เกี่ยวข้อง:
  - MetaGPT (บทความ)
  - AutoGen (บทความ)
  - Smallville (GitHub)
Voyager:
- แนวทาง สถาปัตยกรรมการรับรู้ ของ Nvidia:
  - ปรับปรุงประสิทธิภาพด้วย curriculum, skill library, sandbox
- การขยายแนวคิด:
  - Agent Workflow Memory (บทความ)
Building Effective Agents ของ Anthropic:
- สรุปแก่นสำคัญของการออกแบบเอเจนต์ในปี 2024
- หัวข้อหลัก:
  - chaining, routing, parallelization, orchestration, evaluation, optimization
- แหล่งข้อมูลที่เกี่ยวข้อง:
  - งานวิจัยเอเจนต์ของ Lilian Weng ดูที่นี่
  - งานวิจัย LLM agent ของ Shunyu Yao ดูที่นี่
  - ภาพรวมเอเจนต์ปี 2025 ของ Chip Huyen ดูที่นี่
สื่อการเรียนรู้และคอร์สเพิ่มเติม
- การออกแบบเอเจนต์ล่าสุดของปี 2024: สรุป NeurIPS
- UC Berkeley MOOC: คอร์ส LLM Agents
- การถกเถียงเรื่องนิยามของเอเจนต์: หากจำเป็นให้ดู นิยามนี้

ส่วนที่ 6: การสร้างโค้ด (CodeGen)

The Stack paper
- เริ่มต้นจากชุดข้อมูลเปิดที่เน้นโค้ด ซึ่งเป็นคู่ขนานของ The Pile
- งานต่อยอด:
  - The Stack v2: ชุดข้อมูลที่ปรับปรุงแล้ว
  - StarCoder: โมเดลสร้างโค้ดที่ปรับแต่งแล้ว
บทความเกี่ยวกับโมเดลโค้ดแบบเปิด
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- หลายคนประเมินว่า Claude 3.5 Sonnet เป็นโมเดลโค้ดที่ดีที่สุด แต่ไม่มีบทความอย่างเป็นทางการ
HumanEval/Codex
- เบนช์มาร์กสำคัญในโดเมนการเขียนโค้ด (ปัจจุบันค่อนข้างอิ่มตัวแล้ว)
- เบนช์มาร์กสมัยใหม่ที่ใช้แทน:
  - Aider
  - Codeforces
  - BigCodeBench
  - LiveCodeBench
  - SciCode
- SWE-Bench
  - แม้จะเป็นที่รู้จักในด้านการประเมินแบบเน้นเอเจนต์ แต่มีต้นทุนสูง และเน้นประเมินเอเจนต์มากกว่าตัวโมเดล
AlphaCodeium
- อิงจากประสิทธิภาพของ AlphaCode และ AlphaCode2 ของ Google
- ใช้ Flow Engineering เพื่อยกระดับประสิทธิภาพของโมเดลเดิมอย่างมาก
CriticGPT
- มุ่งเน้นการตรวจจับปัญหาด้านความปลอดภัยที่เกิดขึ้นระหว่างการสร้างโค้ด
  - CriticGPT ของ OpenAI ถูกฝึกให้ระบุปัญหาด้านความปลอดภัย
  - Anthropic ใช้ SAEs (Safety-relevant Activation Ensembles) เพื่อวิเคราะห์ลักษณะของ LLM ที่ก่อให้เกิดปัญหา (งานวิจัย)
ในอุตสาหกรรม การสร้างโค้ดกำลังย้ายจุดศูนย์กลางจากงานวิจัยไปสู่การใช้งานจริง:
- การใช้งาน code agent อย่าง Devin (วิดีโอ)
- คำแนะนำเชิงปฏิบัติเกี่ยวกับการสร้างโค้ด (YouTube)

ส่วนที่ 7: วิชัน

งานวิจัยด้านวิชันที่ไม่อิง LLM
- YOLO:
  - มีชื่อเสียงในฐานะโมเดลตรวจจับวัตถุแบบเรียลไทม์
  - ปัจจุบันพัฒนาไปถึง v11 แล้ว (GitHub)
  - งานวิจัยล่าสุด: โมเดลทรานส์ฟอร์เมอร์ที่อิง DETR แสดงผลลัพธ์ที่เหนือกว่า YOLO
- หมายเหตุ: ควรระวังเวอร์ชันที่หลากหลายของ YOLO และลำดับสายวิวัฒนาการของมัน (บทสนทนาที่เกี่ยวข้อง)
CLIP:
- กรณีศึกษาความสำเร็จของโมเดลมัลติโหมดที่อิง ViT
- โมเดลล่าสุด:
  - BLIP, BLIP2
  - SigLIP/PaliGemma
- CLIP ยังคงเป็นความรู้พื้นฐานที่สำคัญ
MMVP benchmark:
- ใช้ประเมินข้อจำกัดของ CLIP
- เวอร์ชันมัลติโหมด: MMMU, SWE-Bench Multimodal
Segment Anything Model (SAM):
- โมเดลตัวแทนสำหรับการแบ่งส่วนภาพและวิดีโอ
- งานวิจัยต่อยอด: SAM 2 (พอดแคสต์ที่เกี่ยวข้อง)
- โมเดลเสริม: GroundingDINO
Early Fusion vs Late Fusion:
- Late Fusion: LLaVA (พอดแคสต์)
- Early Fusion:
  - Flamingo ของ Meta
  - Chameleon
  - AIMv2 ของ Apple
  - Core ของ Reka
- แหล่งอ้างอิง: แนวโน้มงานวิจัยวิชันมัลติโหมด
งานล่าสุดที่ยังไม่ได้ตีพิมพ์:
- GPT4V System Card และงานวิจัยต่อยอด (บทความ)
- OpenAI 4o:
  - การปรับจูนละเอียดด้านวิชันของ 4o
- โมเดลล่าสุด:
  - Claude 3.5 Sonnet/Haiku
  - Gemini 2.0 Flash
  - o1
  - โมเดลอื่น ๆ:
    - Pixtral
    - Llama 3.2
    - Moondream
    - QVQ

ส่วนที่ 8: เสียง

Whisper:
- โมเดล ASR ที่ประสบความสำเร็จของ OpenAI
- เวอร์ชันหลัก:
  - Whisper v2 (บทสนทนาที่เกี่ยวข้อง)
  - Whisper v3 (บทสนทนาที่เกี่ยวข้อง)
  - Distil-Whisper (GitHub)
  - Whisper v3 Turbo (บทวิเคราะห์)
- Whisper มีโมเดลน้ำหนักเปิดหลายรุ่นให้ใช้งาน แต่บางเวอร์ชันไม่มีบทความวิจัยรองรับ
AudioPaLM:
- AudioPaLM ของ Google เป็นงานวิจัยก่อนการเปลี่ยนผ่านจาก PaLM ไปสู่ Gemini
- อ้างอิง: การสำรวจด้านเสียงของ Llama 3 โดย Meta (บทความ)
NaturalSpeech:
- เป็นหนึ่งในงานวิจัย TTS หลัก
- ล่าสุดอัปเดตเป็น v3 (บทความ)
Kyutai Moshi:
- โมเดลน้ำหนักเปิดแบบ เสียง-ข้อความฟูลดูเพล็กซ์
- เดโมคุณภาพสูง (YouTube)
- โมเดลอ้างอิง: Hume OCTAVE (บล็อก)
OpenAI Realtime API: The Missing Manual:
- เอกสารไม่เป็นทางการสำหรับ API เสียงแบบเรียลไทม์ของ OpenAI
- เป็นเครื่องมือสำคัญสำหรับงานเอเจนต์และงานเรียลไทม์ล่าสุด
แนะนำโซลูชันหลากหลายนอกเหนือจากแล็บขนาดใหญ่:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- อ้างอิง: State of Voice AI 2024
- โมเดลเสียงของ NotebookLM:
  - แม้จะไม่ได้เปิดเผยตัวโมเดล แต่มี คำอธิบายเชิงลึกของกระบวนการสร้างโมเดล ให้ศึกษา
Gemini 2.0: โมเดลมัลติโหมดที่ผสานเสียงและวิชันเข้าด้วยกันอย่างเป็นธรรมชาติ
- หลังปี 2025: การบรรจบกันของโมดาลิตีด้านเสียงและวิชันกำลังพัฒนาไปเป็นทิศทางที่ชัดเจน

ส่วนที่ 9: การแพร่กระจายสำหรับภาพ/วิดีโอ

Latent Diffusion:
- งานวิจัยหลักของ Stable Diffusion
- เวอร์ชันต่อยอด:
  - SD2 (ประกาศอย่างเป็นทางการ)
  - SDXL และ SD3
- ปัจจุบันทีมกำลังพัฒนา BFL Flux
ซีรีส์ OpenAI DALL-E:
- DALL-E, DALL-E-2, DALL-E-3
ซีรีส์ Google Imagen:
- Imagen, Imagen 2, Imagen 3
- ดูเพิ่มเติม: Ideogram
Consistency Models:
- งานกลั่นความรู้ของโมเดล diffusion
- ส่วนขยาย:
  - LCMs
  - อัปเดตล่าสุด: sCMs
Sora:
- เครื่องมือแปลงข้อความเป็นวิดีโอของ OpenAI (ไม่มีงานวิจัยอย่างเป็นทางการ)
- ดูเพิ่มเติม:
  - บทความ DiT (ผู้เขียนชุดเดียวกัน)
  - OpenSora: โมเดลคู่แข่งที่ใช้น้ำหนักแบบเปิด
  - สรุปของ Lilian Weng
ComfyUI:
- ได้รับความสนใจในฐานะอินเทอร์เฟซผู้ใช้สำหรับโมเดลด้านวิชัน (บทสัมภาษณ์ที่เกี่ยวข้อง)
สาขาเฉพาะทาง:
- Text Diffusion: โมเดล diffusion สำหรับข้อความ
- Music Diffusion: diffusion สำหรับการสร้างดนตรี
- Autoregressive Image Generation: การสร้างภาพแบบ autoregressive
การแข่งขัน Open Weights:
- Text-to-Video Arena
ทำความเข้าใจแนวโน้มล่าสุด:
- การใช้งานโมเดล Stable Diffusion และ DALL-E
- งานวิจัยว่าด้วยการหลอมรวมโมดาลิตีของข้อความและวิดีโอ

ส่วนที่ 10: การฟাইনจูนโมเดล (Finetuning)

LoRA/QLoRA:
- มาตรฐานของการฟাইনจูนโมเดลต้นทุนต่ำ
- การใช้งานหลัก:
  - รองรับทั้งในโมเดลท้องถิ่นและ 4o ของ OpenAI (ฟังพอดแคสต์)
  - FSDP+QLoRA: เอกสารการสอน
DPO:
- รองรับใน Preference Finetuning ของ OpenAI
- ได้รับความนิยมในฐานะทางเลือกของ PPO (บทความ) แต่ประสิทธิภาพค่อนข้างต่ำกว่า
ReFT:
- มุ่งเน้นไปที่คุณลักษณะ (feature) ของโมเดล แทนการฟাইনจูนบางเลเยอร์แบบเดิม
- แนวทางการฟাইনจูนที่มีประสิทธิภาพ
Orca 3/AgentInstruct:
- วิธีการที่เหมาะกับการสร้างข้อมูลสังเคราะห์
- งานวิจัยที่เกี่ยวข้อง:
  - Synthetic Data Picks ของ NeurIPS
การปรับจูนด้วย RL:
- RL Finetuning for o1 ของ OpenAI เป็นแหล่งข้อมูลสำคัญแม้จะมีข้อถกเถียง
- งานวิจัยที่เกี่ยวข้อง:
  - Let’s Verify Step By Step
  - การบรรยาย ของ Noam Brown
สมุดโน้ต Unsloth:
- มีสมุดโน้ตแบบลงมือปฏิบัติให้ใน GitHub
คู่มือ HuggingFace:
- How to fine-tune open LLMs: คู่มือเชิงลึกสำหรับกระบวนการฟাইনจูนทั้งหมด

ปิดท้ายรายการอ่านปี 2025 สำหรับวิศวกร AI

รายการนี้อาจดูใหญ่และชวนให้รู้สึกหนักใจ แต่เลิกกลางทางก็ไม่เป็นไร สิ่งสำคัญคือการกลับมาเริ่มใหม่
จะมีการอัปเดตอย่างต่อเนื่องตลอดปี 2025 เพื่อให้ข้อมูลทันสมัย
คุณจะสร้างวิธีเรียนรู้ของตัวเองก็ได้ แต่ วิธีอ่านงานวิจัยให้จบใน 1 ชั่วโมง น่าจะช่วยได้
ดูเคล็ดลับการอ่านและการเรียนรู้ได้ที่ที่นี่
เรียนรู้ไปพร้อมกับชุมชน
- กลุ่ม Discord และ Telegram:
  - กลุ่ม Discord ของ Krispin: https://app.discuna.com/invite/ai_engineer
  - กลุ่ม Telegram ของ Fed of Flow AI ที่เคลื่อนไหวอยู่ใน NYC: AI NYC Telegram
  - เข้าร่วมชุมชน Discord ของ Latent Space: ลิงก์เชิญ Discord
- แบ่งปันโน้ตและไฮไลต์:
  - บล็อกที่ผู้อ่าน Niels เริ่มไว้: โน้ต 2025 AI Engineer Reading List

3 ความคิดเห็น

kipsong133 2025-01-16

พอมองแบบนี้แล้ว ก็ยังมีแหล่งข้อมูลที่ควรอ่านแบบลงลึกอีกมากจริง ๆ

GN⁺ 2025-01-14

ความเห็นจาก Hacker News

งานวิจัยส่วนใหญ่มุ่งเน้นไปที่การเก็บเกี่ยวความรู้มากกว่าความเข้าใจอย่างลึกซึ้ง หากยังไม่คุ้นเคยกับหัวข้อนี้ ควรเริ่มจากตำราเรียนมากกว่างานวิจัย โดย "Deep Learning: Foundations and Concepts (2024)" ของ Bishop ฉบับล่าสุด และ "AI Engineering (2024)" ของ Chip Huyen เป็นแหล่งข้อมูลที่ดี นอกจากนี้ยังแนะนำ "Dive into Deep Learning" และสื่อการสอนของ fast.ai
ไม่แน่ใจว่าอาชีพ "AI Engineer" คืออะไร แต่ก็สงสัยว่าการอ่านงานวิจัยจำเป็นจริงหรือไม่ หากไม่ได้ทำงานกับแนวหน้าสุดของ AI การอ่านงานวิจัยอาจไม่มีความหมายมากนัก การเข้าใจการตอบสนองของ LLM และการสร้างแอปที่เป็นมิตรต่อผู้ใช้นั้นสำคัญกว่า เมื่อใช้ API ของ OpenAI หรือ Groq การรู้ความแตกต่างระหว่าง "multi head attention" กับ "single head attention" ไม่ได้มีประโยชน์มากนัก
การจัดทำรายการแบบนี้เป็นงานที่ยาก เพราะนอกจากสิ่งที่เลือกมาแล้วก็ยังมีตัวเลือกที่เหมาะสมอีกมาก จึงควรมองสิ่งนี้เป็นหลักสูตร และเข้าใจว่างานวิจัยที่เกี่ยวข้องในปัจจุบันเป็นตัวชี้ที่เคลื่อนไหวได้ ไม่ใช่อ้างอิงที่ตายตัว มีการนำรายการอ่านบางส่วนไปใช้ในชมรมอ่านงานวิจัย
วิธีการปรับจูนตามคำสั่งของโมเดลโอเพนซอร์สส่วนใหญ่มาจาก Alpaca ดังนั้นควรรวมงานวิจัยเกี่ยวกับ Alpaca และการสร้างข้อมูลสังเคราะห์ไว้ด้วย
แทนที่จะเสียเวลาอ่านและทำความเข้าใจงานวิจัยด้าน AI และ LLM ควรไปอ่านเรื่อง ELIZA และลองสร้างมันขึ้นมาด้วยตัวเอง จะดีกว่าถ้าโฟกัสที่เทนเซอร์ เวกเตอร์ ฟิลด์ ภาษาศาสตร์ สถาปัตยกรรมคอมพิวเตอร์ และเครือข่าย
รายการอ่านนี้เป็นของเมื่อประมาณ 1 ปีก่อนแล้ว ในปี 2025 ควรโฟกัสที่เทคนิคอย่าง KTO, RLOO และ DPO ในปี 2025 ควรสนใจแค่การกลั่นโมเดลและการเพิ่มประสิทธิภาพเท่านั้น CoT ไม่ใช่เรื่องใหม่ และ CoT ที่ถูกปรับแก้ต่างหากที่เป็นแกนสำคัญ
น่าสนใจที่คำว่า "AI" ถูกพัฒนาการล่าสุดของ DL กลืนไปเกือบทั้งหมด แทบไม่มีการกล่าวถึง Russell & Norvig, Minsky, Shannon, Lenat เป็นต้น หากสนใจบทนำสู่หัวข้อ AI ในมุมที่กว้างขึ้น หลักสูตรบัณฑิตศึกษาส่วนใหญ่จะใช้หนังสือเล่มเดียวกัน
เป็นการรวบรวมที่ยอดเยี่ยม หากนำไปรวมกับคอร์สด้านล่างจะได้ผลลัพธ์ดีที่สุด
เป็นรายการที่ยอดเยี่ยม

francomoon7 2025-01-16

การสร้าง Eliza ขึ้นมาด้วยตัวเองหมายความว่าอย่างไร?