รายการอ่านสำหรับวิศวกร AI ปี 2025
(latent.space)- คัดเลือกงานวิจัย โมเดล และบล็อก 50 รายการสำหรับวิศวกร AI โดยแบ่งเป็น 10 สาขา
- ครอบคลุมสาขา LLMs, benchmark, prompting, RAG, agent, การสร้างโค้ด, วิสัยทัศน์คอมพิวเตอร์, เสียง, diffusion และ fine-tuning
ส่วนที่ 1: LLMs แนวหน้าสุด
- โมเดล OpenAI
- GPT1 (งานวิจัย), GPT2 (งานวิจัย), GPT3 (งานวิจัย), Codex (งานวิจัย), InstructGPT (งานวิจัย), GPT4 (งานวิจัย)
- GPT3.5 (แนะนำ ChatGPT), 4o (แนะนำ GPT-4o), o1 (พรีวิว o1), o3 (system card)
- โมเดล Anthropic และ Google
- Claude 3 (งานวิจัย), Gemini 1 (งานวิจัย)
- Claude 3.5 Sonnet (รายละเอียด), Gemini 2.0 Flash (บล็อกทางการ), Flash Thinking (เอกสาร Gemini API), Gemma 2 (งานวิจัย)
- ตระกูล LLaMA ที่เกี่ยวข้องกับ Meta
- โมเดล DeepSeek
- Apple Intelligence
- Apple Intelligence (งานวิจัย) - โมเดลที่รวมอยู่ใน Mac และ iPhone ทุกเครื่อง
- โมเดลและงานวิจัยเพิ่มเติมที่น่าสนใจ
- โมเดล LLM
- ตระกูล AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- อื่น ๆ: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- งานวิจัย Scaling Laws
- Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- โมเดลล้ำสมัยที่สุด:
- งานวิจัยด้านโมเดล reasoning:
- โมเดล LLM
ส่วนที่ 2: เบนช์มาร์กและการประเมินผล
- MMLU
- MuSR (บทความ): การประเมินภายในบริบทยาว
- MATH (บทความ): ชุดรวมโจทย์คณิตศาสตร์แข่งขัน
- งานวิจัยล้ำสมัยมุ่งเน้นที่ FrontierMath (บทความ) และโจทย์ระดับยากสูง
- ชุดย่อย: MATH Level 5, AIME, AMC10/AMC12
- IFEval (บทความ): เบนช์มาร์กหลักสำหรับประเมินการทำตามคำสั่ง
- ARC AGI (หน้าทางการ): เบนช์มาร์กการให้เหตุผลเชิงนามธรรมและ “การทดสอบ IQ”
- ยังคงมีความท้าทายในระยะยาว ต่างจากเบนช์มาร์กอื่นที่อิ่มตัวอย่างรวดเร็ว
- แหล่งข้อมูลเพิ่มเติม
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: การวิเคราะห์เชิงลึกเกี่ยวกับเบนช์มาร์ก
- แหล่งข้อมูลเกี่ยวกับ LLM: LLM-as-Judge, Applied LLMs
- ทรัพยากรชุดข้อมูล: Datasets
ส่วนที่ 3: Prompting, ICL และ Chain-of-Thought
- GPT-3 และ In-Context Learning (ICL)
- บทความ GPT-3(บทความ): แนะนำแนวคิด In-Context Learning (ICL)
- ICL มีความเกี่ยวข้องอย่างใกล้ชิดกับ prompting และทำให้ LLM สามารถเรียนรู้และประยุกต์ใช้ภายในบริบทได้
- Prompt Injection: การโจมตีด้วยการชักจูงพรอมป์ต์และประเด็นด้านความปลอดภัย (สรุปของ Lilian Weng, ชุดบทความของ Simon Willison)
- The Prompt Report: งานสำรวจบทความเกี่ยวกับ prompting
- ภาพรวม: สรุปพัฒนาการโดยรวมของเทคนิค prompting และเทรนด์ล่าสุด (พอดแคสต์ที่เกี่ยวข้อง)
- Chain-of-Thought (CoT):
- Tree of Thought:
- แนะนำแนวคิดของ Lookahead และ Backtracking
- วิธีที่มีประสิทธิภาพสำหรับการแก้ปัญหาที่ซับซ้อน (พอดแคสต์ที่เกี่ยวข้อง)
- Prompt Tuning:
- Automatic Prompt Engineering:
- วิธีที่ LLM สร้างและปรับแต่งพรอมป์ต์ด้วยตนเอง
- นำไปใช้ใน DSPy framework (บทความ)
- นอกจากบทความวิจัยแล้ว คู่มือเชิงปฏิบัติก็มีประโยชน์มาก:
- Prompt Engineering บล็อก ของ Lilian Weng
- คู่มือ Prompting ของ Eugene Yan
- บทแนะนำและเวิร์กช็อปของ Anthropic:
ส่วนที่ 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: หนังสืออ้างอิงคลาสสิกที่ครอบคลุมพื้นฐานของการสืบค้นสารสนเทศ
- RAG เป็นปัญหาด้านการสืบค้นสารสนเทศ (IR) และเกี่ยวข้องอย่างใกล้ชิดกับสาขาที่มีประวัติยาวนานกว่า 60 ปี
- เทคโนโลยีหลัก:
- TF-IDF, BM25: การค้นหาแบบอิงข้อความ
- FAISS, HNSW: การค้นหาเวกเตอร์และการค้นหาเพื่อนบ้านใกล้เคียง
- Meta RAG (งานวิจัยปี 2020): การปรากฏตัวครั้งแรกของคำว่า RAG
- HyDE (เอกสาร)
- Chunking (งานวิจัย)
- Rerankers (บล็อกของ Cohere)
- การประมวลผลข้อมูลหลายโมดัล (YouTube)
- MTEB: เบนช์มาร์กสำหรับประเมิน embeddings
- ข้อถกเถียงและข้อจำกัด (การอภิปรายที่เกี่ยวข้อง)
- ตัวอย่างโมเดล embedding:
- SentenceTransformers
- OpenAI, Nomic Embed, ModernBERT Embed
- Matryoshka Embeddings (บล็อก HuggingFace)
- GraphRAG: การผสาน RAG ของ Microsoft เข้ากับกราฟความรู้
- GraphRAG:
- ผสานกราฟความรู้เข้ากับเวิร์กโฟลว์ RAG เพื่อให้ได้ผลลัพธ์ที่ดีกว่าจากข้อมูลส่วนบุคคล
- โอเพนซอร์สแล้ว (บล็อก Microsoft)
- งานวิจัยที่เกี่ยวข้อง:
- ColBERT, ColPali, ColQwen
- GraphRAG:
- RAGAS: วิธีประเมิน RAG แบบเรียบง่ายที่ OpenAI แนะนำ
- Nvidia FACTS Framework (งานวิจัย)
- Extrinsic Hallucinations in LLMs (บทสำรวจของ Lilian Weng)
- Recall vs Precision ของ Jason Wei (ทวีต)
- แหล่งเรียนรู้และการใช้งาน RAG ในทางปฏิบัติ
ส่วนที่ 5: เอเจนต์
- SWE-Bench:
- เบนช์มาร์กตัวแทนสำหรับ การประเมินเอเจนต์ (เน้นงานโค้ด)
- ถูกนำไปใช้โดย Anthropic, Devin, OpenAI และอื่น ๆ จึงได้รับความสนใจสูง
- แหล่งข้อมูลที่เกี่ยวข้อง:
- เปรียบเทียบกับ: WebArena (GitHub), SWE-Gym (ทวีตที่เกี่ยวข้อง)
- ReAct:
- จุดเริ่มต้นของงานวิจัย LLM ด้าน การใช้เครื่องมือและการเรียกฟังก์ชัน
- งานวิจัยที่เกี่ยวข้อง:
- Gorilla (ลีดเดอร์บอร์ด)
- Toolformer (บทความ)
- HuggingGPT (บทความ)
- MemGPT:
- แนวทาง จำลองหน่วยความจำระยะยาว
- การใช้งานหลัก:
- ระบบที่เกี่ยวข้อง:
- Voyager:
- แนวทาง สถาปัตยกรรมการรับรู้ ของ Nvidia:
- ปรับปรุงประสิทธิภาพด้วย curriculum, skill library, sandbox
- การขยายแนวคิด:
- Agent Workflow Memory (บทความ)
- แนวทาง สถาปัตยกรรมการรับรู้ ของ Nvidia:
- Building Effective Agents ของ Anthropic:
- สื่อการเรียนรู้และคอร์สเพิ่มเติม
- การออกแบบเอเจนต์ล่าสุดของปี 2024: สรุป NeurIPS
- UC Berkeley MOOC: คอร์ส LLM Agents
- การถกเถียงเรื่องนิยามของเอเจนต์: หากจำเป็นให้ดู นิยามนี้
ส่วนที่ 6: การสร้างโค้ด (CodeGen)
- The Stack paper
- เริ่มต้นจากชุดข้อมูลเปิดที่เน้นโค้ด ซึ่งเป็นคู่ขนานของ The Pile
- งานต่อยอด:
- The Stack v2: ชุดข้อมูลที่ปรับปรุงแล้ว
- StarCoder: โมเดลสร้างโค้ดที่ปรับแต่งแล้ว
- บทความเกี่ยวกับโมเดลโค้ดแบบเปิด
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- หลายคนประเมินว่า Claude 3.5 Sonnet เป็นโมเดลโค้ดที่ดีที่สุด แต่ไม่มีบทความอย่างเป็นทางการ
- HumanEval/Codex
- เบนช์มาร์กสำคัญในโดเมนการเขียนโค้ด (ปัจจุบันค่อนข้างอิ่มตัวแล้ว)
- เบนช์มาร์กสมัยใหม่ที่ใช้แทน:
- SWE-Bench
- แม้จะเป็นที่รู้จักในด้านการประเมินแบบเน้นเอเจนต์ แต่มีต้นทุนสูง และเน้นประเมินเอเจนต์มากกว่าตัวโมเดล
- AlphaCodeium
- อิงจากประสิทธิภาพของ AlphaCode และ AlphaCode2 ของ Google
- ใช้ Flow Engineering เพื่อยกระดับประสิทธิภาพของโมเดลเดิมอย่างมาก
- CriticGPT
- มุ่งเน้นการตรวจจับปัญหาด้านความปลอดภัยที่เกิดขึ้นระหว่างการสร้างโค้ด
- CriticGPT ของ OpenAI ถูกฝึกให้ระบุปัญหาด้านความปลอดภัย
- Anthropic ใช้ SAEs (Safety-relevant Activation Ensembles) เพื่อวิเคราะห์ลักษณะของ LLM ที่ก่อให้เกิดปัญหา (งานวิจัย)
- มุ่งเน้นการตรวจจับปัญหาด้านความปลอดภัยที่เกิดขึ้นระหว่างการสร้างโค้ด
- ในอุตสาหกรรม การสร้างโค้ดกำลังย้ายจุดศูนย์กลางจากงานวิจัยไปสู่การใช้งานจริง:
ส่วนที่ 7: วิชัน
- งานวิจัยด้านวิชันที่ไม่อิง LLM
- YOLO:
- หมายเหตุ: ควรระวังเวอร์ชันที่หลากหลายของ YOLO และลำดับสายวิวัฒนาการของมัน (บทสนทนาที่เกี่ยวข้อง)
- CLIP:
- กรณีศึกษาความสำเร็จของโมเดลมัลติโหมดที่อิง ViT
- โมเดลล่าสุด:
- CLIP ยังคงเป็นความรู้พื้นฐานที่สำคัญ
- MMVP benchmark:
- ใช้ประเมินข้อจำกัดของ CLIP
- เวอร์ชันมัลติโหมด: MMMU, SWE-Bench Multimodal
- Segment Anything Model (SAM):
- โมเดลตัวแทนสำหรับการแบ่งส่วนภาพและวิดีโอ
- งานวิจัยต่อยอด: SAM 2 (พอดแคสต์ที่เกี่ยวข้อง)
- โมเดลเสริม: GroundingDINO
- Early Fusion vs Late Fusion:
- งานล่าสุดที่ยังไม่ได้ตีพิมพ์:
- GPT4V System Card และงานวิจัยต่อยอด (บทความ)
- OpenAI 4o:
- โมเดลล่าสุด:
ส่วนที่ 8: เสียง
- Whisper:
- โมเดล ASR ที่ประสบความสำเร็จของ OpenAI
- เวอร์ชันหลัก:
- Whisper v2 (บทสนทนาที่เกี่ยวข้อง)
- Whisper v3 (บทสนทนาที่เกี่ยวข้อง)
- Distil-Whisper (GitHub)
- Whisper v3 Turbo (บทวิเคราะห์)
- Whisper มีโมเดลน้ำหนักเปิดหลายรุ่นให้ใช้งาน แต่บางเวอร์ชันไม่มีบทความวิจัยรองรับ
- AudioPaLM:
- AudioPaLM ของ Google เป็นงานวิจัยก่อนการเปลี่ยนผ่านจาก PaLM ไปสู่ Gemini
- อ้างอิง: การสำรวจด้านเสียงของ Llama 3 โดย Meta (บทความ)
- NaturalSpeech:
- เป็นหนึ่งในงานวิจัย TTS หลัก
- ล่าสุดอัปเดตเป็น v3 (บทความ)
- Kyutai Moshi:
- OpenAI Realtime API: The Missing Manual:
- เอกสารไม่เป็นทางการสำหรับ API เสียงแบบเรียลไทม์ของ OpenAI
- เป็นเครื่องมือสำคัญสำหรับงานเอเจนต์และงานเรียลไทม์ล่าสุด
- แนะนำโซลูชันหลากหลายนอกเหนือจากแล็บขนาดใหญ่:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- อ้างอิง: State of Voice AI 2024
- โมเดลเสียงของ NotebookLM:
- แม้จะไม่ได้เปิดเผยตัวโมเดล แต่มี คำอธิบายเชิงลึกของกระบวนการสร้างโมเดล ให้ศึกษา
- Gemini 2.0: โมเดลมัลติโหมดที่ผสานเสียงและวิชันเข้าด้วยกันอย่างเป็นธรรมชาติ
- หลังปี 2025: การบรรจบกันของโมดาลิตีด้านเสียงและวิชันกำลังพัฒนาไปเป็นทิศทางที่ชัดเจน
ส่วนที่ 9: การแพร่กระจายสำหรับภาพ/วิดีโอ
- Latent Diffusion:
- งานวิจัยหลักของ Stable Diffusion
- เวอร์ชันต่อยอด:
- SD2 (ประกาศอย่างเป็นทางการ)
- SDXL และ SD3
- ปัจจุบันทีมกำลังพัฒนา BFL Flux
- ซีรีส์ OpenAI DALL-E:
- ซีรีส์ Google Imagen:
- Consistency Models:
- Sora:
- เครื่องมือแปลงข้อความเป็นวิดีโอของ OpenAI (ไม่มีงานวิจัยอย่างเป็นทางการ)
- ดูเพิ่มเติม:
- บทความ DiT (ผู้เขียนชุดเดียวกัน)
- OpenSora: โมเดลคู่แข่งที่ใช้น้ำหนักแบบเปิด
- สรุปของ Lilian Weng
- ComfyUI:
- ได้รับความสนใจในฐานะอินเทอร์เฟซผู้ใช้สำหรับโมเดลด้านวิชัน (บทสัมภาษณ์ที่เกี่ยวข้อง)
- สาขาเฉพาะทาง:
- Text Diffusion: โมเดล diffusion สำหรับข้อความ
- Music Diffusion: diffusion สำหรับการสร้างดนตรี
- Autoregressive Image Generation: การสร้างภาพแบบ autoregressive
- การแข่งขัน Open Weights:
- ทำความเข้าใจแนวโน้มล่าสุด:
- การใช้งานโมเดล Stable Diffusion และ DALL-E
- งานวิจัยว่าด้วยการหลอมรวมโมดาลิตีของข้อความและวิดีโอ
ส่วนที่ 10: การฟাইনจูนโมเดล (Finetuning)
- LoRA/QLoRA:
- มาตรฐานของการฟাইনจูนโมเดลต้นทุนต่ำ
- การใช้งานหลัก:
- รองรับทั้งในโมเดลท้องถิ่นและ 4o ของ OpenAI (ฟังพอดแคสต์)
- FSDP+QLoRA: เอกสารการสอน
- DPO:
- รองรับใน Preference Finetuning ของ OpenAI
- ได้รับความนิยมในฐานะทางเลือกของ PPO (บทความ) แต่ประสิทธิภาพค่อนข้างต่ำกว่า
- ReFT:
- มุ่งเน้นไปที่คุณลักษณะ (feature) ของโมเดล แทนการฟাইনจูนบางเลเยอร์แบบเดิม
- แนวทางการฟাইনจูนที่มีประสิทธิภาพ
- Orca 3/AgentInstruct:
- วิธีการที่เหมาะกับการสร้างข้อมูลสังเคราะห์
- งานวิจัยที่เกี่ยวข้อง:
- Synthetic Data Picks ของ NeurIPS
- การปรับจูนด้วย RL:
- RL Finetuning for o1 ของ OpenAI เป็นแหล่งข้อมูลสำคัญแม้จะมีข้อถกเถียง
- งานวิจัยที่เกี่ยวข้อง:
- Let’s Verify Step By Step
- การบรรยาย ของ Noam Brown
- สมุดโน้ต Unsloth:
- มีสมุดโน้ตแบบลงมือปฏิบัติให้ใน GitHub
- คู่มือ HuggingFace:
- How to fine-tune open LLMs: คู่มือเชิงลึกสำหรับกระบวนการฟাইনจูนทั้งหมด
ปิดท้ายรายการอ่านปี 2025 สำหรับวิศวกร AI
- รายการนี้อาจดูใหญ่และชวนให้รู้สึกหนักใจ แต่เลิกกลางทางก็ไม่เป็นไร สิ่งสำคัญคือการกลับมาเริ่มใหม่
- จะมีการอัปเดตอย่างต่อเนื่องตลอดปี 2025 เพื่อให้ข้อมูลทันสมัย
- คุณจะสร้างวิธีเรียนรู้ของตัวเองก็ได้ แต่ วิธีอ่านงานวิจัยให้จบใน 1 ชั่วโมง น่าจะช่วยได้
- ดูเคล็ดลับการอ่านและการเรียนรู้ได้ที่ที่นี่
- เรียนรู้ไปพร้อมกับชุมชน
- กลุ่ม Discord และ Telegram:
- กลุ่ม Discord ของ Krispin: https://app.discuna.com/invite/ai_engineer
- กลุ่ม Telegram ของ Fed of Flow AI ที่เคลื่อนไหวอยู่ใน NYC: AI NYC Telegram
- เข้าร่วมชุมชน Discord ของ Latent Space: ลิงก์เชิญ Discord
- แบ่งปันโน้ตและไฮไลต์:
- บล็อกที่ผู้อ่าน Niels เริ่มไว้: โน้ต 2025 AI Engineer Reading List
- กลุ่ม Discord และ Telegram:
3 ความคิดเห็น
พอมองแบบนี้แล้ว ก็ยังมีแหล่งข้อมูลที่ควรอ่านแบบลงลึกอีกมากจริง ๆ
ความเห็นจาก Hacker News
งานวิจัยส่วนใหญ่มุ่งเน้นไปที่การเก็บเกี่ยวความรู้มากกว่าความเข้าใจอย่างลึกซึ้ง หากยังไม่คุ้นเคยกับหัวข้อนี้ ควรเริ่มจากตำราเรียนมากกว่างานวิจัย โดย "Deep Learning: Foundations and Concepts (2024)" ของ Bishop ฉบับล่าสุด และ "AI Engineering (2024)" ของ Chip Huyen เป็นแหล่งข้อมูลที่ดี นอกจากนี้ยังแนะนำ "Dive into Deep Learning" และสื่อการสอนของ fast.ai
ไม่แน่ใจว่าอาชีพ "AI Engineer" คืออะไร แต่ก็สงสัยว่าการอ่านงานวิจัยจำเป็นจริงหรือไม่ หากไม่ได้ทำงานกับแนวหน้าสุดของ AI การอ่านงานวิจัยอาจไม่มีความหมายมากนัก การเข้าใจการตอบสนองของ LLM และการสร้างแอปที่เป็นมิตรต่อผู้ใช้นั้นสำคัญกว่า เมื่อใช้ API ของ OpenAI หรือ Groq การรู้ความแตกต่างระหว่าง "multi head attention" กับ "single head attention" ไม่ได้มีประโยชน์มากนัก
การจัดทำรายการแบบนี้เป็นงานที่ยาก เพราะนอกจากสิ่งที่เลือกมาแล้วก็ยังมีตัวเลือกที่เหมาะสมอีกมาก จึงควรมองสิ่งนี้เป็นหลักสูตร และเข้าใจว่างานวิจัยที่เกี่ยวข้องในปัจจุบันเป็นตัวชี้ที่เคลื่อนไหวได้ ไม่ใช่อ้างอิงที่ตายตัว มีการนำรายการอ่านบางส่วนไปใช้ในชมรมอ่านงานวิจัย
วิธีการปรับจูนตามคำสั่งของโมเดลโอเพนซอร์สส่วนใหญ่มาจาก Alpaca ดังนั้นควรรวมงานวิจัยเกี่ยวกับ Alpaca และการสร้างข้อมูลสังเคราะห์ไว้ด้วย
แทนที่จะเสียเวลาอ่านและทำความเข้าใจงานวิจัยด้าน AI และ LLM ควรไปอ่านเรื่อง ELIZA และลองสร้างมันขึ้นมาด้วยตัวเอง จะดีกว่าถ้าโฟกัสที่เทนเซอร์ เวกเตอร์ ฟิลด์ ภาษาศาสตร์ สถาปัตยกรรมคอมพิวเตอร์ และเครือข่าย
รายการอ่านนี้เป็นของเมื่อประมาณ 1 ปีก่อนแล้ว ในปี 2025 ควรโฟกัสที่เทคนิคอย่าง KTO, RLOO และ DPO ในปี 2025 ควรสนใจแค่การกลั่นโมเดลและการเพิ่มประสิทธิภาพเท่านั้น CoT ไม่ใช่เรื่องใหม่ และ CoT ที่ถูกปรับแก้ต่างหากที่เป็นแกนสำคัญ
น่าสนใจที่คำว่า "AI" ถูกพัฒนาการล่าสุดของ DL กลืนไปเกือบทั้งหมด แทบไม่มีการกล่าวถึง Russell & Norvig, Minsky, Shannon, Lenat เป็นต้น หากสนใจบทนำสู่หัวข้อ AI ในมุมที่กว้างขึ้น หลักสูตรบัณฑิตศึกษาส่วนใหญ่จะใช้หนังสือเล่มเดียวกัน
เป็นการรวบรวมที่ยอดเยี่ยม หากนำไปรวมกับคอร์สด้านล่างจะได้ผลลัพธ์ดีที่สุด
เป็นรายการที่ยอดเยี่ยม
การสร้าง Eliza ขึ้นมาด้วยตัวเองหมายความว่าอย่างไร?