- คัดเลือกงานวิจัย โมเดล และบล็อก 50 รายการสำหรับวิศวกร AI โดยแบ่งเป็น 10 สาขา
- ครอบคลุมสาขา LLMs, benchmark, prompting, RAG, agent, การสร้างโค้ด, วิสัยทัศน์คอมพิวเตอร์, เสียง, diffusion และ fine-tuning
ส่วนที่ 1: LLMs แนวหน้าสุด
- โมเดล OpenAI
- โมเดล Anthropic และ Google
- ตระกูล LLaMA ที่เกี่ยวข้องกับ Meta
- โมเดล DeepSeek
- Apple Intelligence
- Apple Intelligence (งานวิจัย) - โมเดลที่รวมอยู่ใน Mac และ iPhone ทุกเครื่อง
- โมเดลและงานวิจัยเพิ่มเติมที่น่าสนใจ
- โมเดล LLM
- ตระกูล AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- อื่น ๆ: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- งานวิจัย Scaling Laws
- โมเดลล้ำสมัยที่สุด:
- งานวิจัยด้านโมเดล reasoning:
ส่วนที่ 2: เบนช์มาร์กและการประเมินผล
- MMLU
- MMLU (บทความ): มาตรฐานของเบนช์มาร์กความรู้แบบหลายสาขา
- งานวิจัยล้ำสมัยในปี 2025 ใช้ MMLU Pro (บทความ), GPQA Diamond (บทความ), BIG-Bench Hard (บทความ)
- GPQA (บทความ): เน้นการสร้างคำถามและการประเมินคำตอบที่ถูกต้อง
- BIG-Bench (บทความ): เบนช์มาร์กขนาดใหญ่ที่ครอบคลุมปัญหาหลากหลายด้าน
- MuSR (บทความ): การประเมินภายในบริบทยาว
- งานวิจัยที่เกี่ยวข้อง: LongBench (บทความ), BABILong (บทความ), RULER (แนะนำ)
- ประเด็นปัญหา: Lost in the Middle (บทความ), Needle in a Haystack (GitHub)
- MATH (บทความ): ชุดรวมโจทย์คณิตศาสตร์แข่งขัน
- งานวิจัยล้ำสมัยมุ่งเน้นที่ FrontierMath (บทความ) และโจทย์ระดับยากสูง
- ชุดย่อย: MATH Level 5, AIME, AMC10/AMC12
- IFEval (บทความ): เบนช์มาร์กหลักสำหรับประเมินการทำตามคำสั่ง
- Apple นำไปใช้อย่างเป็นทางการ (ลิงก์)
- เบนช์มาร์กที่เกี่ยวข้อง: MT-Bench (บทความ)
- ARC AGI (หน้าทางการ): เบนช์มาร์กการให้เหตุผลเชิงนามธรรมและ “การทดสอบ IQ”
- ยังคงมีความท้าทายในระยะยาว ต่างจากเบนช์มาร์กอื่นที่อิ่มตัวอย่างรวดเร็ว
- แหล่งข้อมูลเพิ่มเติม
ส่วนที่ 3: Prompting, ICL และ Chain-of-Thought
ส่วนที่ 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: หนังสืออ้างอิงคลาสสิกที่ครอบคลุมพื้นฐานของการสืบค้นสารสนเทศ
- RAG เป็นปัญหาด้านการสืบค้นสารสนเทศ (IR) และเกี่ยวข้องอย่างใกล้ชิดกับสาขาที่มีประวัติยาวนานกว่า 60 ปี
- เทคโนโลยีหลัก:
- TF-IDF, BM25: การค้นหาแบบอิงข้อความ
- FAISS, HNSW: การค้นหาเวกเตอร์และการค้นหาเพื่อนบ้านใกล้เคียง
- Meta RAG (งานวิจัยปี 2020): การปรากฏตัวครั้งแรกของคำว่า RAG
- MTEB: เบนช์มาร์กสำหรับประเมิน embeddings
- GraphRAG: การผสาน RAG ของ Microsoft เข้ากับกราฟความรู้
- GraphRAG:
- ผสานกราฟความรู้เข้ากับเวิร์กโฟลว์ RAG เพื่อให้ได้ผลลัพธ์ที่ดีกว่าจากข้อมูลส่วนบุคคล
- โอเพนซอร์สแล้ว (บล็อก Microsoft)
- งานวิจัยที่เกี่ยวข้อง:
- RAGAS: วิธีประเมิน RAG แบบเรียบง่ายที่ OpenAI แนะนำ
- แหล่งเรียนรู้และการใช้งาน RAG ในทางปฏิบัติ
ส่วนที่ 5: เอเจนต์
- SWE-Bench:
- เบนช์มาร์กตัวแทนสำหรับ การประเมินเอเจนต์ (เน้นงานโค้ด)
- ถูกนำไปใช้โดย Anthropic, Devin, OpenAI และอื่น ๆ จึงได้รับความสนใจสูง
- แหล่งข้อมูลที่เกี่ยวข้อง:
- เปรียบเทียบกับ: WebArena (GitHub), SWE-Gym (ทวีตที่เกี่ยวข้อง)
- ReAct:
- จุดเริ่มต้นของงานวิจัย LLM ด้าน การใช้เครื่องมือและการเรียกฟังก์ชัน
- งานวิจัยที่เกี่ยวข้อง:
- MemGPT:
- แนวทาง จำลองหน่วยความจำระยะยาว
- การใช้งานหลัก:
- ระบบที่เกี่ยวข้อง:
- Voyager:
- แนวทาง สถาปัตยกรรมการรับรู้ ของ Nvidia:
- ปรับปรุงประสิทธิภาพด้วย curriculum, skill library, sandbox
- การขยายแนวคิด:
- Agent Workflow Memory (บทความ)
- Building Effective Agents ของ Anthropic:
- สรุปแก่นสำคัญของการออกแบบเอเจนต์ในปี 2024
- หัวข้อหลัก:
- chaining, routing, parallelization, orchestration, evaluation, optimization
- แหล่งข้อมูลที่เกี่ยวข้อง:
- งานวิจัยเอเจนต์ของ Lilian Weng ดูที่นี่
- งานวิจัย LLM agent ของ Shunyu Yao ดูที่นี่
- ภาพรวมเอเจนต์ปี 2025 ของ Chip Huyen ดูที่นี่
- สื่อการเรียนรู้และคอร์สเพิ่มเติม
ส่วนที่ 6: การสร้างโค้ด (CodeGen)
- The Stack paper
- เริ่มต้นจากชุดข้อมูลเปิดที่เน้นโค้ด ซึ่งเป็นคู่ขนานของ The Pile
- งานต่อยอด:
- บทความเกี่ยวกับโมเดลโค้ดแบบเปิด
- HumanEval/Codex
- เบนช์มาร์กสำคัญในโดเมนการเขียนโค้ด (ปัจจุบันค่อนข้างอิ่มตัวแล้ว)
- เบนช์มาร์กสมัยใหม่ที่ใช้แทน:
- SWE-Bench
- แม้จะเป็นที่รู้จักในด้านการประเมินแบบเน้นเอเจนต์ แต่มีต้นทุนสูง และเน้นประเมินเอเจนต์มากกว่าตัวโมเดล
- AlphaCodeium
- อิงจากประสิทธิภาพของ AlphaCode และ AlphaCode2 ของ Google
- ใช้ Flow Engineering เพื่อยกระดับประสิทธิภาพของโมเดลเดิมอย่างมาก
- CriticGPT
- มุ่งเน้นการตรวจจับปัญหาด้านความปลอดภัยที่เกิดขึ้นระหว่างการสร้างโค้ด
- CriticGPT ของ OpenAI ถูกฝึกให้ระบุปัญหาด้านความปลอดภัย
- Anthropic ใช้ SAEs (Safety-relevant Activation Ensembles) เพื่อวิเคราะห์ลักษณะของ LLM ที่ก่อให้เกิดปัญหา (งานวิจัย)
- ในอุตสาหกรรม การสร้างโค้ดกำลังย้ายจุดศูนย์กลางจากงานวิจัยไปสู่การใช้งานจริง:
- การใช้งาน code agent อย่าง Devin (วิดีโอ)
- คำแนะนำเชิงปฏิบัติเกี่ยวกับการสร้างโค้ด (YouTube)
ส่วนที่ 7: วิชัน
- งานวิจัยด้านวิชันที่ไม่อิง LLM
- YOLO:
- มีชื่อเสียงในฐานะโมเดลตรวจจับวัตถุแบบเรียลไทม์
- ปัจจุบันพัฒนาไปถึง v11 แล้ว (GitHub)
- งานวิจัยล่าสุด: โมเดลทรานส์ฟอร์เมอร์ที่อิง DETR แสดงผลลัพธ์ที่เหนือกว่า YOLO
- หมายเหตุ: ควรระวังเวอร์ชันที่หลากหลายของ YOLO และลำดับสายวิวัฒนาการของมัน (บทสนทนาที่เกี่ยวข้อง)
- CLIP:
- กรณีศึกษาความสำเร็จของโมเดลมัลติโหมดที่อิง ViT
- โมเดลล่าสุด:
- CLIP ยังคงเป็นความรู้พื้นฐานที่สำคัญ
- MMVP benchmark:
- Segment Anything Model (SAM):
- Early Fusion vs Late Fusion:
- งานล่าสุดที่ยังไม่ได้ตีพิมพ์:
- GPT4V System Card และงานวิจัยต่อยอด (บทความ)
- OpenAI 4o:
- โมเดลล่าสุด:
- Claude 3.5 Sonnet/Haiku
- Gemini 2.0 Flash
- o1
- โมเดลอื่น ๆ:
ส่วนที่ 8: เสียง
- Whisper:
- โมเดล ASR ที่ประสบความสำเร็จของ OpenAI
- เวอร์ชันหลัก:
- Whisper มีโมเดลน้ำหนักเปิดหลายรุ่นให้ใช้งาน แต่บางเวอร์ชันไม่มีบทความวิจัยรองรับ
- AudioPaLM:
- AudioPaLM ของ Google เป็นงานวิจัยก่อนการเปลี่ยนผ่านจาก PaLM ไปสู่ Gemini
- อ้างอิง: การสำรวจด้านเสียงของ Llama 3 โดย Meta (บทความ)
- NaturalSpeech:
- เป็นหนึ่งในงานวิจัย TTS หลัก
- ล่าสุดอัปเดตเป็น v3 (บทความ)
- Kyutai Moshi:
- โมเดลน้ำหนักเปิดแบบ เสียง-ข้อความฟูลดูเพล็กซ์
- เดโมคุณภาพสูง (YouTube)
- โมเดลอ้างอิง: Hume OCTAVE (บล็อก)
- OpenAI Realtime API: The Missing Manual:
- เอกสารไม่เป็นทางการสำหรับ API เสียงแบบเรียลไทม์ของ OpenAI
- เป็นเครื่องมือสำคัญสำหรับงานเอเจนต์และงานเรียลไทม์ล่าสุด
- แนะนำโซลูชันหลากหลายนอกเหนือจากแล็บขนาดใหญ่:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- อ้างอิง: State of Voice AI 2024
- โมเดลเสียงของ NotebookLM:
- Gemini 2.0: โมเดลมัลติโหมดที่ผสานเสียงและวิชันเข้าด้วยกันอย่างเป็นธรรมชาติ
- หลังปี 2025: การบรรจบกันของโมดาลิตีด้านเสียงและวิชันกำลังพัฒนาไปเป็นทิศทางที่ชัดเจน
ส่วนที่ 9: การแพร่กระจายสำหรับภาพ/วิดีโอ
- Latent Diffusion:
- งานวิจัยหลักของ Stable Diffusion
- เวอร์ชันต่อยอด:
- ปัจจุบันทีมกำลังพัฒนา BFL Flux
- ซีรีส์ OpenAI DALL-E:
- ซีรีส์ Google Imagen:
- Consistency Models:
- งานกลั่นความรู้ของโมเดล diffusion
- ส่วนขยาย:
- Sora:
- เครื่องมือแปลงข้อความเป็นวิดีโอของ OpenAI (ไม่มีงานวิจัยอย่างเป็นทางการ)
- ดูเพิ่มเติม:
- ComfyUI:
- สาขาเฉพาะทาง:
- การแข่งขัน Open Weights:
- ทำความเข้าใจแนวโน้มล่าสุด:
- การใช้งานโมเดล Stable Diffusion และ DALL-E
- งานวิจัยว่าด้วยการหลอมรวมโมดาลิตีของข้อความและวิดีโอ
ส่วนที่ 10: การฟাইনจูนโมเดล (Finetuning)
- LoRA/QLoRA:
- มาตรฐานของการฟাইনจูนโมเดลต้นทุนต่ำ
- การใช้งานหลัก:
- DPO:
- ReFT:
- มุ่งเน้นไปที่คุณลักษณะ (feature) ของโมเดล แทนการฟাইনจูนบางเลเยอร์แบบเดิม
- แนวทางการฟাইনจูนที่มีประสิทธิภาพ
- Orca 3/AgentInstruct:
- วิธีการที่เหมาะกับการสร้างข้อมูลสังเคราะห์
- งานวิจัยที่เกี่ยวข้อง:
- การปรับจูนด้วย RL:
- สมุดโน้ต Unsloth:
- มีสมุดโน้ตแบบลงมือปฏิบัติให้ใน GitHub
- คู่มือ HuggingFace:
ปิดท้ายรายการอ่านปี 2025 สำหรับวิศวกร AI
- รายการนี้อาจดูใหญ่และชวนให้รู้สึกหนักใจ แต่เลิกกลางทางก็ไม่เป็นไร สิ่งสำคัญคือการกลับมาเริ่มใหม่
- จะมีการอัปเดตอย่างต่อเนื่องตลอดปี 2025 เพื่อให้ข้อมูลทันสมัย
- คุณจะสร้างวิธีเรียนรู้ของตัวเองก็ได้ แต่ วิธีอ่านงานวิจัยให้จบใน 1 ชั่วโมง น่าจะช่วยได้
- ดูเคล็ดลับการอ่านและการเรียนรู้ได้ที่ที่นี่
- เรียนรู้ไปพร้อมกับชุมชน
- กลุ่ม Discord และ Telegram:
- แบ่งปันโน้ตและไฮไลต์:
3 ความคิดเห็น
พอมองแบบนี้แล้ว ก็ยังมีแหล่งข้อมูลที่ควรอ่านแบบลงลึกอีกมากจริง ๆ
ความเห็นจาก Hacker News
งานวิจัยส่วนใหญ่มุ่งเน้นไปที่การเก็บเกี่ยวความรู้มากกว่าความเข้าใจอย่างลึกซึ้ง หากยังไม่คุ้นเคยกับหัวข้อนี้ ควรเริ่มจากตำราเรียนมากกว่างานวิจัย โดย "Deep Learning: Foundations and Concepts (2024)" ของ Bishop ฉบับล่าสุด และ "AI Engineering (2024)" ของ Chip Huyen เป็นแหล่งข้อมูลที่ดี นอกจากนี้ยังแนะนำ "Dive into Deep Learning" และสื่อการสอนของ fast.ai
ไม่แน่ใจว่าอาชีพ "AI Engineer" คืออะไร แต่ก็สงสัยว่าการอ่านงานวิจัยจำเป็นจริงหรือไม่ หากไม่ได้ทำงานกับแนวหน้าสุดของ AI การอ่านงานวิจัยอาจไม่มีความหมายมากนัก การเข้าใจการตอบสนองของ LLM และการสร้างแอปที่เป็นมิตรต่อผู้ใช้นั้นสำคัญกว่า เมื่อใช้ API ของ OpenAI หรือ Groq การรู้ความแตกต่างระหว่าง "multi head attention" กับ "single head attention" ไม่ได้มีประโยชน์มากนัก
การจัดทำรายการแบบนี้เป็นงานที่ยาก เพราะนอกจากสิ่งที่เลือกมาแล้วก็ยังมีตัวเลือกที่เหมาะสมอีกมาก จึงควรมองสิ่งนี้เป็นหลักสูตร และเข้าใจว่างานวิจัยที่เกี่ยวข้องในปัจจุบันเป็นตัวชี้ที่เคลื่อนไหวได้ ไม่ใช่อ้างอิงที่ตายตัว มีการนำรายการอ่านบางส่วนไปใช้ในชมรมอ่านงานวิจัย
วิธีการปรับจูนตามคำสั่งของโมเดลโอเพนซอร์สส่วนใหญ่มาจาก Alpaca ดังนั้นควรรวมงานวิจัยเกี่ยวกับ Alpaca และการสร้างข้อมูลสังเคราะห์ไว้ด้วย
แทนที่จะเสียเวลาอ่านและทำความเข้าใจงานวิจัยด้าน AI และ LLM ควรไปอ่านเรื่อง ELIZA และลองสร้างมันขึ้นมาด้วยตัวเอง จะดีกว่าถ้าโฟกัสที่เทนเซอร์ เวกเตอร์ ฟิลด์ ภาษาศาสตร์ สถาปัตยกรรมคอมพิวเตอร์ และเครือข่าย
รายการอ่านนี้เป็นของเมื่อประมาณ 1 ปีก่อนแล้ว ในปี 2025 ควรโฟกัสที่เทคนิคอย่าง KTO, RLOO และ DPO ในปี 2025 ควรสนใจแค่การกลั่นโมเดลและการเพิ่มประสิทธิภาพเท่านั้น CoT ไม่ใช่เรื่องใหม่ และ CoT ที่ถูกปรับแก้ต่างหากที่เป็นแกนสำคัญ
น่าสนใจที่คำว่า "AI" ถูกพัฒนาการล่าสุดของ DL กลืนไปเกือบทั้งหมด แทบไม่มีการกล่าวถึง Russell & Norvig, Minsky, Shannon, Lenat เป็นต้น หากสนใจบทนำสู่หัวข้อ AI ในมุมที่กว้างขึ้น หลักสูตรบัณฑิตศึกษาส่วนใหญ่จะใช้หนังสือเล่มเดียวกัน
เป็นการรวบรวมที่ยอดเยี่ยม หากนำไปรวมกับคอร์สด้านล่างจะได้ผลลัพธ์ดีที่สุด
เป็นรายการที่ยอดเยี่ยม
การสร้าง Eliza ขึ้นมาด้วยตัวเองหมายความว่าอย่างไร?