45 คะแนน โดย GN⁺ 2025-01-14 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • คัดเลือกงานวิจัย โมเดล และบล็อก 50 รายการสำหรับวิศวกร AI โดยแบ่งเป็น 10 สาขา
  • ครอบคลุมสาขา LLMs, benchmark, prompting, RAG, agent, การสร้างโค้ด, วิสัยทัศน์คอมพิวเตอร์, เสียง, diffusion และ fine-tuning

ส่วนที่ 1: LLMs แนวหน้าสุด

ส่วนที่ 2: เบนช์มาร์กและการประเมินผล

  • MMLU
    • MMLU (บทความ): มาตรฐานของเบนช์มาร์กความรู้แบบหลายสาขา
    • GPQA (บทความ): เน้นการสร้างคำถามและการประเมินคำตอบที่ถูกต้อง
    • BIG-Bench (บทความ): เบนช์มาร์กขนาดใหญ่ที่ครอบคลุมปัญหาหลากหลายด้าน
  • MuSR (บทความ): การประเมินภายในบริบทยาว
  • MATH (บทความ): ชุดรวมโจทย์คณิตศาสตร์แข่งขัน
    • งานวิจัยล้ำสมัยมุ่งเน้นที่ FrontierMath (บทความ) และโจทย์ระดับยากสูง
    • ชุดย่อย: MATH Level 5, AIME, AMC10/AMC12
  • IFEval (บทความ): เบนช์มาร์กหลักสำหรับประเมินการทำตามคำสั่ง
    • Apple นำไปใช้อย่างเป็นทางการ (ลิงก์)
    • เบนช์มาร์กที่เกี่ยวข้อง: MT-Bench (บทความ)
  • ARC AGI (หน้าทางการ): เบนช์มาร์กการให้เหตุผลเชิงนามธรรมและ “การทดสอบ IQ”
    • ยังคงมีความท้าทายในระยะยาว ต่างจากเบนช์มาร์กอื่นที่อิ่มตัวอย่างรวดเร็ว
  • แหล่งข้อมูลเพิ่มเติม
    • Latent Space: Benchmarks 101, Benchmarks 201
    • Carlini, LMArena, Braintrust: การวิเคราะห์เชิงลึกเกี่ยวกับเบนช์มาร์ก
    • แหล่งข้อมูลเกี่ยวกับ LLM: LLM-as-Judge, Applied LLMs
    • ทรัพยากรชุดข้อมูล: Datasets

ส่วนที่ 3: Prompting, ICL และ Chain-of-Thought

ส่วนที่ 4: RAG (Retrieval-Augmented Generation)

  • Introduction to Information Retrieval: หนังสืออ้างอิงคลาสสิกที่ครอบคลุมพื้นฐานของการสืบค้นสารสนเทศ
    • RAG เป็นปัญหาด้านการสืบค้นสารสนเทศ (IR) และเกี่ยวข้องอย่างใกล้ชิดกับสาขาที่มีประวัติยาวนานกว่า 60 ปี
    • เทคโนโลยีหลัก:
      • TF-IDF, BM25: การค้นหาแบบอิงข้อความ
      • FAISS, HNSW: การค้นหาเวกเตอร์และการค้นหาเพื่อนบ้านใกล้เคียง
  • Meta RAG (งานวิจัยปี 2020): การปรากฏตัวครั้งแรกของคำว่า RAG
  • MTEB: เบนช์มาร์กสำหรับประเมิน embeddings
  • GraphRAG: การผสาน RAG ของ Microsoft เข้ากับกราฟความรู้
    • GraphRAG:
      • ผสานกราฟความรู้เข้ากับเวิร์กโฟลว์ RAG เพื่อให้ได้ผลลัพธ์ที่ดีกว่าจากข้อมูลส่วนบุคคล
      • โอเพนซอร์สแล้ว (บล็อก Microsoft)
    • งานวิจัยที่เกี่ยวข้อง:
  • RAGAS: วิธีประเมิน RAG แบบเรียบง่ายที่ OpenAI แนะนำ
  • แหล่งเรียนรู้และการใช้งาน RAG ในทางปฏิบัติ

ส่วนที่ 5: เอเจนต์

ส่วนที่ 6: การสร้างโค้ด (CodeGen)

  • The Stack paper
    • เริ่มต้นจากชุดข้อมูลเปิดที่เน้นโค้ด ซึ่งเป็นคู่ขนานของ The Pile
    • งานต่อยอด:
      • The Stack v2: ชุดข้อมูลที่ปรับปรุงแล้ว
      • StarCoder: โมเดลสร้างโค้ดที่ปรับแต่งแล้ว
  • บทความเกี่ยวกับโมเดลโค้ดแบบเปิด
    • DeepSeek-Coder
    • Qwen2.5-Coder
    • CodeLlama
    • หลายคนประเมินว่า Claude 3.5 Sonnet เป็นโมเดลโค้ดที่ดีที่สุด แต่ไม่มีบทความอย่างเป็นทางการ
  • HumanEval/Codex
    • เบนช์มาร์กสำคัญในโดเมนการเขียนโค้ด (ปัจจุบันค่อนข้างอิ่มตัวแล้ว)
    • เบนช์มาร์กสมัยใหม่ที่ใช้แทน:
    • SWE-Bench
      • แม้จะเป็นที่รู้จักในด้านการประเมินแบบเน้นเอเจนต์ แต่มีต้นทุนสูง และเน้นประเมินเอเจนต์มากกว่าตัวโมเดล
  • AlphaCodeium
    • อิงจากประสิทธิภาพของ AlphaCode และ AlphaCode2 ของ Google
    • ใช้ Flow Engineering เพื่อยกระดับประสิทธิภาพของโมเดลเดิมอย่างมาก
  • CriticGPT
    • มุ่งเน้นการตรวจจับปัญหาด้านความปลอดภัยที่เกิดขึ้นระหว่างการสร้างโค้ด
      • CriticGPT ของ OpenAI ถูกฝึกให้ระบุปัญหาด้านความปลอดภัย
      • Anthropic ใช้ SAEs (Safety-relevant Activation Ensembles) เพื่อวิเคราะห์ลักษณะของ LLM ที่ก่อให้เกิดปัญหา (งานวิจัย)
  • ในอุตสาหกรรม การสร้างโค้ดกำลังย้ายจุดศูนย์กลางจากงานวิจัยไปสู่การใช้งานจริง:
    • การใช้งาน code agent อย่าง Devin (วิดีโอ)
    • คำแนะนำเชิงปฏิบัติเกี่ยวกับการสร้างโค้ด (YouTube)

ส่วนที่ 7: วิชัน

ส่วนที่ 8: เสียง

  • Whisper:
  • AudioPaLM:
    • AudioPaLM ของ Google เป็นงานวิจัยก่อนการเปลี่ยนผ่านจาก PaLM ไปสู่ Gemini
    • อ้างอิง: การสำรวจด้านเสียงของ Llama 3 โดย Meta (บทความ)
  • NaturalSpeech:
    • เป็นหนึ่งในงานวิจัย TTS หลัก
    • ล่าสุดอัปเดตเป็น v3 (บทความ)
  • Kyutai Moshi:
    • โมเดลน้ำหนักเปิดแบบ เสียง-ข้อความฟูลดูเพล็กซ์
    • เดโมคุณภาพสูง (YouTube)
    • โมเดลอ้างอิง: Hume OCTAVE (บล็อก)
  • OpenAI Realtime API: The Missing Manual:
    • เอกสารไม่เป็นทางการสำหรับ API เสียงแบบเรียลไทม์ของ OpenAI
    • เป็นเครื่องมือสำคัญสำหรับงานเอเจนต์และงานเรียลไทม์ล่าสุด
  • แนะนำโซลูชันหลากหลายนอกเหนือจากแล็บขนาดใหญ่:
  • Gemini 2.0: โมเดลมัลติโหมดที่ผสานเสียงและวิชันเข้าด้วยกันอย่างเป็นธรรมชาติ
    • หลังปี 2025: การบรรจบกันของโมดาลิตีด้านเสียงและวิชันกำลังพัฒนาไปเป็นทิศทางที่ชัดเจน

ส่วนที่ 9: การแพร่กระจายสำหรับภาพ/วิดีโอ

  • Latent Diffusion:
  • ซีรีส์ OpenAI DALL-E:
  • ซีรีส์ Google Imagen:
  • Consistency Models:
    • งานกลั่นความรู้ของโมเดล diffusion
    • ส่วนขยาย:
      • LCMs
      • อัปเดตล่าสุด: sCMs
  • Sora:
    • เครื่องมือแปลงข้อความเป็นวิดีโอของ OpenAI (ไม่มีงานวิจัยอย่างเป็นทางการ)
    • ดูเพิ่มเติม:
  • ComfyUI:
  • สาขาเฉพาะทาง:
  • การแข่งขัน Open Weights:
  • ทำความเข้าใจแนวโน้มล่าสุด:
    • การใช้งานโมเดล Stable Diffusion และ DALL-E
    • งานวิจัยว่าด้วยการหลอมรวมโมดาลิตีของข้อความและวิดีโอ

ส่วนที่ 10: การฟাইনจูนโมเดล (Finetuning)

  • LoRA/QLoRA:
  • DPO:
    • รองรับใน Preference Finetuning ของ OpenAI
    • ได้รับความนิยมในฐานะทางเลือกของ PPO (บทความ) แต่ประสิทธิภาพค่อนข้างต่ำกว่า
  • ReFT:
    • มุ่งเน้นไปที่คุณลักษณะ (feature) ของโมเดล แทนการฟাইনจูนบางเลเยอร์แบบเดิม
    • แนวทางการฟাইনจูนที่มีประสิทธิภาพ
  • Orca 3/AgentInstruct:
    • วิธีการที่เหมาะกับการสร้างข้อมูลสังเคราะห์
    • งานวิจัยที่เกี่ยวข้อง:
  • การปรับจูนด้วย RL:
  • สมุดโน้ต Unsloth:
    • มีสมุดโน้ตแบบลงมือปฏิบัติให้ใน GitHub
  • คู่มือ HuggingFace:
    • How to fine-tune open LLMs: คู่มือเชิงลึกสำหรับกระบวนการฟাইনจูนทั้งหมด

ปิดท้ายรายการอ่านปี 2025 สำหรับวิศวกร AI

  • รายการนี้อาจดูใหญ่และชวนให้รู้สึกหนักใจ แต่เลิกกลางทางก็ไม่เป็นไร สิ่งสำคัญคือการกลับมาเริ่มใหม่
  • จะมีการอัปเดตอย่างต่อเนื่องตลอดปี 2025 เพื่อให้ข้อมูลทันสมัย
  • คุณจะสร้างวิธีเรียนรู้ของตัวเองก็ได้ แต่ วิธีอ่านงานวิจัยให้จบใน 1 ชั่วโมง น่าจะช่วยได้
  • ดูเคล็ดลับการอ่านและการเรียนรู้ได้ที่ที่นี่
  • เรียนรู้ไปพร้อมกับชุมชน

3 ความคิดเห็น

 
kipsong133 2025-01-16

พอมองแบบนี้แล้ว ก็ยังมีแหล่งข้อมูลที่ควรอ่านแบบลงลึกอีกมากจริง ๆ

 
GN⁺ 2025-01-14
ความเห็นจาก Hacker News
  • งานวิจัยส่วนใหญ่มุ่งเน้นไปที่การเก็บเกี่ยวความรู้มากกว่าความเข้าใจอย่างลึกซึ้ง หากยังไม่คุ้นเคยกับหัวข้อนี้ ควรเริ่มจากตำราเรียนมากกว่างานวิจัย โดย "Deep Learning: Foundations and Concepts (2024)" ของ Bishop ฉบับล่าสุด และ "AI Engineering (2024)" ของ Chip Huyen เป็นแหล่งข้อมูลที่ดี นอกจากนี้ยังแนะนำ "Dive into Deep Learning" และสื่อการสอนของ fast.ai

  • ไม่แน่ใจว่าอาชีพ "AI Engineer" คืออะไร แต่ก็สงสัยว่าการอ่านงานวิจัยจำเป็นจริงหรือไม่ หากไม่ได้ทำงานกับแนวหน้าสุดของ AI การอ่านงานวิจัยอาจไม่มีความหมายมากนัก การเข้าใจการตอบสนองของ LLM และการสร้างแอปที่เป็นมิตรต่อผู้ใช้นั้นสำคัญกว่า เมื่อใช้ API ของ OpenAI หรือ Groq การรู้ความแตกต่างระหว่าง "multi head attention" กับ "single head attention" ไม่ได้มีประโยชน์มากนัก

  • การจัดทำรายการแบบนี้เป็นงานที่ยาก เพราะนอกจากสิ่งที่เลือกมาแล้วก็ยังมีตัวเลือกที่เหมาะสมอีกมาก จึงควรมองสิ่งนี้เป็นหลักสูตร และเข้าใจว่างานวิจัยที่เกี่ยวข้องในปัจจุบันเป็นตัวชี้ที่เคลื่อนไหวได้ ไม่ใช่อ้างอิงที่ตายตัว มีการนำรายการอ่านบางส่วนไปใช้ในชมรมอ่านงานวิจัย

  • วิธีการปรับจูนตามคำสั่งของโมเดลโอเพนซอร์สส่วนใหญ่มาจาก Alpaca ดังนั้นควรรวมงานวิจัยเกี่ยวกับ Alpaca และการสร้างข้อมูลสังเคราะห์ไว้ด้วย

  • แทนที่จะเสียเวลาอ่านและทำความเข้าใจงานวิจัยด้าน AI และ LLM ควรไปอ่านเรื่อง ELIZA และลองสร้างมันขึ้นมาด้วยตัวเอง จะดีกว่าถ้าโฟกัสที่เทนเซอร์ เวกเตอร์ ฟิลด์ ภาษาศาสตร์ สถาปัตยกรรมคอมพิวเตอร์ และเครือข่าย

  • รายการอ่านนี้เป็นของเมื่อประมาณ 1 ปีก่อนแล้ว ในปี 2025 ควรโฟกัสที่เทคนิคอย่าง KTO, RLOO และ DPO ในปี 2025 ควรสนใจแค่การกลั่นโมเดลและการเพิ่มประสิทธิภาพเท่านั้น CoT ไม่ใช่เรื่องใหม่ และ CoT ที่ถูกปรับแก้ต่างหากที่เป็นแกนสำคัญ

  • น่าสนใจที่คำว่า "AI" ถูกพัฒนาการล่าสุดของ DL กลืนไปเกือบทั้งหมด แทบไม่มีการกล่าวถึง Russell & Norvig, Minsky, Shannon, Lenat เป็นต้น หากสนใจบทนำสู่หัวข้อ AI ในมุมที่กว้างขึ้น หลักสูตรบัณฑิตศึกษาส่วนใหญ่จะใช้หนังสือเล่มเดียวกัน

  • เป็นการรวบรวมที่ยอดเยี่ยม หากนำไปรวมกับคอร์สด้านล่างจะได้ผลลัพธ์ดีที่สุด

  • เป็นรายการที่ยอดเยี่ยม

 
francomoon7 2025-01-16

การสร้าง Eliza ขึ้นมาด้วยตัวเองหมายความว่าอย่างไร?