15 คะแนน โดย GN⁺ 2026-02-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ในยุคของโมเดลขนาดใหญ่ คุณภาพของข้อมูลเป็นตัวกำหนดเพดานประสิทธิภาพของโมเดล
  • คู่มือโอเพนซอร์ส ที่ให้ความรู้ด้าน วิศวกรรมข้อมูลอย่างเป็นระบบ เพื่อสิ่งนี้
  • ครอบคลุมทั้งกระบวนการตั้งแต่ การทำความสะอาดข้อมูลพรีเทรน, การจัดแนวมัลติโมดัล, RAG data pipeline, การสร้างข้อมูลสังเคราะห์ เป็นต้น
  • ประกอบด้วย 5 พาร์ต 13 บท และยังมี โปรเจ็กต์แคปสโตนเชิงปฏิบัติ 5 รายการ พร้อมโค้ดที่รันได้และการออกแบบสถาปัตยกรรมเพื่อสนับสนุนการเรียนรู้เชิงปฏิบัติ
  • ใช้ เทคโนโลยีสแต็กสมัยใหม่ เช่น Ray, Spark, CLIP, DVC เพื่อประมวลผลข้อมูลข้อความ·ภาพ·วิดีโอ
  • สามารถใช้เป็น เอกสารอ้างอิงเชิงปฏิบัติสำหรับผู้สร้าง AI data pipeline เช่น นักวิจัย LLM, วิศวกรข้อมูล, ผู้เชี่ยวชาญ MLOps

แนะนำ

  • ในยุคของโมเดลขนาดใหญ่ คุณภาพของข้อมูลเป็นตัวกำหนดขีดจำกัดของประสิทธิภาพโมเดล
    • จัดทำขึ้นเพื่อเติมเต็มข้อเท็จจริงที่ว่ายังขาดแคลนเอกสารเชิงระบบเกี่ยวกับวิศวกรรมข้อมูลสำหรับ LLM
  • หนังสือเล่มนี้ครอบคลุมทั้งเทคโนโลยีสแต็ก ตั้งแต่ การทำความสะอาดข้อมูลพรีเทรนไปจนถึงการจัดแนวมัลติโมดัล, RAG และการสร้างข้อมูลสังเคราะห์
    • การดึงคอร์ปัสคุณภาพสูงจากข้อมูลขนาดใหญ่ที่มีสัญญาณรบกวน เช่น Common Crawl
    • การเก็บรวบรวม·ทำความสะอาด·จัดแนวข้อมูลภาพ-ข้อความ วิดีโอ และเสียง
    • การสร้างข้อมูล SFT, RLHF, CoT แบบอัตโนมัติ
    • การสร้าง RAG pipeline ที่รวมถึงการพาร์สเอกสารองค์กรและการแบ่งย่อยตามหน่วยความหมาย
  • มอบการเรียนรู้ที่เน้นการลงมือทำผ่าน โปรเจ็กต์แคปสโตนแบบ end-to-end 5 รายการ
  • อ่านออนไลน์ได้ที่: https://datascale-ai.github.io/data_engineering_book/en/

โครงสร้างของหนังสือ

  • โครงสร้างทั้งหมดคือ data engineering pipeline ที่สมบูรณ์ตั้งแต่ข้อมูลดิบไปจนถึงแอปพลิเคชัน
  • ประกอบด้วยทั้งหมด 6 พาร์ต 13 บท และ 5 โปรเจ็กต์
    • Part 1: โครงสร้างพื้นฐานและแนวคิดหลัก
    • Part 2: วิศวกรรมข้อมูลพรีเทรนสำหรับข้อความ
    • Part 3: วิศวกรรมข้อมูลมัลติโมดัล
    • Part 4: วิศวกรรมข้อมูลด้านการจัดแนวและข้อมูลสังเคราะห์
    • Part 5: วิศวกรรมข้อมูลระดับแอปพลิเคชัน
    • Part 6: โปรเจ็กต์แคปสโตน (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

คุณลักษณะเด่น

ทฤษฎีที่ครอบคลุม

  • สะท้อนแนวคิด Data-Centric AI ตลอดทั้งเล่ม
  • ครอบคลุม วงจรชีวิตข้อมูลของ LLM ทั้งหมด ตั้งแต่พรีเทรน → fine-tuning → RLHF → RAG
  • รวมประเด็นเชิงลึก เช่น scaling laws, การประเมินคุณภาพข้อมูล และการจัดแนวมัลติโมดัล

เทคโนโลยีสแต็กสมัยใหม่

  • การประมวลผลแบบกระจาย: Ray Data, Spark
  • การจัดเก็บข้อมูล: Parquet, WebDataset, Vector Databases
  • การประมวลผลข้อความ: Trafilatura, KenLM, MinHash LSH
  • การประมวลผลมัลติโมดัล: CLIP, ColPali, img2dataset
  • การจัดการเวอร์ชันข้อมูล: DVC, LakeFS

โปรเจ็กต์แคปสโตนที่เข้มข้น

  • Mini-C4: สร้างคอร์ปัสข้อความคุณภาพสูงด้วย Trafilatura + Ray + MinHash
  • Legal Expert SFT: ชุดข้อมูลคำสั่งเฉพาะโดเมนบนพื้นฐาน Self-Instruct + CoT
  • LLaVA Multimodal: สร้างชุดข้อมูลคำสั่งเชิงภาพด้วยการจัดแนว Bbox และการสลับหลายภาพ
  • Math Textbook: สร้างชุดข้อมูลการให้เหตุผลด้วย Evol-Instruct + การตรวจสอบใน sandbox
  • Financial Report RAG: สร้างระบบถามตอบมัลติโมดัลด้วย ColPali + Qwen-VL

การพัฒนาในเครื่อง

  • สภาพแวดล้อมที่จำเป็น: Python 3.8 ขึ้นไป, MkDocs Material, mkdocs-static-i18n
  • การติดตั้งและพรีวิว
    • โคลนรีโพซิทอรีด้วย git clone แล้วติดตั้ง dependencies
    • สามารถพรีวิวแบบโลคัลได้เมื่อรัน mkdocs serve (รองรับการสลับภาษาจีน·อังกฤษ)
  • การ build เว็บไซต์แบบ static: เมื่อรัน mkdocs build จะสร้างผลลัพธ์ไว้ในไดเรกทอรี site/

โครงสร้างโปรเจ็กต์

  • โฟลเดอร์ docs/ มีคอนเทนต์ภาษาจีน (zh/) และภาษาอังกฤษ (en/)
  • ประกอบด้วยไดเรกทอรีทรัพยากร เช่น images/, stylesheets/, javascripts/
  • มีการตั้งค่า CI/CD ใน .github/workflows/
  • จัดการการตั้งค่าเว็บไซต์ด้วย mkdocs.yml
  • ใบอนุญาตคือ MIT License

ผู้อ่านเป้าหมาย

  • วิศวกรวิจัยและพัฒนา LLM, วิศวกรข้อมูล, วิศวกร MLOps, AI PM สายเทคนิค, นักวิจัยด้าน LLM data pipeline

ใบอนุญาต

  • ใช้ MIT License

1 ความคิดเห็น

 
GN⁺ 2026-02-16
ความคิดเห็นจาก Hacker News
  • อ่านหนังสือเล่มนี้ด้วยความซาบซึ้งจริง ๆ คุณภาพการแปลสูงมาก
    ผมเป็นมือใหม่มาก ๆ ในการฝึก LLM และกำลังทดลองสถาปัตยกรรมใหม่สำหรับการสร้างโค้ด Python บน Apple Silicon
    แต่ก็รู้สึกอึดอัดเพราะเครื่องมือด้านข้อมูลมักโฟกัสที่ข้อความทั่วไปหรือรูปภาพ มากกว่าจะเน้นโค้ด
    SGlang ใช้งานบน MacOS ไม่ได้ เลยไม่สามารถสร้างข้อมูลสังเคราะห์โดยใช้ EBNF constrained output ได้
    ตอนนี้เลยดาวน์โหลดคอร์ปัสโค้ด Python มาจัดการเอง ทั้งปัญหา APFS, sharding, การจัดหมวดหมู่·การทำความสะอาด·การผสมแบบกำหนดเอง และก็แปลกใจที่ไม่มี ชุดข้อมูลที่แท็กไว้ล่วงหน้า สำหรับโค้ด

  • ถ้าเป็นหนังสือที่พูดถึง data engineering สำหรับ LLM ซึ่งเป็นสาขาเกิดใหม่ ก็ควรกล่าวถึงหมวดหมู่ใหม่ ๆ อย่าง storage format สำหรับวงจรชีวิต ML ทั้งหมด ด้วย
    ตัวอย่างเช่น Lance เป็น columnar storage ที่ปรับให้เหมาะทั้งกับงานวิเคราะห์และเวิร์กโหลดแบบเวกเตอร์ พร้อมรองรับ versioning และ random access
    สิ่งนี้สำคัญมากสำหรับการ sampling, การกรองอย่างมีประสิทธิภาพ และการจัดการข้อมูลมัลติโมดัล (เช่น วิดีโอ)
    ตัวอย่างที่คล้ายกันก็มี vortex, nimble ของ Meta เป็นต้น

  • ผมคิดว่าชื่อ ‘Data Engineering for LLMs’ น่าจะเหมาะกว่า

    • เห็นด้วย เป็นข้อสังเกตที่ดีมาก เนื้อหาจริง ๆ แล้ว ‘Data Engineering for LLMs’ แม่นยำกว่ามาก ผมจะส่งต่อให้โปรเจ็กต์ลีดทันที
  • อาจเป็นปัญหาจากการแปลก็ได้ แต่คำอธิบายเรื่อง “Modern Data Stack” ช่วงต้น ๆ ไม่ค่อยทำให้น่าเชื่อถือเท่าไร
    ส่วน 1_2_data_infra.md ค่อนข้างคลุมเครือ แต่
    หลังจากนั้น ส่วน การทำความสะอาดข้อมูล และ RAG pipeline ชัดเจนกว่ามาก

    • ขอบคุณสำหรับฟีดแบ็กตรงไปตรงมา
  • เวอร์ชันภาษาอังกฤษอยู่ที่ README_en.md

    • ขอบคุณ! ผมเปลี่ยนลิงก์ด้านบนเป็นอันนั้นแล้ว เดิมที URL ที่ส่งมาคือ data_engineering_book
      โพสต์นี้เคยติดตัวกรองสแปม แต่ผู้เขียนแจ้งมาทางอีเมล ผมเลยเชิญให้มาแชร์บริบทในคอมเมนต์ ตอนนี้ก็สะท้อนไว้ด้านบนแล้ว
    • ขอบคุณที่แชร์ลิงก์ตรง ๆ
  • น่าสนใจมาก เลยบุ๊กมาร์กไว้แล้ว แต่สงสัยว่า README เขียนด้วย ChatGPT หรือเปล่า

    • ใช่ครับ ทีมเราเป็นทีมจีน และใช้ GPT ช่วยแปลเป็นภาษาอังกฤษ ขอบคุณสำหรับฟีดแบ็กที่ว่ามันให้ความรู้สึกเหมือน ‘ความอบอุ่นปลอม ๆ’ เราจะปรับให้เป็นโทนที่ เป็นกลางและกระชับ มากขึ้นต่อไป
    • ผมก็รู้สึกแบบนั้นเหมือนกัน มีตารางสรุปเยอะและน้ำเสียงดูไม่เป็นธรรมชาติ เลยให้ความรู้สึกเหมือน LLM เขียน ต่อให้ไม่ใช่ GPT ก็ยังต้อง รีไรต์ครั้งใหญ่ อยู่ดี
  • ประโยค “Data is the new oil, but only if you know how to refine it.” น่าประทับใจมาก
    ปิโตรเลียมเองถ้าไม่กลั่นก็ไม่มีประโยชน์นัก ดังนั้นถ้าพูดว่า “ข้อมูลคือปิโตรเลียมยุคใหม่ และจะมีคุณค่าเมื่อผ่านการกลั่น” ก็น่าจะฟังเป็นธรรมชาติกว่า

  • ส่วน ‘Vector DB vs Keyword Search’ น่าสนใจมาก อยากรู้ว่าตอนทดลอง RAG pipeline วาง เส้นแบ่ง ไว้ตรงไหน
    จากประสบการณ์ของเรา keyword search อย่าง BM25 แข็งแกร่งกับชื่อเอนทิตี·ID ส่วน vector search แข็งแกร่งกับคำถามเชิงแนวคิด อยากรู้ว่าหนังสือพูดถึง hybrid search หรือ reranking ด้วยไหม

    • เป็นคำถามที่ดีมาก ในโปรดักชันจริง แนวทางแบบไฮบริด ระหว่าง BM25+เวกเตอร์มักได้ผลในกรณีส่วนใหญ่ โดยสัดส่วนประมาณ 70/30 ที่ keyword เหนือกว่าสำหรับ exact match
      หัวใจสำคัญคือ reranking ไม่ใช่แค่รวมผลลัพธ์เข้าด้วยกัน แต่ต้องให้ cross-encoder (เช่น Cohere หรือโมเดลคัสตอม) มาคำนวณคะแนนใหม่
      จุดที่การค้นหาเชิงความหมายล้วน ๆ ได้เปรียบคือเวลาที่คำถามเน้นแนวคิดเชิงนามธรรม
    • ขอบคุณสำหรับข้อมูลเชิงลึก เราวางแผนจะครอบคลุมแพตเทิร์นแบบนี้ในการอัปเดตครั้งถัดไป ตอนนี้เป็นช่วง วันหยุดตรุษจีน เลยอาจล่าช้าเล็กน้อย
  • รูปประกอบของแต่ละบทเป็นภาษาอังกฤษ (ยกเว้นรูปใน README_en.md)

    • ขอบคุณที่แจ้ง! ผมเพิ่งสังเกตความต่างนั้น และแก้ไดอะแกรมใน README_en.md ทันที ตอนนี้น่าจะแสดงได้ถูกต้องแล้ว
  • ใช้แค่ Parquet อย่างเดียวไม่พอสำหรับ data engineering สมัยใหม่ ควรมี Delta และ Iceberg ด้วย

    • ขอบคุณสำหรับฟีดแบ็ก! ผมส่งต่อให้คนที่ดูแลส่วนนั้นแล้ว ตอนนี้เป็นช่วง วันหยุดตรุษจีน เลยอาจอัปเดตช้านิดหน่อย ขอให้มีความสุขในวันปีใหม่