คู่มือ Data Science ด้วย Python

(jakevdp.github.io)

43 คะแนน โดย GN⁺ 2025-12-04 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

คู่มือออนไลน์ที่ครอบคลุมเครื่องมือและเทคนิคหลักของ Data Science บนพื้นฐาน Python โดยเปิดเผยเนื้อหาทั้งหมดบนเว็บไซต์และ GitHub
จัดทำในรูปแบบ Jupyter Notebook เพื่อให้เรียนรู้แบบลงมือปฏิบัติได้ โดยมีทั้งโค้ดและข้อความรวมอยู่ด้วย
ข้อความเผยแพร่ภายใต้ สัญญาอนุญาต CC-BY-NC-ND และตัวอย่างโค้ดภายใต้ สัญญาอนุญาต MIT จึงสามารถนำไปใช้ต่อแบบไม่เชิงพาณิชย์ได้อย่างอิสระ
ครอบคลุม ไลบรารีหลักสำหรับการวิเคราะห์ข้อมูลและแมชชีนเลิร์นนิง อย่างเป็นระบบ เช่น IPython, NumPy, Pandas, Matplotlib และ Scikit-Learn
เป็นแหล่งข้อมูลที่มีประโยชน์สำหรับทั้งผู้เริ่มต้นและผู้ปฏิบัติงาน ในการเรียนรู้ เวิร์กโฟลว์มาตรฐานของระบบนิเวศ Python

ภาพรวม

เว็บไซต์นี้รวบรวมเนื้อหาทั้งหมดของ 『Python Data Science Handbook』 โดย Jake VanderPlas
- หนังสือต้นฉบับตีพิมพ์โดย O’Reilly และเวอร์ชันเว็บเปิดให้เข้าถึงได้ฟรี
- เนื้อหาทั้งหมดมีให้ในรูปแบบ Jupyter Notebook บนที่เก็บ GitHub
ข้อความเผยแพร่ภายใต้ สัญญาอนุญาต CC-BY-NC-ND และตัวอย่างโค้ดเผยแพร่ภายใต้ สัญญาอนุญาต MIT
- สามารถใช้งานแบบไม่เชิงพาณิชย์และนำโค้ดกลับไปใช้ซ้ำได้
หากผู้อ่านเห็นว่ามีประโยชน์ ก็สามารถสนับสนุนผู้เขียนได้ด้วยการซื้อหนังสือต้นฉบับ

โครงสร้างสารบัญ

หนังสือประกอบด้วย 5 บทหลักและภาคผนวก

บทที่ 1: IPython – มากกว่า Python ทั่วไป

อธิบายความสามารถและวิธีใช้งานของสภาพแวดล้อม IPython
- ครอบคลุมระบบช่วยเหลือ คีย์ลัด คำสั่ง magic และการเชื่อมต่อกับคำสั่งเชลล์
- กล่าวถึงประวัติการรันโค้ด การดีบัก และการวัดประสิทธิภาพ

บทที่ 2: แนะนำ NumPy

ครอบคลุมพื้นฐานของการคำนวณเชิงตัวเลขด้วย อาร์เรย์ NumPy
- รวมถึงชนิดข้อมูล broadcasting boolean mask การเรียงลำดับ และ structured array
- อธิบายการใช้งานการคำนวณแบบอิงอาร์เรย์และฟังก์ชัน aggregate

บทที่ 3: การจัดการข้อมูลด้วย Pandas

ครอบคลุมอ็อบเจ็กต์หลักและความสามารถด้านการประมวลผลข้อมูลของ Pandas
- รวมถึง indexing การจัดการค่าว่าง การจัดกลุ่ม pivot table และการประมวลผลอนุกรมเวลา
- ยังแนะนำความสามารถด้านการคำนวณประสิทธิภาพสูงผ่าน eval() และ query()

บทที่ 4: การทำ Visualization ด้วย Matplotlib

อธิบายวิธีการทำ visualization ข้อมูลด้วย Matplotlib และ Seaborn
- ครอบคลุมกราฟหลายประเภท เช่น line plot, scatter plot, histogram และ density plot
- กล่าวถึงความสามารถขั้นสูง เช่น legend, color bar, stylesheet, กราฟ 3D และการทำ visualization ข้อมูลภูมิศาสตร์

บทที่ 5: แมชชีนเลิร์นนิง

ครอบคลุมแนวคิดพื้นฐานและอัลกอริทึมของแมชชีนเลิร์นนิง โดยเน้น Scikit-Learn
- รวมขั้นตอนสำคัญ เช่น hyperparameter, การตรวจสอบโมเดล และ feature engineering
- อธิบายโมเดลสำคัญ เช่น Naive Bayes, linear regression, SVM, random forest, PCA, k-means และ GMM
- นำเสนอตัวอย่างการประยุกต์ใช้งานจริงผ่าน face recognition pipeline

ภาคผนวก: โค้ดสำหรับภาพประกอบ

รวบรวม โค้ด visualization ที่ใช้ในเนื้อหา
- สามารถนำไปใช้สร้างซ้ำและปรับแก้แต่ละภาพได้

ความสำคัญในการนำไปใช้

มอบ ความเข้าใจแบบบูรณาการของระบบนิเวศ Python ให้กับผู้เรียน Data Science
สามารถนำไปใช้ใน การศึกษา การวิจัย และการทำต้นแบบ ได้ ผ่านรูปแบบโน้ตบุ๊กที่ลงมือปฏิบัติได้จริง
เปิดเผยภายใต้สัญญาอนุญาตโอเพนซอร์ส จึงเอื้อต่อ การขยายต่อเนื่องและการมีส่วนร่วมจากชุมชน

2 ความคิดเห็น

aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
การวิเคราะห์ข้อมูลด้วยไลบรารี Python
เป็นหนังสือที่ Wes McKinney ผู้สร้าง pandas เขียนไว้ และในฐานะหนังสือเริ่มต้นด้าน data science เล่มนี้ก็ดีมากครับ ผมเคยอ่านตอนที่ฉบับพิมพ์ครั้งที่ 2 ออกใหม่ ๆ ... พอลองค้นหาดูตอนนี้ก็พบว่าฉบับพิมพ์ครั้งที่ 3 ออกมาแล้วนี่เอง

GN⁺ 2025-12-04

ความคิดเห็นจาก Hacker News

ชอบบรรยาย Statistics for Hackers ของ Jake VanderPlas มากจริง ๆ
ดูสไลด์การบรรยาย
- ขอบคุณที่แชร์ ทำให้นึกได้ว่าการคิดแบบ ความถี่แทนความน่าจะเป็น ช่วยลดความผิดพลาดได้มากแค่ไหน
  ตัวอย่างเช่น แม้ความชุกของโรคจะอยู่ที่ 1/10,000 และความแม่นยำของการทดสอบจะอยู่ที่ 99% ผลบวกก็ไม่ได้หมายความว่ามีโอกาส 99% ที่จะเป็นโรค
หนังสือประเภทนี้น่าสนใจเสมอ
มันครอบคลุมหัวข้อหลากหลายอย่าง กว้างแต่ไม่ลึกมาก เช่น การจัดการข้อมูล การทำภาพข้อมูล และแมชชีนเลิร์นนิง ซึ่งแต่ละหัวข้อก็สามารถเป็นหนังสือได้ทั้งเล่ม
การหาสมดุลระหว่างการสอนเขียนโปรแกรมกับการแนะนำแนวคิดและทฤษฎีนั้นยาก แต่เล่มนี้ดูเหมือนจะทำได้ดีในฐานะหนังสือสำหรับผู้เริ่มต้น
หนังสือเล่มนี้ มีประโยชน์แบบไฟลุก🔥 มากตอนเริ่มเรียน data science ในช่วงปี 2017~2018
Jake เป็นครูที่ยอดเยี่ยม
น่าสนใจที่ในยุคนี้ยังเลือก Pandas
น่าจะเป็นเพราะโฟกัสไปที่ การถ่ายทอดแนวคิดทั่วไป มากกว่าเครื่องมือรุ่นใหม่
- หนังสือตีพิมพ์ครั้งแรกในปี 2016 เลยมีโอกาสสูงว่ายังเป็นฉบับพิมพ์ครั้งที่ 1
- ยังคิดว่า Pandas เป็นมาตรฐานของอุตสาหกรรมอยู่ดี ส่วน Polars กับ Spark เน้นประสิทธิภาพด้าน data engineering มากกว่า และไม่ค่อยเหมาะกับการครอบคลุม data science ทั้งหมด
- หนังสือก็ค่อนข้างเก่าแล้ว เลยอาจไม่ค่อยเหมาะจะใช้คำว่า “สมัยนี้”
- ไม่ค่อยเข้าใจว่า Pandas มีปัญหาอะไร
ตอนทำงานที่แรกเคยอ้างอิงบล็อกเรื่อง Kernel Density Estimation (KDE) แล้วมันมีประโยชน์มาก
ตั้งแต่นั้นมาก็ชอบงานของ Jake
เวอร์ชันออนไลน์ของหนังสือเปิดให้อ่านที่ learningds.org
ไลเซนส์คือ CC-BY-NC-ND
ไม่ค่อยเข้าใจว่าทำไมหลายคนถึงเกลียด Pandas
มันไม่ใช่เครื่องมือที่สมบูรณ์แบบ แต่ในโค้ดเบสของเรามีโค้ด Pandas อยู่หลายพันบรรทัด และแทบไม่เคยทำให้เกิด production bug เลย
เราใช้งาน Pandas ร่วมกับ static schema wrapper และ type checker จึงรันงานได้อย่างเสถียร
- อยากรู้ว่าเป็น schema wrapper ที่ทำขึ้นเอง หรือมีแพ็กเกจใน PyPI ที่แนะนำได้
เขาเป็นนักเขียนที่ยอดเยี่ยม และคิดถึงบล็อกของเขา
โดยเฉพาะบทความเรื่อง pivot table ที่น่าประทับใจมาก ซึ่งดูเหมือนตอนนี้จะถูกรวมไว้ในหนังสือแล้ว
- เขายังเป็นผู้สร้างไลบรารีทำภาพข้อมูลสำหรับ Python ชื่อ Altair (สร้างบน Vega-Lite) ด้วย
  ดูได้ที่ เว็บไซต์ทางการของ Altair
หนังสือเล่มนี้เขียนเมื่อ 8 ปีก่อน แต่มี ฉบับพิมพ์ครั้งที่ 2 จากผู้เขียนคนเดิมอยู่ด้วย
- มีโน้ตบุ๊กเวอร์ชันฉบับพิมพ์ครั้งที่ 2 อยู่ใน GitHub repository
  มีข้อความกำกับว่า “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”
  สามารถเทียบกับฉบับปี 2016 จากลิงก์ต้นฉบับได้
ตอนเรียน data science ช่วงปี 2020~2021 นี่เป็นหนึ่งใน ไม่กี่เล่มที่อ่านจบตั้งแต่ต้นจนจบ
ตอนนี้ก็ยังน่าแนะนำอยู่