- คู่มือออนไลน์ที่ครอบคลุมเครื่องมือและเทคนิคหลักของ Data Science บนพื้นฐาน Python โดยเปิดเผยเนื้อหาทั้งหมดบนเว็บไซต์และ GitHub
- จัดทำในรูปแบบ Jupyter Notebook เพื่อให้เรียนรู้แบบลงมือปฏิบัติได้ โดยมีทั้งโค้ดและข้อความรวมอยู่ด้วย
- ข้อความเผยแพร่ภายใต้ สัญญาอนุญาต CC-BY-NC-ND และตัวอย่างโค้ดภายใต้ สัญญาอนุญาต MIT จึงสามารถนำไปใช้ต่อแบบไม่เชิงพาณิชย์ได้อย่างอิสระ
- ครอบคลุม ไลบรารีหลักสำหรับการวิเคราะห์ข้อมูลและแมชชีนเลิร์นนิง อย่างเป็นระบบ เช่น IPython, NumPy, Pandas, Matplotlib และ Scikit-Learn
- เป็นแหล่งข้อมูลที่มีประโยชน์สำหรับทั้งผู้เริ่มต้นและผู้ปฏิบัติงาน ในการเรียนรู้ เวิร์กโฟลว์มาตรฐานของระบบนิเวศ Python
ภาพรวม
- เว็บไซต์นี้รวบรวมเนื้อหาทั้งหมดของ 『Python Data Science Handbook』 โดย Jake VanderPlas
- หนังสือต้นฉบับตีพิมพ์โดย O’Reilly และเวอร์ชันเว็บเปิดให้เข้าถึงได้ฟรี
- เนื้อหาทั้งหมดมีให้ในรูปแบบ Jupyter Notebook บนที่เก็บ GitHub
- ข้อความเผยแพร่ภายใต้ สัญญาอนุญาต CC-BY-NC-ND และตัวอย่างโค้ดเผยแพร่ภายใต้ สัญญาอนุญาต MIT
- สามารถใช้งานแบบไม่เชิงพาณิชย์และนำโค้ดกลับไปใช้ซ้ำได้
- หากผู้อ่านเห็นว่ามีประโยชน์ ก็สามารถสนับสนุนผู้เขียนได้ด้วยการซื้อหนังสือต้นฉบับ
โครงสร้างสารบัญ
- หนังสือประกอบด้วย 5 บทหลักและภาคผนวก
บทที่ 1: IPython – มากกว่า Python ทั่วไป
- อธิบายความสามารถและวิธีใช้งานของสภาพแวดล้อม IPython
- ครอบคลุมระบบช่วยเหลือ คีย์ลัด คำสั่ง magic และการเชื่อมต่อกับคำสั่งเชลล์
- กล่าวถึงประวัติการรันโค้ด การดีบัก และการวัดประสิทธิภาพ
บทที่ 2: แนะนำ NumPy
- ครอบคลุมพื้นฐานของการคำนวณเชิงตัวเลขด้วย อาร์เรย์ NumPy
- รวมถึงชนิดข้อมูล broadcasting boolean mask การเรียงลำดับ และ structured array
- อธิบายการใช้งานการคำนวณแบบอิงอาร์เรย์และฟังก์ชัน aggregate
บทที่ 3: การจัดการข้อมูลด้วย Pandas
- ครอบคลุมอ็อบเจ็กต์หลักและความสามารถด้านการประมวลผลข้อมูลของ Pandas
- รวมถึง indexing การจัดการค่าว่าง การจัดกลุ่ม pivot table และการประมวลผลอนุกรมเวลา
- ยังแนะนำความสามารถด้านการคำนวณประสิทธิภาพสูงผ่าน
eval() และ query()
บทที่ 4: การทำ Visualization ด้วย Matplotlib
- อธิบายวิธีการทำ visualization ข้อมูลด้วย Matplotlib และ Seaborn
- ครอบคลุมกราฟหลายประเภท เช่น line plot, scatter plot, histogram และ density plot
- กล่าวถึงความสามารถขั้นสูง เช่น legend, color bar, stylesheet, กราฟ 3D และการทำ visualization ข้อมูลภูมิศาสตร์
บทที่ 5: แมชชีนเลิร์นนิง
- ครอบคลุมแนวคิดพื้นฐานและอัลกอริทึมของแมชชีนเลิร์นนิง โดยเน้น Scikit-Learn
- รวมขั้นตอนสำคัญ เช่น hyperparameter, การตรวจสอบโมเดล และ feature engineering
- อธิบายโมเดลสำคัญ เช่น Naive Bayes, linear regression, SVM, random forest, PCA, k-means และ GMM
- นำเสนอตัวอย่างการประยุกต์ใช้งานจริงผ่าน face recognition pipeline
ภาคผนวก: โค้ดสำหรับภาพประกอบ
- รวบรวม โค้ด visualization ที่ใช้ในเนื้อหา
- สามารถนำไปใช้สร้างซ้ำและปรับแก้แต่ละภาพได้
ความสำคัญในการนำไปใช้
- มอบ ความเข้าใจแบบบูรณาการของระบบนิเวศ Python ให้กับผู้เรียน Data Science
- สามารถนำไปใช้ใน การศึกษา การวิจัย และการทำต้นแบบ ได้ ผ่านรูปแบบโน้ตบุ๊กที่ลงมือปฏิบัติได้จริง
- เปิดเผยภายใต้สัญญาอนุญาตโอเพนซอร์ส จึงเอื้อต่อ การขยายต่อเนื่องและการมีส่วนร่วมจากชุมชน
2 ความคิดเห็น
https://product.kyobobook.co.kr/detail/S000201558138
การวิเคราะห์ข้อมูลด้วยไลบรารี Python
เป็นหนังสือที่ Wes McKinney ผู้สร้าง pandas เขียนไว้ และในฐานะหนังสือเริ่มต้นด้าน data science เล่มนี้ก็ดีมากครับ ผมเคยอ่านตอนที่ฉบับพิมพ์ครั้งที่ 2 ออกใหม่ ๆ ... พอลองค้นหาดูตอนนี้ก็พบว่าฉบับพิมพ์ครั้งที่ 3 ออกมาแล้วนี่เอง
ความคิดเห็นจาก Hacker News
ชอบบรรยาย Statistics for Hackers ของ Jake VanderPlas มากจริง ๆ
ดูสไลด์การบรรยาย
ตัวอย่างเช่น แม้ความชุกของโรคจะอยู่ที่ 1/10,000 และความแม่นยำของการทดสอบจะอยู่ที่ 99% ผลบวกก็ไม่ได้หมายความว่ามีโอกาส 99% ที่จะเป็นโรค
หนังสือประเภทนี้น่าสนใจเสมอ
มันครอบคลุมหัวข้อหลากหลายอย่าง กว้างแต่ไม่ลึกมาก เช่น การจัดการข้อมูล การทำภาพข้อมูล และแมชชีนเลิร์นนิง ซึ่งแต่ละหัวข้อก็สามารถเป็นหนังสือได้ทั้งเล่ม
การหาสมดุลระหว่างการสอนเขียนโปรแกรมกับการแนะนำแนวคิดและทฤษฎีนั้นยาก แต่เล่มนี้ดูเหมือนจะทำได้ดีในฐานะหนังสือสำหรับผู้เริ่มต้น
หนังสือเล่มนี้ มีประโยชน์แบบไฟลุก🔥 มากตอนเริ่มเรียน data science ในช่วงปี 2017~2018
Jake เป็นครูที่ยอดเยี่ยม
น่าสนใจที่ในยุคนี้ยังเลือก Pandas
น่าจะเป็นเพราะโฟกัสไปที่ การถ่ายทอดแนวคิดทั่วไป มากกว่าเครื่องมือรุ่นใหม่
ตอนทำงานที่แรกเคยอ้างอิงบล็อกเรื่อง Kernel Density Estimation (KDE) แล้วมันมีประโยชน์มาก
ตั้งแต่นั้นมาก็ชอบงานของ Jake
เวอร์ชันออนไลน์ของหนังสือเปิดให้อ่านที่ learningds.org
ไลเซนส์คือ CC-BY-NC-ND
ไม่ค่อยเข้าใจว่าทำไมหลายคนถึงเกลียด Pandas
มันไม่ใช่เครื่องมือที่สมบูรณ์แบบ แต่ในโค้ดเบสของเรามีโค้ด Pandas อยู่หลายพันบรรทัด และแทบไม่เคยทำให้เกิด production bug เลย
เราใช้งาน Pandas ร่วมกับ static schema wrapper และ type checker จึงรันงานได้อย่างเสถียร
เขาเป็นนักเขียนที่ยอดเยี่ยม และคิดถึงบล็อกของเขา
โดยเฉพาะบทความเรื่อง pivot table ที่น่าประทับใจมาก ซึ่งดูเหมือนตอนนี้จะถูกรวมไว้ในหนังสือแล้ว
ดูได้ที่ เว็บไซต์ทางการของ Altair
หนังสือเล่มนี้เขียนเมื่อ 8 ปีก่อน แต่มี ฉบับพิมพ์ครั้งที่ 2 จากผู้เขียนคนเดิมอยู่ด้วย
มีข้อความกำกับว่า “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”
สามารถเทียบกับฉบับปี 2016 จากลิงก์ต้นฉบับได้
ตอนเรียน data science ช่วงปี 2020~2021 นี่เป็นหนึ่งใน ไม่กี่เล่มที่อ่านจบตั้งแต่ต้นจนจบ
ตอนนี้ก็ยังน่าแนะนำอยู่