SQL เชิงปฏิบัติสำหรับการวิเคราะห์ข้อมูล
(hakibenita.com)ตัวอย่างการใช้ SQL แทน Pandas เพื่อวิเคราะห์ข้อมูล
-
เปรียบเทียบประสิทธิภาพ/การใช้หน่วยความจำของ SQL กับ Pandas
-
พื้นฐาน
→ Common Table Expressions
→ การสร้างข้อมูล
→ การสุ่มสร้าง
→ การสุ่มเลือก
→ การสุ่มตัวอย่าง
-
สถิติเชิงพรรณนา (Descriptive statistics)
-
การสร้างผลรวมย่อย (Subtotal): Rollup, Cube, การจัดกลุ่ม
-
การรวมแบบสะสม: ฟังก์ชัน Window, Sliding Window
-
การถดถอยเชิงเส้น
-
การประมาณค่าแทรก (Interpolation)
-
การแบ่งข้อมูลเป็นช่วง (Binning)
1 ความคิดเห็น
แทนที่จะมองว่า SQL จะมาแทนที่งานวิเคราะห์ข้อมูลทั้งหมด น่าจะมองว่าใช้ SQL ทำ preprocessing เพื่อลดขนาดข้อมูล และทำให้ Pandas ที่กินหน่วยความจำมากทำงานได้เบาลงมากกว่าครับ