เรียนรู้ SQL ผ่าน 100 คิวรีสำหรับนักวิทยาศาสตร์ข้อมูล
(gvwilson.github.io)SQL for the Weary
- กลุ่มเป้าหมาย: Rachel ซึ่งจบปริญญาโทด้านชีววิทยาเซลล์ กำลังทำงานวิเคราะห์เซลล์ในโรงพยาบาลวิจัยและต้องการเป็นนักวิทยาศาสตร์ข้อมูล
- ความรู้พื้นฐานที่จำเป็น: คำสั่ง Unix พื้นฐานและความสามารถในการวิเคราะห์ข้อมูลแบบตาราง
- ผลลัพธ์การเรียนรู้: อธิบายความแตกต่างระหว่างฐานข้อมูลกับผู้ดูแลฐานข้อมูล, เขียน SQL, กำหนดตารางและจัดการข้อมูล, อธิบายประเภทของการ join, ใช้ window function สำหรับทำงานกับแถวที่อยู่ติดกัน, เข้าใจ transaction และ trigger, จัดการข้อมูล JSON ด้วย SQL, และโต้ตอบกับฐานข้อมูลผ่าน Python
การตั้งค่า
- ดาวน์โหลดรีลีสล่าสุด: แตกไฟล์ไปยังไดเรกทอรีชั่วคราว ซึ่งมีตัวอย่างฐานข้อมูล SQLite, คิวรี SQL, สคริปต์ Python และไฟล์อื่น ๆ รวมอยู่ด้วย
แนวคิดพื้นฐาน
- ฐานข้อมูล: ชุดข้อมูลที่สามารถจัดเก็บและค้นคืนได้
- ระบบจัดการฐานข้อมูล (DBMS): โปรแกรมที่ใช้จัดการฐานข้อมูลประเภทหนึ่งโดยเฉพาะ
- SQLite: จัดเก็บฐานข้อมูลไว้ในไฟล์เดียว ส่วน PostgreSQL กระจายข้อมูลไว้หลายไฟล์เพื่อประสิทธิภาพที่สูงกว่า
- ระบบจัดการฐานข้อมูลเชิงสัมพันธ์ (RDBMS): จัดเก็บข้อมูลในตารางและใช้ SQL ในการคิวรี
- ฐานข้อมูล NoSQL: ยังมีฐานข้อมูลอย่าง MongoDB ที่ไม่ใช้ตารางด้วย
การเชื่อมต่อฐานข้อมูล
- การเชื่อมต่อฐานข้อมูล: ไม่ใช่คิวรีจริง แต่เป็นขั้นตอนที่จำเป็นก่อนทำงานอื่น ๆ
คำสั่งสำหรับการจัดการ
- คำสั่งจัดการของ SQLite: ไม่ใช่ส่วนหนึ่งของมาตรฐาน SQL และคำสั่งพิเศษของ PostgreSQL จะขึ้นต้นด้วย
\\ - รูปแบบผลลัพธ์: ใช้
.headers onและ.mode markdownเพื่อแสดงผลให้อ่านง่าย
การจัดการตาราง
- การสร้างตาราง: ใช้คำสั่ง
create tableเพื่อกำหนดตารางและคอลัมน์ - การแทรกข้อมูล: ใช้คำสั่ง
insert intoเพื่อเพิ่มข้อมูลลงในตาราง - การอัปเดตแถว: ใช้คำสั่ง
updateเพื่อเปลี่ยนข้อมูลของแถวที่ตรงตามเงื่อนไขที่กำหนด - การลบแถว: ใช้คำสั่ง
delete fromเพื่อลบแถวที่ตรงตามเงื่อนไขที่กำหนด
การ join
- การ join: การรวมข้อมูลจากสองตารางเข้าด้วยกัน
- Inner join: ใช้
inner joinเพื่อรวมเฉพาะแถวที่ตรงกันของทั้งสองตาราง - Left join: ใช้
left joinเพื่อคงทุกแถวของตารางฝั่งซ้ายไว้ และเติมค่าที่หายไปของตารางฝั่งขวาด้วยnull
ฟังก์ชันการรวมข้อมูล
- การรวมข้อมูล: การรวมหลายค่าให้เป็นค่าเดียว
- ฟังก์ชันการรวมข้อมูลที่ใช้บ่อย: ใช้
sum,max,min,avgเป็นต้น เพื่อรวมข้อมูล - การจัดกลุ่ม: ใช้
group byเพื่อจัดกลุ่มแถวตามชุดค่าที่ไม่ซ้ำกันของคอลัมน์ที่กำหนด และทำการรวมข้อมูลสำหรับแต่ละกลุ่ม
ความเห็นของ GN⁺
- บทความนี้เป็นแหล่งข้อมูลที่ช่วยสร้างความเข้าใจพื้นฐานเกี่ยวกับฐานข้อมูลและ SQL ซึ่งมีประโยชน์สำหรับวิศวกรซอฟต์แวร์ระดับเริ่มต้นหรือผู้ที่สนใจด้านวิทยาศาสตร์ข้อมูล
- อธิบายความสามารถหลากหลายของ SQL ผ่านตัวอย่างจริง จึงให้ความรู้เชิงปฏิบัติเกี่ยวกับการจัดการและการใช้งานฐานข้อมูล
- โดยเฉพาะเรื่อง database join, ฟังก์ชันการรวมข้อมูล และการจัดการตาราง ล้วนสำคัญมากในงานที่เกี่ยวข้องกับการวิเคราะห์ข้อมูล และบทความนี้ช่วยให้เข้าใจแนวคิดเหล่านี้ได้อย่างชัดเจน
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News