2 คะแนน โดย GN⁺ 2023-12-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ความจำเป็นของช่วงความคลาดเคลื่อนในการวิเคราะห์และการคาดการณ์อาชญากรรม

  • เน้นย้ำว่าการคาดการณ์อาชญากรรมควรมีช่วงความคลาดเคลื่อนรวมอยู่ด้วย
  • บทความที่ Richard Rosenfeld เขียนลง Criminologist เมื่อไม่นานมานี้ได้อภิปรายเรื่องการคาดการณ์อัตราอาชญากรรมระดับประเทศ
  • แม้จะมีเสียงบ่นที่ FBI เผยแพร่สถิติอาชญากรรมล่าช้าไป 1 ปี แต่วงการวิชาการกลับให้ "การคาดการณ์" ที่ล่าช้ายิ่งกว่า

การวิเคราะห์ด้วยโมเดล ARIMA

  • วิเคราะห์ให้เห็นว่าความคลาดเคลื่อนของการคาดการณ์ที่สมเหตุสมผลควรมีลักษณะอย่างไร โดยใช้โมเดล ARIMA ใน Python
  • มีการเผยแพร่ข้อมูลและโค้ดไว้บน GitHub
  • อธิบายสั้น ๆ เรื่องการโหลดข้อมูลและการนำเข้าไลบรารี พร้อมทั้งอธิบายกระบวนการตั้งค่ารูปแบบข้อมูลให้ถูกต้อง

การเตรียมความพร้อมสำหรับการฟิตโมเดล

  • ฟิตโมเดล ARIMA(1,1,2) ภายใต้เงื่อนไขที่คล้ายกับงานของ Richard
  • มีคำอธิบายเกี่ยวกับโมเดลของ Richard การเปรียบเทียบ และผลลัพธ์ที่ได้จากโมเดล

การคาดการณ์และช่วงความคลาดเคลื่อน

  • ใช้แพ็กเกจ statsmodels เพื่อเพิ่มข้อมูลใหม่และทำการคาดการณ์ล่วงหน้า 1 ขั้น
  • แสดงผลการคาดการณ์ที่ชี้ให้เห็นว่าค่าความคลาดเคลื่อนมาตรฐานของการคาดการณ์เพิ่มขึ้นตามเวลา

การเปรียบเทียบกับค่าประมาณของ Richard

  • คำนวณ MAPE (Mean Absolute Percentage Error) ของแต่ละโมเดลโดยเปรียบเทียบกับค่าคาดการณ์ของ Richard
  • แสดงช่วงการคาดการณ์ พร้อมเน้นว่าค่าที่สังเกตได้ยังคงสอดคล้องกับโมเดลที่ประมาณไว้

ประเด็นสุดท้าย

  • โต้แย้งว่าไม่ใช่เรื่องสำคัญนักแม้ Richard จะยังคงทำพลาดอย่างมากในการคาดการณ์อาชญากรรมระดับมหภาค
  • ชี้ว่าการคาดการณ์อาชญากรรมระดับชาติไม่ได้ช่วยให้เกิดการตอบสนองเชิงนโยบาย
  • ยกตัวอย่างการประยุกต์ใช้การคาดการณ์อาชญากรรมจริง เช่น การทำนายความจำเป็นในการเพิ่มกำลังตำรวจตามการเติบโตของเมือง

ความเห็นของ GN⁺

ประเด็นสำคัญที่สุดของบทความนี้คือการเน้นความสำคัญของช่วงความคลาดเคลื่อนในการคาดการณ์อาชญากรรม และความจำเป็นของการยอมรับความไม่แน่นอนของการคาดการณ์ แม้ว่าการคาดการณ์อาชญากรรมอาจไม่ได้มีประโยชน์โดยตรงต่อการตัดสินใจเชิงนโยบาย แต่การสร้างแบบจำลองเพื่อการคาดการณ์ก็ยังเป็นเครื่องมือสำคัญในการตรวจสอบความสมเหตุสมผลของทฤษฎีอาชญาวิทยา บทความนี้มอบมุมมองที่น่าสนใจให้กับผู้ที่อยู่ในจุดตัดระหว่างวิทยาศาสตร์ข้อมูลและอาชญาวิทยา พร้อมทั้งนำเสนอการอภิปรายเชิงลึกเกี่ยวกับข้อจำกัดของโมเดลการคาดการณ์และวิธีรับมือกับข้อจำกัดเหล่านั้น

1 ความคิดเห็น

 
GN⁺ 2023-12-05
ความคิดเห็นจาก Hacker News
  • ความเชื่อมโยงระหว่างการพยากรณ์กับการตัดสินใจ

    • โดยทั่วไปการพยากรณ์ควรนำไปสู่การตัดสินใจ
    • เมื่อการพยากรณ์ถูกแยกออกจากการตัดสินใจ คุณค่าของมันก็จะไม่ชัดเจน
    • Rosenfeld พยายามใช้การพยากรณ์เพื่อเพิ่มน้ำหนักให้ข้อสรุปเชิงสถิติจากข้อมูลในอดีต แต่สิ่งนี้น่าสงสัย
  • ความหมายของ error bars

    • ความหมายของ error bars ไม่ชัดเจน
    • แบบหนึ่งคือช่วงความเชื่อมั่น (โมเดลให้ความน่าจะเป็น 95% ว่าผลลัพธ์จะอยู่ในช่วงนี้)
    • อีกแบบหนึ่งคือส่วนเบี่ยงเบนมาตรฐาน (การพยากรณ์ความต่างกำลังสองระหว่างค่าที่พยากรณ์กับผลลัพธ์)
  • ความสำคัญของ error bars

    • error bars ช่วยให้เข้าใจได้ดีขึ้นเมื่อเปรียบเทียบประโยชน์ของวิธีการประมวลผลแบบใหม่
    • บางคนคิดว่าสิ่งนี้ทำให้ปัญหาดูสับสนขึ้น
    • การได้มาซึ่ง error bars ที่มีความหมายในบางกรณีเป็นเรื่องยากมาก
  • การตรวจสอบการกระจายทางสถิติ

    • ดู histogram (การกระจายทางสถิติ) ของตัวชี้วัดสำคัญเป็นประจำ
    • ในปัญหาความเร็วการเรียกใช้เว็บเซอร์วิส พบจุดพีกที่ชัดเจนสองจุด
    • พีกสองจุดที่แสดงถึงผู้ใช้ที่ออกจากระบบแล้วและผู้ใช้ที่เข้าสู่ระบบแล้ว ช่วยให้เข้าใจสาเหตุของปัญหาได้ลึกขึ้น
  • error bars สำหรับการประมาณวันที่

    • การประมาณวันที่ (กล่าวคือ deadline) ก็ควรมี error bars ด้วย
    • วันที่เป็นการพยากรณ์ และไม่มีความหมายหากไม่มีการประเมินความไม่แน่นอน
  • ความสำคัญของการหาปริมาณความไม่แน่นอน

    • ใน data science และโดยเฉพาะ machine learning การหาปริมาณความไม่แน่นอนมักถูกมองข้าม
    • ผู้ปฏิบัติงานไม่ได้มีพื้นฐานด้านสถิติเสมอไป
  • การเปรียบเทียบระหว่างการพยากรณ์กับการวัด

    • การพยากรณ์อาจมองได้ว่าเป็นการวัดเกี่ยวกับอนาคต
    • การวัดใด ๆ ที่ทำโดยไม่มีความรู้เกี่ยวกับความไม่แน่นอนนั้นไม่มีความหมาย
  • ความเข้าใจผิดเกี่ยวกับสภาพอากาศ

    • ตอนแรกคิดว่าบทความนี้เกี่ยวกับสภาพอากาศ
  • การพยากรณ์ปัจจุบันหรืออดีต หรือก็คือ nowcasting

    • ศิลปะของการพยากรณ์ปัจจุบันหรืออดีตระหว่างที่กำลังรอข้อมูล
    • หากไม่มีช่วงความคลาดเคลื่อน ก็เป็นวิทยาศาสตร์/สถิติที่ไม่แม่นยำ
  • การพยากรณ์ที่ยังมีประโยชน์แม้ไม่มี error bars

    • บางครั้งการพยากรณ์แบบจุดอย่างง่ายก็เพียงพอที่จะชี้นำการลงมือทำ
    • การรู้การกระจายทั้งหมดของการพยากรณ์อาจช่วยให้ตัดสินใจได้ดีขึ้น
  • ข้อดีของ Gaussian process regression

    • Gaussian process regression (หรือ kriging) มีข้อดีอย่างมาก
  • ความจำเป็นของช่วงความเชื่อมั่น/ช่วงการพยากรณ์/ช่วงความเผื่อสำหรับการประมาณ/การพยากรณ์/การคาดการณ์/การอนุมานภายในช่วง/การอนุมานนอกช่วงทั้งหมด

    • ควรมีช่วงความเชื่อมั่น/ช่วงการพยากรณ์/ช่วงความเผื่อที่รวมสมมติฐานที่ทีมใส่เข้าไปในปัญหานั้นด้วย