ความจริงของ Linear Regression ในปี 2015
(stat.cmu.edu)ความจริงของการถดถอยเชิงเส้น
-
บทนำ
- เอกสารนี้อ้างอิงจากบันทึกการสอนที่เขียนขึ้นตอนสอนวิชา 36-401, Modern Regression ในฤดูใบไม้ร่วงปี 2015
- อาจเป็นประโยชน์สำหรับผู้ที่เรียนหรือสอนการถดถอยเชิงเส้น
- ลดการพึ่งพาส่วนของทฤษฎีเดิมที่อาศัย Gaussian noise และแบบจำลองเชิงเส้นที่ระบุไว้อย่างถูกต้อง และเน้นเทคนิคที่ใช้การคำนวณมากขึ้นแต่มีความทนทานกว่า
-
ข้อความเต็มใน PDF
- ไฟล์ข้อมูล
- โค้ด R ของแต่ละบท
- โครงร่างปัจจุบัน
-
การพยากรณ์ที่เหมาะสมที่สุด
- บทนำสู่การสร้างแบบจำลองทางสถิติ
- คำแนะนำเกี่ยวกับแบบจำลองการถดถอยเชิงเส้นอย่างง่ายและการประมาณค่า
-
วิธีกำลังสองน้อยที่สุดสำหรับการถดถอยเชิงเส้นอย่างง่าย
- วิธีความน่าจะเป็นสูงสุดสำหรับการถดถอยเชิงเส้นอย่างง่าย
- การวินิจฉัยและการแก้ไขการถดถอยอย่างง่าย
- การอนุมานเกี่ยวกับพารามิเตอร์
- การอนุมานเชิงพยากรณ์สำหรับแบบจำลองเชิงเส้นอย่างง่าย
- การตีความพารามิเตอร์หลังการแปลง
- การทดสอบ F,
R^2และข้อควรระวังอื่น ๆ - การถดถอยเชิงเส้นอย่างง่ายในรูปแบบเมทริกซ์
-
การถดถอยเชิงเส้นพหุคูณ
- การวินิจฉัยและการอนุมานของการถดถอยเชิงเส้นพหุคูณ
- การถดถอยแบบพหุนามและแบบจัดหมวดหมู่
- ภาวะพหุสหสัมพันธ์
- การทดสอบและช่วงความเชื่อมั่น
- ปฏิสัมพันธ์
- ค่าผิดปกติและจุดที่มีอิทธิพล
- การเลือกแบบจำลอง
- ทบทวน
- วิธีกำลังสองน้อยที่สุดแบบถ่วงน้ำหนักและแบบทั่วไป
- การเลือกตัวแปร
- ต้นไม้
- บูตสแตรป I
- บูตสแตรป II
สรุปโดย GN⁺
- เอกสารนี้นำเสนอแนวทางสมัยใหม่ต่อการถดถอยเชิงเส้น และเน้นวิธีการคำนวณที่มีความทนทานมากขึ้นเพื่อก้าวข้ามข้อจำกัดทางทฤษฎีแบบเดิม
- ครอบคลุมตั้งแต่พื้นฐานของการสร้างแบบจำลองทางสถิติและการวิเคราะห์การถดถอย ไปจนถึงหัวข้อขั้นสูงอย่างครบถ้วน
- โดยเฉพาะอย่างยิ่ง มีหัวข้อสำคัญต่อการใช้งานจริง เช่น ภาวะพหุสหสัมพันธ์ การเลือกตัวแปร และบูตสแตรป
- เอกสารนี้อาจเป็นประโยชน์ต่อนักศึกษาหรือผู้ปฏิบัติงานที่ศึกษาสถิติและวิทยาการข้อมูล
- โครงการอื่นที่มีลักษณะคล้ายกันคือ "Advanced Data Analysis from an Elementary Point of View"
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
คนส่วนใหญ่ไม่ได้เข้าใจ linear regression ดีพอ
เคยเรียนวิชาสถิติที่ CMU เมื่อ 10 ปีก่อน และดีใจที่ได้เรียน R
Ridge Regression มีประโยชน์ในการแก้ปัญหา multicollinearity
อยากรู้ว่านักวิจัยเชิงปริมาณของ Citadel ใช้ linear regression กันอย่างไร
เรียน linear regression มาหลายครั้งในระดับปริญญาตรี
ในระดับปริญญาเอก ส่วนใหญ่ทำปัญหา regression โดยใช้โมเดล deep learning
"Data Analysis from an Elementary Point of View" ของ Shalizi เป็นหนังสือเริ่มต้นที่ดี
ทักษะที่สำคัญที่สุดใน regression คือการมองเห็น intercept
ในฐานะคนที่สอน regression ด้วย XGBoost บทความนี้มีประโยชน์มากและเข้าถึงได้ง่าย
แม้บทความนี้จะไม่ได้พูดถึง แต่ linear regression ก็แสดงปรากฏการณ์ Double Descent ที่พบได้บ่อยใน deep learning เช่นกัน
สงสัยว่ามีใครรู้วิธีแปลง PDF นี้ให้อยู่ในรูปแบบที่เหมาะกับมือถือหรือไม่