1 คะแนน โดย GN⁺ 2024-08-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ความจริงของการถดถอยเชิงเส้น

  • บทนำ

    • เอกสารนี้อ้างอิงจากบันทึกการสอนที่เขียนขึ้นตอนสอนวิชา 36-401, Modern Regression ในฤดูใบไม้ร่วงปี 2015
    • อาจเป็นประโยชน์สำหรับผู้ที่เรียนหรือสอนการถดถอยเชิงเส้น
    • ลดการพึ่งพาส่วนของทฤษฎีเดิมที่อาศัย Gaussian noise และแบบจำลองเชิงเส้นที่ระบุไว้อย่างถูกต้อง และเน้นเทคนิคที่ใช้การคำนวณมากขึ้นแต่มีความทนทานกว่า
  • ข้อความเต็มใน PDF

    • ไฟล์ข้อมูล
    • โค้ด R ของแต่ละบท
    • โครงร่างปัจจุบัน
  • การพยากรณ์ที่เหมาะสมที่สุด

    • บทนำสู่การสร้างแบบจำลองทางสถิติ
    • คำแนะนำเกี่ยวกับแบบจำลองการถดถอยเชิงเส้นอย่างง่ายและการประมาณค่า
  • วิธีกำลังสองน้อยที่สุดสำหรับการถดถอยเชิงเส้นอย่างง่าย

    • วิธีความน่าจะเป็นสูงสุดสำหรับการถดถอยเชิงเส้นอย่างง่าย
    • การวินิจฉัยและการแก้ไขการถดถอยอย่างง่าย
    • การอนุมานเกี่ยวกับพารามิเตอร์
    • การอนุมานเชิงพยากรณ์สำหรับแบบจำลองเชิงเส้นอย่างง่าย
    • การตีความพารามิเตอร์หลังการแปลง
    • การทดสอบ F, R^2 และข้อควรระวังอื่น ๆ
    • การถดถอยเชิงเส้นอย่างง่ายในรูปแบบเมทริกซ์
  • การถดถอยเชิงเส้นพหุคูณ

    • การวินิจฉัยและการอนุมานของการถดถอยเชิงเส้นพหุคูณ
    • การถดถอยแบบพหุนามและแบบจัดหมวดหมู่
    • ภาวะพหุสหสัมพันธ์
    • การทดสอบและช่วงความเชื่อมั่น
    • ปฏิสัมพันธ์
    • ค่าผิดปกติและจุดที่มีอิทธิพล
    • การเลือกแบบจำลอง
    • ทบทวน
    • วิธีกำลังสองน้อยที่สุดแบบถ่วงน้ำหนักและแบบทั่วไป
    • การเลือกตัวแปร
    • ต้นไม้
    • บูตสแตรป I
    • บูตสแตรป II

สรุปโดย GN⁺

  • เอกสารนี้นำเสนอแนวทางสมัยใหม่ต่อการถดถอยเชิงเส้น และเน้นวิธีการคำนวณที่มีความทนทานมากขึ้นเพื่อก้าวข้ามข้อจำกัดทางทฤษฎีแบบเดิม
  • ครอบคลุมตั้งแต่พื้นฐานของการสร้างแบบจำลองทางสถิติและการวิเคราะห์การถดถอย ไปจนถึงหัวข้อขั้นสูงอย่างครบถ้วน
  • โดยเฉพาะอย่างยิ่ง มีหัวข้อสำคัญต่อการใช้งานจริง เช่น ภาวะพหุสหสัมพันธ์ การเลือกตัวแปร และบูตสแตรป
  • เอกสารนี้อาจเป็นประโยชน์ต่อนักศึกษาหรือผู้ปฏิบัติงานที่ศึกษาสถิติและวิทยาการข้อมูล
  • โครงการอื่นที่มีลักษณะคล้ายกันคือ "Advanced Data Analysis from an Elementary Point of View"

1 ความคิดเห็น

 
GN⁺ 2024-08-01
ความคิดเห็นบน Hacker News
  • คนส่วนใหญ่ไม่ได้เข้าใจ linear regression ดีพอ

    • การทดสอบทางสถิติทั่วไปทั้งหมดเป็นแบบจำลองเชิงเส้น
    • แบบจำลองเชิงเส้นเป็นเชิงเส้นต่อพารามิเตอร์ ไม่ใช่เชิงเส้นต่อการตอบสนอง
    • หากเลือก basis spline ที่เหมาะสม ก็สามารถจำลองความสัมพันธ์ไม่เชิงเส้นจำนวนมากระหว่างตัวแปรทำนายกับการตอบสนองด้วยแบบจำลองเชิงเส้นได้
    • ตามทฤษฎีบทเทย์เลอร์ ความสัมพันธ์เชิงเส้นอาจเป็นค่าประมาณที่ดีของความสัมพันธ์ไม่เชิงเส้นได้
  • เคยเรียนวิชาสถิติที่ CMU เมื่อ 10 ปีก่อน และดีใจที่ได้เรียน R

    • จุดอ่อนใหญ่ของ linear regression คือใช้ได้กับชุดข้อมูลฝึกขนาดเล็ก แต่ยากจะนำไปใช้กับข้อมูลจริง
  • Ridge Regression มีประโยชน์ในการแก้ปัญหา multicollinearity

    • ทุกวันนี้มักเรียนกันในฐานะเทคนิค regularization เพื่อป้องกัน overfitting แต่เดิมถูกใช้เพื่อปรับสมดุลน้ำหนักระหว่างตัวแปรทำนายที่มีความสัมพันธ์กันสูง
  • อยากรู้ว่านักวิจัยเชิงปริมาณของ Citadel ใช้ linear regression กันอย่างไร

    • สงสัยว่าพวกเขาให้ความสำคัญกับผลลัพธ์เชิงทฤษฎีแบบไหน
  • เรียน linear regression มาหลายครั้งในระดับปริญญาตรี

    • สามารถพิสูจน์ความเป็นภาวะเหมาะที่สุดได้ผ่านสถิติและทฤษฎีความน่าจะเป็น
  • ในระดับปริญญาเอก ส่วนใหญ่ทำปัญหา regression โดยใช้โมเดล deep learning

    • ถ้ามีวิธีนำบทพิสูจน์และทฤษฎีบทที่เคร่งครัดของแบบจำลองเชิงเส้นแบบดั้งเดิมมาใช้กับโมเดล regression แบบ deep learning ได้ก็คงดี
  • "Data Analysis from an Elementary Point of View" ของ Shalizi เป็นหนังสือเริ่มต้นที่ดี

    • เน้นที่แบบจำลองเชิงเส้น แบบจำลองบวก และการจำลอง
    • 90% ของหนังสือแทบไม่มีประโยชน์หากไม่มีคอมพิวเตอร์ แต่ก็เป็นความจริงของยุคปัจจุบัน
  • ทักษะที่สำคัญที่สุดใน regression คือการมองเห็น intercept

    • เมื่อใส่ interaction term เข้าไป การเข้าใจความหมายของ intercept เป็นเรื่องสำคัญ
    • ตัวอย่างเช่น ในแบบจำลองเชิงเส้นอย่างง่ายที่มีอายุและตัวแปรการวินิจฉัยออทิซึมอยู่ด้วย ต้องเข้าใจว่า intercept หมายถึงอะไร
  • ในฐานะคนที่สอน regression ด้วย XGBoost บทความนี้มีประโยชน์มากและเข้าถึงได้ง่าย

    • โดยเฉพาะบทที่ 6 เรื่องการวินิจฉัยด้วยภาพ เขียนได้ดีมาก
  • แม้บทความนี้จะไม่ได้พูดถึง แต่ linear regression ก็แสดงปรากฏการณ์ Double Descent ที่พบได้บ่อยใน deep learning เช่นกัน

    • สำหรับเรื่องนี้จำเป็นต้องนำ regularization มาใช้
  • สงสัยว่ามีใครรู้วิธีแปลง PDF นี้ให้อยู่ในรูปแบบที่เหมาะกับมือถือหรือไม่