- สาเหตุที่เส้นถดถอยเชิงเส้นแบบกำลังสองน้อยที่สุดดูชันกว่าความเป็นจริงในข้อมูลทดสอบอย่างง่าย เป็นเพราะลักษณะของกระบวนการสร้างข้อมูล
- แบบจำลองการถดถอยอยู่ในรูป ( Y = \beta_0 + \beta_1 X + \varepsilon ) ภายใต้สมมติฐานว่า พจน์ความคลาดเคลื่อนเป็นอิสระจาก X
- เมื่อความแปรปรวนของความคลาดเคลื่อนเพิ่มขึ้น การกระจายของข้อมูลในแนวตั้งจะเพิ่มขึ้น และทิศทางขององค์ประกอบหลักใน PCAจะเข้าใกล้แนวตั้งมากขึ้นเรื่อย ๆ
- ในทางกลับกัน เมื่อความแปรปรวนของ X มากกว่าความคลาดเคลื่อนอย่างมาก PCA และเส้นถดถอย OLS จะเกือบตรงกัน
- ความแตกต่างนี้เกิดจากการที่PCA และ OLS มีเป้าหมายต่างกัน (การเพิ่มความแปรปรวนสูงสุด vs. การทำให้ความคลาดเคลื่อนต่ำสุด) จึงให้ผลที่ดูต่างกันเมื่อพิจารณาจากรูปร่างการกระจายของข้อมูล
แบบจำลองการถดถอยและกระบวนการสร้างข้อมูล
- OLS แบบง่าย (วิธีกำลังสองน้อยที่สุด) อยู่ในรูป ( Y = \beta_0 + \beta_1 X + \varepsilon ) โดยตั้งอยู่บนสมมติฐานว่า X และพจน์ความคลาดเคลื่อน (\varepsilon) เป็นอิสระต่อกัน
- เมื่อพจน์ความคลาดเคลื่อนเป็น 0 ทุกจุดจะอยู่บนเส้นถดถอย และทิศทางขององค์ประกอบหลักใน PCAจะตรงกับเส้นถดถอย
- เมื่อเพิ่มความคลาดเคลื่อนเข้าไป ความแปรปรวนในแนวตั้งจะเพิ่มขึ้น และ PCA จะสะท้อนความแปรปรวนนี้ด้วยการเลือกทิศทางที่มีความชันมากกว่าเป็นองค์ประกอบหลัก
กรณีที่ความแปรปรวนของความคลาดเคลื่อนมีอิทธิพลเหนือกว่า
- จากความสัมพันธ์ ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) )
หาก ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) ความผันแปรส่วนใหญ่จะกระจุกตัวในแนวตั้ง
- ในกรณีนี้ ทิศทางขององค์ประกอบหลักใน PCA จะเกือบเป็นแนวตั้ง, หรือก็คือดูชันกว่าเส้นถดถอย
- ในทางกลับกัน หาก ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) PCA และ OLS จะเกือบตรงกัน
วงรีความแปรปรวนร่วมและรูปร่างการกระจาย
- วงรีความแปรปรวนร่วม (covariance ellipse) แสดงรูปร่างของข้อมูลได้ดีเฉพาะเมื่อ ( (X, Y) ) มีการแจกแจงปกติร่วมเท่านั้น
- แม้ว่าการแจกแจงของ X จะเป็นแบบทวินาม สม่ำเสมอ สองยอด (bimodal) สามเหลี่ยม ฯลฯ
หากความแปรปรวนของ X สูง PCA และเส้นถดถอยจะตรงกัน แต่หากความคลาดเคลื่อนสูง PCA จะเคลื่อนเข้าใกล้แนวตั้ง
- วงรีนี้แสดงถึงทิศทางของข้อมูล แต่ไม่ได้แสดงความหนาแน่นหรือรูปร่างการแจกแจงจริงอย่างแม่นยำ
ลักษณะของ X และข้อพิจารณาในการสร้างแบบจำลอง
- ในโค้ด ฟังก์ชัน
make_y_from_x สร้าง Y ให้เป็นฟังก์ชันเชิงเส้นของ X พร้อมสัญญาณรบกวนแบบเกาส์เซียน IID ซึ่งสอดคล้องกับสมมติฐานของ OLS
- X ไม่จำเป็นต้องเป็นตัวแปรสุ่มเสมอไป และอาจเป็นค่าคงที่ตามการออกแบบการทดลองก็ได้
- วงรีความแปรปรวนร่วมปฏิบัติต่อ X และ Y อย่างสมมาตร แต่กระบวนการสร้างข้อมูลจริงนั้นไม่สมมาตร
สรุปประเด็นสำคัญ
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA และ OLS ตรงกัน
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA เคลื่อนไปทางแนวตั้ง
- X ไม่จำเป็นต้องเป็นตัวแปรสุ่ม และไม่จำเป็นต้องมีการแจกแจงปกติ
- PCA เน้นทิศทางของความแปรปรวน ขณะที่ OLS เน้นการทำให้ความคลาดเคลื่อนในการพยากรณ์ต่ำสุด จึงให้ผลลัพธ์ต่างกัน
1 ความคิดเห็น
ความเห็นจาก Hacker News
ในทางกลับกัน แนวทางที่มองด้วยสายตาว่าทั้ง X และ Y มี noise เรียกว่า Total Least Squares (TLS)
เพราะแบบนี้จึงสอนว่าปกติมักนิยม Deming regression มากกว่า (Deming regression)
ตัวอย่างเช่น ถ้าเป็นเซนเซอร์ที่สุ่มตัวอย่างที่ 1kHz noise ของตัวเซนเซอร์เองจะมากกว่า clock jitter ของ MCU มาก
ถ้าความแปรปรวนของ x เล็กมาก เดลตาจะใหญ่ขึ้นจนกลายเป็น โมเดลที่มี condition number แย่
เช่น ใน analog-to-digital converter เวลาเสถียรจาก crystal oscillator แต่ค่าที่วัดไม่ได้เสถียรแบบนั้น
ก็มีทั้งยกกำลัง 1, 3, 4 ฯลฯ แล้วทำไมถึงเจอแต่กำลังสองเสมอ
ถ้าการแจกแจงของข้อผิดพลาดต่างออกไป loss function แบบอื่นอาจเหมาะกว่า
ตัวอย่างเช่น Huber loss จะเป็นกำลังสองสำหรับข้อผิดพลาดเล็ก และเป็นเชิงเส้นสำหรับข้อผิดพลาดใหญ่ จึงทนต่อ outlier ได้ดีกว่า
ดูสูตรโดยละเอียดได้ใน Convex Optimization ของ Boyd & Vandenberghe หน้า 352–353
นอกจากนี้ ANOVA อาศัยทฤษฎีบทพีทาโกรัส ดังนั้นพจน์กำลังสองจึงจำเป็น
ทฤษฎีบท Gauss–Markov รับประกันว่าตัวประมาณนี้ไม่มีอคติและมีความแปรปรวนต่ำสุด
เลขชี้กำลังที่น้อยกว่า 1 ยังมีคุณสมบัติแปลกคือชอบข้อผิดพลาดใหญ่หนึ่งค่า มากกว่าข้อผิดพลาดเล็กหลายค่า
ในทางกลับกัน กำลังสองจัดการทางคณิตศาสตร์ได้ง่ายกว่า และยังมี คุณสมบัติเชิงตัวเลขของ simple linear regression ที่ดี
พจน์ลำดับสูงตั้งแต่กำลัง 4 ขึ้นไปมี local optimum มาก และอนุพันธ์ซับซ้อน ทำให้ ความเรียบง่ายในการคำนวณ ลดลง
จะเสนอแง่มุมใหม่ไม่ใช่เรื่องง่าย
อย่างมากก็แค่น่าสนใจในเชิงข้อสังเกตทางคณิตศาสตร์
แบบแรกทำให้ผลรวมกำลังสองของระยะตามแกน Y ต่ำสุด ส่วนแบบหลังทำให้ผลรวมกำลังสองของ ระยะตั้งฉาก จากเส้นต่ำสุด
ตอนเรียนเจอเรื่องนี้แล้วงงมาก และเคยคิดว่าการ normalize อาจช่วยได้หรือไม่
ถ้าอยากตรวจสอบความชันที่ถูกต้อง ให้ดูว่าที่ค่า x หนึ่ง ๆ residual สมดุลกันทั้งสองฝั่งหรือไม่
ตัวอย่างเช่น ถ้าสร้างข้อมูลจาก y = 1.5x + noise เส้นถดถอยจะกู้คืนความชัน 1.5 ได้ดี แต่ด้วยสายตาอาจดูแปลก ๆ
คำถามใน StackExchange ถามว่าแม้ X จะไม่มีข้อผิดพลาด ทำไมเส้นถดถอยจึงยัง ไม่ตรงกับแกนของวงรี 3σ
คำตอบนี้ แสดงตัวอย่างที่ข้อผิดพลาดของ X เป็น 0