ทำไมการฟิตแบบกำลังสองน้อยที่สุดกับข้อมูลอย่างง่ายจึงดูเหมือนมีอคติ

(stats.stackexchange.com)

1 คะแนน โดย GN⁺ 2026-01-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

สาเหตุที่เส้นถดถอยเชิงเส้นแบบกำลังสองน้อยที่สุดดูชันกว่าความเป็นจริงในข้อมูลทดสอบอย่างง่าย เป็นเพราะลักษณะของกระบวนการสร้างข้อมูล
แบบจำลองการถดถอยอยู่ในรูป ( Y = \beta_0 + \beta_1 X + \varepsilon ) ภายใต้สมมติฐานว่า พจน์ความคลาดเคลื่อนเป็นอิสระจาก X
เมื่อความแปรปรวนของความคลาดเคลื่อนเพิ่มขึ้น การกระจายของข้อมูลในแนวตั้งจะเพิ่มขึ้น และทิศทางขององค์ประกอบหลักใน PCAจะเข้าใกล้แนวตั้งมากขึ้นเรื่อย ๆ
ในทางกลับกัน เมื่อความแปรปรวนของ X มากกว่าความคลาดเคลื่อนอย่างมาก PCA และเส้นถดถอย OLS จะเกือบตรงกัน
ความแตกต่างนี้เกิดจากการที่PCA และ OLS มีเป้าหมายต่างกัน (การเพิ่มความแปรปรวนสูงสุด vs. การทำให้ความคลาดเคลื่อนต่ำสุด) จึงให้ผลที่ดูต่างกันเมื่อพิจารณาจากรูปร่างการกระจายของข้อมูล

แบบจำลองการถดถอยและกระบวนการสร้างข้อมูล

OLS แบบง่าย (วิธีกำลังสองน้อยที่สุด) อยู่ในรูป ( Y = \beta_0 + \beta_1 X + \varepsilon ) โดยตั้งอยู่บนสมมติฐานว่า X และพจน์ความคลาดเคลื่อน (\varepsilon) เป็นอิสระต่อกัน
เมื่อพจน์ความคลาดเคลื่อนเป็น 0 ทุกจุดจะอยู่บนเส้นถดถอย และทิศทางขององค์ประกอบหลักใน PCAจะตรงกับเส้นถดถอย
เมื่อเพิ่มความคลาดเคลื่อนเข้าไป ความแปรปรวนในแนวตั้งจะเพิ่มขึ้น และ PCA จะสะท้อนความแปรปรวนนี้ด้วยการเลือกทิศทางที่มีความชันมากกว่าเป็นองค์ประกอบหลัก

กรณีที่ความแปรปรวนของความคลาดเคลื่อนมีอิทธิพลเหนือกว่า

จากความสัมพันธ์ ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) )
หาก ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) ความผันแปรส่วนใหญ่จะกระจุกตัวในแนวตั้ง
ในกรณีนี้ ทิศทางขององค์ประกอบหลักใน PCA จะเกือบเป็นแนวตั้ง, หรือก็คือดูชันกว่าเส้นถดถอย
ในทางกลับกัน หาก ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) PCA และ OLS จะเกือบตรงกัน

วงรีความแปรปรวนร่วมและรูปร่างการกระจาย

วงรีความแปรปรวนร่วม (covariance ellipse) แสดงรูปร่างของข้อมูลได้ดีเฉพาะเมื่อ ( (X, Y) ) มีการแจกแจงปกติร่วมเท่านั้น
แม้ว่าการแจกแจงของ X จะเป็นแบบทวินาม สม่ำเสมอ สองยอด (bimodal) สามเหลี่ยม ฯลฯ
หากความแปรปรวนของ X สูง PCA และเส้นถดถอยจะตรงกัน แต่หากความคลาดเคลื่อนสูง PCA จะเคลื่อนเข้าใกล้แนวตั้ง
วงรีนี้แสดงถึงทิศทางของข้อมูล แต่ไม่ได้แสดงความหนาแน่นหรือรูปร่างการแจกแจงจริงอย่างแม่นยำ

ลักษณะของ X และข้อพิจารณาในการสร้างแบบจำลอง

ในโค้ด ฟังก์ชัน make_y_from_x สร้าง Y ให้เป็นฟังก์ชันเชิงเส้นของ X พร้อมสัญญาณรบกวนแบบเกาส์เซียน IID ซึ่งสอดคล้องกับสมมติฐานของ OLS
X ไม่จำเป็นต้องเป็นตัวแปรสุ่มเสมอไป และอาจเป็นค่าคงที่ตามการออกแบบการทดลองก็ได้
วงรีความแปรปรวนร่วมปฏิบัติต่อ X และ Y อย่างสมมาตร แต่กระบวนการสร้างข้อมูลจริงนั้นไม่สมมาตร

สรุปประเด็นสำคัญ

( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA และ OLS ตรงกัน
( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA เคลื่อนไปทางแนวตั้ง
X ไม่จำเป็นต้องเป็นตัวแปรสุ่ม และไม่จำเป็นต้องมีการแจกแจงปกติ
PCA เน้นทิศทางของความแปรปรวน ขณะที่ OLS เน้นการทำให้ความคลาดเคลื่อนในการพยากรณ์ต่ำสุด จึงให้ผลลัพธ์ต่างกัน

1 ความคิดเห็น

GN⁺ 2026-01-06

ความเห็นจาก Hacker News

การถดถอยเชิงเส้น (Linear Regression) หรือ Ordinary Least Squares (OLS) ตั้งสมมติฐานว่า มี noise อยู่ใน Y เท่านั้น และ X ถูกต้องแม่นยำ
ในทางกลับกัน แนวทางที่มองด้วยสายตาว่าทั้ง X และ Y มี noise เรียกว่า Total Least Squares (TLS)
- ดู ภาพประกอบ Total Least Squares ใน Wikipedia จะช่วยให้เข้าใจเชิงสัญชาตญาณได้
- ถ้าสลับ x กับ y แล้วคำนวณความชันใหม่ จะพอมองออกว่า TLS กำลังทำอะไร
เมื่อก่อนอาจารย์ QuantSci เคยถามว่า “ลองยกตัวอย่างสถานการณ์เก็บข้อมูลที่ x ไม่มีข้อผิดพลาดเลยสิ”
เพราะแบบนี้จึงสอนว่าปกติมักนิยม Deming regression มากกว่า (Deming regression)
- ในข้อมูลจากเซนเซอร์ส่วนใหญ่ noise บนแกน Y จะมากกว่าแกน X มาก
  ตัวอย่างเช่น ถ้าเป็นเซนเซอร์ที่สุ่มตัวอย่างที่ 1kHz noise ของตัวเซนเซอร์เองจะมากกว่า clock jitter ของ MCU มาก
- ใน Deming regression ค่าเดลตา (δ) คืออัตราส่วนระหว่างความแปรปรวนของ y กับความแปรปรวนของ x
  ถ้าความแปรปรวนของ x เล็กมาก เดลตาจะใหญ่ขึ้นจนกลายเป็น โมเดลที่มี condition number แย่
- ในสายงานของฉัน measurement jitter ของข้อมูล X ต่ำกว่า 10ns จึงแทบถือว่าไม่มีข้อผิดพลาด
- OLS มีความพิเศษตรงที่เป็น BLUE (Best Linear Unbiased Estimator) คือเป็นตัวประมาณเชิงเส้นที่มีความแปรปรวนต่ำที่สุด
- ใน time series ส่วนใหญ่ noise ของการวัดเวลามีน้อยจนมองข้ามได้ แต่ตัวแปรอื่นอย่างพิกัด GPS อาจมีพฤติกรรม coupling ที่ซับซ้อนได้
การถดถอยเชิงเส้นจำลองเฉพาะ noise ของ Y แต่ วงรี/เวกเตอร์ลักษณะเฉพาะของ PCA จะคำนึงถึง noise ทั้งใน X และ Y
- น่าสนใจที่ในหลายระบบ noise ของ Y มากกว่า X
  เช่น ใน analog-to-digital converter เวลาเสถียรจาก crystal oscillator แต่ค่าที่วัดไม่ได้เสถียรแบบนั้น
- เวลาหาเส้นแนวโน้มในการวิเคราะห์ข้อมูล จึงชวนให้สงสัยว่าการใช้ ทิศทาง eigenvector ของ PCA จะดีกว่าหรือไม่
- ถ้าฝึก โครงข่ายประสาทเทียม โดยสมมติว่าทั้ง input และ output มี noise ก็น่าจะน่าสนใจ
- ถ้ารู้ว่า Y มี noise มากกว่า X อยู่ n เท่า ก็สงสัยว่าจะเอาข้อมูลนี้ไปทำ fitting ให้ดีขึ้นได้หรือไม่
ไม่ได้จับสถิติมานานแล้ว เลยไม่เข้าใจว่าทำไมต้องใช้ กำลังสอง (squares)
ก็มีทั้งยกกำลัง 1, 3, 4 ฯลฯ แล้วทำไมถึงเจอแต่กำลังสองเสมอ
- การทำให้ผลรวมกำลังสองต่ำสุดจะให้ค่า Maximum Likelihood Estimation (MLE) เมื่อสมมติว่า ข้อผิดพลาดมีการแจกแจงแบบปกติ (iid normal)
  ถ้าการแจกแจงของข้อผิดพลาดต่างออกไป loss function แบบอื่นอาจเหมาะกว่า
  ตัวอย่างเช่น Huber loss จะเป็นกำลังสองสำหรับข้อผิดพลาดเล็ก และเป็นเชิงเส้นสำหรับข้อผิดพลาดใหญ่ จึงทนต่อ outlier ได้ดีกว่า
  ดูสูตรโดยละเอียดได้ใน Convex Optimization ของ Boyd & Vandenberghe หน้า 352–353
  นอกจากนี้ ANOVA อาศัยทฤษฎีบทพีทาโกรัส ดังนั้นพจน์กำลังสองจึงจำเป็น
- ค่าเฉลี่ยทำให้ L2 norm ต่ำสุด ดังนั้นถ้ามอง OLS ในมุมของตัวแปรสุ่ม L2 จึงโผล่มาอย่างเป็นธรรมชาติในฐานะการประมาณ ค่าคาดหมายแบบมีเงื่อนไข E[Y|X]
  ทฤษฎีบท Gauss–Markov รับประกันว่าตัวประมาณนี้ไม่มีอคติและมีความแปรปรวนต่ำสุด
- กำลัง 1 ทำให้คำตอบไม่เป็นเอกเทศ เช่น สำหรับจุดสามจุด (0,0), (1,0), (1,1) ถ้า a อยู่ระหว่าง 0 ถึง 1 จะให้ผลรวมข้อผิดพลาดเท่ากันหมด
  เลขชี้กำลังที่น้อยกว่า 1 ยังมีคุณสมบัติแปลกคือชอบข้อผิดพลาดใหญ่หนึ่งค่า มากกว่าข้อผิดพลาดเล็กหลายค่า
  ในทางกลับกัน กำลังสองจัดการทางคณิตศาสตร์ได้ง่ายกว่า และยังมี คุณสมบัติเชิงตัวเลขของ simple linear regression ที่ดี
- หัวข้อ Least Squares ใน Wikipedia สรุปแนวทางต่าง ๆ ไว้หลากหลาย
  พจน์ลำดับสูงตั้งแต่กำลัง 4 ขึ้นไปมี local optimum มาก และอนุพันธ์ซับซ้อน ทำให้ ความเรียบง่ายในการคำนวณ ลดลง
- พูดง่าย ๆ คือ abs ไม่สามารถหาอนุพันธ์ได้ที่บริเวณใกล้ 0, กำลัง 4 ไวต่อ noise มากเกินไป และกำลัง 3 ทำให้ความเป็นเชิงเส้นของความแปรปรวนพัง
เนื้อหาส่วนใหญ่ในเธรดนี้มีคนสรุปไว้ดีแล้วใน StackExchange
จะเสนอแง่มุมใหม่ไม่ใช่เรื่องง่าย
- คำตอบใน StackExchange สมบูรณ์ดีอยู่แล้ว
  อย่างมากก็แค่น่าสนใจในเชิงข้อสังเกตทางคณิตศาสตร์
- ถึงอย่างนั้น การหยิบหัวข้อนี้มาคุยก็ยังมีคุณค่า เพราะเปิดโอกาสให้เกิด บทสนทนาที่อิสระกว่า เมื่อเทียบกับ StackExchange
- คำตอบแบบนี้อาจจะโตเกินไปสำหรับฟอรัมนี้ด้วยซ้ำ
Least Squares กับ PCA ต่างก็ลด loss function คนละแบบ
แบบแรกทำให้ผลรวมกำลังสองของระยะตามแกน Y ต่ำสุด ส่วนแบบหลังทำให้ผลรวมกำลังสองของ ระยะตั้งฉาก จากเส้นต่ำสุด
- ถ้าอย่างนั้นทำไมเส้น least squares ถึงดูเหมือนเอียงลงด้านล่าง? ทิศทางดูเหมือนจะเป็นไปตามอำเภอใจ
- ถ้ามอง least squares เป็น กระบวนการ fit ให้เข้ากับการแจกแจงแบบ Gaussian จะเข้าใจได้ง่ายขึ้น
ถ้าถดถอย y เทียบกับ x แล้วถดถอย x เทียบกับ y ก็จะได้เส้นตรงคนละเส้น
ตอนเรียนเจอเรื่องนี้แล้วงงมาก และเคยคิดว่าการ normalize อาจช่วยได้หรือไม่
- แต่จริง ๆ วิธีที่ถูกต้องในการกำจัดอคติไม่ใช่การ normalize แต่คือการใช้ เทคนิคการถดถอยที่ไม่ขึ้นกับพิกัด
ขอเสริมเรื่องคำศัพท์อีกนิด โมเดล least squares ไม่ว่า x จะมี noise หรือไม่ ก็ยังให้ การพยากรณ์ที่มีค่าเฉลี่ยของข้อผิดพลาดเป็น 0 หรือก็คือการพยากรณ์ที่ไม่มีอคติในเชิงสถิติ
เวลาดูผลการถดถอยแล้วเส้นอาจดูผิดด้วยสายตา แต่จริง ๆ โมเดลอาจถูกต้องก็ได้
ถ้าอยากตรวจสอบความชันที่ถูกต้อง ให้ดูว่าที่ค่า x หนึ่ง ๆ residual สมดุลกันทั้งสองฝั่งหรือไม่
ตัวอย่างเช่น ถ้าสร้างข้อมูลจาก y = 1.5x + noise เส้นถดถอยจะกู้คืนความชัน 1.5 ได้ดี แต่ด้วยสายตาอาจดูแปลก ๆ
- จะเห็นได้ชัดที่สุดเมื่อเทียบ residual plot
ปัญหานี้มักเรียกว่า Regression Dilution (ลิงก์ Wikipedia)
- แต่ Regression Dilution หมายถึงกรณีที่เส้นถดถอยมีอคติเพราะข้อผิดพลาดในข้อมูล X
  คำถามใน StackExchange ถามว่าแม้ X จะไม่มีข้อผิดพลาด ทำไมเส้นถดถอยจึงยัง ไม่ตรงกับแกนของวงรี 3σ
  คำตอบนี้ แสดงตัวอย่างที่ข้อผิดพลาดของ X เป็น 0

ทำไมการฟิตแบบกำลังสองน้อยที่สุดกับข้อมูลอย่างง่ายจึงดูเหมือนมีอคติ

แบบจำลองการถดถอยและกระบวนการสร้างข้อมูล

กรณีที่ความแปรปรวนของความคลาดเคลื่อนมีอิทธิพลเหนือกว่า

วงรีความแปรปรวนร่วมและรูปร่างการกระจาย

ลักษณะของ X และข้อพิจารณาในการสร้างแบบจำลอง

สรุปประเด็นสำคัญ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News