1 คะแนน โดย GN⁺ 2026-01-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • สาเหตุที่เส้นถดถอยเชิงเส้นแบบกำลังสองน้อยที่สุดดูชันกว่าความเป็นจริงในข้อมูลทดสอบอย่างง่าย เป็นเพราะลักษณะของกระบวนการสร้างข้อมูล
  • แบบจำลองการถดถอยอยู่ในรูป ( Y = \beta_0 + \beta_1 X + \varepsilon ) ภายใต้สมมติฐานว่า พจน์ความคลาดเคลื่อนเป็นอิสระจาก X
  • เมื่อความแปรปรวนของความคลาดเคลื่อนเพิ่มขึ้น การกระจายของข้อมูลในแนวตั้งจะเพิ่มขึ้น และทิศทางขององค์ประกอบหลักใน PCAจะเข้าใกล้แนวตั้งมากขึ้นเรื่อย ๆ
  • ในทางกลับกัน เมื่อความแปรปรวนของ X มากกว่าความคลาดเคลื่อนอย่างมาก PCA และเส้นถดถอย OLS จะเกือบตรงกัน
  • ความแตกต่างนี้เกิดจากการที่PCA และ OLS มีเป้าหมายต่างกัน (การเพิ่มความแปรปรวนสูงสุด vs. การทำให้ความคลาดเคลื่อนต่ำสุด) จึงให้ผลที่ดูต่างกันเมื่อพิจารณาจากรูปร่างการกระจายของข้อมูล

แบบจำลองการถดถอยและกระบวนการสร้างข้อมูล

  • OLS แบบง่าย (วิธีกำลังสองน้อยที่สุด) อยู่ในรูป ( Y = \beta_0 + \beta_1 X + \varepsilon ) โดยตั้งอยู่บนสมมติฐานว่า X และพจน์ความคลาดเคลื่อน (\varepsilon) เป็นอิสระต่อกัน
  • เมื่อพจน์ความคลาดเคลื่อนเป็น 0 ทุกจุดจะอยู่บนเส้นถดถอย และทิศทางขององค์ประกอบหลักใน PCAจะตรงกับเส้นถดถอย
  • เมื่อเพิ่มความคลาดเคลื่อนเข้าไป ความแปรปรวนในแนวตั้งจะเพิ่มขึ้น และ PCA จะสะท้อนความแปรปรวนนี้ด้วยการเลือกทิศทางที่มีความชันมากกว่าเป็นองค์ประกอบหลัก

กรณีที่ความแปรปรวนของความคลาดเคลื่อนมีอิทธิพลเหนือกว่า

  • จากความสัมพันธ์ ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) )
    หาก ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) ความผันแปรส่วนใหญ่จะกระจุกตัวในแนวตั้ง
  • ในกรณีนี้ ทิศทางขององค์ประกอบหลักใน PCA จะเกือบเป็นแนวตั้ง, หรือก็คือดูชันกว่าเส้นถดถอย
  • ในทางกลับกัน หาก ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) PCA และ OLS จะเกือบตรงกัน

วงรีความแปรปรวนร่วมและรูปร่างการกระจาย

  • วงรีความแปรปรวนร่วม (covariance ellipse) แสดงรูปร่างของข้อมูลได้ดีเฉพาะเมื่อ ( (X, Y) ) มีการแจกแจงปกติร่วมเท่านั้น
  • แม้ว่าการแจกแจงของ X จะเป็นแบบทวินาม สม่ำเสมอ สองยอด (bimodal) สามเหลี่ยม ฯลฯ
    หากความแปรปรวนของ X สูง PCA และเส้นถดถอยจะตรงกัน แต่หากความคลาดเคลื่อนสูง PCA จะเคลื่อนเข้าใกล้แนวตั้ง
  • วงรีนี้แสดงถึงทิศทางของข้อมูล แต่ไม่ได้แสดงความหนาแน่นหรือรูปร่างการแจกแจงจริงอย่างแม่นยำ

ลักษณะของ X และข้อพิจารณาในการสร้างแบบจำลอง

  • ในโค้ด ฟังก์ชัน make_y_from_x สร้าง Y ให้เป็นฟังก์ชันเชิงเส้นของ X พร้อมสัญญาณรบกวนแบบเกาส์เซียน IID ซึ่งสอดคล้องกับสมมติฐานของ OLS
  • X ไม่จำเป็นต้องเป็นตัวแปรสุ่มเสมอไป และอาจเป็นค่าคงที่ตามการออกแบบการทดลองก็ได้
  • วงรีความแปรปรวนร่วมปฏิบัติต่อ X และ Y อย่างสมมาตร แต่กระบวนการสร้างข้อมูลจริงนั้นไม่สมมาตร

สรุปประเด็นสำคัญ

  • ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA และ OLS ตรงกัน
  • ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA เคลื่อนไปทางแนวตั้ง
  • X ไม่จำเป็นต้องเป็นตัวแปรสุ่ม และไม่จำเป็นต้องมีการแจกแจงปกติ
  • PCA เน้นทิศทางของความแปรปรวน ขณะที่ OLS เน้นการทำให้ความคลาดเคลื่อนในการพยากรณ์ต่ำสุด จึงให้ผลลัพธ์ต่างกัน

1 ความคิดเห็น

 
GN⁺ 2026-01-06
ความเห็นจาก Hacker News
  • การถดถอยเชิงเส้น (Linear Regression) หรือ Ordinary Least Squares (OLS) ตั้งสมมติฐานว่า มี noise อยู่ใน Y เท่านั้น และ X ถูกต้องแม่นยำ
    ในทางกลับกัน แนวทางที่มองด้วยสายตาว่าทั้ง X และ Y มี noise เรียกว่า Total Least Squares (TLS)
    • ดู ภาพประกอบ Total Least Squares ใน Wikipedia จะช่วยให้เข้าใจเชิงสัญชาตญาณได้
    • ถ้าสลับ x กับ y แล้วคำนวณความชันใหม่ จะพอมองออกว่า TLS กำลังทำอะไร
  • เมื่อก่อนอาจารย์ QuantSci เคยถามว่า “ลองยกตัวอย่างสถานการณ์เก็บข้อมูลที่ x ไม่มีข้อผิดพลาดเลยสิ”
    เพราะแบบนี้จึงสอนว่าปกติมักนิยม Deming regression มากกว่า (Deming regression)
    • ในข้อมูลจากเซนเซอร์ส่วนใหญ่ noise บนแกน Y จะมากกว่าแกน X มาก
      ตัวอย่างเช่น ถ้าเป็นเซนเซอร์ที่สุ่มตัวอย่างที่ 1kHz noise ของตัวเซนเซอร์เองจะมากกว่า clock jitter ของ MCU มาก
    • ใน Deming regression ค่าเดลตา (δ) คืออัตราส่วนระหว่างความแปรปรวนของ y กับความแปรปรวนของ x
      ถ้าความแปรปรวนของ x เล็กมาก เดลตาจะใหญ่ขึ้นจนกลายเป็น โมเดลที่มี condition number แย่
    • ในสายงานของฉัน measurement jitter ของข้อมูล X ต่ำกว่า 10ns จึงแทบถือว่าไม่มีข้อผิดพลาด
    • OLS มีความพิเศษตรงที่เป็น BLUE (Best Linear Unbiased Estimator) คือเป็นตัวประมาณเชิงเส้นที่มีความแปรปรวนต่ำที่สุด
    • ใน time series ส่วนใหญ่ noise ของการวัดเวลามีน้อยจนมองข้ามได้ แต่ตัวแปรอื่นอย่างพิกัด GPS อาจมีพฤติกรรม coupling ที่ซับซ้อนได้
  • การถดถอยเชิงเส้นจำลองเฉพาะ noise ของ Y แต่ วงรี/เวกเตอร์ลักษณะเฉพาะของ PCA จะคำนึงถึง noise ทั้งใน X และ Y
    • น่าสนใจที่ในหลายระบบ noise ของ Y มากกว่า X
      เช่น ใน analog-to-digital converter เวลาเสถียรจาก crystal oscillator แต่ค่าที่วัดไม่ได้เสถียรแบบนั้น
    • เวลาหาเส้นแนวโน้มในการวิเคราะห์ข้อมูล จึงชวนให้สงสัยว่าการใช้ ทิศทาง eigenvector ของ PCA จะดีกว่าหรือไม่
    • ถ้าฝึก โครงข่ายประสาทเทียม โดยสมมติว่าทั้ง input และ output มี noise ก็น่าจะน่าสนใจ
    • ถ้ารู้ว่า Y มี noise มากกว่า X อยู่ n เท่า ก็สงสัยว่าจะเอาข้อมูลนี้ไปทำ fitting ให้ดีขึ้นได้หรือไม่
  • ไม่ได้จับสถิติมานานแล้ว เลยไม่เข้าใจว่าทำไมต้องใช้ กำลังสอง (squares)
    ก็มีทั้งยกกำลัง 1, 3, 4 ฯลฯ แล้วทำไมถึงเจอแต่กำลังสองเสมอ
    • การทำให้ผลรวมกำลังสองต่ำสุดจะให้ค่า Maximum Likelihood Estimation (MLE) เมื่อสมมติว่า ข้อผิดพลาดมีการแจกแจงแบบปกติ (iid normal)
      ถ้าการแจกแจงของข้อผิดพลาดต่างออกไป loss function แบบอื่นอาจเหมาะกว่า
      ตัวอย่างเช่น Huber loss จะเป็นกำลังสองสำหรับข้อผิดพลาดเล็ก และเป็นเชิงเส้นสำหรับข้อผิดพลาดใหญ่ จึงทนต่อ outlier ได้ดีกว่า
      ดูสูตรโดยละเอียดได้ใน Convex Optimization ของ Boyd & Vandenberghe หน้า 352–353
      นอกจากนี้ ANOVA อาศัยทฤษฎีบทพีทาโกรัส ดังนั้นพจน์กำลังสองจึงจำเป็น
    • ค่าเฉลี่ยทำให้ L2 norm ต่ำสุด ดังนั้นถ้ามอง OLS ในมุมของตัวแปรสุ่ม L2 จึงโผล่มาอย่างเป็นธรรมชาติในฐานะการประมาณ ค่าคาดหมายแบบมีเงื่อนไข E[Y|X]
      ทฤษฎีบท Gauss–Markov รับประกันว่าตัวประมาณนี้ไม่มีอคติและมีความแปรปรวนต่ำสุด
    • กำลัง 1 ทำให้คำตอบไม่เป็นเอกเทศ เช่น สำหรับจุดสามจุด (0,0), (1,0), (1,1) ถ้า a อยู่ระหว่าง 0 ถึง 1 จะให้ผลรวมข้อผิดพลาดเท่ากันหมด
      เลขชี้กำลังที่น้อยกว่า 1 ยังมีคุณสมบัติแปลกคือชอบข้อผิดพลาดใหญ่หนึ่งค่า มากกว่าข้อผิดพลาดเล็กหลายค่า
      ในทางกลับกัน กำลังสองจัดการทางคณิตศาสตร์ได้ง่ายกว่า และยังมี คุณสมบัติเชิงตัวเลขของ simple linear regression ที่ดี
    • หัวข้อ Least Squares ใน Wikipedia สรุปแนวทางต่าง ๆ ไว้หลากหลาย
      พจน์ลำดับสูงตั้งแต่กำลัง 4 ขึ้นไปมี local optimum มาก และอนุพันธ์ซับซ้อน ทำให้ ความเรียบง่ายในการคำนวณ ลดลง
    • พูดง่าย ๆ คือ abs ไม่สามารถหาอนุพันธ์ได้ที่บริเวณใกล้ 0, กำลัง 4 ไวต่อ noise มากเกินไป และกำลัง 3 ทำให้ความเป็นเชิงเส้นของความแปรปรวนพัง
  • เนื้อหาส่วนใหญ่ในเธรดนี้มีคนสรุปไว้ดีแล้วใน StackExchange
    จะเสนอแง่มุมใหม่ไม่ใช่เรื่องง่าย
    • คำตอบใน StackExchange สมบูรณ์ดีอยู่แล้ว
      อย่างมากก็แค่น่าสนใจในเชิงข้อสังเกตทางคณิตศาสตร์
    • ถึงอย่างนั้น การหยิบหัวข้อนี้มาคุยก็ยังมีคุณค่า เพราะเปิดโอกาสให้เกิด บทสนทนาที่อิสระกว่า เมื่อเทียบกับ StackExchange
    • คำตอบแบบนี้อาจจะโตเกินไปสำหรับฟอรัมนี้ด้วยซ้ำ
  • Least Squares กับ PCA ต่างก็ลด loss function คนละแบบ
    แบบแรกทำให้ผลรวมกำลังสองของระยะตามแกน Y ต่ำสุด ส่วนแบบหลังทำให้ผลรวมกำลังสองของ ระยะตั้งฉาก จากเส้นต่ำสุด
    • ถ้าอย่างนั้นทำไมเส้น least squares ถึงดูเหมือนเอียงลงด้านล่าง? ทิศทางดูเหมือนจะเป็นไปตามอำเภอใจ
    • ถ้ามอง least squares เป็น กระบวนการ fit ให้เข้ากับการแจกแจงแบบ Gaussian จะเข้าใจได้ง่ายขึ้น
  • ถ้าถดถอย y เทียบกับ x แล้วถดถอย x เทียบกับ y ก็จะได้เส้นตรงคนละเส้น
    ตอนเรียนเจอเรื่องนี้แล้วงงมาก และเคยคิดว่าการ normalize อาจช่วยได้หรือไม่
    • แต่จริง ๆ วิธีที่ถูกต้องในการกำจัดอคติไม่ใช่การ normalize แต่คือการใช้ เทคนิคการถดถอยที่ไม่ขึ้นกับพิกัด
  • ขอเสริมเรื่องคำศัพท์อีกนิด โมเดล least squares ไม่ว่า x จะมี noise หรือไม่ ก็ยังให้ การพยากรณ์ที่มีค่าเฉลี่ยของข้อผิดพลาดเป็น 0 หรือก็คือการพยากรณ์ที่ไม่มีอคติในเชิงสถิติ
  • เวลาดูผลการถดถอยแล้วเส้นอาจดูผิดด้วยสายตา แต่จริง ๆ โมเดลอาจถูกต้องก็ได้
    ถ้าอยากตรวจสอบความชันที่ถูกต้อง ให้ดูว่าที่ค่า x หนึ่ง ๆ residual สมดุลกันทั้งสองฝั่งหรือไม่
    ตัวอย่างเช่น ถ้าสร้างข้อมูลจาก y = 1.5x + noise เส้นถดถอยจะกู้คืนความชัน 1.5 ได้ดี แต่ด้วยสายตาอาจดูแปลก ๆ
    • จะเห็นได้ชัดที่สุดเมื่อเทียบ residual plot
  • ปัญหานี้มักเรียกว่า Regression Dilution (ลิงก์ Wikipedia)
    • แต่ Regression Dilution หมายถึงกรณีที่เส้นถดถอยมีอคติเพราะข้อผิดพลาดในข้อมูล X
      คำถามใน StackExchange ถามว่าแม้ X จะไม่มีข้อผิดพลาด ทำไมเส้นถดถอยจึงยัง ไม่ตรงกับแกนของวงรี 3σ
      คำตอบนี้ แสดงตัวอย่างที่ข้อผิดพลาดของ X เป็น 0