ผลดันนิง-ครูเกอร์คือ autocorrelation

(economicsfromthetopdown.com)

1 คะแนน โดย GN⁺ 2023-11-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

รูปแบบอันโด่งดังที่ว่า “คนที่ไม่ชำนาญมักประเมินความสามารถของตนเองสูงเกินไป” อาจไม่ใช่ลักษณะทางจิตวิทยาที่มั่นคงของมนุษย์ แต่เป็น ผลผลิตทางสถิติจากการนำคะแนนสอบและความคลาดเคลื่อนของการประเมินตนเองมาปะปนกันบนแกนเดียวกัน
หัวใจสำคัญคือ autocorrelation เมื่อเปรียบเทียบ x ซึ่งเป็นคะแนนสอบ กับ y−x ซึ่งเป็นผลต่างระหว่างการประเมินตนเอง y และคะแนนสอบ x ค่า x จะไปปรากฏอยู่ทั้งสองฝั่งของสมการ ทำให้เกิดรูปแบบเดียวกันได้แม้ในข้อมูลสุ่ม
กราฟของ Dunning และ Kruger ในปี 1999 แบ่งผู้เข้าร่วมตาม ควอร์ไทล์ ของคะแนนสอบ แล้วเปรียบเทียบค่าเฉลี่ยเปอร์เซ็นไทล์ของคะแนนจริงกับความสามารถที่รับรู้ ทำให้ความต่างระหว่างเส้นสองเส้นดูเหมือนเป็นผลทางจิตวิทยา
แม้แต่ “คะแนนสอบ” และ “การประเมินตนเอง” ที่สร้างขึ้นแบบสุ่ม หากประมวลผลด้วยวิธีเดียวกัน ก็สามารถสร้าง เส้นโค้งแบบดันนิง-ครูเกอร์ ที่ทำให้ผู้มีผลงานต่ำดูเหมือนมั่นใจเกินจริง และผู้มีผลงานสูงดูเหมือนถ่อมตัวได้
งานวิจารณ์ของ Nuhfer และคณะในปี 2016 และ 2017 รวมถึงงานวิจารณ์ของ Gignac และ Zajenkowski ในปี 2020 ชี้ปัญหาเดียวกัน แต่จำนวนการอ้างอิงบน Google Scholar ของบทความวิจารณ์ทั้งสามรวมกัน 88 ครั้งนั้นน้อยกว่าบทความต้นฉบับที่ถูกอ้างอิง 7,893 ครั้งมาก

มองผลดันนิง-ครูเกอร์ใหม่ในเชิงสถิติ

ผลดันนิง-ครูเกอร์เป็นที่รู้จักจากงานวิจัยของ Justin Kruger และ David Dunning ในปี 1999 และหมายถึง แนวโน้มที่คนความสามารถต่ำจะประเมินความสามารถของตนเองสูงเกินไป
จุดเน้นของคำวิจารณ์นี้คือ ผลดังกล่าวปรากฏซ้ำในข้อมูลไม่ใช่เพราะเป็นปรากฏการณ์ทางจิตวิทยา แต่เพราะ autocorrelation
autocorrelation คือสถานการณ์ที่นำตัวแปรหนึ่งไปหาสหสัมพันธ์กับตัวมันเอง
- ในรูปแบบบริสุทธิ์ มันเป็นวงวนที่ชัดเจนเหมือน “5 = 5”
- แต่เมื่อมีตัวแปรเดียวกันปะปนอยู่ทั้งสองฝั่งของสมการ มันจะสังเกตเห็นได้ยาก
ตัวอย่างเช่น เมื่อมี x และ y ที่ไม่เกี่ยวข้องกัน แล้วสร้าง z = x + y จากนั้นนำ z ไปหาสหสัมพันธ์กับ x ค่า x จะอยู่ทั้งสองฝั่งและ ดูเหมือนเกิดสหสัมพันธ์ขึ้น

โครงสร้างของกราฟดันนิง-ครูเกอร์ดั้งเดิม

Dunning และ Kruger ให้ผู้เข้าร่วมทำ แบบทดสอบทักษะ แล้วให้แต่ละคนประเมินความสามารถของตนเอง
แกนนอนของกราฟเป็นแกนเชิงหมวดหมู่ที่แบ่งคนออกเป็น 4 กลุ่ม ควอร์ไทล์ (quartile) ตามคะแนนสอบ
- ภายนอกดูเหมือนแกนเชิงหมวดหมู่ แต่จริงๆ แล้วแสดงอันดับของคะแนนสอบ x
แกนตั้งแสดงคะแนนจริงและความสามารถที่รับรู้เป็น เปอร์เซ็นไทล์ (percentile)
เส้นสีเทาแสดงเปอร์เซ็นไทล์เฉลี่ยของคะแนนสอบจริงในแต่ละกลุ่มควอร์ไทล์
- โดยสาระแล้วเหมือนกับการพล็อต x เทียบกับ x
เส้นสีดำแสดงเปอร์เซ็นไทล์เฉลี่ยของการประเมินตนเองในแต่ละกลุ่ม
- เป็นโครงสร้างที่พล็อตการประเมินตนเอง y เทียบกับคะแนนสอบ x

autocorrelation ที่เกิดจากความต่างระหว่างสองเส้น

ส่วนที่สะดุดตาในกราฟดันนิง-ครูเกอร์คือ ความต่าง ระหว่าง “ความสามารถที่รับรู้” กับ “คะแนนสอบจริง”
ในทางคณิตศาสตร์ ความต่างนี้คือ y−x
- y คือการประเมินตนเอง
- x คือคะแนนสอบจริง
เมื่อแปลความต่างนี้เทียบกับแกนนอน x ความสัมพันธ์จะกลายเป็น (y−x) ~ x
ณ จุดนี้ x เข้าไปอยู่ทั้งสองฝั่งของสมการ จึงเกิด autocorrelation ซึ่ง x ถูกนำไปเปรียบเทียบกับรูปติดลบของตัวมันเอง
ดังนั้น แม้ใส่ตัวเลขสุ่มที่ไม่มีความหมายทางจิตวิทยาใดๆ ลงใน x และ y ก็ตาม กราฟที่มีโครงสร้างเดียวกันก็อาจให้รูปแบบที่ดูเหมือนผลดันนิง-ครูเกอร์ได้

ข้อมูลสุ่มก็สร้างรูปแบบเดียวกันได้

ในการทดลองจำลอง สมมติว่ารับสมัครคน 1,000 คน แล้วได้คะแนนสอบและการประเมินตนเองมา
หากพล็อตคะแนนสอบและการประเมินตนเองรายบุคคลเป็น scatter plot ตรงๆ จะดูสุ่มโดยสิ้นเชิง และไม่มีร่องรอยของผลดันนิง-ครูเกอร์
จากนั้นคำนวณความคลาดเคลื่อนของการประเมินตนเอง
- ความคลาดเคลื่อนของการประเมินตนเอง = การประเมินตนเอง − คะแนนสอบ
เมื่อนำความคลาดเคลื่อนนี้ไปเปรียบเทียบกับคะแนนสอบ จะเห็นความสัมพันธ์ที่ชัดเจน
- ผู้มีผลงานต่ำดูเหมือนมั่นใจเกินจริงอย่างมาก
- ผู้มีผลงานสูงดูเหมือนถ่อมตัวเกินไป
หากนำข้อมูลเดียวกันใส่ในกราฟแบบดันนิง-ครูเกอร์ ก็สามารถสร้างเส้นโค้งที่ดูเหมือนมีผลแรงกว่าผลลัพธ์เดิมได้ด้วย
แต่ถ้าข้อมูลนี้ไม่ใช่ค่าจากการทดลองจริง แต่เป็น ตัวเลขสุ่ม รูปแบบที่ปรากฏก็เป็นผลผลิตของโครงสร้างทางสถิติ ไม่ใช่ผลทางจิตวิทยา

การตรวจสอบทางเลือกของ Nuhfer และคณะ

หากต้องการหาสหสัมพันธ์ของชุดข้อมูลสองชุดอย่างถูกต้องทางสถิติ ค่าที่วัดทั้งสองต้องถูก วัดอย่างเป็นอิสระ ต่อกัน
กราฟ Dunning-Kruger ละเมิดหลักการนี้ด้วยการนำคะแนนสอบไปปะปนในทั้งสองแกน
Edward Nuhfer และเพื่อนร่วมงานตรวจสอบว่าผลจะเปลี่ยนไปอย่างไร หากวัด “ทักษะ” ด้วยวิธีที่เป็นอิสระจากผลการสอบหรือการประเมินตนเอง
ในการวิเคราะห์ของ Nuhfer แกนนอนเป็น ระดับการศึกษา และแกนตั้งเป็นความคลาดเคลื่อนของการประเมินตนเอง
- จุดแต่ละจุดแทนบุคคล
- ความคลาดเคลื่อนเฉลี่ยของการประเมินตนเองแสดงด้วยบับเบิลสีเขียว
หากผลดันนิง-ครูเกอร์มีอยู่จริง เมื่อระดับการศึกษาสูงขึ้น ควรเห็นแนวโน้มลดลงที่ความคลาดเคลื่อนของการประเมินตนเองลดลง
แต่ผลลัพธ์ดังกล่าวไม่เห็นแนวโน้มแบบนั้น และความคลาดเคลื่อนเฉลี่ยของการประเมินตนเองยังคงอยู่ใกล้ 0
อย่างไรก็ตาม เมื่อระดับการศึกษาสูงขึ้น ความแปรปรวน ของความคลาดเคลื่อนในการประเมินตนเองมีแนวโน้มลดลง
- อาจารย์มีแนวโน้มประเมินความสามารถของตนเองได้แม่นยำกว่านักศึกษาใหม่
- นี่เป็นปรากฏการณ์คนละอย่างกับผลดันนิง-ครูเกอร์ ซึ่งกล่าวถึงอคติความมั่นใจเกินจริงโดยเฉลี่ย

อคติที่การแปลงเป็นเปอร์เซ็นไทล์เพิ่มเข้ามา

การแปลงเป็นเปอร์เซ็นไทล์สร้างอคติอีกอย่างหนึ่ง นอกเหนือจาก autocorrelation
เปอร์เซ็นไทล์มีพื้นและเพดานคือ 0 และ 100
- คนที่อยู่ใกล้พื้นจะประเมินอันดับของตนให้ต่ำกว่านั้นได้ยาก
- คนที่อยู่ใกล้เพดานจะประเมินอันดับของตนให้สูงกว่านั้นได้ยาก
โครงสร้างนี้ทำให้ผู้มีผลงานต่ำดูเหมือนมั่นใจเกินจริง และผู้มีผลงานสูงดูเหมือนถ่อมตัวได้ง่าย
นอกจากนี้ เส้นที่เปรียบเทียบเปอร์เซ็นไทล์ของคะแนนสอบกับควอร์ไทล์ของคะแนนสอบให้ข้อมูลเพิ่มเติมเกี่ยวกับคะแนนสอบจริงน้อยมาก เพราะตามนิยามแล้วแต่ละควอร์ไทล์ครอบคลุมเปอร์เซ็นไทล์ 25 ค่า

เหตุใดคำวิจารณ์จึงไม่แพร่หลาย

บทความต้นฉบับของ Dunning และ Kruger ตีพิมพ์ในปี 1999
ข้อบกพร่องในการวิเคราะห์นี้ถูกสรุปว่าเข้าใจได้อย่างเพียงพอก็ต่อเมื่อถึงปี 2016
บทความวิจารณ์ของ Edward Nuhfer และเพื่อนร่วมงานออกมาในปี 2016 และ 2017 และ Gilles Gignac กับ Marcin Zajenkowski ก็เผยแพร่คำวิจารณ์ที่คล้ายกันในปี 2020
ตาม Google Scholar บทความวิจารณ์ทั้งสามมียอดอ้างอิงรวม 88 ครั้ง ขณะที่บทความปี 1999 ของ Dunning และ Kruger ถูกอ้างอิง 7,893 ครั้ง
คำโต้แย้งต่อการวิเคราะห์ที่ผิดพลาดมักเป็นที่รู้จักน้อยกว่าบทความต้นฉบับ และมักตีพิมพ์ในที่ที่โดดเด่นน้อยกว่าวารสารที่บทความต้นฉบับตีพิมพ์
กราฟดันนิง-ครูเกอร์อันโด่งดังจึงใกล้เคียงกับกรณีตัวอย่างของ ข้อผิดพลาดในการวิเคราะห์ที่ตีความ autocorrelation เป็นผลทางจิตวิทยา มากกว่าเรื่อง “คนที่ไม่ชำนาญและไม่รู้ตัว”

1 ความคิดเห็น

GN⁺ 2023-11-26

ความคิดเห็นจาก Hacker News

การตีความนี้เข้าใจได้ยาก และข้อโต้แย้งนี้อธิบายได้ดีกว่า: https://andersource.dev/2022/04/19/dk-autocorrelation.html
ประเด็นหลักคือ การตีความแบบสหสัมพันธ์อัตโนมัตินี้แสดงให้เห็นว่า “ถ้าผลงานและการประเมินผลงานเป็นแบบสุ่มและเป็นอิสระต่อกัน ก็จะได้รูปกราฟคล้าย D-K” แล้วจึงบอกว่าเอฟเฟกต์นี้เป็นเพียงสหสัมพันธ์อัตโนมัติ
แต่ในความเป็นจริง การคาดว่า ผลงานและการประเมินตนเอง จะเป็นอิสระต่อกันต่างหากที่แปลกกว่า เราคาดกันว่าคนเราน่าจะประเมินความสามารถของตนเองได้ถูกต้องในระดับหนึ่ง และ D-K เองก็แสดงความสัมพันธ์ระหว่างสองสิ่งนี้ เพียงแต่ความสัมพันธ์นั้นไม่แรงเท่าที่คาดไว้ ผลลัพธ์ที่น่าสนใจคือ อคติที่สม่ำเสมอ ส่วนสมมติฐานเรื่องสาเหตุยังถกเถียงกันได้ แต่ไม่ควรมองข้ามข้อเท็จจริงที่ว่าเราไม่ได้คาดว่าตัวแปรเหล่านี้จะเป็นอิสระต่อกัน
- หากมองว่าขนาดตัวอย่างเพียงพอในเชิงสถิติ งานวิจัยต้นฉบับแสดงให้เห็นสองอย่างอย่างชัดเจน
  โดยเฉลี่ยแล้ว ผู้คนประเมินความสามารถของตนเองไว้ราว เปอร์เซ็นไทล์ที่ 65 ตามผลลัพธ์จริง ไม่ใช่เปอร์เซ็นไทล์ที่ 50 ของการจำลองแบบสุ่ม และการประเมินตนเองเพิ่มขึ้นตามความสามารถจริง แต่เพิ่มขึ้นเพียงเล็กน้อยจนน่าประหลาดใจ การอภิปรายเรื่อง “สหสัมพันธ์อัตโนมัติ” ของผู้เขียนเป็นการเบี่ยงประเด็นที่ไม่เกี่ยวกับแก่นสาร และผลลัพธ์ที่สร้างแบบสุ่มก็ไม่ตรงกับผลของงานวิจัยต้นฉบับ แน่นอนว่าความแข็งแรงของการทำซ้ำผลได้เป็นอีกเรื่องหนึ่ง แต่รูปแบบการแสดงภาพเองไม่ได้มีปัญหา และถ้ามีแท่งแสดงความแปรปรวนก็น่าจะดีกว่า
- ความแตกต่างระหว่าง เอฟเฟกต์ D-K ในรูปแบบดั้งเดิม กับเอฟเฟกต์ D-K ในวัฒนธรรมสมัยนิยม น่าจะเป็นตัวอย่าง D-K แบบเรียลไทม์ที่ใหญ่ที่สุดแล้ว
  สิ่งที่น่าสนใจในผลลัพธ์ดั้งเดิมคือ ความสัมพันธ์ระหว่างผลงานจริงกับผลงานที่รับรู้ได้นั้นต่ำกว่าที่สัญชาตญาณบอก แต่เมื่อเอฟเฟกต์ D-K ในวัฒนธรรมสมัยนิยมแพร่หลาย สัญชาตญาณร่วมของผู้คนก็เปลี่ยนไปด้วย ตอนนี้ถ้าอธิบายเอฟเฟกต์ D-K ดั้งเดิมให้ใครสักคนบนอินเทอร์เน็ตฟัง เขาอาจรู้สึกน่าสนใจว่า “ความสัมพันธ์สูงกว่าที่คิด” เพราะเขาน่าจะเคยคิดว่าความสัมพันธ์ควรเป็นค่าลบ
- ใช่ ดังนั้นสรุปคือ ถ้าข้อมูลเป็นแบบสุ่มจริง ๆ และไม่มีความสัมพันธ์กัน เส้นควรจะแบนอยู่ตรงกลาง ทำให้ควอไทล์ที่ 1 เป็น 50% และควอไทล์ที่ 4 ก็เป็น 50%
  ถ้าข้อมูลถูกต้องและแม่นยำ 100% [1] เส้นควรเป็นเส้นทแยงมุม ทำให้ควอไทล์ที่ 1 อยู่ราว 12.5% และควอไทล์ที่ 4 อยู่ราว 87.5% ถ้าข้อมูลถูกต้องแต่ไม่แม่นยำ เมื่อความสุ่มมากขึ้น เส้นทแยงนั้นควรค่อย ๆ กลายเป็นเส้นแบนตรงกลางและตัดกันที่ 50% แต่สิ่งที่เห็นจริง ๆ ไม่ใช่ทั้งสองแบบนั้น ควอไทล์ที่ 1 อยู่ประมาณ 60% และควอไทล์ที่ 4 อยู่ 75% นี่แสดงให้เห็นว่ามีความสามารถในการประเมินตนเองอยู่บ้าง แต่มีความเอนเอียง ควอไทล์บนอาจดูเหมือนประเมินต่ำเกินไปเพราะเอฟเฟกต์การถูกตัดที่ด้านบน แต่ การประเมินสูงเกินไปของควอไทล์ล่าง นั้นหลีกเลี่ยงได้ยาก
  [1] https://en.wikipedia.org/wiki/Accuracy_and_precision
- ผู้เขียนกำลังตั้งข้อสรุปไว้ก่อน แล้วจึงตัดสินใจว่าจะวิเคราะห์ข้อมูลอย่างไร
  ในด้านหนึ่งบอกว่า “การสมมติว่าผู้คนสามารถประเมินผลงานของตนเองได้นั้นสมเหตุสมผลกว่ามาก” แต่อีกด้านหนึ่งกลับบอกว่า “ไม่ได้คัดค้านข้ออ้างที่ว่า ยิ่งมีทักษะสูงก็ยิ่งประเมินผลงานของตนเองได้ดีขึ้น” แบบนี้ก็รักษาความน่าเชื่อถือได้ยาก เท่ากับปฏิบัติต่อตัวแปรหลักเหมือนเป็นสิ่งคงที่ แล้วกลับมายอมรับว่าตัวแปรนั้นเปลี่ยนแปลงภายในชุดข้อมูลเดียวกัน จึงขาด ความสอดคล้องในตัวเอง
- ในบทความ D-K ต้นฉบับ [1] ผมเห็นสองจุดที่น่าสนใจซึ่งทำให้ข้อโต้แย้งที่สมเหตุสมผลนี้สั่นคลอน
  กราฟเชิงเส้นที่เรียบสวยซึ่งทุกคนเชื่อมโยงกับ D-K เป็นเพียงหนึ่งในสี่กราฟเท่านั้น อีกสามกราฟที่เหลือยุ่งเหยิงกว่ามาก และบทความก็พูดถึงกรณีที่ความสัมพันธ์อ่อนหรือแทบไม่มีเลยด้วย ยิ่งไปกว่านั้น กราฟที่ดูสมบูรณ์แบบนั้นเป็นการวัด อารมณ์ขัน ซึ่งอารมณ์ขันมีแนวโน้มสูงที่จะทำให้เกิดสัญญาณรบกวนแทบสมบูรณ์ระหว่างการประเมินตนเองกับการประเมินโดยผู้เชี่ยวชาญ ซึ่งในที่นี้คือการประเมินโดยนักแสดงตลกมืออาชีพ หากทุกคนแทบจะเดาผลงานของตนเองแบบสุ่มจริง ๆ รูปทรง D-K ที่แรง ซึ่งคนเก่งประเมินต่ำเกินไปและคนอ่อนประเมินสูงเกินไป ก็จะเกิดขึ้นเสมอ การทดลองที่พยายามวัดสติปัญญาอย่างเรียบง่ายและตรงที่สุดคือการทดลองที่ 2 ซึ่งอิงจากโจทย์ตรรกะของ LSAT แต่กราฟผลลัพธ์กลับขึ้น ๆ ลง ๆ มาก บทความยังเขียนว่า “ผู้เข้าร่วมไม่ได้ประเมินจำนวนข้อที่ตอบถูกสูงเกินไป และการรับรู้ความสามารถมีความสัมพันธ์เชิงบวกกับความสามารถจริง แต่ไม่มีนัยสำคัญ” นี่ดูเหมือน Zimbardo อีกกรณีหนึ่ง
  [1] - https://sci-hub.se/10.1037/0022-3514.77.6.1121
ผู้เขียนทำ “X - Y เทียบกับ X” แต่ปัญหาที่ใหญ่กว่าคือการนำค่าการวัดสองค่าที่ถูกแปลงให้อยู่ระหว่าง 0 ถึง 1 และมีขอบเขต มาลบกัน
ที่ปลายสุดของขอบเขต ผู้ทำคะแนนสูงจะประเมินผลงานตนเองสูงเกินจริงได้มากแค่ไหน? ในเมื่อค่าเกือบเป็น 1 อยู่แล้ว ก็ทำได้ไม่มาก แม้ในค่าดิบ การประเมินสูงเกินจริงและต่ำเกินจริงจะเกิดขึ้นด้วยความถี่และขนาดเท่ากัน แต่เพราะ ceiling effect ของค่าที่แปลงแล้ว กราฟจะดูเหมือนว่าผู้ทำคะแนนสูงประเมินตนเองต่ำเกินจริงบ่อยกว่า ส่วนผู้ทำคะแนนต่ำสุดก็จะเจอปัญหาตรงกันข้าม ดูรูป 7, 8, 9 ใน “Random Number Simulations Reveal How Random Noise Affects the Measurements and Graphical Portrayals of Self-Assessed Competency.” Numeracy 9, Iss. 1 (2016) ได้
- คิดแบบนั้นพอดีเลย แม้จะไม่ใช่แค่การถดถอยสู่ค่าเฉลี่ย ก็ดูยากที่จะได้ผลลัพธ์อื่นนอกจาก เอฟเฟกต์ D-K
  กลุ่มควอร์ไทล์ล่างสุดบอกไม่ได้ว่าตนเองต่ำกว่าควอร์ไทล์ล่างสุด ดังนั้นความคลาดเคลื่อนใด ๆ ก็จะถูกนับเป็น “ความมั่นใจเกินจริง” ส่วนกลุ่มควอร์ไทล์บนสุดบอกไม่ได้ว่าตนเองสูงกว่าควอร์ไทล์บนสุด ดังนั้นความคลาดเคลื่อนใด ๆ ก็จะถูกนับเป็น “ความมั่นใจต่ำเกินไป”
- ถ้าคนทุกระดับทักษะวัดความสามารถของตัวเองได้ค่อนข้างดี เส้นโค้งสองเส้นก็ควรซ้อนกันโดยประมาณ แต่ในความเป็นจริงกราฟที่แสดงกลับออกมาเป็นแบบนั้น
  ข้อเท็จจริงที่ว่า noise แบบสุ่มสามารถสร้างเส้นค่าเฉลี่ยบนแกน Y ได้ ไม่ได้แปลว่า D-K ไม่มีอยู่ เพียงแต่ค่าเฉลี่ยของการวิเคราะห์ตนเองใน D-K มีหน้าตาคล้ายค่าเฉลี่ยสุ่มระดับกลาง ๆ และถ้าคิดดูแล้วก็สมเหตุสมผล คนส่วนใหญ่น่าจะประเมินตัวเองว่าอยู่ระดับเฉลี่ยโดยไม่ขึ้นกับฝีมือจริง ดังนั้น D-K ยังดูสมเหตุสมผล อยู่
- ถ้าตัดส่วนปลายสุดออกไปก็จัดการได้ระดับหนึ่ง แม้ในกราฟของบทความที่ลิงก์มา แค่ดูเฉพาะ ควอร์ไทล์กลาง ๆ ก็เห็นแนวโน้มเดียวกัน
- log-normality อาจเป็นเรื่องร้ายแรงต่อระเบียบวิธีของนักสังคมศาสตร์
  ถ้าจะสมมติกลไกเบื้องหลัง ความสามารถดิบของผู้เข้าทดสอบอาจมีการกระจายแบบ log-normal เพราะการเข้าร่วมการทดสอบเองมีเพดานล่างของ IQ โดยนัย และยังมีหางยาวของพื้นที่ผลงานสูงอย่างกีฬาอยู่ด้วย การทดสอบพยายามวัดผลงาน แต่ลดรูปมันให้เป็นการกระจายปกติหรือ 4 หมวดหมู่ ส่วนผู้คนก็ประเมินความสามารถของตนจากประสบการณ์ในการทำโจทย์และการให้คะแนน ซึ่งก็ถูกย่อให้เหลือการกระจายปกติหรือการกระจายค่าคงที่อีกที เท่ากับว่าการลดมิติเกิดขึ้นทั้งโดยนัยและโดยชัดเจนถึงสามจุด จึงไม่ค่อยอิจฉานักวิจัยที่ต้องปอกหัวหอมลูกนี้เท่าไร แต่ถึงอย่างนั้น การได้เห็นปัญหาแบบนี้ค่อย ๆ คลี่คลายออกมาในงานทดลองที่ออกแบบให้เข้าถึงได้ ก็ทำให้เข้าใจดีขึ้น
- ความมีขอบเขต ของข้อมูลก็เป็นข้อโต้แย้งสำคัญตรงนี้เช่นกัน: https://www.frontiersin.org/articles/10.3389/fpsyg.2022.8401...
การถกเถียงระหว่าง Nicolas Boneel กับผู้เขียนในคอมเมนต์ของบทความน่าสนใจ และ Nicolas ก็ถ่ายทอดข้อสงสัยที่ผมมีระหว่างอ่านได้ดี
แก่นของเอฟเฟกต์ D-K คือผู้คนประเมินฝีมือตนเองได้ไม่เก่ง ดังนั้นถ้าสมมติว่าพวกเขาประเมินระดับฝีมือแบบสุ่ม ผลลัพธ์ก็ย่อมถูกสร้างซ้ำได้อยู่แล้ว โมเดลที่ถูกต้องสำหรับโลกที่ไม่มี D-K ควรเป็นประมาณว่า คะแนนสอบที่ประเมิน = คะแนนสอบจริง + noise และ D-K ปลอมที่คาดได้ในกรณีนั้นควรเกิดเพียงเท่าที่มาจากขอบเขตคะแนนต่ำสุด–สูงสุด เอฟเฟกต์นี้น่าจะเป็นสัดส่วนกับความแปรปรวนของ noise แต่ความแปรปรวนของชุดข้อมูลเพิ่มเติมดูต่ำเกินกว่าจะอธิบายเอฟเฟกต์ที่สังเกตได้อย่างเพียงพอ อีกทั้งในโมเดลนี้ โดยเฉลี่ยแล้วทุกคนควรทายได้ว่าตนเองอยู่ครึ่งใดของการกระจาย แต่แม้แต่ควอร์ไทล์ล่างสุดก็ดูเหมือนจะประเมินความสามารถของตนไว้ที่เปอร์เซ็นไทล์ที่ 50 ขึ้นไป
- โมเดลที่ถูกต้องน่าจะเป็น คะแนนสอบที่ประเมิน + noise ในการประเมิน = คะแนนสอบจริง + noise ของการสอบ
  ในการสอบมีองค์ประกอบสุ่มอย่างการเดา และมนุษย์ประเมินสิ่งนี้ไม่ได้
  https://en.m.wikipedia.org/wiki/Regression_dilution
  https://en.m.wikipedia.org/wiki/Errors-in-variables_models
- แค่ข้อมูลดูเหมือนสุ่มไม่ได้แปลว่าเราค้นพบสาเหตุแล้ว
  กราฟเหล่านั้นอาจสะท้อนทักษะโดยรวมที่ต่ำ หรืออาจมี โครงสร้างที่ละเอียดอ่อนกว่า เช่น ช่วงล่างขาดความสามารถในการประเมิน ช่วงกลางดีขึ้น และช่วงบนเป็นส่วนผสมของทักษะสูงกับความถ่อมตัวที่เรียนรู้มา
- ขึ้นอยู่กับ noise ที่ใส่เข้าไป ถ้าทุกคนมี noise ตั้งแต่ -10% ถึง +100% กราฟจะออกมาคล้ายกับที่ Dunning-Kruger ได้โดยประมาณ
  ดังนั้นจึงไม่มีเหตุผลให้เชื่อว่าผู้มีฝีมือสูงสุดประเมินความสามารถตัวเองได้ดีกว่า เพียงแต่มีข้อจำกัดว่าพวกเขาประเมินอันดับของตนให้สูงกว่าระดับสูงสุดไม่ได้เท่านั้น
ระวังคำศัพท์ที่ไม่เป็นมาตรฐาน: ผู้เขียนใช้คำว่า autocorrelation ในแบบที่ผมไม่เคยเห็นมาก่อน
โดยปกติ autocorrelation หมายถึงสหสัมพันธ์ที่อนุกรมเวลามีกับตัวมันเองเมื่อเลื่อนไปตามเวลาในระดับหนึ่ง การใช้แบบต้นฉบับจะทำให้คนที่รู้สถิติสับสน และกลับกันก็เช่นกัน
- ถ้าพูดแบบใจดี นี่คือคำศัพท์ที่ไม่เป็นมาตรฐาน และถ้าพูดให้แม่นยำกว่านั้นคือทำลายแก่นของ autocorrelation เพราะไม่ได้ระบุให้ชัดว่ามันเป็น ความสัมพันธ์เชิงเวลา
  บทความบอกว่า “autocorrelation เกิดขึ้นเมื่อคุณนำตัวแปรไปหาสหสัมพันธ์กับตัวมันเอง” แต่คำนิยามมาตรฐานใกล้เคียงกับ “ระดับสหสัมพันธ์ของตัวแปรเดียวกันระหว่างช่วงเวลาต่อเนื่องสองช่วง” มากกว่า เป็นแนวคิดที่วัดว่าค่าที่หน่วงเวลาในอนุกรมเวลาสัมพันธ์กับค่าเดิมอย่างไร และเรียกอีกอย่างว่า serial correlation
- ที่ที่เจอ autocorrelation บ่อยที่สุดคืออนุกรมเวลา แต่แม้ในบริบทนั้น คำพูดของผู้เขียนก็ไม่ได้ผิดทั้งหมด
  autocorrelation ของอนุกรมเวลาคือการเชื่อมโยงฟังก์ชันอนุกรมเวลาเดียวกัน ณ เวลาต่างกัน ในแบบที่ง่ายที่สุด เราสามารถนำอาร์เรย์ X ที่มี X[i] = f(t[i]) มาเปรียบเทียบกับ X แล้วพล็อตได้ และยังทำให้ซับซ้อนขึ้นเป็นการแปลงอย่างค่าเฉลี่ยเคลื่อนที่ g(X) เทียบกับ X ได้ด้วย
- สงสัยว่าคำไหนจึงจะเหมาะสมในการอธิบายสิ่งที่ผู้เขียนหมายถึง
หากลองคิดถึงโลกสมมติที่ผู้เขียนบรรยายไว้ ซึ่งการคาดเดาคะแนนของผู้คนเป็นอิสระจากคะแนนจริง ในโลกนั้นเราจะพูดได้ไหมว่า เอฟเฟกต์ D-K มีอยู่จริง
แก่นของเอฟเฟกต์นี้คือแนวโน้มที่คนได้คะแนนต่ำประเมินคะแนนตัวเองสูงเกินไป และคนได้คะแนนสูงประเมินตัวเองต่ำเกินไป อาจมีเหตุผลที่สมเหตุสมผลได้หลายอย่างที่ทำให้เกิดเรื่องแบบนั้น รวมถึงกรณีที่ไม่มีใครพอจะกะคะแนนตัวเองได้ดีเลยเหมือนตัวอย่างของเล่นของผู้เขียน แต่ปรากฏการณ์เองก็ดูเหมือนจะถูกต้อง
- นั่นแหละคือประเด็นหลัก
  ตัวอย่างคะแนนสุ่มของผู้เขียนไม่ดี เพราะสมเหตุสมผลที่จะคาดว่าผู้คนจะทำตัวต่างจากคะแนนสุ่มแบบสม่ำเสมอ คนที่ทำอะไรได้ดีจะประเมินว่าตัวเองทำได้ดี และคนที่ทำไม่ได้ดีก็จะประเมินว่าตัวเองทำไม่ได้ดี ลูก ๆ ของเราชอบคณิตศาสตร์และคาดว่าจะทำข้อสอบคณิตได้ดี ซึ่งโดยทั่วไปก็ทำได้ดีจริง ๆ ในบรรดาเพื่อนร่วมชั้น มีเด็กบางคนที่พูดเสียงดังว่าเกลียดคณิตศาสตร์ คาดว่าจะทำได้ไม่ดี และจริง ๆ ก็ทำได้ไม่ค่อยดีในระดับหนึ่ง ผมเองทำอาหารไม่เป็น ดังนั้นถ้าไปแข่งทำอาหารก็ไม่สงสัยเลยว่าจะได้คะแนนจากกรรมการน้อย ข้อมูลที่คาดหวังคือ มีความสัมพันธ์กัน แต่ถ้าในงานวิจัยพบว่าความสัมพันธ์นั้นแทบไม่มีเลย และคนจำนวนมากที่คาดว่าตัวเองจะทำได้ดีกลับทำได้ไม่ดี ส่วนคนจำนวนมากที่คาดว่าตัวเองจะทำได้ไม่ดีกลับทำได้ดี กล่าวคือดูเหมือนข้อมูลสุ่มแบบสม่ำเสมอ นั่นคือผลลัพธ์ที่น่าประหลาดใจ และผมคิดว่าน่าจะเป็นเอฟเฟกต์ D-K ผมไม่ใช่นักสถิติ จึงอาจพลาดอะไรไปก็ได้
- แม้จะเป็นภาพลวงทางสถิติ ความสัมพันธ์นั้นเองก็จริง แต่ถ้าอย่างนั้นนักจิตวิทยาก็ไม่มีเหตุผลให้ศึกษาแล้ว
  เราอาจทอยลูกเต๋าหนึ่งลูก แล้วทอยลูกเต๋าลูกที่สอง จากนั้นศึกษาว่าทำไมลูกเต๋าลูกที่สองจึงพยายามทำให้ผลรวมกับลูกแรกเป็น 7 ก็ได้ ถ้าเป็นลูกเต๋าก็คงปัดทิ้งว่าเป็นความคิดโง่ ๆ แต่ถ้าเป้าหมายเป็นมนุษย์ เราอาจถูก ทฤษฎีทางจิตวิทยา เกี่ยวกับพวกเขาชักนำให้เข้าใจผิดได้ง่าย
นิยามของอัตสหสัมพันธ์ในบทความคือ “เกิดขึ้นเมื่อทำให้ตัวแปรมีความสัมพันธ์กับตัวมันเอง” แต่นิยามของ Wikipedia คือ “ในเวลาไม่ต่อเนื่อง เรียกอีกอย่างว่า serial correlation คือการทำให้สัญญาณมีความสัมพันธ์กับสำเนาของตัวมันเองที่หน่วงเวลาไว้ โดยเป็นฟังก์ชันของค่าหน่วงเวลา”
แน่นอนว่าการหน่วงเวลา 0 เป็นกรณีที่ชัดแจ้งของการหน่วงเวลา แต่ถ้าพูดให้ดีที่สุด นิยามในบทความก็ยังไม่แม่นยำ D-K ไม่เกี่ยวอะไรกับการหน่วงเวลา และการเรียกสิ่งนี้ว่า อัตสหสัมพันธ์ ดูเหมือนเป็นการเล่นคำที่ไม่ค่อยได้ผล
- หากพูดอย่างเป็นธรรม ในภูมิสถิติก็มี อัตสหสัมพันธ์เชิงพื้นที่ ด้วย ดังนั้นคำว่าอัตสหสัมพันธ์ไม่ได้หมายความเสมอไปว่ามิติของการเปลี่ยนแปลงต้องเป็นเวลา
ดูเหมือนที่นี่จะสับสนว่า “อคติ” หมายถึงอะไร
หากผู้คนประเมินตัวเองแบบสุ่ม ผู้ทำผลงานระดับบนทั้งหมดก็จะประเมินตัวเองต่ำเกินไป แต่เนื่องจากการเลือกนั้นเป็นแบบสุ่ม จึงไม่ใช่อคติไปทางการประเมินต่ำเกินไป อย่างไรก็ดี แผนภูมิ D-K แสดงอคติอีกแบบหนึ่ง และโดยรวมสอดคล้องกับที่คาดไว้ คนที่ไม่มีความรู้จะสมมติว่าตัวเองมีฝีมือระดับเฉลี่ยและทำให้ตำแหน่งของตัวเองดูสูงขึ้น ส่วนคนที่เก่งมากจะคิดว่าคนอื่นก็รู้พอ ๆ กับตัวเอง จึงไม่อยากประเมินตัวเองว่าอยู่ระดับสูงสุด สมมติฐานร่วมของทั้งสองกลุ่มคือ ตัวเองเป็นคนธรรมดา และคนอื่น ๆ ก็คล้ายกัน คนส่วนใหญ่น่าจะคิดว่าตัวเองอยู่ระดับเฉลี่ย และสามารถตรวจสอบได้ง่ายโดยให้ประเมินว่าคนระดับเฉลี่ยจะทำข้อสอบได้ดีแค่ไหน แล้วเปรียบเทียบกับคะแนนของแต่ละคน แทบจะแน่นอนว่าผู้ทำผลงานระดับบนจะประเมินค่าเฉลี่ยสูงเกินไป และผู้ทำผลงานระดับล่างจะประเมินค่าเฉลี่ยต่ำเกินไป
หากมีความสัมพันธ์เชิงเส้นระหว่างคะแนนสอบ X หรือก็คือความสามารถ กับการประเมินตนเอง Y หรือก็คือการรับรู้ตนเอง ตัวแปรสุ่มจะถูกจำลองเป็น Y ~ aX + b + N
โดยที่ N คือสัญญาณรบกวนที่เป็นอิสระทางสถิติและมีค่าเฉลี่ย 0 ดังนั้นความแปรปรวนร่วมจะเป็น Cov(Y-X, X) = (a-1) Var[X] และหากต้องการได้ “เอฟเฟกต์ D-K” ก็ต้องมี (a-1) < 0 กล่าวคือ a < 1 ถ้า a=0 เหมือนในบทความบล็อกก็เป็นจริงแน่นอน และในกรณีอุดมคติคือ a=1, b=0 ก็แค่ไม่เกิดขึ้นเท่านั้น ถ้า a > 1 ก็จะเกิดเอฟเฟกต์ใหม่ทั้งหมดเกี่ยวกับผู้เชี่ยวชาญที่หยิ่งผยอง ดังนั้นจาก มุมมองอัตสหสัมพันธ์ นี้ สิ่งสำคัญมีเพียงว่าการประเมินตนเองของแต่ละคนเพิ่มขึ้นเร็วแค่ไหนตามความสามารถที่เพิ่มขึ้น ตราบใดที่ประเมินการเพิ่มขึ้นต่ำเกินไป เอฟเฟกต์ D-K ก็จะเกิดขึ้น แต่การวิเคราะห์นี้ละเลย b ถ้า a=0.8, b=0 แม้จะสอดคล้องกับมุมมองอัตสหสัมพันธ์ แต่ทุกคนจะประเมินความสามารถของตัวเองต่ำเกินไป ดังนั้นสิ่งที่เรียกว่าเอฟเฟกต์ D-K จะไม่ปรากฏ สุดท้าย b หรือค่าความสามารถตั้งต้นที่ทุกคนสมมติว่าตัวเองมีจึงสำคัญ สิ่งที่บทความ D-K แสดงคือ b > .5 ซึ่งสอดคล้องกับเจตนารมณ์ของการตีความแบบแพร่หลาย ไม่ควรสมมติว่าผู้คนมีความสามารถอย่างน้อยสูงกว่าค่าเฉลี่ย ในขณะเดียวกัน b ก็ไม่ได้สูงเกิน .5 อย่างไร้เหตุผล จึงอยากเผื่อพื้นที่ให้ “คนที่ไม่ชำนาญและไม่รู้ตัว” อยู่บ้าง การตั้งเส้นฐานไว้ที่ค่าเฉลี่ยเป็นสิ่งที่ทำไม่ได้จริง แต่โดยสัญชาตญาณแล้วรู้สึกสมเหตุสมผล
นั่นไม่ใช่อัตสหสัมพันธ์ ต้นฉบับกำลังถือว่า การพึ่งพาเชิงเส้น เป็นสิ่งเดียวกับอัตสหสัมพันธ์ แต่คำนี้ไม่ได้ใช้กันแบบนั้น
อัตสหสัมพันธ์หมายถึงเมื่อกระบวนการสุ่มมีความสัมพันธ์กับตัวมันเองที่ถูกหน่วงเวลา
ดูเหมือนหลายคนไม่ได้อ่านบทความต้นฉบับจนจบ ประเด็นสำคัญปรากฏเมื่ออ้างถึงบทความนี้: https://digitalcommons.usf.edu/cgi/viewcontent.cgi?article=1...
รูปที่ 2 ของบทความนี้แสดงผลการทดลองที่วัดทักษะและการรับรู้ทักษะของตนเองอย่างเป็นอิสระ เป็นการออกแบบเพื่อกำจัดสิ่งประดิษฐ์ทางสถิติที่เรียกว่าอัตสหสัมพันธ์ แต่โดยเฉลี่ยแล้ว ทักษะไม่มีความสัมพันธ์กับความแม่นยำในการประเมินตนเอง และไม่มีเอฟเฟกต์ D-K เลย สิ่งที่ปรากฏจริง ๆ มีเพียงว่าคนที่มีความสามารถมากกว่าจะประเมินทักษะของตัวเองได้สม่ำเสมอกว่า กล่าวคือความแปรผันของการประเมินต่ำกว่า แต่ความแม่นยำเฉลี่ยยังคงเป็น 0 ดังนั้นโดยเฉลี่ยแล้ว ทักษะจริงกับทักษะที่รับรู้จึงไม่มีความสัมพันธ์กัน และนี่ก็คือสิ่งที่การพิสูจน์เชิงตัวเลขที่ดูเหมือนตัวเลขสุ่มกำลังบอกอยู่ นั่นจึงทำให้ในหลายกรณีต้องใช้ มีดโกนของ Occam

ผลดันนิง-ครูเกอร์คือ autocorrelation

มองผลดันนิง-ครูเกอร์ใหม่ในเชิงสถิติ

โครงสร้างของกราฟดันนิง-ครูเกอร์ดั้งเดิม

autocorrelation ที่เกิดจากความต่างระหว่างสองเส้น

ข้อมูลสุ่มก็สร้างรูปแบบเดียวกันได้

การตรวจสอบทางเลือกของ Nuhfer และคณะ

อคติที่การแปลงเป็นเปอร์เซ็นไทล์เพิ่มเข้ามา

เหตุใดคำวิจารณ์จึงไม่แพร่หลาย

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News