ผลข้างเคียงของประสิทธิภาพที่มากเกินไป (2022)
(sohl-dickstein.github.io)ประสิทธิภาพที่สูงเกินไปทำให้ทุกอย่างแย่ลง: overfitting และกฎของกูดฮาร์ตฉบับเข้มข้น
เมื่อประสิทธิภาพเพิ่มขึ้น ผลลัพธ์กลับอาจแย่ลงอย่างย้อนแย้ง เรื่องนี้เป็นจริงได้แทบทุกที่ เราจะเรียกปรากฏการณ์นี้ว่า กฎของกูดฮาร์ตฉบับเข้มข้น ตัวอย่างเช่น การติดตามผลสัมฤทธิ์ของนักเรียนแบบรวมศูนย์ผ่านการทดสอบมาตรฐานดูเหมือนเป็นความคิดที่ดี แต่สิ่งนี้อาจทำให้โรงเรียนมุ่งไปที่การเตรียมสอบ จนทำให้ผลลัพธ์ทางการศึกษาโดยรวมแย่ลง ตัวอย่างคล้ายกันนี้มีอยู่ในหลายสาขา เช่น การเมือง เศรษฐกิจ สุขภาพ และวิทยาศาสตร์
overfitting และกฎของกูดฮาร์ต
- overfitting: ในแมชชีนเลิร์นนิง เราไม่สามารถเล็งตรงไปยังเป้าหมายได้โดยตรง จึงใช้ proxy ที่ใกล้เคียงเพื่อฝึกโมเดล ช่วงแรกเมื่อ proxy ดีขึ้น เป้าหมายก็มักดีขึ้นตามไปด้วย แต่หากยังคงทำ optimization ต่อไป แม้ proxy จะดีขึ้นเรื่อย ๆ เป้าหมายกลับไม่ดีขึ้นอีกแล้ว สิ่งนี้เรียกว่า overfitting
- กฎของกูดฮาร์ต: เมื่อการวัดกลายเป็นเป้าหมาย มันก็จะไม่ใช่การวัดที่ดีอีกต่อไป เรื่องนี้ใช้ได้ไม่เฉพาะในเศรษฐศาสตร์ แต่ในอีกหลายสาขาด้วย
กฎของกูดฮาร์ตฉบับเข้มข้น: เมื่อมีประสิทธิภาพมากเกินไป สิ่งที่เราใส่ใจก็แย่ลง
- หากทำ optimization กับเป้าหมายแบบ proxy ต่อไปเรื่อย ๆ เป้าหมายจริงอาจแย่ลงได้ นี่เป็นปรากฏการณ์ที่พบได้บ่อยมากในแมชชีนเลิร์นนิง
- กฎของกูดฮาร์ตฉบับเข้มข้น: เมื่อการวัดกลายเป็นเป้าหมายและถูกทำ optimization อย่างมีประสิทธิภาพ สิ่งที่เราต้องการวัดกลับแย่ลง
การเพิ่มประสิทธิภาพและ overfitting มีอยู่ทุกที่
- เมื่อประสิทธิภาพเพิ่มขึ้น มันอาจก่อให้เกิดผลลัพธ์ทั้งด้านบวกหรือด้านลบในระดับสังคมโดยรวม
- ตัวอย่าง:
- เป้าหมาย: ให้การศึกษาเด็กได้ดี
- proxy: คะแนนสอบมาตรฐาน
- ผลลัพธ์: มุ่งแต่การติวสอบจนคุณภาพการศึกษาจริงลดลง
- เป้าหมาย: ให้วิทยาศาสตร์ก้าวหน้าอย่างรวดเร็ว
- proxy: โบนัสตามจำนวนงานตีพิมพ์
- ผลลัพธ์: งานวิจัยที่ไม่แม่นยำถูกตีพิมพ์มากขึ้น
- เป้าหมาย: ประชากรมีสุขภาพดี
- proxy: การเข้าถึงอาหารที่มีคุณค่าทางโภชนาการ
- ผลลัพธ์: ปัญหาโรคอ้วน
- เป้าหมาย: ให้การศึกษาเด็กได้ดี
วิธีบรรเทา overfitting และกฎของกูดฮาร์ตฉบับเข้มข้น
- ทำให้เป้าหมายแบบ proxy สอดคล้องกับผลลัพธ์ที่ต้องการมากขึ้น: ในแมชชีนเลิร์นนิง จะมีการเก็บตัวอย่างฝึกที่คล้ายกับสถานการณ์ทดสอบมากขึ้น ส่วนในระบบสังคม จะปรับกฎหมาย แรงจูงใจ และบรรทัดฐานทางสังคมให้สอดคล้องกับเป้าหมายมากขึ้น
- เพิ่ม regularization penalty: ในแมชชีนเลิร์นนิง จะพยายามรักษาขนาดของพารามิเตอร์ให้เล็กไว้ ส่วนในระบบสังคม จะลดความซับซ้อนหรือเพิ่มต้นทุนเพิ่มเติม
- ใส่ noise เข้าไปในระบบ: ในแมชชีนเลิร์นนิง จะเพิ่ม noise แบบสุ่มให้กับอินพุต พารามิเตอร์ และสถานะภายใน ส่วนในระบบสังคม จะเพิ่มองค์ประกอบแบบสุ่มเพื่อลดความสามารถในการคาดการณ์
- หยุดก่อนเวลา: ในแมชชีนเลิร์นนิง จะหยุดการฝึกเมื่อ validation loss เริ่มแย่ลง ส่วนในระบบสังคม อาจจำกัดเวลาการตัดสินใจหรือหยุดกิจกรรมในตลาด
- จำกัดความสามารถ/ความจุ: ในแมชชีนเลิร์นนิง จะทำให้โมเดลเล็กลงเพื่อป้องกัน overfitting ส่วนในระบบสังคม จะจำกัดขีดความสามารถขององค์กรหรือเอเจนต์
- เพิ่มความสามารถ/ความจุ: ในแมชชีนเลิร์นนิง จะทำให้โมเดลมีขนาดใหญ่มากเพื่อหลีกเลี่ยง overfitting ส่วนในระบบสังคม จะเพิ่มความสามารถอย่างมากเพื่อลด trade-off ระหว่างเป้าหมายกับ proxy
ข้อคิดส่งท้าย
กฎของกูดฮาร์ตฉบับเข้มข้นเป็นต้นตอพื้นฐานของความกลัวส่วนตัวที่มีต่อ AI เพราะ AI สามารถเพิ่มประสิทธิภาพได้ในแทบทุกงาน ยังมีโอกาสในการวิจัยอีกมากเพื่อแก้ปัญหานี้ หากระบบสังคมล่มสลายเพราะกฎของกูดฮาร์ตฉบับเข้มข้น ก็จะยิ่งยากที่จะลงมือทำสิ่งที่มีเหตุผลเพื่อแก้ไขมัน การตั้งชื่อปรากฏการณ์นี้และทำความเข้าใจมันให้ดีขึ้นน่าจะช่วยได้
สรุปโดย GN⁺
- กฎของกูดฮาร์ตฉบับเข้มข้นอธิบายว่า เมื่อประสิทธิภาพเพิ่มขึ้น เป้าหมายอาจกลับแย่ลงได้
- มันคล้ายกับปรากฏการณ์ overfitting ในแมชชีนเลิร์นนิง และสามารถนำไปใช้กับหลายสาขาได้
- ปัญหานี้สามารถบรรเทาได้ด้วยวิธีอย่างการทำให้เป้าหมายแบบ proxy กับเป้าหมายจริงสอดคล้องกันมากขึ้น การเพิ่ม regularization penalty และการใส่ noise เข้าไปในระบบ
- ประสิทธิภาพที่เพิ่มขึ้นจาก AI อาจก่อให้เกิดผลข้างเคียงหลายอย่าง และจำเป็นต้องมีงานวิจัยเพื่อแก้ปัญหาเหล่านี้
- การเข้าใจและรับมือกับกฎของกูดฮาร์ตฉบับเข้มข้นเป็นสิ่งสำคัญเพื่อไม่ให้ระบบสังคมล่มสลาย
2 ความคิดเห็น
ได้ยินมาว่าการสอบ CSAT ของเกาหลีได้เปลี่ยนจากจุดประสงค์เดิมในการวัดความสามารถทางคณิตศาสตร์ ไปเป็นระบบที่มุ่งเพิ่มประสิทธิภาพเพียงการกระจายคะแนนตัดระดับเท่านั้น นี่ดูจะเป็นตัวอย่างที่ไม่อาจหลีกหนีจากกฎของกูดฮาร์ตได้
ความคิดเห็นจาก Hacker News
Jascha เป็นนักวิจัย ML ที่โดดเด่น เคยทำงานที่ Google Brain และปัจจุบันอยู่ที่ Anthropic
กฎของ Goodhart กล่าวไว้ว่า เมื่อการวัดกลายเป็นเป้าหมาย มันก็จะไม่ใช่การวัดที่ดีอีกต่อไป
ในสวีเดน เรื่องนี้กลายเป็นปัญหาสังคมตลอด 20 ปีที่ผ่านมา
ในสรีรวิทยาการออกกำลังกายก็มีหลักการคล้ายกัน
ในทฤษฎีคิวก็มีหลักการที่เกี่ยวข้อง
ไม่ชอบการมุ่งเน้นที่ GDP
พบตัวอย่างของกฎนี้ในร้านฮาร์ดแวร์ท้องถิ่น
เคยมีประสบการณ์คล้ายกันเมื่อไปร้านอาหารเชน
จำชื่อผู้เขียนได้แล้ว
ผลกระทบนี้มีอยู่จริง แต่ตัวอย่างไม่แม่นยำ