6 คะแนน โดย GN⁺ 2024-09-30 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ประสิทธิภาพที่สูงเกินไปทำให้ทุกอย่างแย่ลง: overfitting และกฎของกูดฮาร์ตฉบับเข้มข้น

เมื่อประสิทธิภาพเพิ่มขึ้น ผลลัพธ์กลับอาจแย่ลงอย่างย้อนแย้ง เรื่องนี้เป็นจริงได้แทบทุกที่ เราจะเรียกปรากฏการณ์นี้ว่า กฎของกูดฮาร์ตฉบับเข้มข้น ตัวอย่างเช่น การติดตามผลสัมฤทธิ์ของนักเรียนแบบรวมศูนย์ผ่านการทดสอบมาตรฐานดูเหมือนเป็นความคิดที่ดี แต่สิ่งนี้อาจทำให้โรงเรียนมุ่งไปที่การเตรียมสอบ จนทำให้ผลลัพธ์ทางการศึกษาโดยรวมแย่ลง ตัวอย่างคล้ายกันนี้มีอยู่ในหลายสาขา เช่น การเมือง เศรษฐกิจ สุขภาพ และวิทยาศาสตร์

overfitting และกฎของกูดฮาร์ต

  • overfitting: ในแมชชีนเลิร์นนิง เราไม่สามารถเล็งตรงไปยังเป้าหมายได้โดยตรง จึงใช้ proxy ที่ใกล้เคียงเพื่อฝึกโมเดล ช่วงแรกเมื่อ proxy ดีขึ้น เป้าหมายก็มักดีขึ้นตามไปด้วย แต่หากยังคงทำ optimization ต่อไป แม้ proxy จะดีขึ้นเรื่อย ๆ เป้าหมายกลับไม่ดีขึ้นอีกแล้ว สิ่งนี้เรียกว่า overfitting
  • กฎของกูดฮาร์ต: เมื่อการวัดกลายเป็นเป้าหมาย มันก็จะไม่ใช่การวัดที่ดีอีกต่อไป เรื่องนี้ใช้ได้ไม่เฉพาะในเศรษฐศาสตร์ แต่ในอีกหลายสาขาด้วย

กฎของกูดฮาร์ตฉบับเข้มข้น: เมื่อมีประสิทธิภาพมากเกินไป สิ่งที่เราใส่ใจก็แย่ลง

  • หากทำ optimization กับเป้าหมายแบบ proxy ต่อไปเรื่อย ๆ เป้าหมายจริงอาจแย่ลงได้ นี่เป็นปรากฏการณ์ที่พบได้บ่อยมากในแมชชีนเลิร์นนิง
  • กฎของกูดฮาร์ตฉบับเข้มข้น: เมื่อการวัดกลายเป็นเป้าหมายและถูกทำ optimization อย่างมีประสิทธิภาพ สิ่งที่เราต้องการวัดกลับแย่ลง

การเพิ่มประสิทธิภาพและ overfitting มีอยู่ทุกที่

  • เมื่อประสิทธิภาพเพิ่มขึ้น มันอาจก่อให้เกิดผลลัพธ์ทั้งด้านบวกหรือด้านลบในระดับสังคมโดยรวม
  • ตัวอย่าง:
    • เป้าหมาย: ให้การศึกษาเด็กได้ดี
      • proxy: คะแนนสอบมาตรฐาน
      • ผลลัพธ์: มุ่งแต่การติวสอบจนคุณภาพการศึกษาจริงลดลง
    • เป้าหมาย: ให้วิทยาศาสตร์ก้าวหน้าอย่างรวดเร็ว
      • proxy: โบนัสตามจำนวนงานตีพิมพ์
      • ผลลัพธ์: งานวิจัยที่ไม่แม่นยำถูกตีพิมพ์มากขึ้น
    • เป้าหมาย: ประชากรมีสุขภาพดี
      • proxy: การเข้าถึงอาหารที่มีคุณค่าทางโภชนาการ
      • ผลลัพธ์: ปัญหาโรคอ้วน

วิธีบรรเทา overfitting และกฎของกูดฮาร์ตฉบับเข้มข้น

  • ทำให้เป้าหมายแบบ proxy สอดคล้องกับผลลัพธ์ที่ต้องการมากขึ้น: ในแมชชีนเลิร์นนิง จะมีการเก็บตัวอย่างฝึกที่คล้ายกับสถานการณ์ทดสอบมากขึ้น ส่วนในระบบสังคม จะปรับกฎหมาย แรงจูงใจ และบรรทัดฐานทางสังคมให้สอดคล้องกับเป้าหมายมากขึ้น
  • เพิ่ม regularization penalty: ในแมชชีนเลิร์นนิง จะพยายามรักษาขนาดของพารามิเตอร์ให้เล็กไว้ ส่วนในระบบสังคม จะลดความซับซ้อนหรือเพิ่มต้นทุนเพิ่มเติม
  • ใส่ noise เข้าไปในระบบ: ในแมชชีนเลิร์นนิง จะเพิ่ม noise แบบสุ่มให้กับอินพุต พารามิเตอร์ และสถานะภายใน ส่วนในระบบสังคม จะเพิ่มองค์ประกอบแบบสุ่มเพื่อลดความสามารถในการคาดการณ์
  • หยุดก่อนเวลา: ในแมชชีนเลิร์นนิง จะหยุดการฝึกเมื่อ validation loss เริ่มแย่ลง ส่วนในระบบสังคม อาจจำกัดเวลาการตัดสินใจหรือหยุดกิจกรรมในตลาด
  • จำกัดความสามารถ/ความจุ: ในแมชชีนเลิร์นนิง จะทำให้โมเดลเล็กลงเพื่อป้องกัน overfitting ส่วนในระบบสังคม จะจำกัดขีดความสามารถขององค์กรหรือเอเจนต์
  • เพิ่มความสามารถ/ความจุ: ในแมชชีนเลิร์นนิง จะทำให้โมเดลมีขนาดใหญ่มากเพื่อหลีกเลี่ยง overfitting ส่วนในระบบสังคม จะเพิ่มความสามารถอย่างมากเพื่อลด trade-off ระหว่างเป้าหมายกับ proxy

ข้อคิดส่งท้าย

กฎของกูดฮาร์ตฉบับเข้มข้นเป็นต้นตอพื้นฐานของความกลัวส่วนตัวที่มีต่อ AI เพราะ AI สามารถเพิ่มประสิทธิภาพได้ในแทบทุกงาน ยังมีโอกาสในการวิจัยอีกมากเพื่อแก้ปัญหานี้ หากระบบสังคมล่มสลายเพราะกฎของกูดฮาร์ตฉบับเข้มข้น ก็จะยิ่งยากที่จะลงมือทำสิ่งที่มีเหตุผลเพื่อแก้ไขมัน การตั้งชื่อปรากฏการณ์นี้และทำความเข้าใจมันให้ดีขึ้นน่าจะช่วยได้

สรุปโดย GN⁺

  • กฎของกูดฮาร์ตฉบับเข้มข้นอธิบายว่า เมื่อประสิทธิภาพเพิ่มขึ้น เป้าหมายอาจกลับแย่ลงได้
  • มันคล้ายกับปรากฏการณ์ overfitting ในแมชชีนเลิร์นนิง และสามารถนำไปใช้กับหลายสาขาได้
  • ปัญหานี้สามารถบรรเทาได้ด้วยวิธีอย่างการทำให้เป้าหมายแบบ proxy กับเป้าหมายจริงสอดคล้องกันมากขึ้น การเพิ่ม regularization penalty และการใส่ noise เข้าไปในระบบ
  • ประสิทธิภาพที่เพิ่มขึ้นจาก AI อาจก่อให้เกิดผลข้างเคียงหลายอย่าง และจำเป็นต้องมีงานวิจัยเพื่อแก้ปัญหาเหล่านี้
  • การเข้าใจและรับมือกับกฎของกูดฮาร์ตฉบับเข้มข้นเป็นสิ่งสำคัญเพื่อไม่ให้ระบบสังคมล่มสลาย

2 ความคิดเห็น

 
gguimoon 2024-10-02

ได้ยินมาว่าการสอบ CSAT ของเกาหลีได้เปลี่ยนจากจุดประสงค์เดิมในการวัดความสามารถทางคณิตศาสตร์ ไปเป็นระบบที่มุ่งเพิ่มประสิทธิภาพเพียงการกระจายคะแนนตัดระดับเท่านั้น นี่ดูจะเป็นตัวอย่างที่ไม่อาจหลีกหนีจากกฎของกูดฮาร์ตได้

 
GN⁺ 2024-09-30
ความคิดเห็นจาก Hacker News
  • Jascha เป็นนักวิจัย ML ที่โดดเด่น เคยทำงานที่ Google Brain และปัจจุบันอยู่ที่ Anthropic

    • มีชื่อเสียงจากงานวิจัยที่อธิบายการแพร่กระจายสัญญาณใน deep neural network ด้วยคณิตศาสตร์
    • ทำให้โมเดล transformer ที่ลึกมากลู่เข้าได้ผ่านแนวคิดอย่าง "dynamical isometry"
    • สัญชาตญาณด้านการปรับเหมาะของเขาครอบคลุมไปไกลกว่า ML จนถึงสังคมสมัยใหม่โดยรวม
    • ข้อความของเขาเป็นการเรียกร้องให้ลงมือทำอย่างมีมนุษยธรรมและเห็นอกเห็นใจ ซึ่งก้าวข้ามพื้นฐานทางเทคนิค
    • เสนอความเชื่อมโยงทางคณิตศาสตร์ระหว่างปัญหา overfitting กับสาขาอื่น เช่น เศรษฐศาสตร์ รัฐศาสตร์ และบริหารธุรกิจ
  • กฎของ Goodhart กล่าวไว้ว่า เมื่อการวัดกลายเป็นเป้าหมาย มันก็จะไม่ใช่การวัดที่ดีอีกต่อไป

    • ปัญหาไม่ได้อยู่แค่ที่การวัด แต่อยู่ที่พฤติกรรมมนุษย์ด้วย
    • มนุษย์พยายามเอาเปรียบระบบควบคุมที่ตั้งขึ้น
    • กฎของ Campbell อธิบายเรื่องนี้ได้ดีกว่า
    • มาตรการบรรเทาอย่าง regularization, early stopping เป็นต้น อาจเป็นเพียงทางอ้อมหรือก่อปัญหาใหม่ได้
  • ในสวีเดน เรื่องนี้กลายเป็นปัญหาสังคมตลอด 20 ปีที่ผ่านมา

    • ประสิทธิภาพด้านการแพทย์ถูกวัดจาก "งานที่เสร็จสิ้น" ของแพทย์ประจำตัว
    • ระบบถูกปรับให้เหมาะกับการจัดการเคสง่าย ๆ จนการติดต่อแบบเป็นส่วนตัวหายไป
    • ระบบรถไฟถูกแปรรูปเป็นเอกชนแล้ว แต่ยังทุกข์กับปัญหาความล่าช้า
  • ในสรีรวิทยาการออกกำลังกายก็มีหลักการคล้ายกัน

    • วิธีวิทยาการฝึกทั่วไปให้ตัวชี้วัดที่มีความหมายมากกว่า
    • นักกีฬาที่เชี่ยวชาญเฉพาะทางมีพัฒนาการด้านสมรรถนะที่ไม่ได้สะท้อนการพัฒนาความฟิตโดยรวม
    • ในกีฬามีอุปมาเรื่อง "ความฟิตพื้นฐาน" กับ "ความฟิตสูงสุด"
  • ในทฤษฎีคิวก็มีหลักการที่เกี่ยวข้อง

    • เมื่ออัตราการใช้งานเข้าใกล้ 100% เวลารอก็เพิ่มขึ้นแบบไร้ขีดจำกัด
    • จำเป็นต้องมีพื้นที่เผื่อ
  • ไม่ชอบการมุ่งเน้นที่ GDP

    • แบบสำรวจรายไตรมาสเกี่ยวกับความพึงพอใจในชีวิตและการมองโลกในแง่ดีเป็นตัวชี้วัดที่ดีกว่า
    • GDP สะท้อนกิจกรรมทางเศรษฐกิจ แต่ไม่สะท้อนคุณภาพชีวิต
  • พบตัวอย่างของกฎนี้ในร้านฮาร์ดแวร์ท้องถิ่น

    • การติดตั้งกรงกันขโมยทำให้ประสบการณ์ของลูกค้าแย่ลง
    • การตัดสินใจที่ขับเคลื่อนด้วยข้อมูลไม่ได้ให้ผลลัพธ์ที่ดีที่สุดเสมอไป
  • เคยมีประสบการณ์คล้ายกันเมื่อไปร้านอาหารเชน

    • ทุกอย่างถูกปรับให้เหมาะจนรู้สึกเป็นกลไกและประดิษฐ์เกินไป
    • จุดสนใจอยู่ที่การสร้างรายได้ ไม่ใช่ประสบการณ์ของลูกค้า
  • จำชื่อผู้เขียนได้แล้ว

    • เป็นผู้คิดค้นโมเดล generative diffusion รุ่นแรกในปี 2015
  • ผลกระทบนี้มีอยู่จริง แต่ตัวอย่างไม่แม่นยำ

    • การเน้นคะแนนการเรียนมากเกินไปไม่ใช่จุดมุ่งหมายของการศึกษา
    • โรคอ้วนไม่ได้เป็นผลจากการให้ความสำคัญกับอาหารที่มีคุณค่าทางโภชนาการสูง
    • ความเหลื่อมล้ำที่เพิ่มขึ้นไม่เกี่ยวกับการจัดสรรทรัพยากรตามความต้องการของสังคม
    • การขาดสิ่งกระตุ้นนำไปสู่การเสพติดทางประสาทสัมผัสหรือการพนัน
    • การขยายการศึกษาสาธารณะ การเก็บภาษีน้ำตาล และการกระจายความมั่งคั่งใหม่ เป็นทางออกที่ง่ายกว่า