ผลข้างเคียงของประสิทธิภาพที่มากเกินไป (2022)

(sohl-dickstein.github.io)

6 คะแนน โดย GN⁺ 2024-09-30 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ประสิทธิภาพจะเพิ่มผลลัพธ์ได้ก็ต่อเมื่อเป้าหมายและตัวชี้วัดสอดคล้องกันดีเท่านั้น และหาก ปรับแต่งตัวชี้วัดตัวแทนมากเกินไป สิ่งที่เคยสำคัญจริง ๆ อาจแย่ลงได้
Overfitting ในแมชชีนเลิร์นนิงแสดงให้เห็นโครงสร้างนี้ได้ดี แม้ข้อมูลฝึกและฟังก์ชันเป้าหมายตัวแทนจะดีขึ้น แต่ประสิทธิภาพจริงอาจหยุดนิ่งหรือแย่ลงได้
กรณีอย่างข้อสอบมาตรฐาน โบนัสบทความวิชาการ การทำให้วงจรรางวัลสูงสุด การสนับสนุนจากสาธารณะ การแบ่งปันข้อมูล ทุนนิยม และ paperclip maximizer แสดงให้เห็นว่า ความไม่ตรงกันระหว่างเป้าหมายกับตัวชี้วัดตัวแทน เกิดซ้ำในระบบสังคมด้วย
แนวทางบรรเทาคือการจัดแนวเป้าหมายตัวแทน, regularization, การใส่ noise, early stopping, การจำกัดขีดความสามารถ และการขยายขีดความสามารถ โดยนำวิธีรับมือ overfitting ในแมชชีนเลิร์นนิงมาเทียบใช้กับระบบสังคม
หาก AI สามารถเพิ่มประสิทธิภาพของงานแทบทุกอย่างได้อย่างรวดเร็ว การปรับปรุงสถาบันในแบบที่ทำให้ไล่ตาม เป้าหมายที่จัดแนวผิด ได้ดีขึ้น อาจกลายเป็นเรื่องอันตราย

ประสิทธิภาพกับ Goodhart’s law เวอร์ชันเข้ม

ตรงข้ามกับสัญชาตญาณ การเพิ่มประสิทธิภาพอาจสร้างผลลัพธ์ที่แย่ลงได้ และปรากฏการณ์นี้เรียกว่า Goodhart’s law เวอร์ชันเข้ม
การติดตามความก้าวหน้าของนักเรียนด้วยข้อสอบมาตรฐานดูเหมือนเป็นการวัดแบบรวมศูนย์และมีประสิทธิภาพ แต่อาจทำให้โรงเรียนมุ่งสอนวิธีทำข้อสอบให้ดี มากกว่าทักษะที่เป็นประโยชน์ในวงกว้าง
Goodhart’s law คือกฎที่ว่า “เมื่อค่าที่วัดได้กลายเป็นเป้าหมาย มันก็จะไม่ใช่ค่าที่วัดได้ที่ดีอีกต่อไป”
- เดิมมาจากบริบทนโยบายการเงิน แต่สามารถนำไปใช้กับขอบเขตที่กว้างกว่านั้นได้
- ในแมชชีนเลิร์นนิง เรื่องนี้เชื่อมโยงกับสถานการณ์ที่ฟังก์ชันเป้าหมายตัวแทนที่ถูก optimize ไม่ได้เป็นตัววัดที่ดีของเป้าหมายที่เราสนใจจริง ๆ อีกต่อไป

ความเชื่อมโยงกับ overfitting ในแมชชีนเลิร์นนิง

ในแมชชีนเลิร์นนิง เราไม่สามารถ optimize เป้าหมายที่ต้องการโดยตรงได้ จึงใช้ ชุดข้อมูลตัวแทน และ ฟังก์ชันเป้าหมายตัวแทน
- ในตัวอย่างการจำแนกรูปภาพ เป้าหมายจริงคือความแม่นยำในการจำแนกบนชุดข้อมูลทดสอบ
- โมเดลไม่สามารถฝึกด้วยชุดข้อมูลทดสอบได้ จึงใช้ชุดข้อมูลฝึกแทน
- ความแม่นยำไม่สามารถหาอนุพันธ์ได้ จึงยากที่จะใช้เป็นเป้าหมายโดยตรงของการฝึกด้วย gradient descent แบบง่าย ๆ และโดยทั่วไปจะถูกแทนด้วยค่าตัวแทนที่หาอนุพันธ์ได้ เช่น softmax-cross-entropy loss
ในช่วงแรก เมื่อตัวชี้วัดตัวแทนดีขึ้น เป้าหมายจริงก็ดีขึ้นตามไปด้วย
เมื่อ optimize ต่อไป ความคล้ายคลึงที่ใช้ประโยชน์ได้ระหว่างเป้าหมายกับตัวชี้วัดตัวแทนจะถูกใช้จนหมด และแม้ตัวชี้วัดตัวแทนจะดีขึ้นต่อไป เป้าหมายก็ไม่ดีขึ้นอีก
การ optimize มากเกินไปสามารถทำให้เป้าหมายจริง แย่ลงในเชิงสัมบูรณ์ ได้ และบ่อยครั้งเป้าหมายก็ลู่ออกไปสู่อนันต์

เวอร์ชันเข้มต่างจาก Goodhart’s law ทั่วไปอย่างไร

Goodhart’s law ทั่วไปมองว่า เมื่อ optimize ตัวชี้วัดตัวแทน ในที่สุดเป้าหมายจริงจะไม่ดีขึ้นอีกต่อไป
เวอร์ชันเข้ม มองว่าค่าที่วัดได้ซึ่งถูก optimize อย่างมีประสิทธิภาพกลับทำให้สิ่งที่ตั้งใจจะวัดนั้นแย่ลงเสียเอง
สรุปเป็นประโยคเดียวได้ว่า
- “เมื่อค่าที่วัดได้กลายเป็นเป้าหมาย และมันถูก optimize อย่างมีประสิทธิภาพ สิ่งที่ตั้งใจจะวัดก็จะแย่ลง”
ปรากฏการณ์นี้ไม่เหมือนกับ overfitting ธรรมดา
- overfitting หมายถึงปรากฏการณ์เชิงสัมพัทธ์ที่ตัวชี้วัดตัวแทนดีขึ้นกว่าเป้าหมาย
- สิ่งที่เน้นตรงนี้คือปรากฏการณ์ที่เป้าหมายแย่ลงในความหมายเชิงสัมบูรณ์
แนวคิดที่เกี่ยวข้อง เช่น perverse incentives, Campbell’s law, Streisand effect, unintended consequences, Jevons paradox, negative externalities และ Goodhart’s curse ถูกนำมาพิจารณาร่วมกัน
- Goodhart’s curse รวม optimizer’s curse ไว้เป็นกลไกเชิงเหตุและผล แต่แยกให้เห็นว่า เพียงเท่านั้นยังอธิบายไม่ได้ว่าทำไมเป้าหมายจริงจึงแย่ลงในเชิงสัมบูรณ์

Overfitting ที่เกิดซ้ำในระบบสังคม

การเพิ่มประสิทธิภาพกำลังแพร่ไปเกือบทุกแง่มุมของสังคม
- หากสิ่งที่ถูกทำให้มีประสิทธิภาพมากขึ้นนั้นเป็นประโยชน์จริง ก็อาจทำให้โลกดีขึ้นได้
- หากทำให้สิ่งที่เป็นภัยต่อสังคมมีประสิทธิภาพมากขึ้น ก็อาจนำไปสู่ผลลัพธ์ที่น่ากลัวหรือหดหู่ เช่น การสอดส่องมวลชนหรืออาวุธหุ่นยนต์
- กรณีที่พบบ่อยที่สุดคือสถานการณ์ที่ทำให้สิ่งที่เกี่ยวข้องกับผลลัพธ์ที่เป็นประโยชน์ แต่ไม่ใช่สิ่งเดียวกันนั้น มีประสิทธิภาพมากขึ้น
หากเป้าหมายกับตัวชี้วัดตัวแทนคลาดเคลื่อน ระบบสังคมก็อาจถูก overfit ได้เหมือนแมชชีนเลิร์นนิง
- เป้าหมาย: ให้การศึกษาที่ดีกับเด็ก ๆ ตัวชี้วัดตัวแทน: วัดผลงานของนักเรียนและโรงเรียนด้วยข้อสอบมาตรฐาน ผลลัพธ์: โรงเรียนมุ่งสอนให้ตรงกับรูปแบบข้อสอบ มากกว่าทักษะพื้นฐานที่ข้อสอบตั้งใจจะวัด
- เป้าหมาย: ความก้าวหน้าทางวิทยาศาสตร์อย่างรวดเร็ว ตัวชี้วัดตัวแทน: จ่ายโบนัสเงินสดต่อบทความวิชาการแต่ละฉบับ ผลลัพธ์: การเผยแพร่ผลลัพธ์ที่ไม่แม่นยำหรือเป็นเพียงความก้าวหน้าเล็กน้อย การสมรู้ร่วมคิดระหว่าง reviewer กับผู้เขียน และการเกิด paper mill
- เป้าหมาย: ชีวิตที่ดำเนินไปอย่างดี ตัวชี้วัดตัวแทน: ทำให้เส้นทางรางวัลในสมองสูงสุด ผลลัพธ์: การติดยา การติดพนัน และเวลาที่เสียไปกับการ doomscrolling บน Twitter
- เป้าหมาย: ประชากรที่มีสุขภาพดี ตัวชี้วัดตัวแทน: การเข้าถึงอาหารที่มีโภชนาการสูง ผลลัพธ์: การระบาดของโรคอ้วน
- เป้าหมาย: ผู้นำที่ทำตามผลประโยชน์ของประชากร ตัวชี้วัดตัวแทน: ผู้นำที่ได้รับการสนับสนุนจากประชากรมากที่สุด ผลลัพธ์: ผู้นำที่ทุ่มความเชี่ยวชาญและความกระตือรือร้นไปกับการปั่นความเห็นสาธารณะ มากกว่าผลลัพธ์ทางสังคม
- เป้าหมาย: พลเมืองที่รับรู้ข้อมูล คิดรอบคอบ และมีส่วนร่วม ตัวชี้วัดตัวแทน: ความสามารถของผู้คนในการแชร์และค้นหาไอเดียได้ง่าย ผลลัพธ์: filter bubble, ทฤษฎีสมคบคิด, meme แบบปรสิต และ tribalism ที่รุนแรงขึ้น
- เป้าหมาย: การจัดสรรแรงงานและทรัพยากรตามความต้องการของสังคม ตัวชี้วัดตัวแทน: ทุนนิยม ผลลัพธ์: ช่องว่างความมั่งคั่งขนาดใหญ่ ตั้งแต่รายได้หลายร้อยดอลลาร์ต่อปีไปจนถึงหลายร้อยดอลลาร์ต่อวินาที และคนยากจนมากกว่า 1 พันล้านคน
- เป้าหมาย: ความมั่งคั่งของเจ้าของ Paperclips Unlimited, LLC ตัวชี้วัดตัวแทน: จำนวนคลิปหนีบกระดาษที่โรงงานผลิตซึ่งดำเนินการโดย AI ทำได้ ผลลัพธ์: สถานการณ์ paperclip maximizer ที่ทั้งระบบสุริยะ รวมถึงเจ้าของบริษัท ถูกเปลี่ยนเป็นคลิปหนีบกระดาษ

พื้นที่ที่การเพิ่มประสิทธิภาพมากเกินไปอาจกลายเป็นอันตราย

พื้นที่ต่อไปนี้ถูกยกเป็นตัวอย่างที่การปรับปรุงช่วงแรกอาจเป็นประโยชน์ในวงกว้าง แต่หากทำได้ดีเกินไปอาจก่อผลลบขนาดใหญ่
- telepresence และ virtual reality
- การแพทย์เฉพาะบุคคล
- ยีนบำบัด
- ข้อความการตลาดที่ปรับให้เหมาะกับผู้บริโภคหรือผู้มีสิทธิเลือกตั้งรายบุคคล
- การคาดการณ์ผลการเลือกตั้ง
- การเขียนโค้ด
- ปัญญาประดิษฐ์
- การตัดส่วนเผื่อใน supply chain ออก
- การแพร่กระจายของไอเดียอย่างรวดเร็ว
- การสร้างความบันเทิง
- การระบุสินค้าใหม่ที่ผู้คนจะซื้อ
- การเลี้ยงปศุสัตว์
- การซื้อขายหลักทรัพย์
- การจับปลาออกจากทะเล
- การผลิตรถยนต์

แนวทางบรรเทา 1: การจัดแนวเป้าหมายตัวแทนและ regularization

การทำให้เป้าหมายตัวแทนสอดคล้องกับผลลัพธ์ที่ต้องการมากขึ้น คือแนวทางบรรเทาข้อแรก
- ในแมชชีนเลิร์นนิง มักใช้วิธีรวบรวมตัวอย่างฝึกอย่างระมัดระวังให้ใกล้เคียงกับสถานการณ์ตอนทดสอบมากที่สุด
- นอกแมชชีนเลิร์นนิง คือการเปลี่ยนตัวชี้วัดตัวแทนที่ควบคุมได้ เช่น กฎหมาย แรงจูงใจ และบรรทัดฐานทางสังคม เพื่อส่งเสริมพฤติกรรมที่ตรงกับเป้าหมายมากขึ้นโดยตรง
regularization penalty ก็สามารถบรรเทาการ optimize มากเกินไปได้
- ในแมชชีนเลิร์นนิง วิธีที่พบได้บ่อยคือให้ penalty กับขนาดกำลังสองของพารามิเตอร์ เพื่อให้ค่ายังคงเล็ก
- regularization ไม่จำเป็นต้องเล็งไปที่พฤติกรรมที่ไม่พึงประสงค์โดยตรง และแทบทุกวิธีที่ลงโทษการเบี่ยงออกจากความเป็นปกติของโมเดลก็อาจทำงานได้ดี
regularization ในระบบสังคมถูกเปรียบเทียบกับการเพิ่มความซับซ้อน แรงเสียดทาน และต้นทุนเพิ่มเติม
- เพิ่มกลไกคิดเงินให้ SMTP เพื่อเก็บค่าใช้จ่ายเล็กน้อยต่ออีเมลแต่ละฉบับ
- ใช้ภาษีก้าวหน้าเพื่อให้ความสำเร็จที่ผิดปกติเชื่อมโยงกับต้นทุนที่ใหญ่ขึ้นอย่างไม่สมส่วน
- เรียกเก็บค่าธรรมเนียมศาลตามกำลังสองหรือเลขชี้กำลังของจำนวนคดีที่องค์กรยื่น
- เก็บภาษีตามจำนวนบิตของข้อมูลที่จัดเก็บเกี่ยวกับผู้ใช้

แนวทางบรรเทา 2: การใส่ noise และ early stopping

การใส่ noise คือวิธีเพิ่มการสั่นแบบสุ่มลงใน input, พารามิเตอร์ หรือสถานะภายในของโมเดล เพื่อทำให้ overfitting ยากขึ้น
ในระบบสังคมก็สามารถใส่ความสุ่มเพื่อลดพฤติกรรมที่ปรับตัวให้เข้ากับตัวชี้วัดตัวแทนมากเกินไปได้
- หลังจัดอันดับผู้สมัครเข้าโรงเรียนหรืองานที่มีการแข่งขันสูง แทนที่จะยื่นข้อเสนอแน่นอนให้ผู้สมัคร top k ให้ยื่นข้อเสนอด้วยความน่าจะเป็นที่แปรตามอันดับ
  - ความหลากหลายของผู้ได้รับคัดเลือกอาจเพิ่มขึ้น
  - ทรัพยากรที่ผู้สมัครใช้ปรับแต่งใบสมัครอย่างละเอียด หรือที่ reviewer ใช้ตรวจสอบความต่างของอันดับเล็ก ๆ น้อย ๆ อาจลดลง
  - ผู้สมัครระยะยาวที่มีโอกาสล้มเหลวมากกว่าอาจถูกเลือก แต่ก็อาจมีโอกาสประสบความสำเร็จอย่างมีคุณค่าสูงมากในรูปแบบที่ต่างจากธรรมเนียม
- กำหนดวันสอบแบบสุ่มโดยไม่แจ้งล่วงหน้า เพื่อจูงใจให้เรียนแบบเน้นความเข้าใจมากกว่าการอ่านอัดก่อนสอบ
- กำหนดให้ตลาดหลักทรัพย์เพิ่ม jitter แบบสุ่มที่มีส่วนเบี่ยงเบนมาตรฐานประมาณ 1 วินาทีในเวลาประมวลผลคำสั่งซื้อขาย
- สุ่มรายละเอียดของวิธีลงคะแนนในวันเลือกตั้ง เพื่อป้องกันไม่ให้ผู้สมัคร overfit กับรายละเอียดบังเอิญของระบบเลือกตั้งปัจจุบัน
early stopping ถูกกล่าวถึงว่าเป็นเครื่องมือที่มีประสิทธิภาพที่สุดอย่างหนึ่งในแมชชีนเลิร์นนิงเพื่อป้องกัน overfitting แบบหายนะ
- เฝ้าดู validation loss นอกเหนือจาก training loss และประสิทธิภาพบนชุดทดสอบ
- หาก training loss ยังดีขึ้นต่อไป แต่ validation loss เริ่มแย่ลง ก็หยุดการฝึก
ในระบบสังคม อาจรับมือได้ด้วยกลไกที่ทำให้หยุดการเตรียมตัว การวิเคราะห์ และการ optimize มากเกินไป
- จำกัดเวลาอย่างเข้มงวดระหว่างการขอข้อเสนอและกำหนดส่ง เพื่อให้สะท้อนระดับการเตรียมพร้อมที่มีอยู่เดิมมากขึ้น
- หยุดกิจกรรมตลาดทั้งหมดเมื่อความผันผวนของหุ้นเกินค่า threshold
- ใช้กฎหมายต่อต้านการผูกขาดแยกบริษัทที่ขัดขวางการแข่งขัน
- ประเมินความสำคัญของการตัดสินใจเป็นจำนวนเงิน และเมื่อมูลค่าของเวลาที่ใช้วิเคราะห์ไปแล้วเข้าใกล้จำนวนเงินนั้น ให้ตัดสินใจทันที
- แช่แข็งข้อมูลที่ agent ใช้บรรลุเป้าหมายได้ เช่น การจำกัดการรายงานข่าว 48 ชั่วโมงก่อนการเลือกตั้ง

ความสัมพันธ์ระหว่าง model capacity กับ overfitting

หนึ่งในสาเหตุที่เข้าใจกันดีของ overfitting ขั้นรุนแรงคือสถานการณ์ที่พลังในการแสดงแทนของโมเดลใกล้เคียงกับ ความซับซ้อนของงานตัวแทน มากเกินไป
หากโมเดลอ่อนมาก ก็จะคืบหน้าในงานได้เพียงเล็กน้อย จึงไม่ใช้ความคล้ายคลึงระหว่างเป้าหมายกับตัวชี้วัดตัวแทนจนหมด
หากโมเดลแข็งแกร่งมากและมีพลังในการแสดงแทนสูง ก็อาจ optimize เป้าหมายตัวแทนได้โดยอิสระ โดยไม่สร้างพฤติกรรมสุดขั้วในเป้าหมายอื่น
เมื่อพลังในการแสดงแทนใกล้เคียงกับความซับซ้อนของงานโดยประมาณ เช่น จำนวนพารามิเตอร์ไม่ได้มากหรือน้อยกว่าจำนวนตัวอย่างฝึกหลายลำดับขั้น การทำงานตัวแทนให้ดีอาจจำเป็นต้องมี พฤติกรรมสุดขั้ว ในที่อื่น
การทดลองของเล่นใน Figure 1 ฝึกโมเดลที่แมป input หนึ่งมิติ x ไปยัง output หนึ่งมิติ y ด้วย datapoint 10 จุดเดียวกัน
- โมเดล 4 พารามิเตอร์อ่อนเกินกว่าจะฟิต datapoint ได้ตรงทั้งหมด แต่ประมาณค่าอย่างราบเรียบ
- โมเดล 10,000 พารามิเตอร์ฟิต datapoint ทั้งหมดได้ง่าย และ interpolate ระหว่างจุดเหล่านั้นได้อย่างราบเรียบด้วย
- โมเดล 10 พารามิเตอร์แข็งแกร่งพอดีที่จะฟิต datapoint ได้ แต่ภายนอกข้อมูลฝึกอาจโค้งงออย่างสุดขั้ว ทำให้ทำนายค่า x ใหม่ได้แย่มาก
- รายละเอียดการทดลองอยู่ใน colab notebook

แนวทางบรรเทา 3: การจำกัดขีดความสามารถและการขยายขีดความสามารถ

การจำกัดขีดความสามารถหรือ capacity เทียบได้กับเทคนิคในแมชชีนเลิร์นนิงที่ทำให้โมเดลเล็กพอจนไม่สามารถ overfit ได้
- จำกัดเงินทุนหาเสียงเลือกตั้ง
- กำหนดเพดานจำนวนคนที่ทำงานในบริษัทบางประเภทได้ เช่น อนุญาตให้กลุ่มล็อบบี้มีได้เพียง 10 คน
- กำหนดเพดานจำนวนพารามิเตอร์หรือ training compute ที่ระบบ AI ใช้ได้
การขยายขีดความสามารถหรือ capacity สอดคล้องกับข้อสังเกตที่ว่า เมื่อโมเดลมีขนาดใหญ่มาก แม้จะ overfit กับข้อมูลฝึก ก็อาจไม่ทำให้ประสิทธิภาพบนข้อมูลทดสอบแย่ลง
- เป็นการเพิ่มขีดความสามารถให้มากพอจนไม่จำเป็นต้องมี trade-off ด้านประสิทธิภาพระหว่างเป้าหมายกับตัวชี้วัดตัวแทน
- มีการยกตัวอย่างสถานการณ์ที่เปิดให้ทุกฐานข้อมูลเข้าถึงได้แบบสาธารณะ และติดตั้งกล้องในทุกอาคาร เพื่อให้ข้อมูลเกี่ยวกับทุกคน รัฐบาล และองค์กร เปิดเผยต่อทุกคนตลอดเวลา
  - มีการระบุชัดว่าสถานการณ์นี้เป็น dystopia ตามระบบคุณค่าของผู้เขียน
- ลงทุนวิจัยพื้นฐานด้านพลังงานสะอาด
- พัฒนาสินค้าซื้อขายในตลาดที่ซับซ้อน ทึบแสง และหลากหลายที่สุดเท่าที่เป็นไปได้ ครอบคลุมช่วงเวลาครบกำหนดหลายแบบ
- ใช้โมเดล AI ที่ใหญ่ที่สุด ใช้ compute และข้อมูลมากที่สุดในทุกสถานการณ์
วิธีเพิ่มขีดความสามารถต่อไปเรื่อย ๆ ทำงานได้ดีอย่างน่าประหลาดใจในแมชชีนเลิร์นนิง และเป็นเส้นทางที่มีแรงต้านน้อย
การพยายามแก้สถาบันโดยทำให้องค์กรที่ไล่ตามเป้าหมายที่จัดแนวผิดเก่งขึ้นอย่างมืดบอด ถูกประเมินว่าเป็นไอเดียที่เลวร้ายมาก

AI และโจทย์วิจัย

Goodhart’s law เวอร์ชันเข้มถูกนำเสนอว่าเป็นรากฐานของความกลัวส่วนตัวหลัก ๆ เกี่ยวกับ AI
การเปลี่ยนแปลงสำคัญที่ AI จะทำให้เกิดขึ้นได้คือการสร้าง การเพิ่มประสิทธิภาพ ในแทบทุกงานภายในช่วงเวลาสั้นมาก
จำเป็นต้องจัดการผลข้างเคียงที่ไม่ต้องการหลากหลายแบบพร้อมกัน และความสามารถในการร่วมมือกันเพื่อหาทางแก้ก็อาจถูกรบกวนไปด้วย
มีโอกาสวิจัยขนาดใหญ่ในการสร้างสะพานเชิงรูปแบบและคณิตศาสตร์ระหว่างผลลัพธ์เรื่อง overfitting ในแมชชีนเลิร์นนิง กับปัญหาในเศรษฐศาสตร์ รัฐศาสตร์ วิทยาการจัดการ และ operations research เป็นต้น
- มีการยกตัวอย่างการใช้ PAC Bayes bound เพื่อทำนายระดับอำนาจสหภาพแรงงานที่เหมาะสมที่สุดสำหรับการทำให้ความมั่งคั่งของแรงงานสูงสุด
- ยังมีตัวอย่างการประมาณสเปกตรัมของตัวแปรที่ผู้สมัครควบคุมได้และควบคุมไม่ได้ในการแข่งขันทางการเมือง เพื่อทำนายจุดล่มสลายทางการเมือง
ยิ่งระบบสังคมพังมากขึ้นเพราะ Goodhart’s law เวอร์ชันเข้ม การกระทำร่วมกันอย่างมีเหตุผลที่จำเป็นต่อการแก้ไขก็ยิ่งยากขึ้น

2 ความคิดเห็น

gguimoon 2024-10-02

ได้ยินมาว่าการสอบ CSAT ของเกาหลีได้เปลี่ยนจากจุดประสงค์เดิมในการวัดความสามารถทางคณิตศาสตร์ ไปเป็นระบบที่มุ่งเพิ่มประสิทธิภาพเพียงการกระจายคะแนนตัดระดับเท่านั้น นี่ดูจะเป็นตัวอย่างที่ไม่อาจหลีกหนีจากกฎของกูดฮาร์ตได้

GN⁺ 2024-09-30

ความคิดเห็นบน Hacker News

ผมรู้จัก Jascha ว่าเป็น นักวิจัยแมชชีนเลิร์นนิงที่เก่งมาก ซึ่งเคยอยู่ Google Brain และตอนนี้อยู่ Anthropic
เขากับผู้เขียนร่วมใช้ทฤษฎีสนามเฉลี่ยและทฤษฎีความน่าจะเป็นอิสระ ซึ่งเป็นเทคนิคทางฟิสิกส์และสถิติ เพื่อระบุลักษณะเชิงคณิตศาสตร์ของวิธีที่สัญญาณแพร่กระจายในโครงข่ายประสาทลึก ผมมองว่านี่เป็นหนึ่งในผลลัพธ์เชิงทฤษฎีและการทดลองด้านแมชชีนเลิร์นนิงที่ลึกซึ้งที่สุดแต่ถูกประเมินค่าต่ำเกินไปในช่วง 10 ปีที่ผ่านมา ตัวอย่างเช่น dynamical isometry [1] และการต่อยอดแนวคิดดังกล่าวมีบทบาทสำคัญในการทำให้โมเดลทรานส์ฟอร์เมอร์ที่ลึกมากลู่เข้าได้ [2]
หลังจากอ่านบทความนี้และตัวอย่างต่าง ๆ แล้ว เห็นได้ชัดว่าคนนี้มีสัญชาตญาณที่ไม่ธรรมดาเกี่ยวกับการทำ optimization ทั่วทั้งสังคมสมัยใหม่ ไม่ใช่แค่แมชชีนเลิร์นนิง เราควรยอมรับพื้นฐานทางเทคนิคของเขา และยกระดับการถกเถียงให้สูงกว่าการโต้เถียงเรื่องความหมายหรือคำนิยาม
แก่นสำคัญคือคำเชิญชวนให้ลงมือทำที่มีความเป็นมนุษย์และเปี่ยมความเห็นอกเห็นใจอย่างมาก ซึ่งอยู่ใต้เงาของความก้าวหน้าทางเทคโนโลยีที่รวดเร็ว: “หากคุณเป็นนักวิทยาศาสตร์ที่กำลังมองหาไอเดียวิจัยที่เอื้อต่อสังคมและอาจสร้างสาขาใหม่เอี่ยมได้ ควรพิจารณาการสร้างสะพานเชิงรูปแบบและเชิงคณิตศาสตร์ระหว่างผลของ overfitting ในแมชชีนเลิร์นนิง กับปัญหาในหลายสาขา เช่น เศรษฐศาสตร์ รัฐศาสตร์ วิทยาการจัดการ และการวิจัยดำเนินงาน”
[1] Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks
http://proceedings.mlr.press/v80/xiao18a/xiao18a.pdf
[2] ReZero is All You Need: Fast Convergence at Large Depth
https://arxiv.org/pdf/2003.04887
- จังหวะเวลาน่าสนใจพอดี ไม่กี่วันก่อนผมเพิ่งได้รู้จักงานของนักชีววิทยา Olivier Hamant ซึ่งกำลังตั้งประเด็นเดียวกันเป๊ะ
  แก่นข้อโต้แย้งของเขาคือ สมรรถนะที่สูงมาก กล่าวคือประสิทธิผลและประสิทธิภาพต่อเป้าหมายที่ทราบแล้ว กับความแข็งแกร่งทนทานสูงที่รับมือความผันผวนขนาดใหญ่ของระบบได้นั้น เข้ากันไม่ได้ทางกายภาพ ในธรรมชาติมีตัวอย่างแบบนี้มากมาย และตรงข้ามกับความเข้าใจทั่วไป วิวัฒนาการไม่ได้ optimize เพื่อสมรรถนะสูง แต่ optimize เพื่อความแข็งแกร่งทนทานสูง ในโลกที่ทรัพยากรอุดมสมบูรณ์ การให้สมรรถนะมาก่อนอาจสมเหตุสมผล แต่ตอนนี้เราเข้าสู่ยุคที่แตกต่างไปโดยสิ้นเชิง ซึ่งความไม่มั่นคงเป็นเรื่องปกติ หากจะให้แข็งแกร่งทนทานขึ้น ก็เลี่ยงไม่ได้ที่จะต้องยอมคืนสมรรถนะบางส่วน และสุดท้ายเราก็จะถูกบังคับให้ทำเช่นนั้น นี่เป็นการตีความ วิกฤตซ้อนวิกฤต ที่สดใหม่และน่าสนใจที่สุดที่ผมได้เห็นในรอบนาน
  https://books.google.co.uk/books/about/Tracts_N_50_Antidote_...
- แปลสำหรับคนทั่วไป: กำลังเปรียบเทียบแมชชีนเลิร์นนิงกับ โครงสร้างทางคณิตศาสตร์ ของการส่งผ่านสัญญาณระหว่างปัจเจกบุคคลและสถาบันต่าง ๆ ในสังคม
  กล่าวคือ นักคณิตศาสตร์มองว่าปัญหาที่รบกวนฝั่งหนึ่งอย่าง overfitting ในแมชชีนเลิร์นนิง ซึ่งการเรียนรู้มากเกินไปทำให้ความสามารถในการ generalize ของโครงข่ายประสาทลดลง และทำให้ฟังก์ชันที่มันเลียนแบบได้ถูกผูกติดกับข้อมูลฝึกอย่างมากนั้น ก็น่าจะรบกวนอีกฝั่งเช่นกัน
  สรุปคือ หากระบบสังคมหรือการส่งผ่านสัญญาณระหว่างระบบเหล่านั้นพัฒนาเกินไป เมื่อถึงจุดหนึ่งย่อมมีจุดพังทลายที่จากนั้นสิ่งต่าง ๆ จะแย่ลงอย่างเดียว โดยส่วนตัวผมคิดว่า แค่ดูว่าเกิดอะไรขึ้นเมื่อทุกคนทำตามทุกระบบอย่างสมบูรณ์แบบ ก็อาจเห็นได้ว่าในหลายอุตสาหกรรม เราอาจเลยจุดพังทลายนั้นไปไกลแล้ว
- ผมชอบไอเดีย ReZero โดยพื้นฐานคือการใส่พารามิเตอร์ α ที่เรียนรู้ได้เข้าไปในชั้น residual
  Deep Network | xi+1 = F(xi)
  Residual Network | xi+1 = xi + F(xi)
  Deep Network + Norm | xi+1 = Norm(F(xi))
  Residual Network + Pre-Norm | xi+1 = xi + F(Norm(xi))
  Residual Network + Post-Norm | xi+1 = Norm(xi + F(xi))
  ReZero | xi+1 = xi + αi F(xi)
  แต่ผมยังไม่เคยเห็นว่ามีการใช้จริง บทความของ Gemma และ Llama ก็ดูเหมือนว่ายังใช้ layer normalization อยู่ ผมพลาดอะไรไปหรือเปล่า?
- เหตุผลที่ไอเดียนี้น่าสนใจก็คือ หากเราสามารถเชื่อมโยงวิธีการทำงานของเศรษฐศาสตร์กับแมชชีนเลิร์นนิงได้ ตัวอย่างเช่น โปรแกรมคอมพิวเตอร์ ที่รัน แก้ไข และดัดแปลงได้ ก็จะสามารถให้ข้อมูลที่วัดได้โดยตรงเกี่ยวกับปฏิสัมพันธ์ของระบบที่ซับซ้อน
  ความเป็นจริงนั้นละเอียดอ่อนและมีหลายชั้นเกินกว่าจะตรวจสอบแนวคิดอย่างเป็นรูปแบบได้ยาก ปฏิสัมพันธ์เหล่านี้จึงมักดำรงอยู่ราวกับเป็นไอเดียแบบเพลโตมาโดยตลอด ความคิดที่ว่าภายใต้เศรษฐศาสตร์มีส่วนย่อยของตรรกะที่พิสูจน์ได้และแม่นยำอยู่ เป็นไอเดียที่ทรงพลังและคุ้มค่าอย่างยิ่งที่จะไล่ตาม
- การปัดข้อโต้แย้งทิ้งไปทั้งหมวดหมู่โดยไม่จัดการกับเนื้อหาของข้อโต้แย้งจริง ๆ แบบนี้ เป็นวิธีที่ค่อนข้าง ชี้นำ/บิดเบือน
  ยังมีข้อผิดพลาดทางตรรกะหลายอย่าง เช่น การอุทธรณ์ต่ออารมณ์หรือพึ่งพาอำนาจ และไม่สอดคล้องกับจิตวิญญาณแห่งความใฝ่รู้ทางปัญญาที่ HN มุ่งหวัง
ข้ออ้างนี้อาศัย กฎของ Goodhart ที่รู้จักกันดี กล่าวคือ เมื่อค่าที่วัดได้กลายเป็นเป้าหมาย มันก็ไม่ใช่ค่าที่วัดได้ที่ดีอีกต่อไป
แต่กลับอธิบายปัญหาเป็นแค่เรื่องการวัดเท่านั้น ประมาณว่าเพราะเราวัดสิ่งที่เราใส่ใจจริง ๆ ไม่ได้ จึงไปปรับแต่งตัวชี้วัดแทนให้เหมาะที่สุด ในมุมมองของผม นี่เป็นมุมมองที่ลดทอนเกินไป ปัญหาไม่ได้อยู่แค่การวัด แต่อยู่ที่พฤติกรรมมนุษย์ด้วย ต่างจากอนุภาค มนุษย์จะพยายามใช้ประโยชน์ในทางมิชอบจากระบบควบคุมใด ๆ ที่เราสร้างขึ้นอย่างแข็งขัน
นี่เป็นปัญหาที่ลึกกว่าระดับที่ว่าเราวัดสิ่งอย่าง “สันติภาพ ความรัก ลูกสุนัข” ได้ไม่ดีมากนัก ผมคิดว่า กฎของ Campbell [0] จับประเด็นนี้ได้ดีกว่ากฎ Goodhart แบบคลาสสิก: “ยิ่งมีการใช้ตัวชี้วัดเชิงปริมาณทางสังคมในการตัดสินใจทางสังคมมากเท่าใด ตัวชี้วัดนั้นก็ยิ่งเผชิญแรงกดดันให้เสื่อมเสียมากขึ้น และยิ่งมีแนวโน้มจะบิดเบือนและทำให้กระบวนการทางสังคมที่ตั้งใจจะเฝ้าติดตามเสื่อมเสีย”
มาตรการบรรเทาที่เสนอมาอย่างการทำ normalization และ early stopping อย่างดีที่สุดก็แตะปัญหาได้เพียงทางอ้อม และอย่างแย่ที่สุดอาจสร้างจุดแปลกใหม่ ๆ ที่ถูกใช้ในทางมิชอบเพื่อก่อพฤติกรรมที่ไม่ต้องการได้
[0] https://en.wikipedia.org/wiki/Campbell%27s_law
- คำพูดที่ว่า “มนุษย์จะพยายามใช้ประโยชน์ในทางมิชอบจากระบบควบคุมใด ๆ ที่เราสร้างขึ้นอย่างแข็งขัน” นั้นถูกต้อง แต่ที่เป็นไปได้ก็เพราะระบบควบคุมไม่สามารถควบคุมเฉพาะสิ่งที่เราต้องการควบคุมได้อย่างแม่นยำ
  ระบบควบคุมเป็นเพียงตัวแทนที่ไม่สมบูรณ์ของสิ่งที่เราต้องการจริง ๆ และนี่คล้ายกับบทบาทของค่าที่วัดได้ในกฎของ Goodhart มาก ยังมีอีกเวอร์ชันหนึ่งคือ กฎของผลลัพธ์ที่ไม่ได้ตั้งใจ [0] ด้วย อาจมีเวอร์ชันที่ทั่วไปกว่านี้ในเชิงการคำนวณหรือระบบซับซ้อนที่เรายังไม่ค้นพบก็ได้
  [0] https://www.sas.upenn.edu/~haroldfs/540/handouts/french/unin...
- ไม่ใช่แค่มนุษย์เท่านั้น แต่ถ้าเป็น agent ก็จะทำแบบนั้น
  ถ้าสร้าง genetic algorithm ให้กับ AI agent ที่ให้รางวัลตามจำนวนงูเห่าตายที่นำมาได้ในเดลี ผมคิดว่าไม่นาน agent ที่เริ่มเพาะเลี้ยงงูเห่าจะทำผลงานได้ดีที่สุด ทั้งในกรณีมนุษย์และ AI ต่างก็เป็นการแฮ็กฟังก์ชันรางวัล ในกรณี AI เราจะตัดสินว่าออกแบบฟังก์ชันรางวัลได้ไม่ดี แต่ในกรณีมนุษย์ เรากลับตัดสินว่า agent เจ้าเล่ห์และศีลธรรมต่ำจน “ใช้ระบบในทางมิชอบ”
- มนุษย์ไม่ชอบถูกประเมินด้วยตัวเลขเพียงอย่างเดียว และจะต่อต้านและพยายามบิดระบบที่กดดันเหมือนขันสกรูใส่ตัวเอง
  ดังนั้นคำอ้างนั้นจึงตรงมาก และดูมีโอกาสผิดไปมากน้อยมาก
- “กฎ” แบบนี้เป็นเพียงค่าประมาณและการลดทอนที่ไม่สมบูรณ์
  อันไหนมีประโยชน์หรือมีพลังอธิบาย ขึ้นอยู่กับกรณีเฉพาะ การ optimize ในแมชชีนเลิร์นนิง การ optimize อัลกอริทึมโซเชียลมีเดีย และการ optimize ระบบการศึกษาด้วยข้อสอบมาตรฐาน ล้วนเป็นคนละเรื่องกัน
  ไม่มี abstraction ที่สมบูรณ์แบบซึ่งพอดีกับสถานการณ์หลากหลายเหล่านี้อย่างแม่นยำ และก็ไม่จำเป็นต้องมีความแม่นยำระดับนั้น แค่ได้ สัญชาตญาณ ว่าปัญหาจะเกิดตรงไหนก็เพียงพอแล้ว
ในสวีเดน เรื่องนี้กลายเป็น ปัญหาสังคม ในช่วงราว 20 ปีที่ผ่านมา
1: เมื่อวัดประสิทธิภาพทางการแพทย์ด้วย “งานที่ทำเสร็จ” ของแพทย์ปฐมภูมิ กลไกก็ถูก optimize ให้จัดการเคสง่าย ๆ จำนวนมาก ดังนั้นแพทย์มักตรวจแค่ผิวเผิน แล้วให้ยาที่ดูเข้าทางทางสถิติ เช่น แอสไพรินหรือยาปฏิชีวนะ แล้วส่งกลับบ้าน หรือถ้าดูซับซ้อนก็ส่งต่อให้ผู้เชี่ยวชาญ
ปัญหาคือเพราะการเพิ่มประสิทธิภาพทำให้จำนวนแพทย์ปฐมภูมิลดลง พวกเขาจึงแทบกลายเป็นแรงงานสายการประกอบ และการติดต่อส่วนตัวกับผู้ป่วยก็หายไป ทำให้จับสัญญาณว่ามีอะไรผิดปกติได้ยากขึ้น ดังนั้นโรคอย่างมะเร็งจึงมักถูกวินิจฉัยช้าเกินไป และแม้การรักษามะเร็งเฉพาะทางจะดีขึ้นแล้ว แต่ก็มักอยู่ในขั้นที่ทำอะไรไม่ได้แล้ว
2: ระบบรถไฟถูกแปรรูป และถ้าดูจากปริมาณสินค้าที่ขนส่ง ก็น่าจะถือว่าประสบความสำเร็จอย่างมาก แต่ระบบแทบไม่มีช่องว่างให้รถไฟที่ล่าช้าชดเชยเวลา หรือให้ทำอะไรเกินกว่าการบำรุงรักษาพื้นฐาน จึงเกิดความล่าช้าบ่อย และสุดท้ายก็นำไปสู่ปัญหาที่ใหญ่ขึ้น
- อย่างที่ Steve Jobs พูด ตัวอย่างมีอยู่ทุกที่
  “เมื่อบริษัทใหญ่พอ ก็อยากทำซ้ำความสำเร็จครั้งแรก ทุกคนคิดถึง กระบวนการ ว่าความสำเร็จครั้งแรกเกิดขึ้นได้อย่างไร แล้วจึงทำซ้ำกระบวนการนั้นไปทั่วทั้งบริษัท ไม่นานนัก ผู้คนก็สับสนว่ากระบวนการคือเนื้อหา”
  ใช้ได้ตรงเป๊ะตั้งแต่บริษัทเล็กไปจนถึงรัฐบาลที่ใหญ่ที่สุดในโลก ส่วนใหญ่ลืมเนื้อหาของตัวเองไปแล้ว
- ถ้าปัญหาใหญ่ที่สุดที่อุตสาหกรรมรถไฟและการแพทย์ของสหรัฐฯ เผชิญมีแค่นั้นก็คงดี
ในทฤษฎีคิวก็มีข้อกฎที่เกี่ยวข้องกันอยู่ เมื่ออัตราการใช้งานเข้าใกล้ 100% เวลารอจะลู่ออกไปสู่อนันต์
ถ้ากระบวนการ เครื่องจักร หรือวิศวกรไม่มีที่ว่างเหลืออยู่บ้าง งานบางอย่างก็จะต้องรอไปตลอดกาล
- ผมจำได้ว่าเคยอ่านบทความที่บอกว่า เมืองใช้ทรัพยากรได้อย่างมีประสิทธิภาพมากกว่าชานเมืองหรือชนบทมาก
  พอนึกถึงเรื่องเวลารอนี้ ตอนนี้ผมเข้าใจแล้วว่าทำไมเมืองถึงไม่น่าอยู่ขนาดนั้น เพราะมี การแข่งขันแย่งชิงทรัพยากร อย่างไม่หยุดหย่อน
- เมื่อก่อนผมเคยทำงานในโรงงาน เป้าหมายอัตราการใช้งานในขั้นวางแผนคือ 80%
  ถ้าประเมินอัตราการใช้งานสูงเกินไปก็สิ้นเปลืองเงิน แต่ถ้าประเมินต่ำเกินไป งานที่ “ไม่สำคัญ” จะเริ่มกองเป็นคิวขนาดมหึมา
- สามารถใส่มาตรวัด ความทนทาน เข้าไปในเกณฑ์การ optimize ได้
  สามารถ optimize อย่างชัดเจนให้เหลือช่องว่างในอัตราการใช้งานพอรับมือสถานการณ์ไม่คาดคิดได้ เช่น หากจัดลำดับความสำคัญของโหลดในระบบ ก็ไม่จำเป็นต้องปล่อยระบบว่างตอนที่ไม่ยุ่ง เพียงแค่ทิ้งโหลดลำดับความสำคัญต่ำในสถานการณ์ฉุกเฉินเพื่อสร้างช่องว่างก็ได้
  ผมเข้าใจสิ่งที่บทความพยายามจะบอก แต่ถึงอย่างนั้นก็ไม่ควรยอมแพ้ต่อการ optimize ง่าย ๆ แบบนั้น
- รู้สึกว่า ระบบที่มีประสิทธิภาพ 100% ไม่มีความสามารถในการฟื้นตัว
  การรบกวนเล็กน้อยในระบบย่อยก็อาจนำไปสู่การล่มสลายครั้งใหญ่ได้ เราเห็นเวอร์ชันสุดโต่งตอนห่วงโซ่อุปทานล่มจาก COVID-19 ผู้ผลิตรถยนต์สร้างระบบผลิตแบบ just-in-time ที่เกือบ 100% จนไม่สามารถดูดซับภาวะขาดแคลนชิปได้ และใช้เวลาหลายปีกว่าจะฟื้นตัว
  ช่องว่างสำหรับการทดลองก็หายไปด้วย การทดลองใด ๆ ทำได้เฉพาะภายนอกระบบ ไม่ใช่ภายในระบบ
- ถูกต้องเลย ผมเคยทำงานในหลายที่และหลายทีม งานที่ไม่ใช่ P0 แทบจะไม่เคยถูกจัดการเลยตลอดกาล
ในสรีรวิทยาการออกกำลังกายก็มีตัวอย่างของกฎโดยประมาณนี้
สำหรับคนทั่วไป มีตัวชี้วัดแทนสมรรถภาพทางกายที่ดีอยู่มากมาย เช่น ฝึกวิ่งระยะสั้น กระโดดอยู่กับที่ สควอต หรือคลีนแอนด์เจิร์กได้ การวิ่งได้เร็วขึ้น กระโดดได้สูงขึ้น และสควอตด้วยน้ำหนักที่มากขึ้น ล้วนเป็นตัวบ่งชี้ว่าสมรรถภาพเพิ่มขึ้นและการฝึกประสบความสำเร็จ
ประการแรก ยิ่งวิธีฝึกมีความทั่วไปมากเท่าไร ตัวชี้วัดก็ยิ่งมีความหมายมากขึ้นเท่านั้น เช่น หากมาตรวัดสมรรถภาพคือ “สามารถเข็นรถขึ้นเนินได้หรือไม่” และวิธีฝึกคือการวิ่งระยะสั้นกับว่ายน้ำ การเข็นรถที่หนักขึ้นได้ก็เป็นตัวชี้วัดความสำเร็จที่ชัดเจน แต่ในทางกลับกัน หากวิธีฝึกคือ “ฝึกเข็นรถ” การพัฒนาขึ้นแบบเดียวกันก็ไม่ได้หมายถึงการเพิ่มขึ้นของสมรรถภาพทางกายในระดับเดียวกัน
ประการที่สอง ยิ่งนักกีฬามีความเฉพาะทางมากขึ้น เช่น นักกีฬาคลีนแอนด์เจิร์ก การพัฒนาผลงานก็ยิ่งสะท้อนสมรรถภาพทั่วไปน้อยลง การพัฒนาจากศูนย์ไปสู่ระดับยกน้ำหนักเป็นงานอดิเรกนั้นรวมถึงการเพิ่มขึ้นของแรงกายและมวลกล้ามเนื้อโดยรวม แต่การพัฒนาจากนักกีฬามหาวิทยาลัยไปสู่ระดับโอลิมปิกมักต้องอาศัยคุณลักษณะด้านสมรรถภาพที่เฉพาะทางสูง ซึ่งถ่ายโอนไปยังกิจกรรมอื่นได้ไม่ดี
สิ่งที่ในวงการกีฬาพูดถึงกันว่า สมรรถภาพพื้นฐานกับสมรรถภาพจุดพีค ก็อาจเป็นอุปมาในทำนองเดียวกัน การฝึกให้บังเอิญได้สมรรถนะสูงสุดที่ไม่ยั่งยืนก็เป็นกับดักของการปรับให้เหมาะสมเกินไปเช่นกัน เรื่องนี้อาจเกิดขึ้นได้หากเอาแต่ตามอย่างมืดบอดว่า “เส้นกราฟกำลังขึ้น” และการปรับให้เหมาะสมที่ดูยอดเยี่ยมอาจเป็นเพียงการขังตัวเองไว้ที่ค่าสูงสุดเฉพาะที่ก็ได้ ผมเห็นว่ามีอุปมาเปรียบเทียบได้มากมายไม่ใช่แค่ในชีววิทยา แต่รวมถึงการปรับให้เหมาะสมในแมชชีนเลิร์นนิงและปรากฏการณ์ทางสังคมด้วย
- คลีนแอนด์เจิร์ก แทบจะถือได้ว่าเป็นหนึ่งในท่าที่ “สมบูรณ์แบบ” ทีเดียว
  ยิ่งถ้ารวมท่าดัดแปลงของสควอตเข้าไปด้วยก็ยิ่งใช่ ดังนั้นมันอาจไม่ใช่ตัวอย่างที่ดีที่สุด ผมไม่รู้จักใครที่สามารถคลีนแอนด์เจิร์กน้ำหนักมากกว่าน้ำหนักตัวเองได้หลายครั้ง แต่ไม่ใช่สัตว์ประหลาดในแทบทุกแง่มุมสำคัญของสมรรถภาพมนุษย์
  ร่างกายมนุษย์เป็นเครื่องจักรหนึ่งเดียว และการตอบสนองของฮอร์โมนก็เกิดขึ้นทั้งร่างกาย ความทนทานกับพละกำลังเป็นสเปกตรัม แต่ทั้งร่างกายจะตามไปด้วยกัน
- นั่นน่าจะเป็นสัญญาณมากกว่าว่า “สมรรถภาพทั่วไป” ไม่ใช่มาตรวัดที่เข้มงวด
  ถึงระดับหนึ่ง แนวคิดคลุมเครืออย่าง “ความสามารถทางกาย” ก็พอใช้ได้ แต่หลังจากนั้น การพัฒนาความสามารถจะเฉพาะเจาะจงตามภารกิจและไม่ถ่ายโอนไปยังภารกิจอื่น ทำให้มันหมดความหมาย
ดังนั้นผมจึงไม่ชอบการมุ่งเน้นที่ GDP การสำรวจความพึงพอใจในชีวิตและความมองโลกในแง่ดีรายไตรมาสน่าจะเป็นมาตรวัดที่ดีกว่า
ถ้าอยากรู้เรื่อง GDP ลองคิดดูว่า ถ้ารถผมเสียแล้วเอาไปซ่อม GDP ก็เพิ่มขึ้น ถ้าพ่อแม่อยู่บ้านเลี้ยงลูก GDP ก็ลดลง ถ้าผมทำความสะอาดบ้านเอง GDP ก็ลดลง
อัตราการว่างงานก็เป็นตัวชี้วัดที่หยาบเช่นกัน มันบอกไม่ได้ว่างานนั้นเป็นงานที่ผู้คนต้องการหรือไม่ หรือเป็นงานแย่ ๆ ที่พวกเขารู้สึกว่าต้องฝืนทำหรือเปล่า
- ผมไม่ได้คัดค้านมากนักว่า GDP เป็นมาตรวัดที่หยาบ แค่กำลังลองจัดระเบียบความคิดอยู่
  ผมไม่คิดว่าความพึงพอใจในชีวิตและความมองโลกในแง่ดีของปัจเจกควรถูกกำหนดโดยเศรษฐกิจของรัฐชาติอย่างมากถึงขั้นที่รัฐบาลควรนำมันมาเป็นเป้าหมายในการปรับให้เหมาะสม หน้าที่ของรัฐบาลคือสร้างเงื่อนไขด้านความมั่นคง ความเจริญรุ่งเรือง และโอกาส โดยไม่กดขี่ส่วนอื่นของโลกหรือทำลายโลก
  ภายในกรอบนั้น การค้นหาชีวิตที่น่าพึงพอใจเป็นหน้าที่ของผมเอง และชีวิตแบบนั้นก็เป็นไปได้ภายใต้โครงสร้างเศรษฐกิจและสังคมที่แตกต่างกันมาก ในทำนองเดียวกัน เงื่อนไขที่จะมอบความพึงพอใจแบบถ้วนหน้าให้พลเมืองทุกคนน่าจะไม่มีอยู่ แล้วถ้าอย่างนั้นเราควรปรับสถิติสรุปแบบใดของความพึงพอใจในชีวิตและความมองโลกในแง่ดีให้เหมาะสมที่สุด?
- ประเด็นสำคัญคือ ไม่ว่าจะวัดอะไรก็ไม่สำคัญ
- เป็นเรื่องย้อนแย้งที่ในแมชชีนเลิร์นนิงเราจัดการกับเวกเตอร์ของปริมาณนับพัน แต่เวลาวัดสังคมและเศรษฐกิจกลับใช้ตัวเลขเพียงหนึ่งหรือไม่กี่ตัว
  วาทกรรมทั่วไปอย่างข่าว นักการเมือง ฟอรัมต่าง ๆ มักถูกทำให้เรียบง่ายเกินไปอย่างมาก โดยพูดถึงเพียงไม่กี่มาตรวัด วาทกรรมที่มีมาตรวัดนับพันนั้นซับซ้อนเกินกว่าจะสื่อสารได้ง่าย
  สักวันหนึ่งหวังว่าคนส่วนใหญ่จะยอมรับโดยนัยว่า ยิ่งจำนวนมาตรวัดน้อยเท่าไร ก็ยิ่งมีแนวโน้มว่าเป็น การทำให้เรียบง่าย ที่ซ่อนอะไรบางอย่างไว้ ตัวอย่างเช่น “X เป็นมหาเศรษฐี ดังนั้นจึงฉลาด” หรือ “ประเทศ X มี GDP สูง ดังนั้นจึงดีกว่าประเทศ Y ที่มี GDP ต่ำ” เป็นต้น
- เห็นด้วย และเรื่องนี้ใช้ได้กับทุนนิยมโดยรวมด้วย
  โครงร่างคร่าว ๆ ของทางเลือกหนึ่งแทนทุนนิยมและทางเลือกการวางแผนจากส่วนกลางในอดีตที่ล้มเหลวอยู่ที่นี่:
  https://jacobin.com/2019/03/sam-gindin-socialist-planning-mo...
  หากดูส่วนที่เกี่ยวข้อง รากฐานของสังคมนิยมคือการวางแผนและการควบคุมโดยคนงาน แต่การวางแผนที่ทะเยอทะยานเกินไปล้มเหลวแบบโซเวียต ส่วนสถานประกอบการที่มีอิสระมากเกินไปก็ล้มเหลวแบบยูโกสลาเวีย การวางแผนอย่างครอบคลุมไม่ทั้งมีประสิทธิผลและไม่น่าปรารถนา ส่วนการกระจายอำนาจไปยังกลุ่มสถานประกอบการก็แตกเป็นส่วนย่อยทางเศรษฐกิจมากเกินกว่าจะระบุผลประโยชน์ทางสังคมได้ และแตกเป็นส่วนย่อยทางการเมืองมากเกินกว่าจะมีอิทธิพลต่อการวางแผนได้ ดังนั้นหัวใจสำคัญคือจะเปลี่ยนแปลงรัฐ การวางแผน สถานประกอบการ และความสัมพันธ์ระหว่างสิ่งเหล่านี้อย่างไรเพื่อแก้โจทย์ยากนี้
  หน่วยปฏิบัติการของทั้งทุนนิยมและสังคมนิยมคือสถานประกอบการ ในทุนนิยม มันกลายเป็นส่วนหนึ่งของหน่วยทุนที่แข่งขันกัน ส่วนในสังคมนิยม เมื่อหน่วยเอกชนเพื่อการขยายตัวเองถูกกันออกไป กลุ่มสถานประกอบการก็จะเข้าไปอยู่ใน “ภาคส่วน” ที่จัดตั้งขึ้นอย่างปฏิบัติได้จริงตามเทคโนโลยีร่วม ผลผลิต บริการ ประวัติศาสตร์ที่ผ่านมา ฯลฯ ภาคส่วนเหล่านี้จะกลายเป็นหน่วยหลักของการวางแผนเศรษฐกิจ และตามธรรมเนียมเคยอยู่ภายในกระทรวงของรัฐ เช่น เหมืองแร่ เครื่องจักร การแพทย์ การศึกษา และการคมนาคม
  นวัตกรรมแบบถึงรากในที่นี้คือการถ่ายโอนอำนาจและขีดความสามารถด้านการวางแผนของกระทรวงออกไปสู่ประชาสังคมนอกภาครัฐ กระทรวงเดิมจะได้รับการรับรองตามรัฐธรรมนูญแต่ตั้งอยู่นอกรัฐ และถูกจัดโครงสร้างใหม่เป็น สภาภาคส่วน ที่ดำเนินการโดยตัวแทนสถานประกอบการในแต่ละภาคส่วนซึ่งได้รับการเลือกตั้ง คณะกรรมการวางแผนส่วนกลางยังคงจัดสรรเงินทุนให้แต่ละภาคส่วนตามลำดับความสำคัญของรัฐ แต่เมื่ออำนาจของสถานประกอบการถูกรวมกันในระดับภาคส่วน ก็จะเปลี่ยนสมดุลอำนาจระหว่างรัฐกับคนงาน และสามารถจัดการปัญหาของตลาดในแบบที่เหมาะกับสังคมนิยมมากขึ้น
  หัวใจสำคัญคือการสร้างสมดุลระหว่างแรงจูงใจที่เพิ่มความเหลื่อมล้ำกับอคติด้านการลงทุนแบบเสมอภาค ส่วนเกินที่แต่ละกลุ่มสถานประกอบการหาได้สามารถนำไปใช้เพิ่มการบริโภคร่วมกันหรือส่วนบุคคลได้ แต่ไม่สามารถนำไปลงทุนซ้ำได้ ลำดับความสำคัญระดับประเทศถูกกำหนดในระดับการวางแผนส่วนกลางผ่านกระบวนการและแรงกดดันแบบประชาธิปไตย แล้วแปลออกมาเป็นการจัดสรรการลงทุนรายภาคส่วน สภาภาคส่วนจะแบ่งเงินลงทุนให้กับกลุ่มสถานประกอบการที่ตนรับผิดชอบ แต่ต่างจากการตัดสินใจแบบตลาด เกณฑ์หลักไม่ใช่การให้สิทธิพิเศษมากขึ้นแก่สถานประกอบการที่ผลิตภาพสูงที่สุดจนทำให้ช่องว่างถาวรถูกผลิตซ้ำ หากแต่เป็นการยกระดับผลิตภาพของกลุ่มที่อ่อนแอให้เข้าใกล้กลุ่มที่ยอดเยี่ยม
  ตรงกันข้ามกับข้อโต้แย้งของ Hayek สิ่งที่ขัดขวางไม่ให้มีการแบ่งปันข้อมูลอย่างเป็นระบบกลับเป็นทุนนิยมต่างหาก ผลลัพธ์ของทรัพย์สินส่วนบุคคลและการทำกำไรสูงสุดคือข้อมูลเป็นสินทรัพย์ในการแข่งขัน จึงต้องถูกปกปิดไว้ ในทางกลับกัน ในสังคมนิยม การแบ่งปันข้อมูลอย่างแข็งขันเป็นเงื่อนไขจำเป็นของการทำงาน และทำให้สิ่งนี้เป็นความรับผิดชอบของสภาภาคส่วนในเชิงสถาบัน
ผมกำลังพยายามนึกว่าเคยได้ยินชื่อผู้เขียนคนนี้จากที่ไหน
เขาคือคนที่คิดค้น โมเดล diffusion เชิงกำเนิด เป็นคนแรกในปี 2015
https://arxiv.org/abs/1503.03585
- สำหรับผม จำได้จากบทความวิจัยอันชาญฉลาดในปี 2019 ที่เขียนร่วมกับ Stephan Hoyer และ Sam Greydanus
  เนื้อหาเป็นการทำ การปรับเหมาะโครงสร้าง โดยใช้โครงข่ายประสาทที่ถูกจำกัดให้เป็นตัวเก็บ ตัวแก้ไข และตัวปรับแต่งของแบบจำลองฟิสิกส์ที่อธิบายโครงสร้างที่ต้องการปรับให้เหมาะสม: https://arxiv.org/abs/1909.04240
  เป็นแนวทางที่น่าสนใจมาก และบทความก็เขียนได้ดีมากด้วย
ทำให้นึกถึงการไปร้านอาหารเชน
ทุกอย่างผ่าน focus group และถูกปรับให้เหมาะสมหมดแล้ว จนรู้สึกเหมือนเป็น ตัวชี้วัดแทนที่ overfit สำหรับมื้ออาหารที่น่าเพลิดเพลิน ราวกับว่าผมอยู่ในเครื่องจักรโจ่งแจ้งที่ถูกปรับมาเพื่อดูดกำไรจากการที่ผมไปเยือน และความเป็นร้านอาหารแทบจะกลายเป็นเรื่องรอง
ประมาณฉากที่พูดว่า “สวัสดีค่ะ! ฉันชื่อ Tracy ค่ะ! คืนนี้ฉันจะเป็นเซิร์ฟเวอร์ดูแลโต๊ะของคุณ!” พร้อมกับเขียนชื่อตัวเองกลับหัวบนผ้าปูโต๊ะกระดาษด้วยสีเทียนได้อย่างสมบูรณ์แบบ ที่นี่คงต้องปรับเทียบความเป็นตัวของตัวเองของพนักงานกันใหม่สักหน่อย
ผมว่ามันใช้ได้กับเวลาผู้จัดการพยายาม ปรับกระบวนการทำงานให้เหมาะสมเกินไป ด้วย
สุดท้ายคนที่มีความคิดสร้างสรรค์ก็หมดความสนใจ และงานก็กลายเป็นสิ่งที่ทนไม่ได้ ผมคิดว่าทั้งที่ทำงานและชีวิตต้องมีความโกลาหลอยู่บ้าง
- ผมมักฆ่าความอยากทำโปรเจกต์เสริมของตัวเอง ด้วยการพยายามปรับส่วนที่ไม่อยากทำให้เหมาะสมเกินไป
  แค่ต้องจัดการส่วนที่ไม่น่าพอใจให้เสร็จแล้วเดินหน้าต่อ อย่างน้อยก็ไม่มีใครจ่ายเงินให้ผมเพื่อผลักผมลงวังวนแบบนั้น
ผมเห็นตัวอย่างของกฎข้อนี้ที่ร้านฮาร์ดแวร์ขนาดใหญ่แถวบ้าน
ราว 10 ปีก่อน ร้านนั้นติดตั้งกรงล็อกกันขโมย ตอนแรกใส่ไว้เฉพาะของราคาแพง ซึ่งแม้จะไม่สะดวกบ้างแต่ก็ไม่ได้แย่มาก ลูกค้าที่จะซื้อเครื่องมือไฟฟ้าระดับสูงราคาเกิน 200 ดอลลาร์ โดยทั่วไปก็น่าจะยอมรอสัก 5 นาทีได้
แต่ไม่กี่ปีต่อมาก็เกิดการเปลี่ยนแปลงที่แทบจะแน่นอนว่าเป็นแบบ อิงข้อมูล จู่ ๆ ก็ไม่มีตรรกะที่มองออกได้แล้วว่าอะไรถูกล็อก อะไรเปิดไว้ ตอนนี้เครื่องมือวินิจฉัยราคา 500 ดอลลาร์อาจวางอยู่บนชั้นเฉย ๆ ขณะที่หลอดไฟราคา 5 ดอลลาร์อาจอยู่หลังกุญแจ
น่าจะเป็นผลจากการเรียงฐานข้อมูลตามลำดับของสินค้าที่ทำให้เกิดความเสียหายสะสมจากการขโมยมากที่สุด กล่าวคือเขาล็อกสินค้าที่ทำให้ร้านฮาร์ดแวร์เสียเงินมากที่สุดไว้
ผลก็คือบรรยากาศของร้านอ่านออกเป็นประมาณว่า “ที่นี่หมกมุ่นกับกำไรมากจนไม่ไว้ใจลูกค้าว่าจะไม่ขโมยแม้แต่ไม้จิ้มฟันหนึ่งกล่อง” และจากมุมลูกค้า หลายครั้งมันก็ไม่คุ้มที่จะรอพนักงานมาเปิดกรงให้
ต่อให้ป้องกันการขโมยสบู่ราคา 3 ดอลลาร์ได้สองสามก้อน ผมก็สงสัยว่าการปรับให้เหมาะสมแบบนั้นช่วยกำไรสุทธิจริงหรือไม่
- ซื้อจาก Amazon สะดวกกว่าการตามหาคนมาเปิดตู้กระจกในร้านขายยามาก
  ร้านขายยาที่เอาของพื้นฐานไปไว้ในตู้กระจกมักขาดพนักงานด้วย
- คำว่า “ล็อกสินค้าที่ทำให้ร้านฮาร์ดแวร์เสียหายสะสมมากที่สุดเพราะการขโมย” กับคำว่า “สงสัยว่าการปรับให้เหมาะสมแบบนั้นช่วยกำไรสุทธิจริงหรือไม่” ดูเหมือนขัดแย้งกันโดยตรง
  เว้นแต่จะคิดจริง ๆ ว่าเพราะเรื่องนั้นทำให้คนไม่ไปที่ร้าน และความเสียหายนั้นมากกว่าส่วนที่ลดการขโมยลงได้ อีกทั้งแม้คนจะไม่ไป ร้านฮาร์ดแวร์ขนาดใหญ่คู่แข่งในพื้นที่ก็น่าจะทำแบบเดียวกันอยู่ดี ต้องจำไว้ด้วยว่ามาร์จินค้าปลีกโดยทั่วไปไม่ได้สูงมาก ของหนึ่งชิ้นถูกขโมยไป ต้องขายเพิ่มอีกกี่ชิ้นถึงจะชดเชยความเสียหายได้? ต่อให้ลูกค้าบางส่วนย้ายไป Amazon การเลี่ยงการขโมยก็อาจยังคุ้มกว่าอยู่ดี
  จริง ๆ แล้วมีความเป็นไปได้มากกว่าว่ามันส่งผลต่อการลดการขโมยมากที่สุด การที่มองไม่เห็น “ตรรกะที่ระบุได้” อาจเป็นเพราะไม่มีประสบการณ์กับเรื่องแบบนั้น การขโมยมักขึ้นกับ ความสามารถในการขายต่อ มากกว่าราคาของสินค้า เครื่องมือไฟฟ้าเฉพาะทางราคาแพงชิ้นหนึ่งอาจใช้เวลานานกว่าจะขายต่อได้ แต่ผงซักฟอกกับใบมีดโกนสามารถระบายเป็นจำนวนมากได้ภายในวันเดียว ผู้คนใช้ผงซักฟอกและใบมีดโกนบ่อยกว่าหลอดไฟมาก
  ผมเข้าใจว่าไม่ชอบความไม่สะดวก แต่คิดว่าคำตำหนิควรมุ่งไปที่ขโมยหรือปัจจัยที่ก่อให้เกิดการขโมย ไม่ใช่ที่ร้าน