สถิติแบบเบย์: สามวัฒนธรรม

(statmodeling.stat.columbia.edu)

1 คะแนน โดย GN⁺ 2024-07-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ข้อถกเถียงเรื่องสถิติแบบเบย์ไม่ได้เป็นเพียงปัญหาเรื่อง prior distribution อย่างเดียว แต่โยงไปถึงความแตกต่างว่า Bayes แบบอัตวิสัย·แบบวัตถุวิสัย·แบบปฏิบัตินิยม มองโมเดลและกระบวนการตรวจทานอย่างไร
Bayes แบบอัตวิสัยเป็นแนวทางดั้งเดิมที่ตั้งสมมติฐาน distribution ที่สร้างข้อมูลขึ้นมาก่อน จากนั้นเข้ารหัส ความเชื่อก่อนหน้า เกี่ยวกับพารามิเตอร์เป็น prior distribution แล้วเดินหน้าสู่ posterior inference
Bayes แบบวัตถุวิสัยมองว่า inference ควรขึ้นอยู่กับ โมเดลที่ตั้งสมมติฐานไว้ และข้อมูลเท่านั้น และ prior distribution ควรมีข้อมูลน้อยที่สุดในความหมายเชิงทฤษฎีสารสนเทศ
Bayes แบบปฏิบัตินิยมสร้าง โมเดลความน่าจะเป็นร่วม ของปริมาณที่สังเกตได้และสังเกตไม่ได้ทั้งหมด จากนั้น condition ด้วยข้อมูล ตรวจสอบความเหมาะสมของโมเดลและข้อสรุป แล้วทำซ้ำหากจำเป็น
กระบวนการทำซ้ำนี้ใกล้เคียงกับ iterative design ในงานวิศวกรรมและวิธีทำงานทั่วไปของ machine learning ทำให้มองการวิเคราะห์แบบเบย์เป็น workflow การสร้างโมเดลจริง มากกว่าจะเป็นปรัชญาที่ตายตัว

การแบ่งแยกสามวัฒนธรรมของ Bayes

Bayes แบบอัตวิสัย เริ่มจากการตั้งสมมติฐาน distribution ที่สร้างข้อมูล หรือถ้ามองเป็นฟังก์ชันของพารามิเตอร์ก็คือ likelihood
ภายใต้สมมติฐานนั้น จะแสดงความเชื่อเดิมเกี่ยวกับพารามิเตอร์ด้วย prior distribution
หลังจากนั้นทำ posterior inference แล้วแทบจะไม่ย้อนกลับไปทบทวนอีก
ยังไม่แน่ชัดว่ามีใครเคยยึดปรัชญานี้อย่างเคร่งครัดจริงหรือไม่ หรือในปัจจุบันจะมีใครลงทะเบียนตัวเองว่าเป็น Bayesian แบบอัตวิสัยหรือไม่

แรงจูงใจของ Bayes แบบวัตถุวิสัยและ reference prior

Bayes แบบวัตถุวิสัย อาจมองได้ว่าเป็นปรัชญาที่เกิดจากการผสมกันระหว่างความต้องการใช้การทดสอบสมมติฐาน โดยเฉพาะ Bayes factor กับ “Bayesian cringe”
บทความปี 2009 ของ Berger, Bernardo, Sun เรื่อง reference prior อธิบายว่า reference analysis สร้าง inference แบบ Bayesian ที่เป็นวัตถุวิสัย
- ข้อความ inference ขึ้นอยู่กับ โมเดลที่ตั้งสมมติฐานไว้ และข้อมูลที่มีเท่านั้น
- prior distribution ที่ใช้ควรเป็นแบบ มีข้อมูลน้อยที่สุด ในความหมายเชิงทฤษฎีสารสนเทศเฉพาะแบบหนึ่ง
แนวทางนี้ยังคงดำเนินต่อผ่านงานประชุมและหนังสือที่มีชื่อว่า “objective Bayes”
prior distribution แบบกว้างอย่าง gamma(epsilon, epsilon) และ normal(0, 10_000) ที่ใช้ในตัวอย่าง BUGS ก็อยู่เบื้องหลังแนวทางนี้ในระดับหนึ่ง

Bayes แบบปฏิบัตินิยมและสามขั้นตอนของ BDA

แนวทางของ Andrew Gelman เรียกได้ว่าเป็น Bayes แบบปฏิบัตินิยม
ฉบับพิมพ์ครั้งแรกของ Bayesian Data Analysis โดย Gelman, Carlin, Stern, Rubin ทำให้กระบวนการวิเคราะห์ข้อมูลแบบ Bayesian เป็นอุดมคติสามขั้นตอน
- ตั้ง โมเดลความน่าจะเป็นที่สมบูรณ์ สำหรับปริมาณที่สังเกตได้และสังเกตไม่ได้ทั้งหมด กล่าวคือ joint probability distribution
- condition ด้วยข้อมูลที่สังเกตได้ เพื่อคำนวณและตีความ posterior distribution ของปริมาณที่สังเกตไม่ได้ที่สนใจ
- ประเมินความเหมาะสมของโมเดล ความสมเหตุสมผลของข้อสรุปที่ posterior distribution บ่งชี้ และความไวต่อสมมติฐานในการสร้างโมเดล
หากมีปัญหา ให้เปลี่ยนหรือขยายโมเดล แล้วทำซ้ำสามขั้นตอนเดิม
ในที่นี้ probability model คือ joint model ที่รวมทั้ง prior distribution และ likelihood
อินพุตถูกเรียกว่า “knowledge” มากกว่า “belief”
กระบวนการประเมินว่าโมเดลเข้ากับข้อมูลดีเพียงใดและผลการพยากรณ์เป็นอย่างไร แล้วลองใหม่หากมีปัญหา ภายหลังถูกเรียกว่า “workflow”

iterative design ที่คุ้นเคยในวิศวกรรมและ machine learning

วิธีนี้เหมือนกับขั้นตอนปฏิบัติมาตรฐานที่ในงานวิศวกรรมเรียกว่า iterative design
machine learning แทบทั้งหมดก็ทำด้วยวิธีเช่นนี้
สำหรับผู้ที่มีพื้นฐานด้านวิทยาการคอมพิวเตอร์และ machine learning สิ่งที่น่าประหลาดใจคือ นักสถิติไม่ได้คิดแบบนี้มาโดยตลอด

กลยุทธ์ของ BDA และการหลีกเลี่ยงข้อถกเถียงเชิงปรัชญา

ตอนที่ Andrew Gelman เขียน BDA ฉบับพิมพ์ครั้งแรก เขาเลือกฝั่งการ “ทำ” วิทยาศาสตร์จริง มากกว่าการอภิปรายปรัชญายืดยาว
Gelman และ Rubin ไม่ได้ตั้งชื่อเฉพาะให้กระบวนการ iterative design ของตน
เพราะการนิยามความเชื่อเชิงปรัชญาของผู้อื่นอย่างแม่นยำเป็นเรื่องยาก และการเปลี่ยนความเชื่อนั้นผ่านการถกเถียงยิ่งยากกว่า ทางเลือกนี้จึงดูชาญฉลาด
เป็นแนวทางที่ใกล้เคียงกับ “show, don’t tell” คือแสดงวิธีวิทยาผ่าน การสร้างโมเดลจริง และการทำวิทยาศาสตร์ มากกว่าการถกเถียงเชิงปรัชญา

prior distribution และ likelihood ควรถูกพิจารณาร่วมกัน

ส่วนหนึ่งของการอภิปรายเกี่ยวกับ prior distribution แต่การเลือก prior distribution ไม่ได้เป็นอัตวิสัยมากกว่าหรือน้อยกว่าการเลือก likelihood
บทความของ Andrew Gelman เรื่อง “Straining on the gnat of the prior distribution while swallowing the camel that is the likelihood” สรุปมุมมองนี้ไว้
ในเชิงปรัชญา ชอบการจัดวาง prior distribution และ likelihood ด้วยถ้อยคำเชิงญาณวิทยาว่า knowledge มากกว่า “belief”
กรอบการมองนี้ Laplace เป็นผู้เสนอครั้งแรก John Stuart Mill สำรวจอย่างลึกซึ้งยิ่งขึ้น และ Gelman กับคณะก็ทำตามใน BDA

สายธารของชื่อเรื่องและสองวัฒนธรรมของ Breiman

ในปี 1959 C.P. Snow เขียน “The two cultures” ซึ่งว่าด้วยการเปรียบต่างระหว่างศิลปะกับวิทยาศาสตร์
ในปี 2001 L. Breiman เขียนบทความทรงอิทธิพล “Statistical modeling: the two cultures”
การเปรียบต่างของ Breiman เกี่ยวกับความแตกต่างระหว่างวิธีที่สร้างโมเดลกระบวนการกำเนิดอย่างชัดเจน กับวิธีที่ใช้โมเดลยืดหยุ่นมาก ซึ่งในคำศัพท์ machine learning ตรงกับ โมเดลความจุสูง
Breiman สนับสนุน decision forests ในงานวิจัยของตน และในรายการแข่งขัน Kaggle ที่ข้อมูลยังไม่เพียงพอสำหรับการปรับ neural networks รุ่นใหม่ แนวทางนี้ก็ยังคงชนะอยู่
บทความปิดท้ายด้วยคำถามว่า decision forests และ neural networks เข้าข่ายตัวอย่างที่ Andrew เรียกว่า “unfolding flower” หรือไม่

1 ความคิดเห็น

GN⁺ 2024-07-28

ความคิดเห็นบน Hacker News

ผู้เขียนดูเหมือนจะแบ่ง Bayesian ออกเป็นสองแกน: (1) ตั้ง prior distribution ให้มีข้อมูลมากเพียงใด โดยอิงจากความรู้หรือความเชื่อเกี่ยวกับโลก, (2) มีการแก้ รูปแบบฟังก์ชันของโมเดล ซ้ำ ๆ หรือไม่ โดยดูจากความพอดีของโมเดล รวมถึงความสมเหตุสมผลและความมีประโยชน์ของผลลัพธ์
จากการผสมกันนี้ ผู้เขียนเรียก 3 แบบว่า informative+iterative=เชิงปฏิบัติ, informative+non-iterative=เชิงอัตวิสัย, non-informative+non-iterative=เชิงวัตถุวิสัย แต่ส่วนที่เห็นด้วยยากที่สุดคือช่อง non-informative+iterative กลับว่างอยู่
ผมคิดว่าคนส่วนใหญ่ในอุตสาหกรรมที่เรียกตัวเองว่า Bayesian อยู่ในช่องนี้ รูปแบบฟังก์ชันของโมเดล หรือก็คือกระบวนการสร้างข้อมูลที่สมมติขึ้น ย่อมควรและจำเป็นต้องปรับปรุงซ้ำ ๆ อยู่แล้ว และบ่อยครั้งข้อมูลก็มีขนาดใหญ่พอที่จะท่วมอิทธิพลของ prior distribution ทำให้ prior distribution มักเป็นแบบไม่มีข้อมูลหรือมีข้อมูลอ่อน ๆ
ดังนั้นคอลัมน์ non-iterative ทั้งหมดจึงให้ความรู้สึกเหมือนเป็นหุ่นฟาง แต่ผู้เขียนก็ระบุชัดว่า ตัวเขาเองก็เคยเชื่อแบบนั้น จนกระทั่ง “ตกใจเมื่อรู้ว่านักสถิติไม่ได้คิดแบบนี้”
- non-iterative มีอยู่จริง และไม่ได้จำเป็นต้องมาจากเหตุผลที่ไม่ดีเสมอไป การปรับปรุงโมเดลซ้ำ ๆ ก็เพื่อทำให้ดีขึ้นตามเกณฑ์บางอย่าง แต่ในงานวิจัยทางวิทยาศาสตร์มี แรงจูงใจที่บิดเบี้ยว อย่างแรงเกี่ยวกับเกณฑ์นัยสำคัญและผลลัพธ์เชิงบวก
  สถานการณ์ที่การวิเคราะห์เปลี่ยนไปตามข้อมูล เหมือน “สวนแห่งทางแยก” อาจดูเป็นสาเหตุโดยตรงของวิกฤตเชิงสถิติและเชิงญาณวิทยาในวิทยาศาสตร์ปัจจุบันด้วย การทำซ้ำเองไม่ได้แย่ แต่บ่อยครั้ง objective function ที่กำลัง optimize ไม่ตรงกับสิ่งที่ต้องการในเชิงวิทยาศาสตร์
  สำหรับนักวิจัยวิทยาศาสตร์จริง ๆ การปรับแต่งโมเดลซ้ำ ๆ อาจรู้สึกเหมือนเป็นการกระทำที่ไม่ซื่อสัตย์บางอย่าง และดูเกี่ยวข้องลึกซึ้งกับกรอบญาณวิทยาที่มีข้อบกพร่องซึ่งหลายสาขามาบรรจบกัน นั่นคือ ถ้า p<0.05 ก็จริง ไม่เช่นนั้นก็เท็จ
  พูดอีกแบบ แก่นของความไม่สบายใจอาจอยู่ที่จำนวน degree of freedom ที่ผู้วิเคราะห์ควบคุมได้ ในบริบท Bayesian หากเลือก prior distribution จากความเชื่อหรือข้อมูลในอดีต ผู้วิเคราะห์จะมีอำนาจควบคุมอย่างมากต่อว่าผลลัพธ์จะออกมาอย่างไร
  ดังนั้นหลายสาขาจึงดูเหมือนจะเอนเอียงไปใช้ชุดการทดสอบ ‘มาตรฐาน’ มากกว่าสร้างโมเดลสถิติที่ดี การทดสอบเหล่านี้แย่งปุ่มปรับส่วนใหญ่ไปจากมือผู้วิเคราะห์ และโดยทั่วไปก็ทำงานแบบอนุรักษนิยมมากกว่า
- ผมไม่ได้รู้ฝั่ง Bayesian ดีมากนัก แต่สงสัยว่า Bayesian nonparametric methods จัดอยู่ในแนวทาง “non-informative + iterative” หรือเปล่า
  อาจกำลังมองผิดทิศไปหมดก็ได้ แต่ไม่รู้ว่าความคิดหรือความเข้าใจของผมคลาดเคลื่อนตรงไหน
- น่าสนใจที่จากประสบการณ์ของผม machine learning สมัยใหม่แทบทั้งหมดทำงานแบบ Bayesian เชิงปฏิบัติ หา ELBO เลือกเทรนด์ latent variable ล่าสุดที่โมเดลโดเมนของปัญหาได้ดีที่สุด แล้วในยุคนี้ก็มักใช้ Transformer และเริ่มรันการทดลอง
คิดถึงสมัยมหาวิทยาลัยที่อาจารย์ถกเถียงกันไม่รู้จบเรื่อง Bayesian กับ frequentism
บทความนี้กระชับมาก แต่ก็อธิบายได้ว่าทำไมแม้แต่อาจารย์สาย Bayesian ด้วยกันเองจึงมีแนวทางวิจัยและวิเคราะห์ต่างกัน ผมไม่เคยรู้จักค่ายที่สามอย่าง Bayesian เชิงปฏิบัติ มาก่อน แต่ก็สอดคล้องชัดเจนกับงานวิจัยของอาจารย์คนหนึ่งที่ทำการ fit ความน่าจะเป็นและวนซ้ำจำนวนมากอย่างเข้มข้น เพื่อให้ prior distribution และ joint probability density function เข้ากันได้อย่างเหมาะสม
ขอแนะนำแรง ๆ สำหรับนักวิทยาศาสตร์ข้อมูลให้ดูบรรยายของ Andrew Gelman เรื่อง “Andrew Gelman - Bayes, statistics, and reproducibility (Rutgers, Foundations of Probability)”
- ลิงก์บรรยาย: https://youtu.be/xgUBdi2wcDI
- ถ้าพูดแบบยั่ว ๆ หน่อยเกี่ยวกับการถกเถียง frequentism กับ Bayesian สามวัฒนธรรมนี้ดูเป็นแบบนี้
  Bayesian เชิงอัตวิสัย คือหุ่นฟางที่แวดวงวิชาการสาย frequentist ชอบโจมตี, Bayesian เชิงวัตถุวิสัย คือภาพตนเองแบบไร้เดียงสาที่นักวิชาการ Bayesian จำนวนมากมี, และ Bayesian เชิงปฏิบัติ คือแนวทางของผู้ปฏิบัติงานที่นำสถิติไปใช้กับอะไรจริง ๆ หรือในแบบของ Gelman ก็คือคนที่ทำวิทยาศาสตร์
- ช่วงหลังผมยังได้ยินว่า Fiducial Statistics เป็นค่ายที่สามด้วย ตอนที่ 581 ของพอดแคสต์ Super Data Science ที่มีบรรณาธิการ Harvard Business Review ออกมานั้นค่อนข้างน่าสนใจ
- ในประเทศที่ผมจากมา แนวทาง frequentist โดยรวมครองกระแสหลัก แต่แทบไม่มีการสู้กับ Bayesian เลย ผมเลยสงสัยมาตลอด มันก็เป็นแค่ชุดของทฤษฎีคณิตศาสตร์และเครื่องมือ ใช้อันที่มีประโยชน์ก็พอ
  ผมยังคิดอยู่ดีว่าแนวโน้มที่คนอเมริกันไม่ชอบมุมมอง frequentist มากกว่า เป็นเพราะมันต้องการพื้นฐานคณิตศาสตร์ที่แข็งแรงกว่า
ผมไม่เคยชอบบรรยากาศที่ต้องตัดสินว่าตัวเองอยู่ “คลับ” ไหน หรืออยู่ “ฝ่าย” ไหน และก็ไม่ชอบความคิดที่ว่าปัญหาที่เห็นในวิทยาศาสตร์ทุกวันนี้สามารถลดทอนลงเป็นเรื่องว่าจะเลือก ปรัชญาการอนุมาน แบบใด
ในหลายแง่ผมใกล้กับสายทฤษฎีสารสนเทศมากกว่า และถ้าจำเป็นต้องพูดก็อาจเป็น Bayesian เชิงวัตถุวิสัย แต่จริง ๆ แล้วไม่ใช่ทั้ง frequentist และ Bayesian
การแบ่ง “สามวัฒนธรรม” นี้ดูเหมือนเล่นกลเล็กน้อย วัฒนธรรม “เชิงปฏิบัติ” ไม่ได้排斥กับ Bayesian เชิงอัตวิสัยหรือเชิงวัตถุวิสัย จึงไม่ได้บอกอะไรมากนักว่าควรกำหนดหรือควรตีความ prior distribution อย่างไร
Gelman อาจบอกว่าคำที่ดีกว่าคืออะไรอย่าง “ความยืดหยุ่น” แต่ถ้าอย่างนั้นก็ยังเหลือคำถามว่าเมื่อไรควรไปทางวัตถุวิสัย เมื่อไรควรไปทางอัตวิสัย และทำไมถึงเป็นเช่นนั้น การทำให้เรื่องนั้นเป็นรูปแบบชัดเจนดูดีกว่าปล่อยไว้เป็นเหมือนม่านควัน
อีกอย่าง หากพูดในบทบาททนายปีศาจ วัฒนธรรม “เชิงปฏิบัติ” ก็เผยให้เห็นด้วยว่าทำไม Bayesian จึงดูน่าสงสัย ขั้นตอนอย่าง “เลือก prior distribution”, “ดูว่าพอดีแค่ไหน”, แล้ว “วนซ้ำ” อาจดูเหมือนการ fine-tune โมเดลหรือ p-hacking
ผมรู้ว่าเจตนาไม่ใช่อย่างนั้น และก็รู้ว่าทำโมเดลไม่ได้ถ้าไม่มีการ fine-tune แต่เมื่อเข้าใกล้ด้วยวิธีนั้น prior distribution จะดูเหมือนเป็น degree of freedom อีกอย่างหนึ่งที่ใช้ดันผลลัพธ์เล็ก ๆ เพื่อจับปลา
ผมเคยเขียนและแก้ไขบทความวิจัยเกี่ยวกับ Bayesian inference มาแล้ว ปัญหาไม่เคยอยู่ที่ทฤษฎีที่แข็งแรง แต่อยู่ที่ผู้คนใช้มันจริง ๆ อย่างไรและนำไปใช้ผิดอย่างไร
หากต้องการได้มุมมองที่ถูกต้องเกี่ยวกับวิธีแบบ frequentist สมัยใหม่ ขอแนะนำ “In All Likelihood” ของ Yudi Pawitawn
บทต้น ๆ อธิบายความแตกต่างระหว่างพาราไดม์ frequentist กับ Bayesian โดยเฉพาะพลังของโมเดลแบบ frequentist หรือแบบอิง likelihood ที่ออกแบบมาอย่างดี ได้อย่างลื่นไหลทีเดียว
หากยกเว้นบางกรณีแล้ว ถ้า Bayesian ใช้ prior แบบไม่ให้ข้อมูลจริง ๆ ไม่ว่านักวิเคราะห์คนเดียวกันจะใช้โมเดล Bayesian หรือโมเดล frequentist ก็ควรได้คำตอบเดียวกัน ในสาขาที่ผมทำงานอยู่ ยังถึงขั้นพูดกันว่านักวิจัย 99% ที่ใช้วิธี Bayesian ใช้ prior แบบไม่ให้ข้อมูล จนบางครั้งก็อดคิดไม่ได้ว่าแค่ใช้ Bayesian เพราะมันดูเท่และช่วยให้ผ่าน peer review ง่ายขึ้นหรือเปล่า
สำหรับโมเดลที่ซับซ้อน เช่น โมเดลที่มีพารามิเตอร์เป็นร้อยเป็นพันตัว การรู้ว่า prior นั้นไม่ให้ข้อมูลจริงหรือไม่ในบริบทของชุดข้อมูลหนึ่ง ๆ อาจทำได้ยากอย่างยิ่ง ต้องรอให้โมเดลรัน และถ้าเปลี่ยน prior อย่างเป็นระบบ แม้ใช้ทรัพยากรประมวลผลสมรรถนะสูงก็ยังกินเวลามหาศาล
อีกอย่าง ในสภาพแวดล้อมแบบ Bayesian เรามักเผลอใช้ prior หนึ่งตัวหรือหลายตัว “แปะ” โมเดลให้รันผ่านได้ ทั้งที่ถ้าเป็น frequentist มันคงระเบิดเพราะ Hessian ไม่เป็น positive definite และให้การวินิจฉัยว่า “โมเดลน่าจะมั่ว หรือซับซ้อนเกินไปเมื่อเทียบกับชุดข้อมูล”
อาจหัวเราะเยาะโมเดลที่ซับซ้อนระดับนี้ได้ แต่ในสภาพแวดล้อมการใช้งานจำนวนมาก นี่คือความจริง เช่น โมเดลเชิงพื้นที่-เวลา ที่เผชิญปัญหา “n ใหญ่” หรือโมเดลประเมินประมงแบบบูรณาการที่ให้ข้อมูลสถานะทรัพยากรและความยั่งยืน
ดังนั้น แม้ผมจะสอนการอนุมานแบบ Bayesian ระดับบัณฑิตศึกษา แต่ข้อไม่พอใจหลักต่อสถิติ Bayesian คือมันถูกนำไปใช้ผิดได้ง่ายเกินไปโดยผู้ที่ไม่ใช่นักสถิติและมือใหม่ โดยเฉพาะในยุคที่ซอฟต์แวร์ที่ยืดหยุ่นมากเปิดให้ผู้ที่ไม่ใช่นักสถิติ เช่น นักชีววิทยา ใช้งานได้ด้วย
โดยรวมแล้ว ผมเห็นว่าข้อโต้แย้งของ Gelman ที่ว่าทั้งสองพาราไดม์ล้วนมีความเป็นอัตวิสัย และสุดท้ายก็มี “เต่าซ้อนเต่า” หรือก็คืออัตวิสัยรองรับอยู่ข้างใต้นั้น ถูกต้องและเห็นด้วยอย่างมาก
- เห็นด้วยกับการแนะนำ “In All Likelihood” แต่ก็ควรบอกด้วยว่าหนังสือเล่มนั้นอธิบายแนวทางที่สาม ซึ่งไม่พึ่งพาไม่ว่าจะเป็นความน่าจะเป็นเชิงอัตวิสัยหรือความน่าจะเป็นเชิงวัตถุวิสัย
- ถ้าปัญหาคือผู้ที่ไม่ใช่นักสถิติและมือใหม่สามารถใช้สถิติ Bayesian ผิดได้ง่าย แล้วสถิติ frequentist ไม่เป็นอย่างนั้นหรือ? :-)
ในความเห็นของผม ความน่าจะเป็น ไม่ได้ถูกนิยามไว้อย่างถูกต้อง และเป็นแนวคิดที่ไม่สามารถหักล้างได้ ถึงอย่างนั้น ในเชิงประจักษ์มันก็ดูเหมือนจะจำลองบางแง่มุมของโลกได้ค่อนข้างดี แต่เป็นไปได้ไหมว่ามันอาจกำลังชี้นำเราไปผิดทาง?
ประโยค p(X)=0.5 หรือก็คือความน่าจะเป็นของเหตุการณ์ X เท่ากับ 0.5 จริง ๆ แล้วหมายความว่าอะไร? เป็นประพจน์หรือเปล่า? ถ้าใช่ มันหักล้างได้ไหม และหักล้างได้อย่างไร?
ถ้าไม่ใช่ประพจน์ แล้วมันหมายความว่าอะไร? ถ้ามีคนที่มีพื้นฐานทางทฤษฎีแน่นกว่านี้ช่วยอธิบายได้ก็จะขอบคุณมาก มีเรื่องที่อยากพูดอีกเยอะ แต่ก่อนอื่นอยากฟังคำตอบจากคนที่มีพื้นฐานเข้มงวดก่อน
- ในฐานะทฤษฎีทางคณิตศาสตร์ ความน่าจะเป็นถูกนิยามไว้อย่างดี ความน่าจะเป็นเป็นการประยุกต์ของหัวข้อที่ใหญ่กว่าคือ ทฤษฎีการวัด และทฤษฎีการวัดยังเป็นรากฐานเชิงทฤษฎีของแคลคูลัสด้วย
  ความน่าจะเป็นทั้งหมดนิยามด้วยสามอย่าง: เซต, เซตของเซตย่อยของเซตนั้น หรือพูดง่าย ๆ คือวิธีจัดกลุ่มสิ่งต่าง ๆ, และฟังก์ชันที่ส่งเซตย่อยเหล่านั้นไปเป็นตัวเลขระหว่าง 0 กับ 1 เพื่อให้ใช้ได้ เซตของเซตย่อย ซึ่งเรียกอีกอย่างว่าเหตุการณ์ ต้องเป็นไปตามกฎเพิ่มเติมบางอย่าง
  ตัวอย่าง p(X)=0.5 ก็เพียงแปลว่าฟังก์ชันบางตัวกำหนดค่า 0.5 ให้กับเซตย่อยบางชุดที่เรียกว่า X
  เหตุผลที่สิ่งนี้ดูดีสำหรับการจำลองโลกจริง หาได้จากที่มาของทฤษฎีนี้ มันไม่ได้เกิดขึ้นจากความว่างเปล่า แต่ถูกสร้างขึ้นเพราะต้องการทำให้เหตุการณ์ในโลกจริงที่ดูสุ่มมีรูปแบบเป็นทางการ
- โดยส่วนตัว ผมได้ข้อสรุปว่ากรณีที่ความน่าจะเป็นเป็นแนวคิดที่นิยามชัดและทดสอบได้ มีเพียงสถานการณ์ที่สามารถโต้แย้งได้จาก สมมาตรที่แม่นยำ บางอย่างเท่านั้น
  การโยนเหรียญ เกมเสี่ยงดวง และปัญหาจำนวนมากในฟิสิกส์สถิติอยู่ในกลุ่มนี้ ในทางกลับกัน ในการอนุมาน การคาดการณ์ และการประมาณในโลกจริง ความน่าจะเป็นเป็นเรื่องอัตวิสัย และสามารถทำให้เป็นเชิงปริมาณได้น้อยกว่าที่นักสถิติ รวมถึงชาวเบย์เซียน คิดไว้มาก
  ถ้าถามว่าความน่าจะเป็นชี้นำเราไปผิดทางได้ไหม ผมคิดว่าได้ ความรู้สึกของผมยิ่งแรงขึ้นเรื่อย ๆ ว่าวิทยาศาสตร์ทั้งหมดที่พึ่งพาการทดสอบสมมติฐานทางสถิติเป็นวิธีเชิงประจักษ์หลัก โดยพื้นฐานแล้วใกล้เคียงกับกองขยะขนาดมหึมา และวิกฤตการทำซ้ำผลได้เป็นเพียงยอดภูเขาน้ำแข็งเท่านั้น ซึ่งรวมถึงเศรษฐศาสตร์ จิตวิทยาสังคม ส่วนใหญ่ของการแพทย์ วิทยาศาสตร์ข้อมูล ฯลฯ
  ผมมองว่าประโยคอย่าง p(X)=0.5 ในกรณีส่วนใหญ่เป็น ประพจน์ที่ไม่สามารถหักล้างได้ แม้จะเป็นการโยนเหรียญที่ทำการทดลองจำนวนมากได้ในราคาถูก ก็ต้องโยนถึงหนึ่งล้านครั้ง จึงจะ “ยืนยัน” ความน่าจะเป็นที่คำนวณได้ด้วยความแม่นยำประมาณ 1% เท่านั้น ตามมาตรฐานวิทยาศาสตร์แม่นยำถือว่าแย่มาก และจะแย่ลงอีกหากสมมติฐานไม่แข็งแรงนัก ปริภูมิตัวอย่างซับซ้อนกว่าเดิม หรือค่าใช้จ่ายในการทำซ้ำสูงขึ้น
- ความน่าจะเป็นไม่ใช่แนวคิดเดียว แต่เป็นครอบครัวของแนวคิดที่เกี่ยวข้องกัน ความน่าจะเป็นเชิงญาณวิทยา ในเบย์เซียนแบบอัตวิสัยเป็นคนละแนวคิดกับความน่าจะเป็นแบบความถี่นิยม และแน่นอนว่ามันเกี่ยวข้องกันในบางแง่
  ถ้าเอานิยามที่ไม่เข้ากันมาปนกัน ก็ไม่น่าแปลกใจที่จะดูเหมือนเป็น “แนวคิดที่นิยามไม่ชัดและหักล้างไม่ได้”
  จากมุมมองเบย์เซียนแบบอัตวิสัย p(X) คือค่าที่วัดระดับความเชื่อมั่นที่ผมหรือใครบางคนมีต่อการที่ประพจน์หนึ่งเป็นจริง การตัดสินน้ำหนักของหลักฐานที่สนับสนุนและคัดค้านมัน หรือระดับความรู้ของผมเกี่ยวกับความจริงหรือเท็จของมัน
  0.5 หมายถึงไม่มีความมั่นใจไปทางใดทางหนึ่ง ไม่มีหลักฐานไปทางใดทางหนึ่ง หรือหลักฐานทั้งสองฝั่งหักล้างกันพอดี และไม่มีความรู้เลยว่าประพจน์นั้นเป็นจริงหรือไม่
  นี่เป็นประพจน์ในความหมายเดียวกับที่ว่า “พระสันตะปาปาเชื่อว่าพระเจ้ามีอยู่จริง” เป็นประพจน์ ไม่ว่าพระเจ้าจะมีอยู่จริงหรือไม่ การที่พระสันตะปาปาเชื่อเช่นนั้นก็มีความเป็นไปได้สูงมากว่าเป็นจริง
  ดังนั้น ข้อกล่าวอ้างเกี่ยวกับความเชื่อของผมสามารถหักล้างได้ง่ายด้วยการใคร่ครวญของผมเอง และข้อกล่าวอ้างเกี่ยวกับความเชื่อของคนอื่นก็หักล้างได้ด้วยการถามเขา หากเขาเต็มใจตอบและเรามองว่าเขาไม่มีเหตุผลที่จะโกหก
- เป็นเรื่องจริงที่ข้อกล่าวอ้างเฉพาะอย่าง p(X=x)=a โดยทั่วไปหักล้างไม่ได้ แต่สามารถเปรียบเทียบฟังก์ชัน p ทั้งชุดกันได้ และบอกได้ว่าอันไหนเข้ากับข้อมูลได้ดีกว่า
  ตัวอย่างเช่น สมมติว่า Nate Silver กับ Andrew Gelman ต่างก็ประกาศความน่าจะเป็นของผลการแข่งขันทั้งหมดในการเลือกตั้งเดือนพฤศจิกายน หลังผลเลือกตั้งออกมา เราไม่สามารถบอกได้ว่าความน่าจะเป็นรายตัวถูกหรือผิด แต่สามารถบอกได้ว่าใครแม่นยำกว่ากัน
- ถ้าผลจากการโยนเหรียญ 1000 ครั้งคือหัว 99% ก้อย 1% และคุณมั่นใจว่าทุกครั้งใช้กระบวนการเดียวกัน และมีโอกาสแทงฝั่งก้อยด้วยอัตราจ่าย 50% คุณจะเดิมพันไหม?
  นี่คือคำตอบเชิงปฏิบัติที่ปฏิเสธ P(X)=0.5 และเราสามารถพยายามทำความเข้าใจการตัดสินใจเชิงปฏิบัตินี้ด้วยทฤษฎีบางอย่างได้ เพิ่มเติมคือ การที่ค่าเป็น 0.5 พอดีนั้นแทบเป็นไปไม่ได้ ดังนั้นการตรวจว่าอยู่ในช่วงอย่าง (0.49, 0.51) จึงสมเหตุสมผลกว่า
  ทฤษฎีบทขีดจำกัดกลาง บอกว่าเมื่อทำการทดลองอิสระ เราสามารถได้ความน่าจะเป็นของ X และในลิมิต จำนวนครั้งเฉลี่ยที่ X เกิดขึ้นจะเข้าใกล้ p(X)
  แต่ ‘ลิมิต’ หมายถึงการทดลองจำนวนอนันต์ ดังนั้นลำดับเริ่มต้นใด ๆ จึงไม่กำหนดลิมิตนั้น ต้องเลือก N ขนาดใหญ่เป็นเกณฑ์แล้วนำมาเฉลี่ย
  แต่นี่เป็นสิ่งเฉพาะของความน่าจะเป็นเท่านั้นหรือ? หากมีประโยคเกี่ยวกับโลกอย่าง “มีต้นไม้อยู่ที่ตำแหน่ง G” และมีขั้นตอนตรวจสอบประโยคนั้น เช่น “ไปที่ G แล้วมองหาต้นไม้” เราจะพูดได้หรือไม่ว่าขั้นตอนนั้นจะตัดสินความจริงเท็จของประโยคได้เสมอ? ย่อมมีอุปสรรคเสมอ เช่น “ภาพลวงตาที่ดูเหมือนต้นไม้” เป็นต้น หากจะตัดอุปสรรคเหล่านั้นทั้งหมดออก ต้องสมมติกระบวนการสังเกตแบบอุดมคติ
  อุดมคติที่ทำงานในการตรวจสอบความน่าจะเป็นคือการสังเกตอิสระจำนวนอนันต์ และสิ่งนี้ให้ p(X)
  ผมไม่ได้พยายามปกป้องความถี่นิยม แต่หมายความว่าความจำเป็นต้องมีอุดมคติของกระบวนการสังเกตไม่ควรถูกมองว่าเป็นอุปสรรคอย่างท่วมท้น แน่นอนว่า หากมีอุปสรรคโดยหลักการ เช่น การสังเกตตำแหน่งและโมเมนตัมพร้อมกันในกลศาสตร์ควอนตัม ก็อาจต้องละทิ้งแนวคิดเรื่องความน่าจะเป็นได้
ต้องจำไว้ว่า บทความเชิงโต้แย้งของ Breiman ว่าด้วย วิธีเชิงกำเนิดเทียบกับวิธีเชิงจำแนก กล่าวคือไม่ควรเริ่มการวิเคราะห์จากว่าการสร้างข้อมูลสามารถถูกจำลองอย่างไร แต่ควรเริ่มจากการทำนาย
จากกระแสนั้นจึงเกิดวิธีแบบกล่องดำที่ไม่ใช่เชิงกำเนิด เช่น boosting trees, bagging, random forests, XGBoost
แม้ทุกวันนี้ เครื่องมือ machine learning แบบคลาสสิกส่วนใหญ่ก็ยังไม่ใช่เชิงกำเนิด
ข้อดีของสถิติเบย์เซียนคือมันเป็นอัตวิสัย ไม่จำเป็นต้องอยู่ในสำนักอัตวิสัยนิยม และสามารถเลือกการตีความตามดุลยพินิจเชิงอัตวิสัยของตนเองได้
ผมมองว่านี่คือ จุดแข็งของแนวคิดเบย์เซียน งานสถิติใด ๆ ล้วนมีดุลยพินิจเชิงอัตวิสัยของมนุษย์แต่ละคนแทรกซึมอยู่ การไม่หลีกเลี่ยงข้อเท็จจริงที่ไม่เปลี่ยนแปลงนี้กลับเป็นสิ่งที่เป็นภววิสัยมากกว่า
- ความเหมาะสมของแต่ละแนวทางขึ้นอยู่กับอย่างมากว่ากำลังจำลองอะไร และ ผลลัพธ์ของความผิดพลาด ที่ตามมาคืออะไร
Bayesian hacking: การค้นหาการทำซ้ำที่ให้ค่านัยสำคัญมากที่สุดแก่การวิจัยของตนเอง
Deep Learning อยู่ตรงไหน?
- ความเชื่อโดยนัยที่ผู้ปฏิบัติงานซึ่งผู้เขียนกล่าวถึงมีร่วมกัน คือพวกเขาพยายามสร้างโมเดลที่สอดคล้องกับ “กระบวนการสร้างข้อมูล” บางอย่างที่อยู่เบื้องหลัง
  ผู้ปฏิบัติงานด้าน Machine Learning อาจใช้โมเดลที่คล้ายกับนักสถิติแบบ Bayesian หรือแม้แต่โมเดลเดียวกันได้ แต่มีแนวโน้มจะประเมินโมเดลโดยเน้นที่ประสิทธิภาพการทำนาย หรือพึ่งพาสิ่งนั้นทั้งหมด มากกว่าสัญชาตญาณว่าทำไมข้อมูลจึงมีค่าเช่นนั้น
  ดูบทความคลาสสิก “Two Cultures” ของ Breiman ซึ่งเป็นที่มาที่ชื่อบทความนี้อ้างถึงได้: https://projecteuclid.org/journals/statistical-science/volum...
- โมเดลส่วนใหญ่สืบเนื่องมาจาก หลักการของ Machine Learning ซึ่งผสมผสานทฤษฎีความน่าจะเป็นแบบคลาสสิก สถิติแบบ Frequentist และ Bayesian รวมถึงพื้นฐานด้านวิทยาการคอมพิวเตอร์จำนวนมาก
  อย่างไรก็ตาม ก็มีความก้าวหน้าใน Bayesian inference และ Bayesian Deep Learning ด้วย จึงควรดูงานเกี่ยวกับเฟรมเวิร์กอย่าง Pyro ที่สร้างบน PyTorch
- มองในระดับสูง สถิติแบบ Bayesian และ Deep Learning มีเป้าหมายเดียวกันคือ การ fit พารามิเตอร์ของโมเดล
  โดยเฉพาะ variational inference เป็นตระกูลของเทคนิคที่ทำให้ปัญหาประเภทนี้คำนวณได้จริง ปรากฏอยู่หลายที่ ตั้งแต่ variational autoencoder ไปจนถึงการทำแบบจำลอง state-space ของอนุกรมเวลา และ reinforcement learning
  ถ้าอยากเรียนรู้เพิ่มเติม ขอแนะนำตำรา Machine Learning ของ Murphy: https://probml.github.io/pml-book/book2.html
- Deep neural network เป็นเพียงโมเดลข้อมูลที่ซับซ้อนมาก และวิธีที่จัดการกับการประมาณพารามิเตอร์กับการทำนายข้อมูลใหม่จะเป็นตัวกำหนดว่าเป็นแบบ Bayesian หรือ Frequentist
  ฝั่ง Bayesian จะกำหนดการแจกแจงให้กับพารามิเตอร์ จากนั้น condition ด้วยข้อมูลเพื่อให้ได้ posterior distribution และใช้สิ่งนี้เพื่อให้ได้ posterior predictive distribution สำหรับข้อมูลใหม่
  ส่วนฝั่ง Frequentist มองพารามิเตอร์เป็นปริมาณคงที่และประมาณด้วย likelihood เท่านั้น เช่น ใช้ maximum likelihood และอาจใช้ลูกเล่นอย่าง regularization ซึ่งสิ่งเหล่านี้ก็สามารถตีความแบบ Bayesian ได้เช่นกัน
- https://en.wikipedia.org/wiki/Statistical_learning_theory

สถิติแบบเบย์: สามวัฒนธรรม

การแบ่งแยกสามวัฒนธรรมของ Bayes

แรงจูงใจของ Bayes แบบวัตถุวิสัยและ reference prior

Bayes แบบปฏิบัตินิยมและสามขั้นตอนของ BDA

iterative design ที่คุ้นเคยในวิศวกรรมและ machine learning

กลยุทธ์ของ BDA และการหลีกเลี่ยงข้อถกเถียงเชิงปรัชญา

prior distribution และ likelihood ควรถูกพิจารณาร่วมกัน

สายธารของชื่อเรื่องและสองวัฒนธรรมของ Breiman

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News