เทคโนโลยีปัญญาประดิษฐ์เชิงความน่าจะเป็น

(arxiv.org)

1 คะแนน โดย GN⁺ 2025-03-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ปัญญาประดิษฐ์เชิงความน่าจะเป็นครอบคลุมแนวทางที่ก้าวข้าม AI ที่ให้เพียงค่าพยากรณ์ ไปสู่การอนุมาน ความไม่แน่นอน และนำสิ่งนั้นไปสะท้อนในการตัดสินใจ
ช่วงแรกของเอกสารเน้น แมชชีนเลิร์นนิงเชิงความน่าจะเป็น โดยแยกความไม่แน่นอนเชิงญาณวิทยาที่เกิดจากข้อมูลไม่เพียงพอ ออกจากความไม่แน่นอนเชิงบังเอิญที่ลดได้ยาก เช่น สัญญาณรบกวนในการสังเกต
กล่าวถึงการสร้างแบบจำลองเชิงความน่าจะเป็นผ่าน Bayesian linear regression, Gaussian process models, Bayesian neural networks และใช้ การอนุมานแบบประมาณ สำหรับการอนุมาน·การพยากรณ์ที่คำนวณได้ยาก
ช่วงหลังอธิบายว่าใน การตัดสินใจแบบลำดับต่อเนื่อง เช่น active learning, Bayesian optimization, reinforcement learning ความไม่แน่นอนช่วยชี้นำการเก็บข้อมูลและการสำรวจอย่างไร
เป็นเอกสารที่เหมาะกับคอร์สปูพื้นฐานระดับบัณฑิตศึกษา 1 ภาคการศึกษา และจะติดตามเนื้อหาได้ง่ายหากมีความรู้ด้านความน่าจะเป็น แคลคูลัส พีชคณิตเชิงเส้น และแมชชีนเลิร์นนิงพื้นฐาน

ปัญหาหลักที่ AI เชิงความน่าจะเป็นกล่าวถึง

ปัญญาประดิษฐ์หมายถึงวิทยาศาสตร์และวิศวกรรมของระบบประดิษฐ์ที่ทำงานซึ่งถือว่าต้องใช้บางแง่มุมของสติปัญญามนุษย์ เช่น การเล่นเกม การแปลภาษา และการขับรถ
ความก้าวหน้าล่าสุดของ AI เชื่อมโยงกับแนวทางแบบอาศัยการเรียนรู้และอาศัยข้อมูล โดย แมชชีนเลิร์นนิง และดีปเลิร์นนิงได้ขยายวิธีที่ระบบคอมพิวเตอร์รับรู้โลก
Reinforcement learning สร้างผลงานในเกมซับซ้อนอย่าง Go และงานหุ่นยนต์อย่างการเดินสี่ขา
ระบบอัจฉริยะจำเป็นต้องมีความสามารถไม่เพียงให้ค่าพยากรณ์เท่านั้น แต่ยังอนุมาน ความไม่แน่นอน ของการพยากรณ์ และสะท้อนสิ่งนั้นในการเลือกการกระทำด้วย

แมชชีนเลิร์นนิงเชิงความน่าจะเป็น

ช่วงแรกจัดโครงสร้างโดยเน้นแนวทางแมชชีนเลิร์นนิงเชิงความน่าจะเป็น
ความไม่แน่นอนแบ่งออกเป็นสองประเภท
- ความไม่แน่นอนเชิงญาณวิทยา(epistemic uncertainty): ความไม่แน่นอนที่มาจากข้อมูลไม่เพียงพอ และลดลงได้ด้วยข้อมูลที่มากขึ้น
- ความไม่แน่นอนเชิงบังเอิญ(aleatoric uncertainty): ความไม่แน่นอนที่โดยเนื้อแท้ลดได้ยาก เช่น การสังเกตและผลลัพธ์ที่มีสัญญาณรบกวน
แบบจำลองการอนุมานเชิงความน่าจะเป็นหลักมีดังนี้
- Bayesian linear regression
- Gaussian process models
- Bayesian neural networks
ในแบบจำลองเหล่านี้ การอนุมานและการพยากรณ์มักยากในเชิงการคำนวณ จึงกล่าวถึงวิธี การอนุมานแบบประมาณ สมัยใหม่ควบคู่กันไป

การใช้ความไม่แน่นอนในการตัดสินใจแบบลำดับต่อเนื่อง

ช่วงหลังเน้นงานตัดสินใจแบบลำดับต่อเนื่องที่ต้องเก็บข้อมูลและเลือกการกระทำไปตามเวลา
Active learning และ Bayesian optimization เป็นแนวทางเก็บข้อมูลด้วยการเสนอการทดลองที่มีประโยชน์ต่อการลดความไม่แน่นอนเชิงญาณวิทยา
Reinforcement learning เป็นกรอบรูปแบบสำหรับสร้างแบบจำลองเอเจนต์ที่เรียนรู้การกระทำในสภาพแวดล้อมที่ไม่แน่นอน
จากรูปแบบพื้นฐานของ Markov Decision Processes ต่อเนื่องไปสู่แนวทาง deep RL สมัยใหม่ที่ใช้การประมาณฟังก์ชันด้วยโครงข่ายประสาท
ตอนท้ายกล่าวถึงแนวทาง model-based RL ที่ใช้ความไม่แน่นอนเชิงญาณวิทยาและความไม่แน่นอนเชิงบังเอิญเพื่อชี้นำการสำรวจและคำนึงถึงความปลอดภัยด้วย

กลุ่มผู้อ่านและความรู้พื้นฐานที่ต้องมี

สามารถใช้เป็นเอกสารสำหรับคอร์สปูพื้นฐานระดับบัณฑิตศึกษา 1 ภาคการศึกษาเกี่ยวกับแมชชีนเลิร์นนิงเชิงความน่าจะเป็นและการตัดสินใจแบบลำดับต่อเนื่อง
มุ่งเป้าผู้อ่านที่มีพื้นฐานหลากหลาย แต่ตั้งสมมติฐานว่ามีความรู้พื้นฐานต่อไปนี้
- แนวคิดพื้นฐานของความน่าจะเป็น
- แคลคูลัส
- พีชคณิตเชิงเส้น
- แมชชีนเลิร์นนิงพื้นฐาน รวมถึงโครงข่ายประสาท
บทที่ 1 แนะนำ การอนุมานเชิงความน่าจะเป็น อย่างค่อยเป็นค่อยไปเพื่อปูเนื้อหาถัดไป และทบทวนแนวคิดหลักของทฤษฎีความน่าจะเป็นควบคู่กัน
ช่วงท้ายของต้นฉบับมีบทที่ทบทวนแนวคิดหลักของพื้นฐานคณิตศาสตร์เพิ่มเติมรวมอยู่ด้วย

โครงสร้างการเรียนรู้

เน้นแนวคิดและไอเดียหลักมากกว่าพัฒนาการเชิงประวัติศาสตร์
จัดโครงสร้างให้ผู้เรียนต่อยอดไปสู่การเรียนรู้เชิงลึกและบริบททางประวัติศาสตร์ได้ผ่านบรรณานุกรม
ท้ายแต่ละบทมี แบบฝึกหัด
รายการที่เน้นในเนื้อหาพร้อมเครื่องหมายคำถามหมายถึงแบบฝึกหัด
เฉลยของแบบฝึกหัดทั้งหมดสามารถดูได้ที่ช่วงท้ายของต้นฉบับ

1 ความคิดเห็น

GN⁺ 2025-03-12

ความคิดเห็นจาก Hacker News

บทความนี้มีแผนภาพประกอบที่ยอดเยี่ยม และดูเหมือนเป็นภาพรวมคุณภาพสูงที่ไล่ทบทวน แมชชีนเลิร์นนิงจากมุมมองเชิงความน่าจะเป็น ได้ดีในเชิงคณิตศาสตร์
ช่วงหลังนี้ ตำราเรียนฟรีและวิดีโอสอนบน YouTube ของ Zhao ชื่อ Mathematical Foundation of Reinforcement Learning ก็น่าประทับใจเช่นกัน: https://github.com/MathFoundationRL/Book-Mathematical-Founda...
ถ้าเวลาไม่มาก อย่างน้อยลองดูแผนภาพภาพรวมสารบัญของ Zhao ซึ่งเป็นแผนที่แนวคิดที่ดีของทั้งสาขาก็น่าจะดี: https://github.com/MathFoundationRL/Book-Mathematical-Founda...
ถ้าทำได้ก็แนะนำวิดีโอแนะนำด้วย
- บรรยายแรกดีมากจริง ๆ ไม่ใช่แค่เนื้อหาเท่านั้น แต่วิธีที่ Zhao อธิบายในฐานะนักเรียนว่า ควรมองการเรียนรู้อย่างไร ก็ยอดเยี่ยมด้วย
ผมเห็นเอกสารนี้เมื่อไม่กี่วันก่อน และเหตุผลที่ควรอ่านอย่างจริงจังคือ Andreas Krause ทำงานวิจัยที่ลึกและน่าสนใจมากในด้าน Gaussian process และ bandit
[1] https://scholar.google.com/scholar?start=10&q=andreas+krause...
- ถ้าเป็น Krause ก็ถือเป็นหนึ่งในนักวิจัยคนสำคัญของสาขานี้ จากงานอื่น ๆ ของเขาที่ผมเคยอ่าน เขาก็เขียนได้ดีด้วย จึงดูน่าอ่าน
อาจเป็นคำถามโง่ ๆ แต่ LLM บอกความน่าจะเป็นของคำตอบที่เพิ่งคายออกมาได้ไหม? คือสงสัยว่ามันเปลี่ยนให้เป็นแบบ fuzzy logic ได้หรือเปล่า
ยิ่งไปกว่านั้น มันบอกได้ไหมว่ามันเชื่อในตัวเองมากแค่ไหน? หมายถึงความน่าจะเป็นที่ความน่าจะเป็นข้างต้นจะถูกต้อง หรือก็คือ confidence หรืออะไรแบบ intuitionistic fuzzy logic
เมื่อนานมาแล้วสมัยเรียนมหาวิทยาลัยเคยเรียนเรื่องพวกนี้นิดหน่อย และเคยทำ Prolog interpreter ที่แต่ละพจน์มี F+IF หรือก็คือสัมประสิทธิ์ความน่าจะเป็นและความเชื่อมั่นด้วย
- ในสภาพพื้นฐาน ผมคิดว่ายากนะ ผมคงไม่เชื่อ การประเมินตัวเอง แบบนั้น
  ถ้ามีทรัพยากรคำนวณเพียงพอ ก็อาจทำ beam search แล้วใช้ LLM ประเมินว่าคำตอบที่ออกมามีกี่คำตอบที่โดยเนื้อแท้แล้วเหมือนกัน เพื่อสร้างตัวชี้วัดแทน “confidence” ได้
- ตามที่ผมเข้าใจ การตอบของ LLM คือ สายโซ่ของโทเค็น ที่มีความน่าจะเป็นสูงสุดในแต่ละตำแหน่ง อาจมีวิธีสร้างและเลือก candidate ที่ซับซ้อนกว่านี้ได้ แต่จะคิดแบบง่าย ๆ ว่าเลือกค่าที่มากที่สุดก็ได้
  เพื่อให้เข้าใจง่าย สมมติว่าโทเค็นคือคำ เราจะเห็นความน่าจะเป็นของแต่ละคำตามลำดับประโยคได้ แต่ผมไม่แน่ใจว่าจะเอาสิ่งนั้นไปประเมินเป็นความน่าจะเป็นของทั้งประโยค หรือความน่าจะเป็นของความจริงได้อย่างไร
- ถ้าถามว่า “คุณคิดว่าเหตุการณ์นี้มีโอกาสเกิดขึ้นกี่ % และเพราะอะไร” มันจะให้บริบทและกระบวนการคิดออกมาค่อนข้างมาก
  ผมไม่ใช่สายคณิตศาสตร์ และรู้ด้วยว่า “ความน่าจะเป็น” มีความหมายเชิงคณิตศาสตร์ที่ซับซ้อนกว่านั้น แต่ในแง่ของคำถามว่า “ทำไมถึงเชื่ออย่างหนักแน่นแบบนั้น?” ผมรู้สึกว่ามันให้คำอธิบายที่พอให้เห็นด้วยหรือโต้แย้งได้ค่อนข้างดี
  ถ้าใส่บริบทเพิ่มเติมที่ผมรู้เข้าไป มันก็ปรับการประมาณให้ละเอียดขึ้นด้วย ดังนั้นช่วงนี้ผมเลยใช้ LLM เหมือน ระบบเชื่อมโยงบริบท ใช้ดูตั้งแต่ต้นว่าจุดต่าง ๆ มีความเป็นไปได้ที่จะเชื่อมกันไหม ก่อนจะไปเชื่อมโยงเองจริง ๆ
- ไม่แน่ใจ 100% ว่าหมายถึงอะไรแน่ แต่ผู้ให้บริการบางรายมี ความน่าจะเป็นของโทเค็น ให้: https://cookbook.openai.com/examples/using_logprobs
- ถ้าปรับให้เหมาะสมก็เป็นไปได้ Bayesian neural network ให้การวัดปริมาณความไม่แน่นอนได้
  ส่วนที่ยากคือการปรับเทียบการทำนาย และการตัดสินใจว่าการใช้ความจุของโมเดลไปกับการวัดปริมาณความไม่แน่นอนนั้นดีกว่าการสร้างโมเดลที่ใหญ่ขึ้นแต่ยังไม่แน่นอนหรือไม่
  https://en.wikipedia.org/wiki/Calibration_(statistics)
  ตัวอย่าง: Efficient and Effective Uncertainty Quantification for LLMs (https://openreview.net/forum?id=QKRLH57ATT)
ถ้าจะทำให้ interpretability เป็นเรื่องแพร่หลายจนเกมเมอร์ก็สำรวจโมเดลได้ ดูเหมือนต้องมี GUI สำหรับโมเดล โดยหลัก ๆ คือฝึกโมเดลอีกตัวให้แปลง LLM เป็นรูปแบบ 3D แล้ววางไว้ในโลก 3D ที่มนุษย์เข้าใจได้
ตัวอย่างที่ง่ายกว่านั้น ลองนึกถึงการแทน LLM เป็นทุ่งหญ้าสีเขียวกับวัตถุต่าง ๆ โดยมีแต่มนุษย์เท่านั้นที่เป็นผู้กระทำในพื้นที่นั้น
คุณยืนอยู่ใกล้ลิง เห็นปากที่กำลังเคี้ยวอยู่ใกล้ ๆ แล้วเดินไปทางนั้น พรอมป์ตอนนี้ก็จะกลายเป็น “monkey chews” ใกล้ ๆ มีลูกศรชี้ไปที่กล้วย ไกลออกไปมีแอปเปิล และไกลมากตรงเส้นขอบฟ้ามีลูกศรชี้ไปที่ยางรถยนต์ เพราะลิงเคี้ยวยางรถยนต์เป็นเรื่องที่พบได้ยาก
สิ่งที่อยู่ใกล้คือโทเค็นที่มีความเป็นไปได้สูงกว่า ส่วนสิ่งที่อยู่ไกลคือโทเค็นที่มีความเป็นไปได้ต่ำกว่า และสามารถเห็นทั้งหมดได้พร้อมกันเหมือนอยู่บนเนินเขา ผมคิดว่าสามารถสร้าง AI แบบสถานที่นิ่ง ๆ ที่มีแต่มนุษย์เป็นผู้กระทำได้ในลักษณะนี้
- ประสบการณ์หลอนจาก Salvia ตอนอายุ 18 ของผมประมาณนั้นเลย
  จิตใจของผมกลายเป็นห้างสรรพสินค้าขนาดใหญ่ไม่สิ้นสุด ทางเดินแต่ละทางคือกิ่งก้านของความคิดที่ดำเนินไปพร้อมกัน และรายการวัตถุดิบร่วมเหนือแต่ละทางเดินก็เต็มไปด้วยคำ อารมณ์ และแนวคิดที่เกี่ยวข้องกับกิ่งนั้น
  ระบบประกาศในอาคารเข้ามาแทนที่บทพูดคนเดียวในใจของผม และแม้จะไม่มีบทพูดคนเดียวในใจอีกต่อไป แต่ความคิดของผมกลับได้ยินจากภายนอกราวกับเป็นเสียงของคนอื่น
  ผมเดินไปตามทางเดินเหล่านั้น และได้มองดูเครือข่ายความคิดพร้อมกันขนาดมหึมา แบบแฟร็กทัล และพึ่งพาอาศัยกัน ซึ่งสมองสร้างขึ้นแบบเรียลไทม์อย่างน่าทึ่ง
- ดูเหมือนว่ายังไม่มีใครพบวิธีแมป พื้นที่มิติสูง ให้เป็นการมองเห็น 4 มิติได้ดี
  บางทีนี่อาจเป็นเหตุผลที่โทเค็นและภาษามีประโยชน์ต่อมนุษย์มากขนาดนั้นก็ได้ มันอาจเป็นสิ่งที่ใกล้เคียงที่สุดที่เรามี
แหล่งข้อมูลที่คล้ายกันหรืออย่างน้อยก็มีบางส่วนทับซ้อนกัน ทำให้นึกถึง Introduction to Statistical Learning ของ Gareth James และคณะ ซึ่งอาจถือได้ว่าเป็นตำราอ้างอิงชั้นยอดของหัวข้อนี้
เอกสารนี้อาจเข้าถึงง่ายกว่าเล็กน้อย แต่เล่มหลังมีตัวอย่าง R/Python ที่ช่วยได้จริง
[1] https://www.statlearning.com/
- ไม่ถึงขนาดนั้น ISLR เป็นหนังสือค่อนข้างพื้นฐาน ส่วนเอกสารนี้ครอบคลุมเทคนิคขั้นสูงกว่า เช่น การแพร่กระจายการประมาณความน่าจะเป็น มากกว่าการประมาณแบบจุด
  พูดตรง ๆ ทุกวันนี้ผมไม่แนะนำ ISLR แล้ว มองว่ามันเก่าเกินไป
Kevin Murphy คงจะรีบเข้ามาขอเปลี่ยนชื่อซีรีส์ Probabilistic Machine Learning ของตัวเองแน่ ๆ
วิธีที่แยก อินพุตที่มีสัญญาณรบกวน, การประมวลผลที่มีสัญญาณรบกวน และห่วงโซ่ที่มีสัญญาณรบกวนออกจากกันนั้นน่าสนใจ
ความเป็นจริงเชิงภววิทยาไม่ใช่อาร์เรย์ของสถานะ แต่เป็น การแจกแจงของศักยภาพ
ศักยภาพมีอยู่จริง และความน่าจะเป็นคือการอธิบายการแจกแจงนั้นในเชิงคณิตศาสตร์ คุณสมบัติทั้งหมดคือมิติ หรือก็คือเวกเตอร์ สถานะเป็นเพียงการวัดชั่วขณะของการคลี่คลายเท่านั้น
ศักยภาพมีปฏิสัมพันธ์กันผ่านการแทรกสอดแบบเสริมกันและแบบหักล้างกัน และการแทรกสอดแบบเสริม·หักล้างกันจะคลี่คลายเป็นสถานะในการวัดชั่วขณะของ “ตอนนี้” นี่คือข้อเสนอที่ความจำเป็นเกิดการยุบตัว
ความเป็นจริงเชิงภววิทยาไม่ใช่อาร์เรย์ของสถานะ แต่เป็นกระบวนการที่ศักยภาพถูกแจกแจง
Gemini 2.0 Experimental 02-05 มองเอกสารนี้เป็น “เพียง” 107K โทเค็น
ถ้าต้องการความช่วยเหลือในการแบ่งเนื้อหาออกเป็นส่วน ๆ เพื่อทำความเข้าใจ ก็มีประโยชน์
https://aistudio.google.com
“Laplace approximation” คือวิธีที่รวดเร็วและหยาบในการแปลงการแจกแจงความน่าจะเป็นที่ซับซ้อนให้เป็น Gaussian แบบง่าย ๆ หรือก็คือเส้นโค้งรูประฆัง
มันทำงานโดยหาจุดสูงสุดหรือฐานนิยม แล้วปรับความโค้ง ณ จุดนั้นให้ตรงกัน
รวดเร็วและง่าย แต่ถ้าการแจกแจงจริงไม่ได้เป็นรูประฆัง ก็อาจคลาดเคลื่อนมากและมั่นใจเกินไปได้
- อาจมองสิ่งนี้ได้ว่าเป็นการใช้เพียงสองพจน์แรกของ การประมาณด้วยอนุกรมเทย์เลอร์ ในโดเมนลอการิทึม แล้วทิ้งส่วนที่เหลือไป
ผมเคยเรียนวิชานี้ที่ ETH Zurich และเป็นหนึ่งในวิชาที่ผมชอบที่สุด โดยเฉพาะวิธี วัดปริมาณความไม่แน่นอน และวิธีวางบล็อกตั้งต้นของ reinforcement learning
ผมคิดว่านี่เป็นเอกสารอ่านที่ยอดเยี่ยมสำหรับ data scientist และ machine learning engineer เอกสารนี้คือโน้ตประกอบการบรรยายนั้น

เทคโนโลยีปัญญาประดิษฐ์เชิงความน่าจะเป็น

ปัญหาหลักที่ AI เชิงความน่าจะเป็นกล่าวถึง

แมชชีนเลิร์นนิงเชิงความน่าจะเป็น

การใช้ความไม่แน่นอนในการตัดสินใจแบบลำดับต่อเนื่อง

กลุ่มผู้อ่านและความรู้พื้นฐานที่ต้องมี

โครงสร้างการเรียนรู้

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News