พื้นฐานของคอมพิวเตอร์วิทัศน์ (2024)

(visionbook.mit.edu)

6 คะแนน โดย GN⁺ 2025-06-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Foundations of Computer Vision เป็นตำราพื้นฐานด้านคอมพิวเตอร์วิทัศน์ที่ครอบคลุมทั้งการประมวลผลภาพและแมชชีนเลิร์นนิง โดยมีทั้งนักศึกษาปริญญาตรี·บัณฑิตศึกษาที่เพิ่งเริ่มต้นและผู้ปฏิบัติงานที่มีประสบการณ์เป็นกลุ่มผู้อ่าน
หลังจากถูกเสนอให้ MIT Press ครั้งแรกในเดือนพฤศจิกายน 2010 ก็มีการเขียนต่อเนื่องยาวนานกว่า 10 ปี และเป้าหมายเดิมที่ต้องการทำแต่ละบทให้สั้นและกระชับก็ขยายออกไปเรื่อย ๆ ตามการเปลี่ยนแปลงของสาขานี้
การปฏิวัติดีปเลิร์นนิง ในปี 2012 ได้มอบเครื่องมือสำหรับเปลี่ยนแนวคิดเก่าแก่ให้กลายเป็นการนำไปใช้จริง และแนวคิดยุคแรกบางอย่างที่เคยถูกลดความสำคัญลงก็กลับมามีบทบาทอีกครั้งเมื่อเวลาผ่านไป
หนังสือประกอบด้วย 15 Part ครอบคลุมการเกิดภาพ การเรียนรู้ การประมวลผลสัญญาณ·ภาพ ฟิลเตอร์ การแทนภาพหลายสเกล โครงข่ายประสาท โมเดลเชิงกำเนิด เรขาคณิต 3D การเคลื่อนไหว ความเข้าใจฉาก ไปจนถึงคำแนะนำสำหรับนักวิจัย
แทนที่จะพยายามรวบรวมผลงานล่าสุดทั้งหมดของคอมพิวเตอร์วิทัศน์ หรือเจาะลึกการวิเคราะห์รูปร่าง การติดตามวัตถุ การวิเคราะห์ท่าทางมนุษย์ และการรู้จำใบหน้า หนังสือเล่มนี้มุ่งเน้นที่ แนวคิดพื้นฐาน ที่จำเป็นต่อความเข้าใจการประยุกต์ใช้หลากหลายรูปแบบ

หนังสือเล่มนี้เหมาะกับผู้อ่านแบบใด

Foundations of Computer Vision นำเสนอหัวข้อพื้นฐานของคอมพิวเตอร์วิทัศน์จากมุมมองของการประมวลผลภาพและแมชชีนเลิร์นนิง
กลุ่มผู้อ่านหลักคือนักศึกษาปริญญาตรีและบัณฑิตศึกษาที่กำลังก้าวเข้าสู่สายคอมพิวเตอร์วิทัศน์ และยังตั้งใจให้เป็นหนังสือที่มีประโยชน์ต่อผู้ปฏิบัติงานที่มีประสบการณ์ด้วย
มี ภาพประกอบเชิงภาพ จำนวนมากเพื่อช่วยสร้างความเข้าใจเชิงสัญชาตญาณของแนวคิด
เดิมทีตั้งใจจะทำเป็นหนังสือเล่มใหญ่ที่ครอบคลุมสาขาอย่างกว้างขวาง แต่เนื่องจากขอบเขตของคอมพิวเตอร์วิทัศน์ใหญ่เกินไป จึงเปลี่ยนทิศทางมาเป็นหนังสือขนาดเล็กกว่า
- พยายามจำกัดแต่ละบทให้ไม่เกิน 5 หน้า
- ข้อจำกัดนี้ทำให้ต้องโฟกัสที่แนวคิดสำคัญที่จำเป็นต่อความเข้าใจในแต่ละหัวข้อ
- อย่างไรก็ตาม เป้าหมายที่จะเขียนหนังสือสั้นก็ไม่ได้บรรลุผลในท้ายที่สุด

กระบวนการเขียนที่ยาวนานเกิน 10 ปี

แนวคิดของหนังสือถูกเสนอให้ MIT Press ครั้งแรกเมื่อ 24 พฤศจิกายน 2010
การเขียนไม่ได้ดำเนินไปแบบเส้นตรง และปริมาณต้นฉบับก็ไม่ได้เพิ่มขึ้นอย่างเดียว แต่เคยลดลงก่อนจะเพิ่มขึ้นอีกครั้ง
งานทั้งหมดใช้เวลามากกว่า 10 ปี
ระหว่างการเขียนได้มีการสร้างและปรับแต่งตัวอย่างจำนวนมาก โดยตั้งเป้าให้ผู้อ่านได้เรียนรู้จากการลองทำตัวอย่างเหล่านั้นซ้ำด้วยตนเอง

แนวคิดเก่าแก่ที่ยังสืบต่อหลังยุคดีปเลิร์นนิง

แม้คอมพิวเตอร์วิทัศน์จะเปลี่ยนแปลงไปอย่างมากในช่วง 10 ปีที่ผ่านมา แต่วิธีการในปัจจุบันก็ยังมีรากลึกอยู่ในประวัติศาสตร์ของคอมพิวเตอร์วิทัศน์และ AI
แม้ชื่อเรียกจะเปลี่ยนไปและมีบางแนวคิดใหม่เกิดขึ้น แต่วิธีการในปัจจุบันไม่ได้ตัดขาดจากแนวคิดก่อนหน้า
หนังสือเล่มนี้เน้น ประเด็นร่วมเชิงบูรณาการ ที่อยู่เบื้องหลังหลายแนวคิด
หนึ่งในอุปมาหลักคือ มุมมอง(view) ที่หลากหลาย
- มองฉากกายภาพจริงจากมุม เซนเซอร์ และช่วงเวลาที่ต่างกัน
- รวบรวมหลายมุมมองเข้าด้วยกันเพื่อทำความเข้าใจความเป็นจริงที่อยู่เบื้องล่าง
- ตัวหนังสือเองก็ใช้โครงสร้างที่ผสานหลายมุมมองเพื่อค้นหารากฐานของคอมพิวเตอร์วิทัศน์
การปฏิวัติดีปเลิร์นนิงในปี 2012 ทำให้รากฐานของคอมพิวเตอร์วิทัศน์แข็งแรงยิ่งขึ้น และมอบเครื่องมือสำหรับเปลี่ยนแนวคิดจำนวนมากที่ถูกเสนอไว้ตั้งแต่ยุคแรกของสาขาให้กลายเป็นระบบที่ทำงานได้จริง
หลังยุคดีปเลิร์นนิง แนวคิดยุคแรกบางส่วนเคยถูกลืมไปชั่วคราว แต่เมื่อเวลาผ่านไป หลายแนวคิดก็กลับมาอีกครั้ง

ขอบเขตของหนังสือผ่าน 15 Part

บทส่วนใหญ่ตั้งอยู่บนความเข้าใจของหัวข้อที่อธิบายมาก่อนแล้ว จึงควรอ่านตามลำดับ
Part I: หัวข้อสร้างแรงจูงใจที่แนะนำปัญหาด้านวิชันและวางไว้ในบริบททางสังคม ระบบวิชันอย่างง่าย และเครื่องมือคณิตศาสตร์พื้นฐาน
Part II: กระบวนการเกิดภาพ
Part III: พื้นฐานของการเรียนรู้ผ่านตัวอย่างด้านวิชันและแนวคิดที่ประยุกต์ใช้ได้กว้าง
Part IV: บทนำสู่การประมวลผลสัญญาณและภาพซึ่งเป็นรากฐานของคอมพิวเตอร์วิทัศน์
Part V: ฟิลเตอร์เชิงเส้นและการประยุกต์ เช่น Gaussian kernels, binomial filters, image derivatives, Laplacian filter, temporal filters
Part VI: การแทนภาพหลายสเกล
Part VII: โครงข่ายประสาทสำหรับวิชัน
- convolutional neural networks
- recurrent neural networks
- transformers
- เน้นหลักการสำคัญมากกว่าสถาปัตยกรรมเฉพาะ
Part VIII: แบบจำลองเชิงสถิติของภาพและ graphical models
Part IX: สองแนวทางการทำแบบจำลองที่ทรงพลังในยุคโครงข่ายประสาท
- การทำแบบจำลองเชิงกำเนิดกล่าวถึง แบบจำลองภาพเชิงสถิติ ที่อธิบายการเกิดภาพธรรมชาติและการสร้างภาพสังเคราะห์ที่เป็นไปตามกฎเรขาคณิตที่เหมาะสม
- การเรียนรู้ตัวแทนมุ่งค้นหาการแทนภาพเชิงนามธรรมที่มีประโยชน์ เช่น vector embeddings
Part X: ความท้าทายที่เกิดขึ้นเมื่อสร้างระบบวิชันที่อาศัยการเรียนรู้
Part XI: เครื่องมือเชิงเรขาคณิตและการใช้งานสำหรับสร้างโครงสร้างโลก 3D ขึ้นใหม่จากภาพ 2D
Part XII: การประมวลผลลำดับและการวัดการเคลื่อนไหว
Part XIII: ความเข้าใจฉากและการตรวจจับวัตถุ
Part XIV: คำแนะนำสำหรับนักวิจัยรุ่นเยาว์เกี่ยวกับการนำเสนอ การเขียนบทความ และทัศนคติที่มีประสิทธิภาพของนักวิจัย
Part XV: กลับไปยังระบบการมองเห็นอย่างง่ายที่นำเสนอไว้ใน Part I และนำเทคนิคในหนังสือไปใช้กับปัญหาแบบของเล่น

สิ่งที่ตั้งใจไม่ลงลึก

ไม่ได้ให้รีวิว ผลงานล่าสุดที่สุด ของคอมพิวเตอร์วิทัศน์
ไม่ได้ลงลึกในงานประยุกต์จำนวนมาก เช่น การวิเคราะห์รูปร่าง การติดตามวัตถุ การวิเคราะห์ท่าทางมนุษย์ และการรู้จำใบหน้า
หัวข้อประยุกต์เหล่านี้เหมาะที่จะศึกษาเพิ่มเติมผ่านบทความจากงานประชุมคอมพิวเตอร์วิทัศน์ล่าสุดและโมโนกราฟเฉพาะทางมากกว่า
จุดเน้นของหนังสือไม่ใช่ผลลัพธ์ล่าสุดในงานประยุกต์ต่าง ๆ แต่คือ แนวคิดพื้นฐาน

หนังสือที่ถูกกล่าวถึงร่วมกัน

มีการกล่าวถึงหนังสือต่อไปนี้ในฐานะตำราทั่วไปด้านคอมพิวเตอร์วิทัศน์
- Computer Vision: A Modern Approach
- Computer Vision: Algorithms and Applications ของ Rick Szeliski
พื้นฐานเชิงกายภาพอธิบายได้ดีใน Robot Vision ของ Horn
Vision ของ David Marr เป็นหนังสือที่ทำให้เริ่มสนใจคอมพิวเตอร์วิทัศน์ และได้รับการประเมินว่าเป็นหนังสือที่มีทั้งสัญชาตญาณและงานเขียนที่ยอดเยี่ยม
เรขาคณิตด้านวิชันจากหลายกล้องอธิบายอย่างละเอียดใน Multiple View Geometry in Computer Vision ของ Hartley และ Zisserman
ในด้านเรขาคณิต 3D มีการกล่าวถึง Solid Shape ของ Koenderink, Three-Dimensional Computer Vision ของ Faugeras และ Introductory Techniques for 3D Computer Vision ของ Trucco และ Verri
สำหรับตำราด้านการเรียนรู้ มีการกล่าวถึงหนังสือของ Mackay, Bishop, Murphy และ Goodfellow·Bengio·Courville
แบบจำลองความน่าจะเป็นสำหรับวิชันอธิบายได้ดีในตำราของ Prince
สำหรับการรับรู้ทางการมองเห็นของมนุษย์ มีการกล่าวถึง Vision Science: Photons to Phenomenology ของ Steve Palmer อย่างสำคัญ
วิชันระดับล่างมี Signal Processing for Computer Vision ของ Granlund และ Knutsson ส่วนวิชันระดับสูงมี High-level Vision ของ Ullman
หนังสือเกี่ยวกับแสงและการมองเห็นที่ถูกกล่าวถึงคือ Light and Color in the Outdoors ของ Minnaert

ข้อมูลการอ้างอิงและสื่อการสอน

รายการ BibTeX สำหรับอ้างอิงหนังสือมีข้อมูลดังต่อไปนี้
- title: Foundations of Computer Vision
- author: Torralba, A. and Isola, P. and Freeman, W.T.
- isbn: 9780262378666
- lccn: 2023024589
- series: Adaptive Computation and Machine Learning series
- year: 2024
- publisher: MIT Press
ฉบับพิมพ์สามารถซื้อได้ที่ MIT Press
สไลด์สำหรับผู้สอนสามารถดาวน์โหลดได้จาก Dropbox

1 ความคิดเห็น

GN⁺ 2025-06-16

ความคิดเห็นจาก Hacker News

มีตอนหนึ่งที่น่าสนใจใน On Research, Writing and Speaking: “ฟังดูเหมือนงานหนักนะ” ใช่แล้ว ตอนนี้มันไม่ใช่เรื่องของความฉลาดอีกต่อไปแล้ว ถึงจุดนี้ คนรอบตัวทุกคนก็ฉลาดกันหมด ในระดับบัณฑิตศึกษา คนที่ขยันทำงานหนัก จะก้าวนำไปข้างหน้า
- เป็นข้อสังเกตที่เฉียบคมจริง ๆ ทุกคนจะมาถึงจุดที่ การอยู่รอดด้วยความฉลาดอย่างเดียว ไม่เพียงพออีกต่อไป
  หลายคนตระหนักถึงเรื่องนี้เมื่อเข้ามหาวิทยาลัย แต่ระดับปริญญาตรียังมีสิ่งที่ต้องเรียนชัดเจนและมีเพดานอยู่บ้าง จึงพอประคองไปได้ระดับหนึ่ง ในขณะที่ปริญญาเอกแทบไม่มีเพดาน ไม่มีจำนวนเปเปอร์ที่กำหนดตายตัวว่าต้องอ่านในแต่ละสัปดาห์ และไม่มีอะไรแบบ “เรื่องนี้ไม่ออกสอบ” ผลตอบแทนจากการฉลาดขึ้นไม่ได้แค่แบนราบลง แต่มันไม่มีเพดานเลยต่างหาก คุณอ่านได้มากขึ้น ตามให้ทันกระแสวรรณกรรมวิชาการที่หลั่งไหลเข้ามาได้มากขึ้น และปรับปรุงการทดลองกับวิธีการได้อย่างต่อเนื่อง
  อีกทั้งยังต้องมี ซอฟต์สกิลและเครือข่าย ด้วย ต้องไปงานประชุมวิชาการเพื่อจับทิศทางของชุมชน พบปะผู้คน ดื่มกาแฟหรือกินมื้อเย็นด้วยกัน แทนที่จะรอคำสั่งเหมือนตอนปริญญาตรี ต้องขยับด้วยตัวเอง และต้องตั้งคำถามกับวิธีเดิม ๆ อย่างเพียงพอ มีวิจารณญาณพอ ขณะเดียวกันก็ต้องเสนอไอเดียใหม่ที่เกี่ยวข้องและน่าสนใจพอให้ชุมชนเข้าใจและยอมรับได้
  เมื่อไม่มีแรงผลักดันภายนอกจากการเรียนและการสอบ คุณต้องจัดการเวลา ตั้งเส้นตาย และสร้างรูทีนด้วยตัวเอง สิ่งเหล่านี้แทบไม่มีเพดาน และความคาดหวังก็คลุมเครือ ต่อให้ทำอย่างละเอียดถี่ถ้วนพอแล้ว ก็อาจถูกปฏิเสธเป็นครั้งแรกเพียงเพราะกรรมการไม่รู้สึกว่ามีความใหม่ หรือไม่เข้ากับกระแสนิยมในขณะนั้น
  สุดท้ายแล้ว ปริญญาเอกสามารถผลักใครก็ตามไปถึง ขีดจำกัดทางจิตใจ ได้ มันน่าท้อแท้ และขึ้นชื่อว่าเป็นช่วงเวลาที่ยากลำบากสำหรับนักศึกษาปริญญาเอกจำนวนมาก แน่นอนว่าถ้าเป้าหมายมีแค่การได้ปริญญา กลยุทธ์แบบ “อดทนให้รอด” ก็เป็นไปได้ แต่คนที่เล็งเส้นทางสายวิชาการมักถูกคาดหวังให้ทำเกินมาตรฐานขั้นต่ำ และยิ่งเป็นคนที่เคยผ่านปริญญาตรีมาได้ด้วยเกรดดี ๆ ก็ยิ่งเป็นเช่นนั้น
- ตอนอยู่ปี 3 ปริญญาตรี แม้จะพยายามหนักก็ยังรู้สึกว่าตามวิชาเรียนไม่ทัน เป็น หลักสูตรวิศวกรรม ที่รับคนด้วยเกรดเฉลี่ยมัธยมปลายประมาณ 90% และยากมากจนถึงปี 2 นักศึกษา 75% ก็ลาออกกลางคัน
- ตอนเรียนบัณฑิตศึกษาน่าจะมีใครสักคนบอกเรื่องแบบนี้ให้ฟัง ใช้เวลานานเกินไปกว่าจะเรียนรู้ว่า จะเป็นนักศึกษาบัณฑิตศึกษาที่ประสบความสำเร็จได้อย่างไร และพูดตรง ๆ คือเพิ่งเข้าใจจริง ๆ หลังเรียนจบแล้ว
หนังสือดีอีกเล่มในสาขานี้คือ: Computer Vision, Fifth Edition, E.R. Davies, Academic Press, ISBN-13 978-0128092842
- หนังสือหลักอีกเล่มคือ Computer Vision 2nd Ed ฉบับปี 2022 ของ Szeliski: https://szeliski.org/Book/
  Forsyth & Ponce ก็ดี แต่ตอนนี้ค่อนข้างเก่าไปบ้างแล้ว ส่วนตำราคลาสสิกฝั่ง 3D ยังคงเป็น Multiple View Geometry ของ Hartley & Zisserman
น่าทึ่งที่หนังสือเล่มนี้เผยแพร่ให้อ่านฟรี ขอบคุณฝ่ายที่เปิดให้เข้าถึง ไม่ว่าจะเป็นผู้เขียนหรือสำนักพิมพ์
- ชุมชน แมชชีนเลิร์นนิง, คอมพิวเตอร์วิทัศน์ และหุ่นยนต์ มีวัฒนธรรมที่ดีมากในการเผยแพร่หนังสือออนไลน์ฟรี สามารถอ่านตำราชั้นยอดของสาขาเหล่านี้ได้ฟรี
  ค่อนข้างแตกต่างจากบางสาขาในสหรัฐฯ ที่อาจารย์แทบจะบังคับให้นักศึกษาซื้อหนังสือเรียนฉบับล่าสุดราคาเป็นร้อยดอลลาร์ ด้วยเหตุนี้ คนในประเทศที่มีฐานะทางเศรษฐกิจไม่มากนักจึงเข้าถึงสื่อการเรียนที่ดีที่สุดได้จากทุกที่ในโลก และมักมีการแชร์เอกสารประกอบการสอนกับวิดีโอออนไลน์ด้วย
- จริงมาก และขอร่วมขอบคุณด้วย อย่างไรก็ตาม อยากรู้ว่ามีใครหาวิธี ดาวน์โหลดเป็น PDF ได้หรือยัง เวลาอ่านสื่อการเรียน ผมคิดว่าควรจดโน้ตและทำเครื่องหมายอ้างอิงได้
ส่วน “Writing this book” อาจอ่านแล้วเข้าใจผิดได้ว่า LLM ถูกใช้กับต้นฉบับ 2/3 ของเล่ม
น่าจะหมายความว่า LLM ให้สิ่งที่จะเขียนได้มากกว่ามาก แต่ถ้าปรับให้ชัดเจนกว่านี้ก็น่าจะดี
- ผมไม่ได้อ่านแล้วเข้าใจแบบนั้น จริง ๆ แล้ว ChatGPT เป็นเครื่องมือแรกที่ช่วยงานเขียนได้ และหนังสือเล่มนี้เขียนไปไม่ถึง 1/3 หลังจาก ChatGPT เปิดตัวสู่สาธารณะ
  ดูเหมือนว่าเขาแค่ทำเครื่องหมาย เหตุการณ์สำคัญในสาขาแมชชีนเลิร์นนิง/ปัญญาประดิษฐ์ ไว้บนกราฟ
ในมุมของคนที่ทำงานด้านนี้ อยากรู้ว่าเนื้อหานี้ยังใช้ได้มากแค่ไหน จากคนนอกดูเหมือนว่าส่วนใหญ่ของแมชชีนเลิร์นนิง รวมถึงคอมพิวเตอร์วิทัศน์ ถูกความก้าวหน้าในช่วง 2 ปีที่ผ่านมาพลิกโฉมไปอย่างสิ้นเชิง
- ยังใช้ได้ดีมาก วิธีล่าสุด ๆ ไม่มีอะไรที่เป็นการปฏิวัติจริง ๆ และทั้งหมดก็อยู่บนพื้นฐานเดียวกัน ผมกลับคิดว่าควรอ่านหนังสือที่เก่ากว่านี้ด้วยซ้ำ
  มีแอปพลิเคชันคอมพิวเตอร์วิทัศน์ที่ทำเงินได้จริงจำนวนมากซึ่งสร้างจากวิธีคลาสสิกอย่าง Hough transform, Canny edge, SIFT, Harris corner ถ้าไม่อยากดูเหมือนคนที่เอาแต่พูดคำฮิตแล้วต่อ API โดยไม่มีความเข้าใจพื้นฐาน แต่ดูเป็นผู้เชี่ยวชาญจริงจัง ก็ควรรู้เรื่องพวกนี้
- ยังเกี่ยวข้องมาก คอมพิวเตอร์วิทัศน์ส่วนใหญ่ที่ใช้นอกแวดวงวิชาการยังคงอิงเนื้อหาเก่า ๆ หรือ อัลกอริทึมคอมพิวเตอร์วิทัศน์แบบคลาสสิก
  โอกาสที่จะได้ใช้โมเดลและเทคนิคใหม่ล่าสุดมีไม่มากอย่างที่คิด ส่วนใหญ่ไม่เกี่ยวข้องถึงขั้นนั้น หรือเหมาะกับกรณีเฉพาะมาก ๆ เท่านั้น หรือไม่ก็ไม่จำเป็นต้องใช้ความซับซ้อนระดับนั้นตั้งแต่แรก
- โดยเฉพาะในระบบที่ใช้ GPU acceleration ได้ไม่สะดวก ยังมีปัญหาอีกมากที่ต้องแก้ด้วยคอมพิวเตอร์วิทัศน์แบบ “คลาสสิก” ในฐานะคนทำงานจริงด้านการทำ simultaneous localization and mapping (SLAM) บนแพลตฟอร์มที่มีทรัพยากรประมวลผลจำกัด ผมตั้งใจว่าจะอ่านบท Structure from Motion แน่นอน
อยากรู้ว่ามี คอร์สคอมพิวเตอร์วิทัศน์ ที่อิงจากหนังสือเล่มนี้ไหม ถ้ามีสื่ออย่างวิดีโอก็อยากทราบ
อยากได้คำแนะนำหนังสือดี ๆ เกี่ยวกับ แมชชีนวิชัน ผมคิดว่ารากฐานของแมชชีนวิชันที่มีประสิทธิภาพ และต่อเนื่องไปถึงคอมพิวเตอร์วิทัศน์ อยู่ที่การเลือกกล้อง ระบบออปติก และแสงที่เหมาะสม ถ้าอินพุตแย่ เอาต์พุตก็แย่ ดังนั้นภาพคุณภาพสูงจึงจำเป็น
- อยากรู้ว่าช่วยยก กรณีใช้งาน สักหนึ่งหรือสองกรณีที่ปัจจัยเหล่านี้สร้างความแตกต่างได้จริงไหม

พื้นฐานของคอมพิวเตอร์วิทัศน์ (2024)

หนังสือเล่มนี้เหมาะกับผู้อ่านแบบใด

กระบวนการเขียนที่ยาวนานเกิน 10 ปี

แนวคิดเก่าแก่ที่ยังสืบต่อหลังยุคดีปเลิร์นนิง

ขอบเขตของหนังสือผ่าน 15 Part

สิ่งที่ตั้งใจไม่ลงลึก

หนังสือที่ถูกกล่าวถึงร่วมกัน

ข้อมูลการอ้างอิงและสื่อการสอน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News