- หนังสือสำหรับผู้เริ่มต้นและระดับกลางที่กล่าวถึง พื้นฐานของคอมพิวเตอร์วิทัศน์ จากมุมมองของการประมวลผลภาพและ แมชชีนเลิร์นนิง
- แต่ละบทถูกจัดให้สั้นและชัดเจนเพื่อมุ่งเน้นไปที่แนวคิดหลัก
- อธิบายการเปลี่ยนแปลงหลัง การปฏิวัติดีปเลิร์นนิง และกระบวนการนำแนวคิดคลาสสิกกลับมาตีความใหม่ พร้อมเล่าประสบการณ์จากการเขียนหนังสือ
- ครอบคลุมหัวข้อคอมพิวเตอร์วิทัศน์โดยรวมใน 15 พาร์ต เช่น การประมวลผลภาพ, โครงข่ายประสาท, โมเดลเชิงกำเนิด, การประมวลผลลำดับ, การทำความเข้าใจฉาก
- โครงสร้างเน้นที่ ทฤษฎีที่จำเป็นและการสร้างสัญชาตญาณความเข้าใจ มากกว่าทิศทางงานวิจัยล่าสุดหรือการประยุกต์เฉพาะด้าน
คำนำ
- อุทิศให้กับพิกเซลทุกพิกเซล
เกี่ยวกับหนังสือเล่มนี้
- หนังสือเล่มนี้กล่าวถึง หัวข้อแกนหลัก ของคอมพิวเตอร์วิทัศน์จากมุมมองของ การประมวลผลภาพและแมชชีนเลิร์นนิง
- มีสื่อภาพประกอบหลากหลายเพื่อช่วยพัฒนาสัญชาตญาณความเข้าใจของผู้อ่าน
- กลุ่มผู้อ่านหลักคือนักศึกษาปริญญาตรีและบัณฑิตศึกษาที่เริ่มต้นเรียนคอมพิวเตอร์วิทัศน์ แต่ก็มีประโยชน์ต่อผู้ปฏิบัติงานที่มีประสบการณ์ด้วย
- เดิมตั้งใจจะครอบคลุมเนื้อหาอย่างกว้างขวาง แต่เนื่องจากสาขาคอมพิวเตอร์วิทัศน์มีขอบเขตกว้างมาก จึงจำกัดแต่ละบทไว้ไม่เกิน 5 หน้าเพื่อเน้น แนวคิดสำคัญ
- ผู้เขียนเล่าตรงไปตรงมาว่าตั้งใจจะเขียนหนังสือสั้น ๆ แต่สุดท้ายก็มีความยาวมากขึ้น
กระบวนการเขียนหนังสือ
- แสดงให้เห็นด้วยข้อมูลถึง ความไม่เป็นเส้นตรง ระหว่างเจตนาตอนเริ่มเขียนกับกระบวนการจริง โดยใช้เวลามากกว่า 10 ปีจึงแล้วเสร็จ
- ระหว่างการเขียนได้เกิด การปฏิวัติดีปเลิร์นนิง (ปี 2012) ขึ้น ทำให้เกิดกระบวนการ ผสานรวมระหว่างวิธีการดั้งเดิมกับแนวทางสมัยใหม่
- ด้วยความนิยมของดีปเลิร์นนิงในช่วงแรก แนวคิดก่อนหน้านั้นบางส่วนจึงถูกหลงลืมไปชั่วคราว แต่เมื่อเวลาผ่านไป แนวคิดที่เป็นแก่นแท้ก็ได้รับการทบทวนอีกครั้ง
- แม้เส้นทางการเขียนจะยากลำบาก แต่ผู้เขียนกล่าวว่าได้เรียนรู้อย่างมากจากการทดลองและตัวอย่างต่าง ๆ ด้วยตนเอง
- มีการแสดงภาพให้เห็นถึงการเปลี่ยนแปลงของเหตุการณ์สำคัญในวงการคอมพิวเตอร์วิทัศน์และ AI ควบคู่ไปกับช่วงเวลาการเขียนหนังสือ
โครงสร้างของหนังสือ
- สาขาคอมพิวเตอร์วิทัศน์พัฒนาอย่างรวดเร็วในช่วงกว่า 10 ปีที่ผ่านมา และแม้วิธีการปัจจุบันจะดูแตกต่างจากอดีตอย่างสิ้นเชิง ก็ยังเน้นย้ำถึง ความต่อเนื่องทางประวัติศาสตร์
- ตลอดทั้งเล่มมีการกล่าวซ้ำถึงความสำคัญของ ธีมและมุมมองที่เป็นเอกภาพ รวมถึงมุมมองที่หลากหลาย
- หนังสือประกอบด้วย 15 พาร์ต โดยแต่ละพาร์ตมุ่งเน้นไปที่ ธีมที่สอดคล้องกัน ของคอมพิวเตอร์วิทัศน์
แนะนำแต่ละพาร์ต
- Part I: แนะนำแรงจูงใจของปัญหาคอมพิวเตอร์วิทัศน์ บริบททางสังคม และพื้นฐานทางคณิตศาสตร์
- Part II: กระบวนการสร้างภาพ
- Part III: อธิบายแนวคิดพื้นฐานของแมชชีนเลิร์นนิงผ่านตัวอย่างภาพ
- Part IV: บทนำสู่การประมวลผลสัญญาณและภาพ
- Part V: ตัวกรองเชิงเส้นที่มีประโยชน์ (Gaussian kernel, binary filter, อนุพันธ์ของภาพ, Laplacian, time filter) และการประยุกต์ใช้
- Part VI: การแทนภาพแบบหลายสเกล
- Part VII: โครงข่ายประสาทสำหรับคอมพิวเตอร์วิทัศน์ (โครงข่ายประสาทแบบคอนโวลูชัน, โครงข่ายประสาทแบบวนซ้ำ, Transformer)
- Part VIII: แบบจำลองเชิงสถิติของภาพและแบบจำลองกราฟ
- Part IX: แนวทางสมัยใหม่ที่เน้น โมเดลเชิงกำเนิด และ การเรียนรู้ตัวแทน (เช่น เวกเตอร์เอ็มเบดดิง)
- Part X: ความท้าทายที่เกิดขึ้นเมื่อสร้างระบบวิทัศน์ที่อิงการเรียนรู้
- Part XI: เครื่องมือเชิงเรขาคณิตสำหรับการสร้างโครงสร้าง 3D ขึ้นใหม่
- Part XII: การประมวลผลลำดับและการวัดการเคลื่อนไหว
- Part XIII: การทำความเข้าใจฉากและการตรวจจับวัตถุ
- Part XIV: คำแนะนำสำหรับนักวิจัยรุ่นจูเนียร์เกี่ยวกับการพรีเซนต์ การเขียนบทความ และแนวคิดการวิจัยที่มีประสิทธิภาพ
- Part XV: ทดลองแก้ปัญหาที่นำเสนอใน Part I ด้วยวิธีการต่าง ๆ ที่กล่าวถึงในหนังสือ
สิ่งที่ไม่ได้ครอบคลุม
- ไม่ได้ครอบคลุม แนวโน้มล่าสุด ของคอมพิวเตอร์วิทัศน์หรือสาขาการประยุกต์ใช้เชิงปฏิบัติที่หลากหลาย (เช่น การวิเคราะห์รูปร่าง การติดตามวัตถุ การวิเคราะห์การเคลื่อนไหว การจดจำใบหน้า เป็นต้น)
- สำหรับการประยุกต์ใช้เฉพาะทางเหล่านี้ การอ้างอิง บทความประชุมวิชาการ หรือหนังสือเฉพาะทางจะมีประสิทธิภาพมากกว่า
คำขอบคุณ
- แสดงความขอบคุณต่อ คณาจารย์ นักศึกษา และเพื่อนร่วมงาน ที่มีอิทธิพลต่อการศึกษาและการวิจัยด้านคอมพิวเตอร์วิทัศน์ในหลากหลายด้าน
- กล่าวขอบคุณอย่างเฉพาะเจาะจงต่อความร่วมมือหลายรูปแบบ เช่น เอกสารประกอบการสอนจากหลายงานประชุม การทดลอง การสนับสนุนรายบท และการออกแบบปก
- ผู้เขียนแต่ละคนยังกล่าวขอบคุณ ครอบครัวและคนใกล้ชิด สำหรับการสนับสนุนอย่างต่อเนื่อง
ข้อมูลการอ้างอิง
- มีการให้รูปแบบ BibTeX สำหรับใช้อ้างอิงหนังสือ
แหล่งข้อมูลสำหรับผู้สอน
- หนังสือฉบับพิมพ์สามารถซื้อได้จาก MIT Press
- มี สไลด์การสอน ที่เชื่อมโยงกับหนังสือให้ใช้งานออนไลน์
เอกสารอ้างอิง
- มีรายการหนังสือคลาสสิกและหนังสือล่าสุดที่สำคัญในสาขาที่เกี่ยวข้อง เช่น คอมพิวเตอร์วิทัศน์ แมชชีนเลิร์นนิง การประมวลผลสัญญาณ เรขาคณิต และวิทยาการการมองเห็น
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
มีช่วงหนึ่งที่น่าสนใจในหนังสือชื่อ "On Research, Writing and Speaking" ว่า "นี่ดูเหมือนจะยากนะ" ซึ่งก็จริง แค่ความฉลาดอย่างเดียวไม่พอจะชนะได้อีกต่อไป จึงมีการแชร์มุมมองว่าในระดับบัณฑิตศึกษา คนที่ขยันและพยายามหนักกว่าจะไปได้ไกลกว่า
มีการขอความเห็นจากคนทำงานในสายนี้ว่า จากความเปลี่ยนแปลงทางเทคโนโลยีในช่วง 2 ปีที่ผ่านมา เนื้อหาเดิมใน machine learning โดยเฉพาะด้าน computer vision ยังใช้ได้อยู่หรือไม่
ยังใช้ได้มากเหมือนเดิม เทคนิคสมัยใหม่เองก็ยังเป็นพัฒนาการที่สร้างต่อบนพื้นฐานเดิม ยิ่งไปกว่านั้น การอ่านแนวคิดพื้นฐานและอัลกอริทึมแบบดั้งเดิมให้มากยังเป็นเรื่องที่ควรทำ ต้องรู้จักเทคนิคคลาสสิกอย่าง Hough transform, canny edge, sift, Harris corner ให้ดี ถึงจะเรียกว่าเป็นผู้เชี่ยวชาญตัวจริงได้ และจะเห็นความต่างจากนักพัฒนาที่จำแต่คีย์เวิร์ดเทคโนโลยีที่กำลังดัง แล้วแค่เอา API มาต่อใช้
แม้ตอนนี้ ในระบบที่เร่งความเร็วด้วย GPU ได้ยาก เทคนิค computer vision แบบ "คลาสสิก" ก็ยังจำเป็นอย่างยิ่ง ฉันทำงานแก้ปัญหา Simultaneous localization and mapping ในสภาพแวดล้อมที่ทรัพยากรจำกัด และตั้งใจว่าจะอ่านบท Structure from Motion อย่างแน่นอน
มีความเห็นว่าส่วน "Writing this book" อาจทำให้เข้าใจได้เหมือน LLM เป็นผู้เขียนต้นฉบับ 2 ใน 3 ของหนังสือ จริง ๆ น่าจะหมายถึงเนื้อหาหนังสือเพิ่มขึ้นเพราะมีเรื่องเกี่ยวกับ LLM ให้เขียนมากขึ้น จึงควรทำให้ชัดเจน
มีการแนะนำหนังสือดีอีกเล่มในสาย computer vision ดังนี้
มีคนชื่นชมอย่างมาก บอกว่าแทบไม่น่าเชื่อว่าหนังสือเล่มนี้เปิดให้อ่านฟรี
เห็นด้วยจริง ๆ อยากรู้ว่าใครเจอวิธีดาวน์โหลดเป็น PDF หรือยัง เพราะเวลาศึกษาฉันคิดว่าการเก็บโน้ตส่วนตัวหรือเอกสารอ้างอิงไว้เป็นเรื่องจำเป็นมาก
คอมมูนิตี้ machine learning, computer vision และ robotics มีวัฒนธรรมที่ยอดเยี่ยมมากในการเปิดตำราให้อ่านฟรีทางออนไลน์ แม้แต่ตำราระดับท็อปของสาขานี้ก็หาอ่านฟรีบนเว็บได้ ต่างจากบางสาขาที่อาจารย์ในอเมริกามักให้ซื้อฉบับล่าสุดจนมีค่าใช้จ่ายสูง แต่วงการนี้เปิดแหล่งข้อมูลชั้นยอดให้ทั้งประเทศกำลังพัฒนาและผู้คนทั่วโลกเข้าถึงได้ อีกทั้งยังเผยแพร่เอกสารประกอบการสอนและวิดีโอจำนวนมากด้วย
มีการขอคำแนะนำหนังสือดี ๆ เกี่ยวกับ machine vision โดยมองว่าแก่นสำคัญของ machine vision ที่มีประสิทธิภาพ รวมถึง computer vision โดยรวม อยู่ที่การเลือกกล้อง ออปติก และแสง หากคุณภาพของภาพอินพุตไม่ดี เอาต์พุตก็ย่อมออกมาไม่ดีตามไปด้วย