6 คะแนน โดย GN⁺ 2025-06-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • หนังสือสำหรับผู้เริ่มต้นและระดับกลางที่กล่าวถึง พื้นฐานของคอมพิวเตอร์วิทัศน์ จากมุมมองของการประมวลผลภาพและ แมชชีนเลิร์นนิง
  • แต่ละบทถูกจัดให้สั้นและชัดเจนเพื่อมุ่งเน้นไปที่แนวคิดหลัก
  • อธิบายการเปลี่ยนแปลงหลัง การปฏิวัติดีปเลิร์นนิง และกระบวนการนำแนวคิดคลาสสิกกลับมาตีความใหม่ พร้อมเล่าประสบการณ์จากการเขียนหนังสือ
  • ครอบคลุมหัวข้อคอมพิวเตอร์วิทัศน์โดยรวมใน 15 พาร์ต เช่น การประมวลผลภาพ, โครงข่ายประสาท, โมเดลเชิงกำเนิด, การประมวลผลลำดับ, การทำความเข้าใจฉาก
  • โครงสร้างเน้นที่ ทฤษฎีที่จำเป็นและการสร้างสัญชาตญาณความเข้าใจ มากกว่าทิศทางงานวิจัยล่าสุดหรือการประยุกต์เฉพาะด้าน

คำนำ

  • อุทิศให้กับพิกเซลทุกพิกเซล

เกี่ยวกับหนังสือเล่มนี้

  • หนังสือเล่มนี้กล่าวถึง หัวข้อแกนหลัก ของคอมพิวเตอร์วิทัศน์จากมุมมองของ การประมวลผลภาพและแมชชีนเลิร์นนิง
  • มีสื่อภาพประกอบหลากหลายเพื่อช่วยพัฒนาสัญชาตญาณความเข้าใจของผู้อ่าน
  • กลุ่มผู้อ่านหลักคือนักศึกษาปริญญาตรีและบัณฑิตศึกษาที่เริ่มต้นเรียนคอมพิวเตอร์วิทัศน์ แต่ก็มีประโยชน์ต่อผู้ปฏิบัติงานที่มีประสบการณ์ด้วย
  • เดิมตั้งใจจะครอบคลุมเนื้อหาอย่างกว้างขวาง แต่เนื่องจากสาขาคอมพิวเตอร์วิทัศน์มีขอบเขตกว้างมาก จึงจำกัดแต่ละบทไว้ไม่เกิน 5 หน้าเพื่อเน้น แนวคิดสำคัญ
  • ผู้เขียนเล่าตรงไปตรงมาว่าตั้งใจจะเขียนหนังสือสั้น ๆ แต่สุดท้ายก็มีความยาวมากขึ้น

กระบวนการเขียนหนังสือ

  • แสดงให้เห็นด้วยข้อมูลถึง ความไม่เป็นเส้นตรง ระหว่างเจตนาตอนเริ่มเขียนกับกระบวนการจริง โดยใช้เวลามากกว่า 10 ปีจึงแล้วเสร็จ
  • ระหว่างการเขียนได้เกิด การปฏิวัติดีปเลิร์นนิง (ปี 2012) ขึ้น ทำให้เกิดกระบวนการ ผสานรวมระหว่างวิธีการดั้งเดิมกับแนวทางสมัยใหม่
  • ด้วยความนิยมของดีปเลิร์นนิงในช่วงแรก แนวคิดก่อนหน้านั้นบางส่วนจึงถูกหลงลืมไปชั่วคราว แต่เมื่อเวลาผ่านไป แนวคิดที่เป็นแก่นแท้ก็ได้รับการทบทวนอีกครั้ง
  • แม้เส้นทางการเขียนจะยากลำบาก แต่ผู้เขียนกล่าวว่าได้เรียนรู้อย่างมากจากการทดลองและตัวอย่างต่าง ๆ ด้วยตนเอง
  • มีการแสดงภาพให้เห็นถึงการเปลี่ยนแปลงของเหตุการณ์สำคัญในวงการคอมพิวเตอร์วิทัศน์และ AI ควบคู่ไปกับช่วงเวลาการเขียนหนังสือ

โครงสร้างของหนังสือ

  • สาขาคอมพิวเตอร์วิทัศน์พัฒนาอย่างรวดเร็วในช่วงกว่า 10 ปีที่ผ่านมา และแม้วิธีการปัจจุบันจะดูแตกต่างจากอดีตอย่างสิ้นเชิง ก็ยังเน้นย้ำถึง ความต่อเนื่องทางประวัติศาสตร์
  • ตลอดทั้งเล่มมีการกล่าวซ้ำถึงความสำคัญของ ธีมและมุมมองที่เป็นเอกภาพ รวมถึงมุมมองที่หลากหลาย
  • หนังสือประกอบด้วย 15 พาร์ต โดยแต่ละพาร์ตมุ่งเน้นไปที่ ธีมที่สอดคล้องกัน ของคอมพิวเตอร์วิทัศน์

แนะนำแต่ละพาร์ต

  • Part I: แนะนำแรงจูงใจของปัญหาคอมพิวเตอร์วิทัศน์ บริบททางสังคม และพื้นฐานทางคณิตศาสตร์
  • Part II: กระบวนการสร้างภาพ
  • Part III: อธิบายแนวคิดพื้นฐานของแมชชีนเลิร์นนิงผ่านตัวอย่างภาพ
  • Part IV: บทนำสู่การประมวลผลสัญญาณและภาพ
  • Part V: ตัวกรองเชิงเส้นที่มีประโยชน์ (Gaussian kernel, binary filter, อนุพันธ์ของภาพ, Laplacian, time filter) และการประยุกต์ใช้
  • Part VI: การแทนภาพแบบหลายสเกล
  • Part VII: โครงข่ายประสาทสำหรับคอมพิวเตอร์วิทัศน์ (โครงข่ายประสาทแบบคอนโวลูชัน, โครงข่ายประสาทแบบวนซ้ำ, Transformer)
  • Part VIII: แบบจำลองเชิงสถิติของภาพและแบบจำลองกราฟ
  • Part IX: แนวทางสมัยใหม่ที่เน้น โมเดลเชิงกำเนิด และ การเรียนรู้ตัวแทน (เช่น เวกเตอร์เอ็มเบดดิง)
  • Part X: ความท้าทายที่เกิดขึ้นเมื่อสร้างระบบวิทัศน์ที่อิงการเรียนรู้
  • Part XI: เครื่องมือเชิงเรขาคณิตสำหรับการสร้างโครงสร้าง 3D ขึ้นใหม่
  • Part XII: การประมวลผลลำดับและการวัดการเคลื่อนไหว
  • Part XIII: การทำความเข้าใจฉากและการตรวจจับวัตถุ
  • Part XIV: คำแนะนำสำหรับนักวิจัยรุ่นจูเนียร์เกี่ยวกับการพรีเซนต์ การเขียนบทความ และแนวคิดการวิจัยที่มีประสิทธิภาพ
  • Part XV: ทดลองแก้ปัญหาที่นำเสนอใน Part I ด้วยวิธีการต่าง ๆ ที่กล่าวถึงในหนังสือ

สิ่งที่ไม่ได้ครอบคลุม

  • ไม่ได้ครอบคลุม แนวโน้มล่าสุด ของคอมพิวเตอร์วิทัศน์หรือสาขาการประยุกต์ใช้เชิงปฏิบัติที่หลากหลาย (เช่น การวิเคราะห์รูปร่าง การติดตามวัตถุ การวิเคราะห์การเคลื่อนไหว การจดจำใบหน้า เป็นต้น)
  • สำหรับการประยุกต์ใช้เฉพาะทางเหล่านี้ การอ้างอิง บทความประชุมวิชาการ หรือหนังสือเฉพาะทางจะมีประสิทธิภาพมากกว่า

คำขอบคุณ

  • แสดงความขอบคุณต่อ คณาจารย์ นักศึกษา และเพื่อนร่วมงาน ที่มีอิทธิพลต่อการศึกษาและการวิจัยด้านคอมพิวเตอร์วิทัศน์ในหลากหลายด้าน
  • กล่าวขอบคุณอย่างเฉพาะเจาะจงต่อความร่วมมือหลายรูปแบบ เช่น เอกสารประกอบการสอนจากหลายงานประชุม การทดลอง การสนับสนุนรายบท และการออกแบบปก
  • ผู้เขียนแต่ละคนยังกล่าวขอบคุณ ครอบครัวและคนใกล้ชิด สำหรับการสนับสนุนอย่างต่อเนื่อง

ข้อมูลการอ้างอิง

  • มีการให้รูปแบบ BibTeX สำหรับใช้อ้างอิงหนังสือ

แหล่งข้อมูลสำหรับผู้สอน

  • หนังสือฉบับพิมพ์สามารถซื้อได้จาก MIT Press
  • มี สไลด์การสอน ที่เชื่อมโยงกับหนังสือให้ใช้งานออนไลน์

เอกสารอ้างอิง

  • มีรายการหนังสือคลาสสิกและหนังสือล่าสุดที่สำคัญในสาขาที่เกี่ยวข้อง เช่น คอมพิวเตอร์วิทัศน์ แมชชีนเลิร์นนิง การประมวลผลสัญญาณ เรขาคณิต และวิทยาการการมองเห็น

1 ความคิดเห็น

 
GN⁺ 2025-06-16
ความคิดเห็นจาก Hacker News
  • มีช่วงหนึ่งที่น่าสนใจในหนังสือชื่อ "On Research, Writing and Speaking" ว่า "นี่ดูเหมือนจะยากนะ" ซึ่งก็จริง แค่ความฉลาดอย่างเดียวไม่พอจะชนะได้อีกต่อไป จึงมีการแชร์มุมมองว่าในระดับบัณฑิตศึกษา คนที่ขยันและพยายามหนักกว่าจะไปได้ไกลกว่า

    • เป็นข้อสังเกตที่ลึกซึ้งมาก ถึงจุดหนึ่งทุกคนจะรู้สึกได้ว่าความรู้เพียงอย่างเดียวไม่เพียงพอ หลายคนเจอกำแพงนี้เมื่อเข้าเรียนมหาวิทยาลัย แต่ในมหาวิทยาลัยยังมีขอบเขตการเรียนที่กำหนดไว้ จึงพอประคองไปได้ด้วยความสามารถล้วน ๆ ตรงกันข้าม หลักสูตรปริญญาเอกไม่มีขีดจำกัดของปริมาณการเรียน ไม่มีรายการอ่านที่กำหนดตายตัว และไม่มีคำว่า “นอกขอบเขตสอบ” ต้องอ่าน ศึกษา ทดลอง และอ่านเปเปอร์ได้มากเท่าที่ทำไหวแบบไร้ขีดจำกัด ไม่ใช่แค่ฉลาดก็พอ แต่ยังต้องเข้าใจ soft skills เครือข่าย และบริบทของชุมชนด้วย ต้องเข้าประชุม กินข้าว และสร้างเครือข่ายกับคนในคอมมูนิตี้ พร้อมรักษาการติดต่อเอาไว้ ต้องกระตุ้นตัวเอง จัดการเดดไลน์และรูทีนด้วยตนเอง ต่างจากแรงจูงใจที่มาจากการมีวิชาเรียนและการสอบอย่างเป็นทางการ ตรงนี้ต้องบริหารตัวเองให้ได้ มาตรฐานก็คลุมเครือ ความคาดหวังก็แทบไร้ขอบเขต และอาจต้องเจอกับประสบการณ์ถูกปฏิเสธที่ไม่เคยเจอมาก่อน ช่วงปริญญาเอกจึงเป็นเวลาที่ยากลำบากที่บีบให้ทุกคนต้องท้าทายขีดจำกัดของตัวเอง หากเป้าหมายมีแค่เรียนจบ ก็อาจพอผ่าน ๆ ไปได้ แต่โดยมากนักศึกษาที่หวังเส้นทางวิชาการก็มักมีเป้าหมายที่ใหญ่กว่านั้น
  • มีการขอความเห็นจากคนทำงานในสายนี้ว่า จากความเปลี่ยนแปลงทางเทคโนโลยีในช่วง 2 ปีที่ผ่านมา เนื้อหาเดิมใน machine learning โดยเฉพาะด้าน computer vision ยังใช้ได้อยู่หรือไม่

    • ยังใช้ได้มากเหมือนเดิม เทคนิคสมัยใหม่เองก็ยังเป็นพัฒนาการที่สร้างต่อบนพื้นฐานเดิม ยิ่งไปกว่านั้น การอ่านแนวคิดพื้นฐานและอัลกอริทึมแบบดั้งเดิมให้มากยังเป็นเรื่องที่ควรทำ ต้องรู้จักเทคนิคคลาสสิกอย่าง Hough transform, canny edge, sift, Harris corner ให้ดี ถึงจะเรียกว่าเป็นผู้เชี่ยวชาญตัวจริงได้ และจะเห็นความต่างจากนักพัฒนาที่จำแต่คีย์เวิร์ดเทคโนโลยีที่กำลังดัง แล้วแค่เอา API มาต่อใช้

    • แม้ตอนนี้ ในระบบที่เร่งความเร็วด้วย GPU ได้ยาก เทคนิค computer vision แบบ "คลาสสิก" ก็ยังจำเป็นอย่างยิ่ง ฉันทำงานแก้ปัญหา Simultaneous localization and mapping ในสภาพแวดล้อมที่ทรัพยากรจำกัด และตั้งใจว่าจะอ่านบท Structure from Motion อย่างแน่นอน

  • มีความเห็นว่าส่วน "Writing this book" อาจทำให้เข้าใจได้เหมือน LLM เป็นผู้เขียนต้นฉบับ 2 ใน 3 ของหนังสือ จริง ๆ น่าจะหมายถึงเนื้อหาหนังสือเพิ่มขึ้นเพราะมีเรื่องเกี่ยวกับ LLM ให้เขียนมากขึ้น จึงควรทำให้ชัดเจน

    • ฉันไม่ได้อ่านแบบนั้น ดูเหมือนว่าหลังจาก ChatGPT ปรากฏขึ้น หนังสือเพิ่งถูกเขียนไปไม่ถึง 1 ใน 3 มากกว่า รู้สึกเหมือนเป็นการทำเครื่องหมายเหตุการณ์สำคัญในสาย ML/AI ลงบนกราฟเสียมากกว่า
  • มีการแนะนำหนังสือดีอีกเล่มในสาย computer vision ดังนี้

    Computer Vision, Fifth Edition
    E.R. Davies
    Academic Press
    ISBN-13 978-0128092842
    
    • ตำราเล่มสำคัญอีกเล่มที่แนะนำคือ Szeliski's "Computer Vision 2nd Ed" (2022) https://szeliski.org/Book/. หนังสือของ Forsyth & Ponce ก็ดี แต่ค่อนข้างเก่าแล้ว ถ้าสนใจ 3D หนังสือคลาสสิกที่ยังยอดเยี่ยมคือ Hartley & Zisserman's Multiple View Geometry
  • มีคนชื่นชมอย่างมาก บอกว่าแทบไม่น่าเชื่อว่าหนังสือเล่มนี้เปิดให้อ่านฟรี

    • เห็นด้วยจริง ๆ อยากรู้ว่าใครเจอวิธีดาวน์โหลดเป็น PDF หรือยัง เพราะเวลาศึกษาฉันคิดว่าการเก็บโน้ตส่วนตัวหรือเอกสารอ้างอิงไว้เป็นเรื่องจำเป็นมาก

    • คอมมูนิตี้ machine learning, computer vision และ robotics มีวัฒนธรรมที่ยอดเยี่ยมมากในการเปิดตำราให้อ่านฟรีทางออนไลน์ แม้แต่ตำราระดับท็อปของสาขานี้ก็หาอ่านฟรีบนเว็บได้ ต่างจากบางสาขาที่อาจารย์ในอเมริกามักให้ซื้อฉบับล่าสุดจนมีค่าใช้จ่ายสูง แต่วงการนี้เปิดแหล่งข้อมูลชั้นยอดให้ทั้งประเทศกำลังพัฒนาและผู้คนทั่วโลกเข้าถึงได้ อีกทั้งยังเผยแพร่เอกสารประกอบการสอนและวิดีโอจำนวนมากด้วย

  • มีการขอคำแนะนำหนังสือดี ๆ เกี่ยวกับ machine vision โดยมองว่าแก่นสำคัญของ machine vision ที่มีประสิทธิภาพ รวมถึง computer vision โดยรวม อยู่ที่การเลือกกล้อง ออปติก และแสง หากคุณภาพของภาพอินพุตไม่ดี เอาต์พุตก็ย่อมออกมาไม่ดีตามไปด้วย

    • อยากรู้ว่าพอจะแชร์กรณีตัวอย่างหรือการใช้งานจริงที่องค์ประกอบเหล่านี้สร้างความแตกต่างได้หรือไม่