6 คะแนน โดย GN⁺ 2026-03-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • อธิบายด้วยภาพถึงกระบวนการที่คอมพิวเตอร์ใช้เทคนิค การเรียนรู้เชิงสถิติ (statistical learning) เพื่อระบุรูปแบบจากข้อมูลโดยอัตโนมัติและทำการคาดการณ์
  • แสดงภาพทีละขั้นของการสร้าง โมเดลที่แยกบ้านในนิวยอร์กและซานฟรานซิสโก โดยใช้ชุดข้อมูลที่อยู่อาศัย
  • โดยเน้นที่ ต้นไม้ตัดสินใจ (decision tree) พร้อมแสดงแนวคิดอย่างจุดแยก (split point), กิ่ง (branch), และโหนดใบ (leaf node) เพื่อให้เห็นกระบวนการเรียนรู้และการคาดการณ์อย่างเป็นรูปธรรม
  • ในกระบวนการเพิ่มความแม่นยำของโมเดล มีการแสดงให้เห็นปัญหา โอเวอร์ฟิต (overfitting) ด้วยภาพ และอธิบายความแตกต่างระหว่างข้อมูลฝึกกับข้อมูลทดสอบ
  • เป็น สื่อการเรียนรู้แบบภาพเชิงโต้ตอบ ที่ออกแบบมาเพื่อช่วยให้เข้าใจแนวคิดหลักของแมชชีนเลิร์นนิงได้อย่างเป็นธรรมชาติ

แนวคิดพื้นฐานของแมชชีนเลิร์นนิง

  • แมชชีนเลิร์นนิงคือเทคโนโลยีที่คอมพิวเตอร์ประยุกต์ใช้ เทคนิคการเรียนรู้เชิงสถิติ เพื่อระบุรูปแบบของข้อมูลโดยอัตโนมัติ และใช้สิ่งนั้นเป็นฐานในการทำ การคาดการณ์ที่แม่นยำ
  • ยกตัวอย่างด้วยการใช้ข้อมูลบ้านเพื่อสร้างโมเดลสำหรับ จำแนกบ้านในนิวยอร์กและซานฟรานซิสโก
  • งานจำแนกลักษณะนี้ในแมชชีนเลิร์นนิงเรียกว่าโจทย์ classification (การจำแนก)

การแยกแยะเชิงสัญชาตญาณและคุณลักษณะ (feature)

  • ซานฟรานซิสโกมีภูมิประเทศที่ เป็นเนินเขามากและมีระดับความสูงมากกว่า
    • ดังนั้น ระดับความสูง (elevation) ของบ้านจึงอาจเป็นเกณฑ์ที่มีประโยชน์ในการแยกสองเมืองนี้
    • ตัวอย่างเช่น หากระดับความสูงเกิน 240 ฟุต ก็สามารถจัดเป็นซานฟรานซิสโกได้
  • หากเพิ่ม ราคาต่อตารางฟุต (price per square foot) เข้าไป ก็สามารถแยกได้ละเอียดขึ้น
    • ถ้าระดับความสูงไม่เกิน 240 ฟุต และราคาต่อตารางฟุตมากกว่า $1776 ก็จะถูกจัดเป็นนิวยอร์ก
  • แต่ละมิติของข้อมูลเรียกว่า feature (คุณลักษณะ), predictor (ตัวแปรทำนาย) หรือ variable (ตัวแปร)

เส้นแบ่งเขต (boundary) และการฝึกโมเดล

  • สามารถแสดงเส้นแบ่งเขตบน กราฟกระจาย (scatterplot) โดยใช้ระดับความสูงและราคาเป็นเกณฑ์ได้
  • การระบุเส้นแบ่งเขตของข้อมูลด้วยคณิตศาสตร์คือ หัวใจของการเรียนรู้เชิงสถิติ
  • ชุดข้อมูลจริงมี 7 มิติ และใช้สิ่งนี้ในการ ฝึก (training) โมเดล
    • ใช้ เมทริกซ์กราฟกระจาย (scatterplot matrix) เพื่อสำรวจความสัมพันธ์ระหว่างตัวแปรแต่ละตัวด้วยภาพ

หลักการทำงานของต้นไม้ตัดสินใจ (Decision Tree)

  • แมชชีนเลิร์นนิงใช้ การเรียนรู้เชิงสถิติ เพื่อค้นหารูปแบบในข้อมูล และหนึ่งในวิธีนั้นคือ ต้นไม้ตัดสินใจ
  • ต้นไม้ตัดสินใจจะแยกข้อมูลโดยใช้ กฎ if-then ตามตัวแปรครั้งละหนึ่งตัว
  • ตัวอย่าง: ใช้กฎว่า “ถ้าระดับความสูงเกินค่าหนึ่ง ให้เป็นซานฟรานซิสโก”
  • จุดแยกเช่นนี้เรียกว่า split point (จุดแบ่ง) และจะก่อให้เกิดกิ่ง (branch) ของต้นไม้แต่ละกิ่ง

ความแม่นยำของการแบ่งและจุดแลกเปลี่ยน

  • การแบ่งครั้งแรก (เช่น ใช้เกณฑ์ 240 ฟุต) ทำให้บ้านบางหลังในซานฟรานซิสโกถูกจัดผิด (false negatives)
  • ในทางกลับกัน ถ้าพยายามรวมบ้านซานฟรานซิสโกทุกหลัง ก็จะรวมบ้านในนิวยอร์กเข้ามาด้วย (false positives)
  • การแบ่งที่ดีที่สุด (best split) คือการทำให้ข้อมูลในแต่ละกิ่ง เป็นเนื้อเดียวกัน (homogeneous) ให้มากที่สุด
    • วิธีคำนวณมีเช่น ดัชนีจีนี (Gini index) และ ครอสเอนโทรปี (cross entropy)

การเรียกซ้ำ (Recursion) และการเติบโตของต้นไม้

  • อัลกอริทึมจะทำกระบวนการนี้ซ้ำกับชุดข้อมูลย่อยแต่ละชุด และขยายต้นไม้แบบ เรียกซ้ำ (recursion)
  • ในพื้นที่ที่มีระดับความสูงต่ำ ราคาต่อตารางฟุตจะถูกเลือกเป็นตัวแปรสำหรับการแบ่งครั้งถัดไป ส่วนในพื้นที่ที่สูงจะใช้ราคารวม
  • ยิ่งแบ่งซ้ำมากขึ้น ความแม่นยำในการคาดการณ์ (prediction accuracy) ของต้นไม้ก็ยิ่งดีขึ้น
    • เพิ่มอีกหนึ่งขั้นจะได้ 84% และเมื่อเพิ่มหลายขั้นจะดีขึ้นถึง 96%
    • หากเพิ่มทุกการแตกกิ่ง ก็อาจทำความแม่นยำได้ 100%
  • จุดแบ่งสุดท้ายคือ โหนดใบ (leaf node) และแต่ละโหนดจะใช้คลาสส่วนใหญ่ในการจัดประเภทบ้าน

การคาดการณ์และการตรวจสอบ

  • ต้นไม้ตัดสินใจที่ฝึกแล้วจะ คาดการณ์เมือง ของแต่ละจุดข้อมูลโดยไล่ไปตามกิ่งของต้นไม้
  • ข้อมูลที่ใช้ฝึกเรียกว่า training data ส่วนข้อมูลใหม่เรียกว่า test data
  • โมเดลอาจทำงานได้สมบูรณ์กับข้อมูลฝึก แต่ทำผลงานได้แย่ลงกับข้อมูลใหม่
  • สาเหตุคือ โอเวอร์ฟิต (overfitting) ซึ่งหมายถึงโมเดลได้เรียนรู้รายละเอียดที่ไม่จำเป็นมากเกินไป

สรุปและขั้นถัดไป

  • แมชชีนเลิร์นนิงทำการคาดการณ์โดย ค้นหาเส้นแบ่งเขตของข้อมูลและระบุรูปแบบ
  • ต้นไม้ตัดสินใจ เป็นวิธีตัวแทนที่ใช้กฎ if-then ในการจำแนกข้อมูล
  • โอเวอร์ฟิต คือปรากฏการณ์ที่โมเดลเรียนรู้แม้แต่การแบ่งที่ไม่มีความหมาย จนทำให้ความสามารถในการทั่วไปลดลง
  • ในบทความถัดไปจะกล่าวถึงความสัมพันธ์ระหว่างโอเวอร์ฟิตกับ จุดแลกเปลี่ยนระหว่างอคติและความแปรปรวน (bias/variance tradeoff)

1 ความคิดเห็น

 
GN⁺ 2026-03-16
ความคิดเห็นจาก Hacker News
  • ผมเป็นหนึ่งในผู้สร้างของ R2D3 เอง ดีใจที่ได้เห็นโพสต์นี้อีกครั้งในวันนี้ ถ้ามีคำถามถามมาได้ทั้งที่นี่หรือบน Bluesky

    • อยากทำภาพแสดง data collection pipeline ในลักษณะนี้ แต่ไม่รู้จะเริ่มจากตรงไหนดี มีภาพอยู่ในหัวแล้วแต่พอจะทำเป็นเว็บไซต์จริง ๆ กลับไปไม่ถูก
    • ผ่านมา 10 ปีแล้ว อยากรู้ว่ามีแผนจะเขียนงานใหม่อีกไหม
  • นี่คืองานชิ้นเอกจริง ๆ ทุกครั้งที่แนะนำ machine learning ผมจะใช้อธิบายแบบ interactive ชิ้นนี้เสมอ มีลิสต์งานแนวคล้ายกันอยู่ที่นี่

    • เป็นลิสต์ที่ดีมาก เมื่อก่อน Seeing Theory เคยเป็นกระแสบน HN แต่ตอนนี้เหมือนเว็บไซต์เดิมจะหายไปแล้ว ผมเพิ่มเครื่องมือ data visualization ของตัวเองไว้ในPR นี้ แล้ว และหาลิงก์ Seeing Theory ที่แก้ไขแล้วมาอัปเดตให้ด้วย
  • ผมเคยพูดถึงลิสต์แหล่งเรียนรู้ S-TIERที่ผมทำไว้ก่อนหน้านี้
    S-TIER หมายถึงคอนเทนต์ที่ผสมผสานแอนิเมชัน การทำภาพข้อมูล และองค์ประกอบ interactive ได้อย่างสมบูรณ์แบบ
    A-TIER คือมีประโยชน์แต่มีความเป็นภาพน้อยกว่า ส่วนบล็อกที่เน้นความเห็นจะอยู่ล่างสุด
    เว็บไซต์ที่ผมจัดเป็น S-TIER มีดังนี้:
    growingswe.com/blog, ciechanow.ski/archives, mlu-explain.github.io, seeing-theory.brown.edu, svg-tutorial.com, lumafield.com/scan-of-the-month/health-wearables
    ผมอยากสร้างbookmark managerที่ใช้เกณฑ์นี้มาจัดหมวดลิงก์บล็อกทั้งหมดบน HN แบบอัตโนมัติ

    • ที่ visxai.io ก็มีตัวอย่างยอดเยี่ยมเยอะมาก ดูที่ส่วน Hall of Fame ด้านล่างได้เลย
      สองโปรเจกต์ที่ผมชอบจากที่เคยทำมาก่อนคือ Fill in the Blank และ Grokking
  • บันทึกเก็บไว้แล้ว บทอธิบาย LLM ส่วนใหญ่มักขาดสื่ออ้างอิงเชิงภาพแบบนี้
    ปกติก็มีแต่บทความยาวระดับ 10,000 คำหรือไม่ก็สรุปสั้นแค่บรรทัดเดียวบนทวีต เลยไม่มีอะไรตรงกลาง

    • คอนเทนต์ของ3Blue1Brownยอดเยี่ยมจริง ๆ เขามีภาษาภาพในแบบของตัวเอง
  • นี่เป็นงานจากปี 2015 ทั้งในแง่เทคนิคและแนวคิดก็ถือว่าเป็นงานที่ล้ำยุค

    • น่าเสียดายที่ไม่มีงานอื่นของ Tony Hschu กับ Stephanie Jyee ให้เห็นมากกว่านี้ ไม่รู้ว่ามีใครพอรู้จักผลงานอื่นอีกไหม
  • เจ๋งมาก นี่คือสาขาที่น่าสนใจตรงจุดตัดระหว่าง data visualization กับ AI/ML
    แหล่งที่น่าดูเพิ่มเติมมี mlu-explain.github.io, visxai.io, explorables ของ Google PAIR และ poloclub ของ GA Tech

  • อยากให้มีบทความแบบนี้เยอะกว่านี้ ผมชอบการเรียนรู้ผ่านภาพ
    ทำให้นึกถึงบทความ Build Your Own React แม้จะไม่ได้เกี่ยวกันโดยตรง แต่เป็นบล็อกที่ตามได้ง่ายในสไตล์คล้ายกัน บทความรูปแบบนี้ช่วยให้เรียนรู้ได้มีประสิทธิภาพมาก

  • นี่คือหนึ่งในคำอธิบายเรื่อง decision tree ที่ดีที่สุดเท่าที่เคยเห็นมา
    แอนิเมชันที่ค่อย ๆ แสดงกระบวนการแบ่งเมื่อเลื่อนหน้าลง ทำให้เข้าใจได้ตรงไปตรงมามากกว่าคำอธิบายยืดยาวในตำรา

  • คำอธิบายแบบ interactive เหล่านี้ยังคงเป็นตัวอย่างที่ดีที่สุดในการทำให้เข้าใจแนวคิด ML แบบเป็นธรรมชาติ
    วิธีแบบนี้มีประสิทธิภาพกว่าบทความเทคนิคที่เริ่มต้นจากสมการมาก

  • สงสัยว่ามีสื่อที่อธิบายแนวคิดระดับสูงอย่างattention mechanismของ Transformer ในสไตล์ R2D3 หรือไม่