4 คะแนน โดย GN⁺ 2025-10-31 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • คอเคลีย(cochlea) ประมวลผลเสียงโดยรับการสั่นที่เกิดจากการเปลี่ยนแปลงของความดันอากาศ ผ่าน โครงสร้างทางกายภาพที่แยกตามความถี่
  • แต่ละตำแหน่งของ เยื่อฐาน(basilar membrane) จะสั่นพ้องกับความถี่เฉพาะ โดยความถี่สูงตอบสนองที่ฐานซึ่งแข็ง ส่วนความถี่ต่ำตอบสนองที่ปลายซึ่งยืดหยุ่น
  • ในกระบวนการนี้ เซลล์ขน(hair cell) จะเปิดและปิดช่องไอออนตามการสั่น แล้วแปลงเป็นสัญญาณไฟฟ้า ขณะที่เส้นใยประสาททำหน้าที่กรองข้อมูลด้านเวลาและความถี่
  • อย่างไรก็ตาม ตัวกรองเหล่านี้ ยังคงรักษาความละเอียดเชิงเวลาไว้ ต่างจาก Fourier transform และในทางปฏิบัติทำงานในลักษณะ กึ่งกลางระหว่าง wavelet กับ Gabor
  • โครงสร้างนี้เป็นกลยุทธ์ของ การเข้ารหัสอย่างมีประสิทธิภาพ(efficient coding) ที่ช่วยลดข้อมูลซ้ำซ้อนของเสียงธรรมชาติ และภาษามนุษย์ก็ครอบครองพื้นที่เวลา-ความถี่ที่มีลักษณะเฉพาะ

โครงสร้างการแยกความถี่ของคอเคลีย

  • เยื่อแก้วหู(tympanic membrane) สั่นตามการเปลี่ยนแปลงของความดันอากาศ และกระดูกในหูชั้นกลางจะขยายการสั่นนี้แล้วส่งต่อไปยัง ของเหลวในคอเคลีย
    • การสั่นจะเคลื่อนที่ไปตาม เยื่อฐาน(basilar membrane) และสั่นพ้องกับความถี่เฉพาะตามคุณสมบัติทางกายภาพของแต่ละตำแหน่ง
    • ส่วนฐานมีความแข็งและเบา จึงตอบสนองต่อ ความถี่สูง ขณะที่ส่วนปลายยืดหยุ่นและหนัก จึงตอบสนองต่อ ความถี่ต่ำ
  • ความถี่เรโซแนนซ์ของเยื่อฐานลดลงในเชิง ลอการิทึม(logarithmic) ตามตำแหน่งในอวกาศ
    • สิ่งนี้สอดคล้องกับลักษณะที่การรับรู้ พิตช์(pitch) ของมนุษย์เปลี่ยนแปลงแบบลอการิทึม

การแปลงจากกลไกเป็นไฟฟ้าของเซลล์ขน

  • เซลล์ขน(hair cell) บนเยื่อฐานจะสั่นตามความถี่ที่ตรงกับตำแหน่งนั้น และการเคลื่อนไหวนี้จะกระตุ้น การเปิด-ปิดของช่องไอออน
    • โครงสร้างคล้ายสปริงที่ปลายเซลล์ขนทำงานเหมือน “trapdoor” และปล่อยสารสื่อประสาทให้สอดคล้องกับความถี่ของการสั่น
  • ผ่านกระบวนการนี้ การสั่นเชิงกลจะถูกแปลงเป็นสัญญาณไฟฟ้า และส่งต่อไปยังเส้นประสาทการได้ยิน

ตัวกรองการได้ยินและความละเอียดเวลา-ความถี่

  • เส้นใยประสาทการได้ยินทำงานเป็น ตัวกรองที่ดึงข้อมูลด้านเวลาและความถี่
    • ตัวกรองที่เน้นช่วงเวลาสั้นจะมี ความละเอียดเชิงเวลา สูง แต่การกระจายความถี่ไม่สม่ำเสมอ
    • ตัวกรองที่ครอบคลุมช่วงเวลายาวจะมี ความละเอียดเชิงความถี่ สูง แต่ข้อมูลด้านเวลาจะพร่ามัว
  • Fourier transform ไม่มีข้อมูลด้านเวลา และแม้จะมี การกระจายความถี่ที่สม่ำเสมอ แบบในภาพด้านขวา แต่นั่นก็แตกต่างจากตัวกรองจริงของหู
  • ตัวกรองของคอเคลียมีลักษณะ กึ่งกลางระหว่าง wavelet filter กับ Gabor filter โดย
    • ใน ย่านความถี่สูง จะเพิ่มความละเอียดเชิงเวลา
    • ใน ย่านความถี่ต่ำ จะเพิ่มความละเอียดเชิงความถี่ เป็น โครงสร้างชดเชยกัน

การเข้ารหัสอย่างมีประสิทธิภาพและการวิเคราะห์เสียงธรรมชาติ

  • งานวิจัยของ Lewicki(2002) เสนอว่าโครงสร้างตัวกรองนี้เป็น กลยุทธ์เพื่อลดความซ้ำซ้อนของเสียงธรรมชาติ
    • ใช้ ICA(Independent Component Analysis) เพื่อเปรียบเทียบเสียงสิ่งแวดล้อม เสียงร้องของสัตว์ และเสียงพูดของมนุษย์
    • เสียงสิ่งแวดล้อมและเสียงพูดของมนุษย์ให้ผลใกล้เคียงกับ ตัวกรองแบบ wavelet ส่วนเสียงร้องของสัตว์ใกล้กับ ตัวกรองแบบ Fourier
  • ภาษามนุษย์ครอบครอง พื้นที่เวลา-ความถี่ที่เป็นเอกลักษณ์ และ
    • นักวิจัยบางส่วนกล่าวถึงความเป็นไปได้ที่ ภาษาอาจวิวัฒน์มาเพื่อเติมเต็มบริเวณที่เสียงธรรมชาติเดิมไม่ได้ครอบครอง

การเข้ารหัสเชิงนิเวศและการประมวลผลการรับความรู้สึก

  • ระบบประสาทสัมผัสจะสร้าง วิธีการเข้ารหัสที่เหมาะกับสิ่งแวดล้อม และการได้ยินก็ถูกยกเป็นตัวอย่างหนึ่ง
    • การแทนค่าเชิงนิเวศ(ecologically-relevant representation) ลักษณะนี้ตั้งอยู่บนปฏิสัมพันธ์ระหว่างพฤติกรรมกับสิ่งแวดล้อม
  • ตอนท้ายของบทความระบุว่า ในการบรรยายครั้งถัดไปจะย้ายจุดสนใจไปที่ การคำนวณเชิงชีวฟิสิกส์ในระดับนิวรอน
  • โดยรวมแล้ว หูทำงานเป็น ระบบกรองที่มีประสิทธิภาพและปรับตัวได้ ไม่ใช่ Fourier transform

1 ความคิดเห็น

 
GN⁺ 2025-10-31
ความเห็นจาก Hacker News
  • สรุปคือ หูไม่ได้ทำ Fourier Transform แต่ทำการแปลงความถี่ที่ถูกจำกัดไว้ในเวลา ซึ่งอยู่กึ่งกลางระหว่าง wavelet กับ Gabor transform
    ทั้งนี้เป็นเพราะเสียงมีลักษณะเฉพาะอยู่ในช่วงเวลา
    และยังมีการกล่าวถึง ทฤษฎีที่ว่าภาษามนุษย์วิวัฒนาการมาเพื่อครอบครองพื้นที่ว่างในสเปซความถี่–ระยะเวลาของ envelope ด้วย
    เป็นไปได้ว่า cochlea ของมนุษย์ถูกปรับให้เหมาะกับเสียงพูดของมนุษย์

    • บทความนี้ให้ความรู้สึกเหมือนตั้ง ตรรกะแบบหุ่นไล่กา มากเกินไป
      ใครก็ตามที่รู้เรื่องการประมวลผลสัญญาณคงไม่อ้างว่าหูทำ Fourier transform บนช่วงเวลาอนันต์
      ในทางปฏิบัติหูทำงานคล้าย FFT (Fast Fourier Transform) ซึ่งก็คือการคำนวณความเข้มของแต่ละความถี่
      wavelet หรือ Gabor transform แม้ต่างกันทางคณิตศาสตร์ แต่สุดท้ายให้ผลเหมือนกัน 95~99%
      ดังนั้นถ้าจะอธิบายแบบง่าย ๆ ก็ถือได้ว่าหูกำลังทำ windowed discrete Fourier transform
    • ที่ความถี่สูง หูยอมเสียความละเอียดด้านความถี่เพื่อเพิ่ม ความละเอียดเชิงเวลา และที่ความถี่ต่ำก็เป็นกลับกัน
      อธิบายได้ด้วย หลักความไม่แน่นอนของเวลา-ความถี่
      การมอง filter bank ของหูเป็นชุดตัวกรองแบบกำหนดเองตามผลทางสรีรวิทยาจะเข้าใจง่ายกว่า
      ขนาดของสัตว์ก็มีผลด้วย — สัตว์เล็กมักส่งและได้ยินเสียงในย่านอัลตราโซนิกได้
    • ถ้าคุณสมบัติของ cochlea มนุษย์สอดคล้องกับเสียงพูดของมนุษย์จริง ก็น่าจะนำไปใช้กับ การมาสเตอร์เสียงบทสนทนาในภาพยนตร์หรือทีวี เพื่อให้ฟังบทพูดชัดขึ้นได้
    • ถ้าหูจะทำ Fourier transform จริง ๆ ก็คงต้องรอไปทั้งชีวิตไม่ใช่หรือ? จากการที่เราฟังเสียงได้แบบเรียลไทม์ก็บอกชัดว่าไม่ใช่เช่นนั้น
    • ถ้าขยายแนวคิดนี้ต่อ ก็อาจหมายความว่า คำและหน่วยเสียง บางแบบครอบครองพื้นที่เฉพาะในสเปซ trade-off ระหว่างความถี่กับเวลา
      เช่น เสียงเตือนว่า "เสือกำลังพุ่งเข้าใส่" กับ "เสียงปลอบเด็ก" ก็คงอยู่กันคนละบริเวณ
  • ชื่อเรื่องค่อนข้าง ล่อคลิก และเนื้อหาก็ไม่ถูกต้องนักในเชิงเคร่งครัด
    Gabor หรือ wavelet transform เป็นรูปแบบการทำให้ Fourier transform เป็นแบบทั่วไปขึ้น ซึ่งให้การวิเคราะห์สเปกตรัมตามเวลา
    หูเองก็ทำสิ่งที่ ออกแนว Fourier อยู่มาก

    • เห็นด้วยว่าเป็นชื่อแบบล่อคลิก แต่ถ้าจะเอาให้เป๊ะก็ไม่ได้ผิด
      Fourier transform เป็นแบบอนันต์และต่อเนื่อง ส่วน DFT เป็นแบบจำกัดและไม่ต่อเนื่อง
      การได้ยินของมนุษย์อาจใกล้กับ Fourier Series ซึ่งอยู่กึ่งกลางระหว่างสองอย่างนั้น
      wavelet ก็เป็นอีกวิธีหนึ่งที่ใช้ รูปคลื่นที่ดัดแปลงแล้ว แทนไซน์เวฟ
      สุดท้ายแล้ว หากพูดแบบทั่วไป หูก็ทำการประมวลผลที่ "เป็นแบบ Fourier"
    • บทความนี้เป็นโพสต์ journal club ที่นักศึกษาปริญญาโทหรือเอกเขียนเพื่อแนะนำ งานวิจัยของ Lewicki ปี 2002
      ในบทคัดย่อของงานวิจัยระบุชัดว่า “ถ้าปรับให้เหมาะกับการเปล่งเสียงของสัตว์จะคล้าย Fourier transform และถ้าปรับให้เหมาะกับเสียงสิ่งแวดล้อมที่ไม่ใช่ชีวภาพจะคล้าย wavelet transform”
  • ถ้าอยากรู้ลึกกว่านี้ ลองดู โมเดล CARFAC ของ Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression)
    งานนี้ถูกประเมินว่าเป็นการสร้างแบบจำลองการได้ยินของมนุษย์ในรูปดิจิทัลที่แม่นยำที่สุด
    PDF หนังสือของเขาดูได้ ที่นี่

    • เป็นแหล่งข้อมูลที่ยอดเยี่ยม ขอบคุณ
  • แนวคิดที่ว่าเสียงพูดของมนุษย์ครอบครองย่านสเปกตรัมที่ไม่ค่อยแออัด ก็สอดคล้องกับหนังสือ The Great Animal Orchestra
    ลิงก์หนังสือ
    หนังสือกล่าวถึงการที่สิ่งมีชีวิตหลายชนิดวิวัฒนาการมาเพื่อครอง niche ทางเสียง ของตนเอง
    แต่การที่ปรากฏการณ์นี้อ่อนลงเพราะการทำลายถิ่นอาศัยก็เป็นเรื่องชวนหดหู่พอสมควร

    • นกเองก็วิวัฒนาการให้เลือกช่วงเวลาที่ตนเองได้ยินชัดที่สุดด้วย
      ในเมืองจะร้องแต่เช้าก่อนที่เสียงจราจรจะดังขึ้น ส่วนในป่าจะร้องช่วงช้ากว่าเมื่อเสียงแมลงลดลง
    • เมื่อคุณลักษณะเชิงวิวัฒนาการที่เคยให้ความได้เปรียบในธรรมชาติหายไป ก็จะมีคุณลักษณะที่เหมาะกับสภาพแวดล้อมเมืองเข้ามาแทน
      วิวัฒนาการอาจเปลี่ยนจากความหลากหลายเชิงพื้นที่ไปเป็น ความหลากหลายเชิงเวลา แทน
  • มีความสับสนในเชิงคำศัพท์อยู่บ้าง แต่ Fourier transform ตั้งอยู่บนสมมติฐานของช่วงเวลาอนันต์
    สำหรับช่วงเวลาจำกัด Fourier Series เป็นคำที่แม่นยำกว่า
    การทำงานจริงของหูอยู่กึ่งกลางระหว่าง Fourier series กับ transform เพราะมีการใช้ฟังก์ชันถ่วงน้ำหนักตามเวลา
    บทความนี้ชี้ประเด็นนั้นได้ดี

    • สุดท้ายแล้วหูไม่ได้ทำ Fourier transform อันเดียว แต่ทำ การแปลงหลายแบบที่มี trade-off ระหว่างความละเอียดเวลาและความถี่
      และก็เป็นไปได้ว่าเสียงพูดของมนุษย์กับโครงสร้างการได้ยินของมนุษย์ ร่วมวิวัฒนาการกัน (co-evolution)
    • ชื่อเรื่องอาจจะกระตุ้นอารมณ์ไปหน่อย แต่ก็น่าสนใจตรงที่พูดถึงรายละเอียดเชิงสรีรวิทยาของการได้ยินของมนุษย์ได้ดี เช่น กลไกการแปลงสัญญาณของ stereocilia ใน cochlea
  • หูไม่ได้ทำ Fourier transform บนเวลาอนันต์
    แต่ทำ การแปลงแบบไม่ต่อเนื่องและมีการใช้หน้าต่างเวลา ซึ่งคล้ายกับ หลักความไม่แน่นอน ระหว่างความละเอียดเชิงเวลาและเชิงความถี่
    หน้าต่างยาวจะเพิ่มความละเอียดด้านความถี่แต่ลดความละเอียดด้านเวลา ส่วนหน้าต่างสั้นก็ตรงกันข้าม
    cochlea ของมนุษย์ทำงานในลักษณะเพิ่มความละเอียดด้านความถี่ที่ย่านต่ำเพื่อแยก formant และเพิ่มความละเอียดด้านเวลาที่ย่านสูงเพื่อตรวจจับ plosive

    • น่าจะหมายถึง หลักความไม่แน่นอนของไฮเซนเบิร์ก ไม่ใช่ ‘หลักการกีดกันของเพาลี’
    • หูไม่ได้สุ่มเก็บตัวอย่างข้อมูล แต่ทำงานเป็น กระบวนการทางกลที่ต่อเนื่อง
    • ถ้านึกถึง STFT (Short-Time Fourier Transform) จะเข้าใจได้ง่าย
  • เยื่อฐาน (basilar membrane) เป็นโครงสร้างทางชีววิทยาที่น่าทึ่งมาก
    ในงานประมวลผลเสียงบนคอมพิวเตอร์ FFT มีประโยชน์มาก แต่ก็มีข้อจำกัดเมื่อใช้สร้างแบบจำลองการได้ยินของมนุษย์ที่อิงกับ การรับรู้เวลา

  • วิดีโอที่แสดง tip link และ ion channel ของเซลล์ขน น่าสนใจมาก
    วิดีโอที่เกี่ยวข้อง
    ถ้าโครงสร้างนี้เสียหายก็อาจเกิด tinnitus ได้
    และหูยังมีความสามารถด้าน active amplification ด้วย จึงสามารถทำให้เซลล์สั่นด้วยสัญญาณไฟฟ้าได้

  • วิดีโอข้างต้นจบด้วย โทนเสียงสูงมาก ดังนั้นถ้าคุณใส่หูฟังอยู่ก็ควรระวัง

  • เนื่องจาก auditory association cortex ในกลีบข้างทำหน้าที่แยกแยะความถี่ จึงมี การแปลงเวลา-ความถี่ อยู่ระหว่างหูกับสมอง
    เพราะการยิงสัญญาณของนิวรอนเป็นแบบไม่ต่อเนื่อง การแปลงนี้จึงเป็น การแปลงแบบไม่ต่อเนื่อง ที่เกิดขึ้นภายในเวลาจำกัด
    วิธีง่าย ๆ ในการขยายสัญญาณจำกัดให้เป็นสัญญาณอนันต์ คือสมมติให้สัญญาณนั้นถูกทำซ้ำไม่สิ้นสุดไปทั้งในอดีตและอนาคต