หูไม่ได้ทำ Fourier transform (2024)

(dissonances.blog)

4 คะแนน โดย GN⁺ 2025-10-31 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

คอเคลีย(cochlea) ประมวลผลเสียงโดยรับการสั่นที่เกิดจากการเปลี่ยนแปลงของความดันอากาศ ผ่าน โครงสร้างทางกายภาพที่แยกตามความถี่
แต่ละตำแหน่งของ เยื่อฐาน(basilar membrane) จะสั่นพ้องกับความถี่เฉพาะ โดยความถี่สูงตอบสนองที่ฐานซึ่งแข็ง ส่วนความถี่ต่ำตอบสนองที่ปลายซึ่งยืดหยุ่น
ในกระบวนการนี้ เซลล์ขน(hair cell) จะเปิดและปิดช่องไอออนตามการสั่น แล้วแปลงเป็นสัญญาณไฟฟ้า ขณะที่เส้นใยประสาททำหน้าที่กรองข้อมูลด้านเวลาและความถี่
อย่างไรก็ตาม ตัวกรองเหล่านี้ ยังคงรักษาความละเอียดเชิงเวลาไว้ ต่างจาก Fourier transform และในทางปฏิบัติทำงานในลักษณะ กึ่งกลางระหว่าง wavelet กับ Gabor
โครงสร้างนี้เป็นกลยุทธ์ของ การเข้ารหัสอย่างมีประสิทธิภาพ(efficient coding) ที่ช่วยลดข้อมูลซ้ำซ้อนของเสียงธรรมชาติ และภาษามนุษย์ก็ครอบครองพื้นที่เวลา-ความถี่ที่มีลักษณะเฉพาะ

โครงสร้างการแยกความถี่ของคอเคลีย

เยื่อแก้วหู(tympanic membrane) สั่นตามการเปลี่ยนแปลงของความดันอากาศ และกระดูกในหูชั้นกลางจะขยายการสั่นนี้แล้วส่งต่อไปยัง ของเหลวในคอเคลีย
- การสั่นจะเคลื่อนที่ไปตาม เยื่อฐาน(basilar membrane) และสั่นพ้องกับความถี่เฉพาะตามคุณสมบัติทางกายภาพของแต่ละตำแหน่ง
- ส่วนฐานมีความแข็งและเบา จึงตอบสนองต่อ ความถี่สูง ขณะที่ส่วนปลายยืดหยุ่นและหนัก จึงตอบสนองต่อ ความถี่ต่ำ
ความถี่เรโซแนนซ์ของเยื่อฐานลดลงในเชิง ลอการิทึม(logarithmic) ตามตำแหน่งในอวกาศ
- สิ่งนี้สอดคล้องกับลักษณะที่การรับรู้ พิตช์(pitch) ของมนุษย์เปลี่ยนแปลงแบบลอการิทึม

การแปลงจากกลไกเป็นไฟฟ้าของเซลล์ขน

เซลล์ขน(hair cell) บนเยื่อฐานจะสั่นตามความถี่ที่ตรงกับตำแหน่งนั้น และการเคลื่อนไหวนี้จะกระตุ้น การเปิด-ปิดของช่องไอออน
- โครงสร้างคล้ายสปริงที่ปลายเซลล์ขนทำงานเหมือน “trapdoor” และปล่อยสารสื่อประสาทให้สอดคล้องกับความถี่ของการสั่น
โฆษณา
ผ่านกระบวนการนี้ การสั่นเชิงกลจะถูกแปลงเป็นสัญญาณไฟฟ้า และส่งต่อไปยังเส้นประสาทการได้ยิน

ตัวกรองการได้ยินและความละเอียดเวลา-ความถี่

เส้นใยประสาทการได้ยินทำงานเป็น ตัวกรองที่ดึงข้อมูลด้านเวลาและความถี่
- ตัวกรองที่เน้นช่วงเวลาสั้นจะมี ความละเอียดเชิงเวลา สูง แต่การกระจายความถี่ไม่สม่ำเสมอ
- ตัวกรองที่ครอบคลุมช่วงเวลายาวจะมี ความละเอียดเชิงความถี่ สูง แต่ข้อมูลด้านเวลาจะพร่ามัว
Fourier transform ไม่มีข้อมูลด้านเวลา และแม้จะมี การกระจายความถี่ที่สม่ำเสมอ แบบในภาพด้านขวา แต่นั่นก็แตกต่างจากตัวกรองจริงของหู
ตัวกรองของคอเคลียมีลักษณะ กึ่งกลางระหว่าง wavelet filter กับ Gabor filter โดย
- ใน ย่านความถี่สูง จะเพิ่มความละเอียดเชิงเวลา
- ใน ย่านความถี่ต่ำ จะเพิ่มความละเอียดเชิงความถี่ เป็น โครงสร้างชดเชยกัน

การเข้ารหัสอย่างมีประสิทธิภาพและการวิเคราะห์เสียงธรรมชาติ

งานวิจัยของ Lewicki(2002) เสนอว่าโครงสร้างตัวกรองนี้เป็น กลยุทธ์เพื่อลดความซ้ำซ้อนของเสียงธรรมชาติ
- ใช้ ICA(Independent Component Analysis) เพื่อเปรียบเทียบเสียงสิ่งแวดล้อม เสียงร้องของสัตว์ และเสียงพูดของมนุษย์
- เสียงสิ่งแวดล้อมและเสียงพูดของมนุษย์ให้ผลใกล้เคียงกับ ตัวกรองแบบ wavelet ส่วนเสียงร้องของสัตว์ใกล้กับ ตัวกรองแบบ Fourier
ภาษามนุษย์ครอบครอง พื้นที่เวลา-ความถี่ที่เป็นเอกลักษณ์ และ
- นักวิจัยบางส่วนกล่าวถึงความเป็นไปได้ที่ ภาษาอาจวิวัฒน์มาเพื่อเติมเต็มบริเวณที่เสียงธรรมชาติเดิมไม่ได้ครอบครอง

การเข้ารหัสเชิงนิเวศและการประมวลผลการรับความรู้สึก

ระบบประสาทสัมผัสจะสร้าง วิธีการเข้ารหัสที่เหมาะกับสิ่งแวดล้อม และการได้ยินก็ถูกยกเป็นตัวอย่างหนึ่ง
- การแทนค่าเชิงนิเวศ(ecologically-relevant representation) ลักษณะนี้ตั้งอยู่บนปฏิสัมพันธ์ระหว่างพฤติกรรมกับสิ่งแวดล้อม
ตอนท้ายของบทความระบุว่า ในการบรรยายครั้งถัดไปจะย้ายจุดสนใจไปที่ การคำนวณเชิงชีวฟิสิกส์ในระดับนิวรอน
โดยรวมแล้ว หูทำงานเป็น ระบบกรองที่มีประสิทธิภาพและปรับตัวได้ ไม่ใช่ Fourier transform

1 ความคิดเห็น

GN⁺ 2025-10-31

ความเห็นจาก Hacker News

สรุปคือ หูไม่ได้ทำ Fourier Transform แต่ทำการแปลงความถี่ที่ถูกจำกัดไว้ในเวลา ซึ่งอยู่กึ่งกลางระหว่าง wavelet กับ Gabor transform
ทั้งนี้เป็นเพราะเสียงมีลักษณะเฉพาะอยู่ในช่วงเวลา
และยังมีการกล่าวถึง ทฤษฎีที่ว่าภาษามนุษย์วิวัฒนาการมาเพื่อครอบครองพื้นที่ว่างในสเปซความถี่–ระยะเวลาของ envelope ด้วย
เป็นไปได้ว่า cochlea ของมนุษย์ถูกปรับให้เหมาะกับเสียงพูดของมนุษย์
- บทความนี้ให้ความรู้สึกเหมือนตั้ง ตรรกะแบบหุ่นไล่กา มากเกินไป
  ใครก็ตามที่รู้เรื่องการประมวลผลสัญญาณคงไม่อ้างว่าหูทำ Fourier transform บนช่วงเวลาอนันต์
  ในทางปฏิบัติหูทำงานคล้าย FFT (Fast Fourier Transform) ซึ่งก็คือการคำนวณความเข้มของแต่ละความถี่
  wavelet หรือ Gabor transform แม้ต่างกันทางคณิตศาสตร์ แต่สุดท้ายให้ผลเหมือนกัน 95~99%
  ดังนั้นถ้าจะอธิบายแบบง่าย ๆ ก็ถือได้ว่าหูกำลังทำ windowed discrete Fourier transform
- ที่ความถี่สูง หูยอมเสียความละเอียดด้านความถี่เพื่อเพิ่ม ความละเอียดเชิงเวลา และที่ความถี่ต่ำก็เป็นกลับกัน
  อธิบายได้ด้วย หลักความไม่แน่นอนของเวลา-ความถี่
  การมอง filter bank ของหูเป็นชุดตัวกรองแบบกำหนดเองตามผลทางสรีรวิทยาจะเข้าใจง่ายกว่า
  ขนาดของสัตว์ก็มีผลด้วย — สัตว์เล็กมักส่งและได้ยินเสียงในย่านอัลตราโซนิกได้
- ถ้าคุณสมบัติของ cochlea มนุษย์สอดคล้องกับเสียงพูดของมนุษย์จริง ก็น่าจะนำไปใช้กับ การมาสเตอร์เสียงบทสนทนาในภาพยนตร์หรือทีวี เพื่อให้ฟังบทพูดชัดขึ้นได้
- ถ้าหูจะทำ Fourier transform จริง ๆ ก็คงต้องรอไปทั้งชีวิตไม่ใช่หรือ? จากการที่เราฟังเสียงได้แบบเรียลไทม์ก็บอกชัดว่าไม่ใช่เช่นนั้น
- ถ้าขยายแนวคิดนี้ต่อ ก็อาจหมายความว่า คำและหน่วยเสียง บางแบบครอบครองพื้นที่เฉพาะในสเปซ trade-off ระหว่างความถี่กับเวลา
  เช่น เสียงเตือนว่า "เสือกำลังพุ่งเข้าใส่" กับ "เสียงปลอบเด็ก" ก็คงอยู่กันคนละบริเวณ
ชื่อเรื่องค่อนข้าง ล่อคลิก และเนื้อหาก็ไม่ถูกต้องนักในเชิงเคร่งครัด
Gabor หรือ wavelet transform เป็นรูปแบบการทำให้ Fourier transform เป็นแบบทั่วไปขึ้น ซึ่งให้การวิเคราะห์สเปกตรัมตามเวลา
หูเองก็ทำสิ่งที่ ออกแนว Fourier อยู่มาก
- เห็นด้วยว่าเป็นชื่อแบบล่อคลิก แต่ถ้าจะเอาให้เป๊ะก็ไม่ได้ผิด
  Fourier transform เป็นแบบอนันต์และต่อเนื่อง ส่วน DFT เป็นแบบจำกัดและไม่ต่อเนื่อง
  การได้ยินของมนุษย์อาจใกล้กับ Fourier Series ซึ่งอยู่กึ่งกลางระหว่างสองอย่างนั้น
  wavelet ก็เป็นอีกวิธีหนึ่งที่ใช้ รูปคลื่นที่ดัดแปลงแล้ว แทนไซน์เวฟ
  สุดท้ายแล้ว หากพูดแบบทั่วไป หูก็ทำการประมวลผลที่ "เป็นแบบ Fourier"
- บทความนี้เป็นโพสต์ journal club ที่นักศึกษาปริญญาโทหรือเอกเขียนเพื่อแนะนำ งานวิจัยของ Lewicki ปี 2002
  ในบทคัดย่อของงานวิจัยระบุชัดว่า “ถ้าปรับให้เหมาะกับการเปล่งเสียงของสัตว์จะคล้าย Fourier transform และถ้าปรับให้เหมาะกับเสียงสิ่งแวดล้อมที่ไม่ใช่ชีวภาพจะคล้าย wavelet transform”
ถ้าอยากรู้ลึกกว่านี้ ลองดู โมเดล CARFAC ของ Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression)
งานนี้ถูกประเมินว่าเป็นการสร้างแบบจำลองการได้ยินของมนุษย์ในรูปดิจิทัลที่แม่นยำที่สุด
PDF หนังสือของเขาดูได้ ที่นี่
- เป็นแหล่งข้อมูลที่ยอดเยี่ยม ขอบคุณ
แนวคิดที่ว่าเสียงพูดของมนุษย์ครอบครองย่านสเปกตรัมที่ไม่ค่อยแออัด ก็สอดคล้องกับหนังสือ The Great Animal Orchestra
ลิงก์หนังสือ
หนังสือกล่าวถึงการที่สิ่งมีชีวิตหลายชนิดวิวัฒนาการมาเพื่อครอง niche ทางเสียง ของตนเอง
แต่การที่ปรากฏการณ์นี้อ่อนลงเพราะการทำลายถิ่นอาศัยก็เป็นเรื่องชวนหดหู่พอสมควร
- นกเองก็วิวัฒนาการให้เลือกช่วงเวลาที่ตนเองได้ยินชัดที่สุดด้วย
  ในเมืองจะร้องแต่เช้าก่อนที่เสียงจราจรจะดังขึ้น ส่วนในป่าจะร้องช่วงช้ากว่าเมื่อเสียงแมลงลดลง
- เมื่อคุณลักษณะเชิงวิวัฒนาการที่เคยให้ความได้เปรียบในธรรมชาติหายไป ก็จะมีคุณลักษณะที่เหมาะกับสภาพแวดล้อมเมืองเข้ามาแทน
  วิวัฒนาการอาจเปลี่ยนจากความหลากหลายเชิงพื้นที่ไปเป็น ความหลากหลายเชิงเวลา แทน
มีความสับสนในเชิงคำศัพท์อยู่บ้าง แต่ Fourier transform ตั้งอยู่บนสมมติฐานของช่วงเวลาอนันต์
สำหรับช่วงเวลาจำกัด Fourier Series เป็นคำที่แม่นยำกว่า
การทำงานจริงของหูอยู่กึ่งกลางระหว่าง Fourier series กับ transform เพราะมีการใช้ฟังก์ชันถ่วงน้ำหนักตามเวลา
บทความนี้ชี้ประเด็นนั้นได้ดี
- สุดท้ายแล้วหูไม่ได้ทำ Fourier transform อันเดียว แต่ทำ การแปลงหลายแบบที่มี trade-off ระหว่างความละเอียดเวลาและความถี่
  และก็เป็นไปได้ว่าเสียงพูดของมนุษย์กับโครงสร้างการได้ยินของมนุษย์ ร่วมวิวัฒนาการกัน (co-evolution)
- ชื่อเรื่องอาจจะกระตุ้นอารมณ์ไปหน่อย แต่ก็น่าสนใจตรงที่พูดถึงรายละเอียดเชิงสรีรวิทยาของการได้ยินของมนุษย์ได้ดี เช่น กลไกการแปลงสัญญาณของ stereocilia ใน cochlea
หูไม่ได้ทำ Fourier transform บนเวลาอนันต์
แต่ทำ การแปลงแบบไม่ต่อเนื่องและมีการใช้หน้าต่างเวลา ซึ่งคล้ายกับ หลักความไม่แน่นอน ระหว่างความละเอียดเชิงเวลาและเชิงความถี่
หน้าต่างยาวจะเพิ่มความละเอียดด้านความถี่แต่ลดความละเอียดด้านเวลา ส่วนหน้าต่างสั้นก็ตรงกันข้าม
cochlea ของมนุษย์ทำงานในลักษณะเพิ่มความละเอียดด้านความถี่ที่ย่านต่ำเพื่อแยก formant และเพิ่มความละเอียดด้านเวลาที่ย่านสูงเพื่อตรวจจับ plosive
- น่าจะหมายถึง หลักความไม่แน่นอนของไฮเซนเบิร์ก ไม่ใช่ ‘หลักการกีดกันของเพาลี’
- หูไม่ได้สุ่มเก็บตัวอย่างข้อมูล แต่ทำงานเป็น กระบวนการทางกลที่ต่อเนื่อง
- ถ้านึกถึง STFT (Short-Time Fourier Transform) จะเข้าใจได้ง่าย
เยื่อฐาน (basilar membrane) เป็นโครงสร้างทางชีววิทยาที่น่าทึ่งมาก
ในงานประมวลผลเสียงบนคอมพิวเตอร์ FFT มีประโยชน์มาก แต่ก็มีข้อจำกัดเมื่อใช้สร้างแบบจำลองการได้ยินของมนุษย์ที่อิงกับ การรับรู้เวลา
วิดีโอที่แสดง tip link และ ion channel ของเซลล์ขน น่าสนใจมาก
วิดีโอที่เกี่ยวข้อง
ถ้าโครงสร้างนี้เสียหายก็อาจเกิด tinnitus ได้
และหูยังมีความสามารถด้าน active amplification ด้วย จึงสามารถทำให้เซลล์สั่นด้วยสัญญาณไฟฟ้าได้
วิดีโอข้างต้นจบด้วย โทนเสียงสูงมาก ดังนั้นถ้าคุณใส่หูฟังอยู่ก็ควรระวัง
เนื่องจาก auditory association cortex ในกลีบข้างทำหน้าที่แยกแยะความถี่ จึงมี การแปลงเวลา-ความถี่ อยู่ระหว่างหูกับสมอง
เพราะการยิงสัญญาณของนิวรอนเป็นแบบไม่ต่อเนื่อง การแปลงนี้จึงเป็น การแปลงแบบไม่ต่อเนื่อง ที่เกิดขึ้นภายในเวลาจำกัด
วิธีง่าย ๆ ในการขยายสัญญาณจำกัดให้เป็นสัญญาณอนันต์ คือสมมติให้สัญญาณนั้นถูกทำซ้ำไม่สิ้นสุดไปทั้งในอดีตและอนาคต

หูไม่ได้ทำ Fourier transform (2024)

โครงสร้างการแยกความถี่ของคอเคลีย

การแปลงจากกลไกเป็นไฟฟ้าของเซลล์ขน

ตัวกรองการได้ยินและความละเอียดเวลา-ความถี่

การเข้ารหัสอย่างมีประสิทธิภาพและการวิเคราะห์เสียงธรรมชาติ

การเข้ารหัสเชิงนิเวศและการประมวลผลการรับความรู้สึก

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News