- คอเคลีย(cochlea) ประมวลผลเสียงโดยรับการสั่นที่เกิดจากการเปลี่ยนแปลงของความดันอากาศ ผ่าน โครงสร้างทางกายภาพที่แยกตามความถี่
- แต่ละตำแหน่งของ เยื่อฐาน(basilar membrane) จะสั่นพ้องกับความถี่เฉพาะ โดยความถี่สูงตอบสนองที่ฐานซึ่งแข็ง ส่วนความถี่ต่ำตอบสนองที่ปลายซึ่งยืดหยุ่น
- ในกระบวนการนี้ เซลล์ขน(hair cell) จะเปิดและปิดช่องไอออนตามการสั่น แล้วแปลงเป็นสัญญาณไฟฟ้า ขณะที่เส้นใยประสาททำหน้าที่กรองข้อมูลด้านเวลาและความถี่
- อย่างไรก็ตาม ตัวกรองเหล่านี้ ยังคงรักษาความละเอียดเชิงเวลาไว้ ต่างจาก Fourier transform และในทางปฏิบัติทำงานในลักษณะ กึ่งกลางระหว่าง wavelet กับ Gabor
- โครงสร้างนี้เป็นกลยุทธ์ของ การเข้ารหัสอย่างมีประสิทธิภาพ(efficient coding) ที่ช่วยลดข้อมูลซ้ำซ้อนของเสียงธรรมชาติ และภาษามนุษย์ก็ครอบครองพื้นที่เวลา-ความถี่ที่มีลักษณะเฉพาะ
โครงสร้างการแยกความถี่ของคอเคลีย
- เยื่อแก้วหู(tympanic membrane) สั่นตามการเปลี่ยนแปลงของความดันอากาศ และกระดูกในหูชั้นกลางจะขยายการสั่นนี้แล้วส่งต่อไปยัง ของเหลวในคอเคลีย
- การสั่นจะเคลื่อนที่ไปตาม เยื่อฐาน(basilar membrane) และสั่นพ้องกับความถี่เฉพาะตามคุณสมบัติทางกายภาพของแต่ละตำแหน่ง
- ส่วนฐานมีความแข็งและเบา จึงตอบสนองต่อ ความถี่สูง ขณะที่ส่วนปลายยืดหยุ่นและหนัก จึงตอบสนองต่อ ความถี่ต่ำ
- ความถี่เรโซแนนซ์ของเยื่อฐานลดลงในเชิง ลอการิทึม(logarithmic) ตามตำแหน่งในอวกาศ
- สิ่งนี้สอดคล้องกับลักษณะที่การรับรู้ พิตช์(pitch) ของมนุษย์เปลี่ยนแปลงแบบลอการิทึม
การแปลงจากกลไกเป็นไฟฟ้าของเซลล์ขน
- เซลล์ขน(hair cell) บนเยื่อฐานจะสั่นตามความถี่ที่ตรงกับตำแหน่งนั้น และการเคลื่อนไหวนี้จะกระตุ้น การเปิด-ปิดของช่องไอออน
- โครงสร้างคล้ายสปริงที่ปลายเซลล์ขนทำงานเหมือน “trapdoor” และปล่อยสารสื่อประสาทให้สอดคล้องกับความถี่ของการสั่น
- ผ่านกระบวนการนี้ การสั่นเชิงกลจะถูกแปลงเป็นสัญญาณไฟฟ้า และส่งต่อไปยังเส้นประสาทการได้ยิน
ตัวกรองการได้ยินและความละเอียดเวลา-ความถี่
- เส้นใยประสาทการได้ยินทำงานเป็น ตัวกรองที่ดึงข้อมูลด้านเวลาและความถี่
- ตัวกรองที่เน้นช่วงเวลาสั้นจะมี ความละเอียดเชิงเวลา สูง แต่การกระจายความถี่ไม่สม่ำเสมอ
- ตัวกรองที่ครอบคลุมช่วงเวลายาวจะมี ความละเอียดเชิงความถี่ สูง แต่ข้อมูลด้านเวลาจะพร่ามัว
- Fourier transform ไม่มีข้อมูลด้านเวลา และแม้จะมี การกระจายความถี่ที่สม่ำเสมอ แบบในภาพด้านขวา แต่นั่นก็แตกต่างจากตัวกรองจริงของหู
- ตัวกรองของคอเคลียมีลักษณะ กึ่งกลางระหว่าง wavelet filter กับ Gabor filter โดย
- ใน ย่านความถี่สูง จะเพิ่มความละเอียดเชิงเวลา
- ใน ย่านความถี่ต่ำ จะเพิ่มความละเอียดเชิงความถี่ เป็น โครงสร้างชดเชยกัน
การเข้ารหัสอย่างมีประสิทธิภาพและการวิเคราะห์เสียงธรรมชาติ
- งานวิจัยของ Lewicki(2002) เสนอว่าโครงสร้างตัวกรองนี้เป็น กลยุทธ์เพื่อลดความซ้ำซ้อนของเสียงธรรมชาติ
- ใช้ ICA(Independent Component Analysis) เพื่อเปรียบเทียบเสียงสิ่งแวดล้อม เสียงร้องของสัตว์ และเสียงพูดของมนุษย์
- เสียงสิ่งแวดล้อมและเสียงพูดของมนุษย์ให้ผลใกล้เคียงกับ ตัวกรองแบบ wavelet ส่วนเสียงร้องของสัตว์ใกล้กับ ตัวกรองแบบ Fourier
- ภาษามนุษย์ครอบครอง พื้นที่เวลา-ความถี่ที่เป็นเอกลักษณ์ และ
- นักวิจัยบางส่วนกล่าวถึงความเป็นไปได้ที่ ภาษาอาจวิวัฒน์มาเพื่อเติมเต็มบริเวณที่เสียงธรรมชาติเดิมไม่ได้ครอบครอง
การเข้ารหัสเชิงนิเวศและการประมวลผลการรับความรู้สึก
- ระบบประสาทสัมผัสจะสร้าง วิธีการเข้ารหัสที่เหมาะกับสิ่งแวดล้อม และการได้ยินก็ถูกยกเป็นตัวอย่างหนึ่ง
- การแทนค่าเชิงนิเวศ(ecologically-relevant representation) ลักษณะนี้ตั้งอยู่บนปฏิสัมพันธ์ระหว่างพฤติกรรมกับสิ่งแวดล้อม
- ตอนท้ายของบทความระบุว่า ในการบรรยายครั้งถัดไปจะย้ายจุดสนใจไปที่ การคำนวณเชิงชีวฟิสิกส์ในระดับนิวรอน
- โดยรวมแล้ว หูทำงานเป็น ระบบกรองที่มีประสิทธิภาพและปรับตัวได้ ไม่ใช่ Fourier transform
1 ความคิดเห็น
ความเห็นจาก Hacker News
สรุปคือ หูไม่ได้ทำ Fourier Transform แต่ทำการแปลงความถี่ที่ถูกจำกัดไว้ในเวลา ซึ่งอยู่กึ่งกลางระหว่าง wavelet กับ Gabor transform
ทั้งนี้เป็นเพราะเสียงมีลักษณะเฉพาะอยู่ในช่วงเวลา
และยังมีการกล่าวถึง ทฤษฎีที่ว่าภาษามนุษย์วิวัฒนาการมาเพื่อครอบครองพื้นที่ว่างในสเปซความถี่–ระยะเวลาของ envelope ด้วย
เป็นไปได้ว่า cochlea ของมนุษย์ถูกปรับให้เหมาะกับเสียงพูดของมนุษย์
ใครก็ตามที่รู้เรื่องการประมวลผลสัญญาณคงไม่อ้างว่าหูทำ Fourier transform บนช่วงเวลาอนันต์
ในทางปฏิบัติหูทำงานคล้าย FFT (Fast Fourier Transform) ซึ่งก็คือการคำนวณความเข้มของแต่ละความถี่
wavelet หรือ Gabor transform แม้ต่างกันทางคณิตศาสตร์ แต่สุดท้ายให้ผลเหมือนกัน 95~99%
ดังนั้นถ้าจะอธิบายแบบง่าย ๆ ก็ถือได้ว่าหูกำลังทำ windowed discrete Fourier transform
อธิบายได้ด้วย หลักความไม่แน่นอนของเวลา-ความถี่
การมอง filter bank ของหูเป็นชุดตัวกรองแบบกำหนดเองตามผลทางสรีรวิทยาจะเข้าใจง่ายกว่า
ขนาดของสัตว์ก็มีผลด้วย — สัตว์เล็กมักส่งและได้ยินเสียงในย่านอัลตราโซนิกได้
เช่น เสียงเตือนว่า "เสือกำลังพุ่งเข้าใส่" กับ "เสียงปลอบเด็ก" ก็คงอยู่กันคนละบริเวณ
ชื่อเรื่องค่อนข้าง ล่อคลิก และเนื้อหาก็ไม่ถูกต้องนักในเชิงเคร่งครัด
Gabor หรือ wavelet transform เป็นรูปแบบการทำให้ Fourier transform เป็นแบบทั่วไปขึ้น ซึ่งให้การวิเคราะห์สเปกตรัมตามเวลา
หูเองก็ทำสิ่งที่ ออกแนว Fourier อยู่มาก
Fourier transform เป็นแบบอนันต์และต่อเนื่อง ส่วน DFT เป็นแบบจำกัดและไม่ต่อเนื่อง
การได้ยินของมนุษย์อาจใกล้กับ Fourier Series ซึ่งอยู่กึ่งกลางระหว่างสองอย่างนั้น
wavelet ก็เป็นอีกวิธีหนึ่งที่ใช้ รูปคลื่นที่ดัดแปลงแล้ว แทนไซน์เวฟ
สุดท้ายแล้ว หากพูดแบบทั่วไป หูก็ทำการประมวลผลที่ "เป็นแบบ Fourier"
ในบทคัดย่อของงานวิจัยระบุชัดว่า “ถ้าปรับให้เหมาะกับการเปล่งเสียงของสัตว์จะคล้าย Fourier transform และถ้าปรับให้เหมาะกับเสียงสิ่งแวดล้อมที่ไม่ใช่ชีวภาพจะคล้าย wavelet transform”
ถ้าอยากรู้ลึกกว่านี้ ลองดู โมเดล CARFAC ของ Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression)
งานนี้ถูกประเมินว่าเป็นการสร้างแบบจำลองการได้ยินของมนุษย์ในรูปดิจิทัลที่แม่นยำที่สุด
PDF หนังสือของเขาดูได้ ที่นี่
แนวคิดที่ว่าเสียงพูดของมนุษย์ครอบครองย่านสเปกตรัมที่ไม่ค่อยแออัด ก็สอดคล้องกับหนังสือ The Great Animal Orchestra
ลิงก์หนังสือ
หนังสือกล่าวถึงการที่สิ่งมีชีวิตหลายชนิดวิวัฒนาการมาเพื่อครอง niche ทางเสียง ของตนเอง
แต่การที่ปรากฏการณ์นี้อ่อนลงเพราะการทำลายถิ่นอาศัยก็เป็นเรื่องชวนหดหู่พอสมควร
ในเมืองจะร้องแต่เช้าก่อนที่เสียงจราจรจะดังขึ้น ส่วนในป่าจะร้องช่วงช้ากว่าเมื่อเสียงแมลงลดลง
วิวัฒนาการอาจเปลี่ยนจากความหลากหลายเชิงพื้นที่ไปเป็น ความหลากหลายเชิงเวลา แทน
มีความสับสนในเชิงคำศัพท์อยู่บ้าง แต่ Fourier transform ตั้งอยู่บนสมมติฐานของช่วงเวลาอนันต์
สำหรับช่วงเวลาจำกัด Fourier Series เป็นคำที่แม่นยำกว่า
การทำงานจริงของหูอยู่กึ่งกลางระหว่าง Fourier series กับ transform เพราะมีการใช้ฟังก์ชันถ่วงน้ำหนักตามเวลา
บทความนี้ชี้ประเด็นนั้นได้ดี
และก็เป็นไปได้ว่าเสียงพูดของมนุษย์กับโครงสร้างการได้ยินของมนุษย์ ร่วมวิวัฒนาการกัน (co-evolution)
หูไม่ได้ทำ Fourier transform บนเวลาอนันต์
แต่ทำ การแปลงแบบไม่ต่อเนื่องและมีการใช้หน้าต่างเวลา ซึ่งคล้ายกับ หลักความไม่แน่นอน ระหว่างความละเอียดเชิงเวลาและเชิงความถี่
หน้าต่างยาวจะเพิ่มความละเอียดด้านความถี่แต่ลดความละเอียดด้านเวลา ส่วนหน้าต่างสั้นก็ตรงกันข้าม
cochlea ของมนุษย์ทำงานในลักษณะเพิ่มความละเอียดด้านความถี่ที่ย่านต่ำเพื่อแยก formant และเพิ่มความละเอียดด้านเวลาที่ย่านสูงเพื่อตรวจจับ plosive
เยื่อฐาน (basilar membrane) เป็นโครงสร้างทางชีววิทยาที่น่าทึ่งมาก
ในงานประมวลผลเสียงบนคอมพิวเตอร์ FFT มีประโยชน์มาก แต่ก็มีข้อจำกัดเมื่อใช้สร้างแบบจำลองการได้ยินของมนุษย์ที่อิงกับ การรับรู้เวลา
วิดีโอที่แสดง tip link และ ion channel ของเซลล์ขน น่าสนใจมาก
วิดีโอที่เกี่ยวข้อง
ถ้าโครงสร้างนี้เสียหายก็อาจเกิด tinnitus ได้
และหูยังมีความสามารถด้าน active amplification ด้วย จึงสามารถทำให้เซลล์สั่นด้วยสัญญาณไฟฟ้าได้
วิดีโอข้างต้นจบด้วย โทนเสียงสูงมาก ดังนั้นถ้าคุณใส่หูฟังอยู่ก็ควรระวัง
เนื่องจาก auditory association cortex ในกลีบข้างทำหน้าที่แยกแยะความถี่ จึงมี การแปลงเวลา-ความถี่ อยู่ระหว่างหูกับสมอง
เพราะการยิงสัญญาณของนิวรอนเป็นแบบไม่ต่อเนื่อง การแปลงนี้จึงเป็น การแปลงแบบไม่ต่อเนื่อง ที่เกิดขึ้นภายในเวลาจำกัด
วิธีง่าย ๆ ในการขยายสัญญาณจำกัดให้เป็นสัญญาณอนันต์ คือสมมติให้สัญญาณนั้นถูกทำซ้ำไม่สิ้นสุดไปทั้งในอดีตและอนาคต