- Neural Audio Codec คือโค้ดเอคเสียงเชิงประสาทที่เป็นเครื่องมือหลักในการป้อนข้อมูลเสียงเข้าสู่ LLM อย่างมีประสิทธิภาพ
- อินเทอร์เฟซเสียงของ LLM เดิมส่วนใหญ่เป็น wrapper ที่พึ่งพาข้อความเป็นหลัก ทำให้มีข้อจำกัดด้านการเข้าใจเสียงจริงและการรับรู้อารมณ์
- การโมเดลเสียงต่างจากข้อความตรงที่มีจำนวน sample สูงมาก และการรักษาความสอดคล้องระยะยาวทำได้ยาก จึงต้องการการอัดข้อมูลและการทำ tokenization ที่มีประสิทธิภาพ
- ใช้เทคนิคโค้ดเอคเสียงเชิงประสาทล่าสุด เช่น Residual Vector Quantization (RVQ) ในการแปลงเสียงเป็นโทเคนแบบไม่ต่อเนื่องที่เป็นมิตรกับ LLM เพื่อการประมวลผล
- แนวโน้มล่าสุดคือการประยุกต์ใช้โค้ดเอคเสียงขั้นสูงเช่น Mimi ของ Kyutai กำลังยกระดับความสามารถในการแทนเสียงและคุณภาพของ Audio LLM อย่างต่อเนื่อง
ความเป็นมาของ Neural Audio Codec และการนำ Audio LLM มาใช้
- โมเดลเสียงส่วนใหญ่ที่อิง LLM มักทำงานด้วยแนวทาง แปลงเป็นข้อความ → ตอบ → สังเคราะห์เสียง มากกว่าการเข้าใจเสียงจริง ๆ
- ในการเข้าใจเสียงแบบแท้จริง จำเป็นต้องจับอารมณ์, โทนเสียง, ความประชด, และนัยทางการสื่อสารที่ไม่ใช่คำพูด
- โมเดลบางตัวเช่น Gemini, ChatGPT Advanced Voice Mode, Qwen, Moshi รองรับการป้อนเสียงได้ แต่โดยสาระแล้วยังขาดความสามารถในการเข้าใจเสียงเชิงลึก
- ขณะที่ LLM ข้อความพัฒนาได้อย่างรวดเร็วเมื่อเพิ่มข้อมูล อัลกอริทึม และทรัพยากรคอมพิวเตอร์ เทียบกับนั้นข้อมูลเสียงมีความซับซ้อนในการประมวลผลสูงกว่ามาก
ความต่างของการทำ Tokenize ระหว่างข้อความและเสียง
- ข้อความให้ผลลัพธ์ที่ดีได้แม้ใช้ตัวทำ Token แบบคงที่ที่ค่อนข้างง่าย ๆ เช่น byte-pair encoding
- แม้กระทั่ง LSTM และ RNN ช่วงแรกก็ยังให้ผลลัพธ์ที่สมเหตุสมผลด้วยการทำนายตัวอย่างต่ออักษรตัวเดียว
- เสียงต้องคาดการณ์ลำดับเวลาเป็นตัวอย่างนับหมื่นต่อวินาที และเพียง 10 วินาทีก็ต้องทำนายได้เป็นหลักแสนค่านาทีเวลา
- เมื่อสร้างเสียงแบบทำนายทีละ sample เช่น WaveNet คุณภาพเสียงอาจดูดี แต่ความสามารถสื่อสารความหมายยังมีความท้าทาย
คอขวดของการโมเดลเสียงและขีดจำกัดการทำนายราย sample
- การสร้างต่อ sample ทำให้ความเร็วในการสร้างช้ามากในทางปฏิบัติ และไม่สามารถรับรองความเชื่อมโยงเชิงความหมายของหน่วยความหมายที่แท้จริงได้
- ตัวอย่างการทดลอง (151M พารามิเตอร์, ข้อมูล 1000 ชั่วโมง) พบปัญหาเช่นเสียงมีรบกวนและความไม่สม่ำเสมอ จึงใช้งานจริงได้ไม่ดี
- อัตรา sampling ของเสียงที่สูงมาก (อิง 16kHz, 2048 context = 128ms) ส่งผลให้เกิดขีดจำกัดในการจัดการบริบทของ LLM
- สำหรับการประมวลผลเสียงแบบเรียลไทม์ การอัดข้อมูลอย่างมีประสิทธิภาพจึงเป็นสิ่งจำเป็น
Neural Audio Codec: Autoencoder และ RVQ
หลักการพื้นฐานของ Autoencoder และ Vector Quantization (VQ-VAE)
- เป็นโครงสร้างเครือข่ายประสาทที่บีบอัดอินพุต (เช่นเสียง, ภาพ) ลงสู่ latent space ขนาดเล็ก แล้วคืนค่าเดิมออกมา
- การฝังแบบเวกเตอร์ถูกทำ vector quantization (เช่น k-means) ให้กลายเป็นโทเคนแบบไม่ต่อเนื่อง เพื่อป้อนเข้าสู่ LLM ได้อย่างเหมาะสม
- ใช้เทคนิค Straight-through estimator เพื่อฝึกแม้มีลักษณะไม่สามารถหาลิมิตอนุพันธ์โดยตรง
- เพิ่ม commitment loss เพื่อบังคับให้ระยะห่างระหว่าง embedding กับจุดศูนย์กลาง cluster ลดลง
- โครงสร้างโมเดล VQ-VAE คือเวอร์ชันที่พัฒนาจาก Autoencoder ให้เป็นมิตรกับการ quantization มากขึ้น
แนวคิด Residual Vector Quantization (RVQ)
- เมื่อต้องใช้ระดับการ quantization จำนวนมาก จำเป็นต้องเพิ่มระดับโทเคน Residual เพื่อแก้ข้อจำกัดการจัดการ cluster ขนาดใหญ่แบบเดี่ยว
- เริ่มต้น quantize embedding เป็นขั้นแรก แล้ว quantize เศษ (residual) เพิ่มเติมเพื่อเพิ่มประสิทธิภาพการอัดข้อมูลสูงสุด
- หากต้องการ ทำได้ถึงการ quantization หลายระดับตั้งแต่ 2 ขั้นขึ้นไป โดยโครงข่ายขยายอย่างง่าย (
for level in range(levels))
- RVQ ถูกนำไปใช้เป็นองค์ประกอบหลักในโค้ดเอคเสียงเชิงประสาทล่าสุด เช่น SoundStream (2021)
Tokenization เสียงและการประยุกต์กับ LLM
- ใช้ CNN-based autoencoder ลดอัตรา sample เสียง (เช่น downsample 128 เท่า, vector 32 มิติ) จากนั้นทำ RVQ แบบอิสระกับแต่ละ embedding
- เอาผลลัพธ์โค้ด RVQ โดยตรง เช่น RVQ 8 ระดับ แล้วแปลงต่อเนื่องเป็นลำดับโทเคน 1D เพื่อป้อนเข้า LLM
- การนำวิธี flattening มาใช้มีผลให้สูญเสียการอัดข้อมูลเชิงเวลาในบางส่วน (เช่น 128x downsampling → ขยายกลับเป็น 8x)
- ระดับ codebook, จำนวนระดับ, ลำดับการ FLATTEN ฯลฯ ล้วนมีผลต่อคุณภาพและอัตราการอัดข้อมูลแต่ละแบบ
การฝึก Neuro Audio Codec แบบใช้งานจริงและการปรับปรุงคุณภาพ
- ผลการทดลองชี้ว่าเมื่อระดับ RVQ สูงขึ้น Reconstruction Loss ลดลงและคุณภาพเสียงดีขึ้น
- อย่างไรก็ตาม โมเดลโค้ดเอคแบบง่ายที่พัฒนาขึ้นเองเองยังคงมีเสียงรบกวนและความผิดเพี้ยนของ timbre บ้าง
- โค้ดเอคเสียงประสาทชั้นสูงอย่าง Mimi ของ Kyutai ใช้เทคนิคเช่น loss ฟังก์ชันแบบ GAN และ RVQ dropout เพื่อดันคุณภาพให้สูงสุด
- ฝึกโดยใช้ GAN discriminator แยกแยะเสียงจริงและเสียงปลอม
- สุ่มปิดบางระดับ RVQ หลายระดับ ทำให้คงคุณภาพได้ในทุกระดับการอัดข้อมูล
การเปลี่ยนแปลงคุณภาพ LLM ด้วย Mimi Codec
- Mimi รองรับการ downsample และอัดข้อมูลได้มีประสิทธิภาพมากขึ้น เช่น ที่ sample rate 24kHz และ 12.5fps
- เมื่อ tokenization ข้อมูล Libri-Light 10k ชั่วโมงด้วย Mimi ทำให้พื้นที่เก็บลดลงประมาณครึ่งหนึ่ง และประสิทธิภาพการฝึกพร้อมคุณภาพดีขึ้น
- ในงานสร้างเสียงเชิงความหมาย เช่น เพลงและบทกวี โมเดลแสดงความสอดคล้องกับข้อความได้สูงขึ้น
การนำแนวคิด Semantic Token มาใช้งาน
- ระดับสูงสุดของ Mimi คือ semantic token ที่ดึงมาจากโมเดลเสียง BERT อย่าง WavLM
- semantic token รับผิดชอบเนื้อหาทางความหมายของเสียง ส่วน RVQ token ระดับล่างรับผิดชอบข้อมูลโทนเสียงและเสียงผู้พูด
- หากคง semantic token ไว้ แล้วให้ LLM สร้างเฉพาะ token อื่นต่อ จะสามารถได้ผลลัพธ์ที่พูดข้อความเดียวกันด้วยเสียงผู้พูดที่ต่างกัน
Trade-off ระหว่างความหมายกับคุณภาพเสียง
- ยิ่งลดจำนวนระดับ RVQ จะยิ่งเพิ่มสัดส่วนของ semantic token ทำให้อัตราความสอดคล้องเชิงความหมายสูงขึ้นและความสามารถของ LLM ในการสร้างข้อความเพิ่มขึ้น
- ในทางปฏิบัติสามารถถึงขั้นจำข้อมูลบางส่วนจากชุดฝึกโดยตรง เช่น คำแนะนำจาก "Librivox"
- สามารถปรับการใช้งานได้หลากหลายตามน้ำหนักฟังก์ชัน loss ระหว่างความหมายกับคุณภาพเสียง (Moshi ให้ความสำคัญกับ loss ความหมายมากกว่าปกติถึง 100 เท่า)
เทรนด์โมเดล Audio LLM ล่าสุดและงานวิจัย
- ด้วยความก้าวหน้าหลายปีที่ผ่านมา Kyutai Moshi, Sesame CSM และ Alibaba Qwen3-Omni เป็นผู้นำในการวิจัย เสียง native LLM
- โมเดลส่วนใหญ่ยังคงพึ่งพาแนวทางที่ประมวลผล text stream ร่วมกัน และการให้เหตุผลตามบริบทยังค่อนข้างเกิดจากข้อความเป็นหลัก
- มีการวิจัยทางเลือกอย่างหลากหลายที่ผสมและสลับใช้โทเคนข้อความ/เสียง รวมถึงการสร้างจาก latent space แบบต่อเนื่อง (Diffusion, consistency models)
บทสรุปและมุมมองอนาคต
- Neural Audio Codec คือโครงสร้างพื้นฐานสำคัญของ Audio LLM ที่ช่วยยกระดับคุณภาพการสร้างเสียงได้มากผ่านการ tokenization ที่สมดุลระหว่างความหมายและข้อมูลโทนเสียง
- แม้จะมีความก้าวหน้า แต่ยังคงมี modality gap เมื่อเทียบกับ LLM ข้อความในแง่ reasoning และความเข้าใจเสียง
- Moshi ของ Kyutai และอื่น ๆ กำลังขับเคลื่อนนวัตกรรมต่าง ๆ เช่น ความพยายาม Voice AI แบบ end-to-end แบบแรก ๆ ต่อไป ซึ่งคาดว่าจะยกระดับ Audio ML อย่างต่อเนื่อง
เอกสารอ้างอิงและการอ่านเพิ่มเติม
- รายงานการพัฒนาและแนวคิดหลักของโมเดลสร้างเสียง เช่น WaveNet (2016), SampleRNN (2016), MelGAN (2019), HiFi-GAN (2020)
- แนะนำงานวิจัยการนำไปใช้โค้ดเอคและโมเดลต่าง ๆ เช่น Neural Discrete Representation Learning, SoundStream, EnCodec, WavLM, MiMo-Audio
- ชี้ให้เห็นความเป็นไปได้ของการสร้างเสียงแบบต่อเนื่องด้วย Diffusion/Consistency model
ตัวอย่าง Audio-based LLM ล่าสุด (อ้างอิงปี 2025)
- Moshi (Kyutai)
- CSM (Sesame)
- Qwen3-Omni (Alibaba)
- MiMo-Audio (Xiaomi)
- LFM2-Audio (Liquid AI)
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
มีบางคนพูดถึงว่าถ้าถาม LLM ว่า “ฉันกำลังพูดเสียงต่ำหรือเสียงสูงอยู่เหรอ” โดยใช้น้ำเสียงสูง ๆ แล้ว LLM ไม่แยกได้ ทำให้สงสัยว่าปัญหานี้เป็นข้อจำกัดของ LLM เองหรือเป็นผลของการโอเวอร์ฟิตด้านความปลอดภัย อีกทั้งชี้ว่าระบบโหมดเสียงของ ChatGPT มีการป้องกันหลายอย่าง เช่น การบล็อกการสร้างเพลง การไม่เลียนแบบสำเนียง (เช่นไม่เลียนแบบสำเนียงแบบอินเดีย) และการป้องกันการคาดเดาเชื้อชาติหรืออคติ ทำให้คิดว่าคุณสมบัติเหล่านี้อาจถูกตัดออกจากโมเดลไปบ้างแล้ว
ในงานออดิโอ โดยทั่วไปบริบทระยะไกล (long range context) อาจไม่สำคัญมาก เลยสงสัยว่าโมเดลเชิง linear-space และเวลาคงที่ (RWKV, S4 ฯลฯ) อาจเหมาะกว่า เพราะ Transformer ถูกทำงานขนานในย่านความถี่ต่ำ/ความถี่ต่ำกว่า และจินตนาการโมเดลเชิงเส้นที่ส่ง “สรุปโทเค็น” หนึ่งโทเค็นต่อวินาที (รวมข้อความ+อารมณ์ ฯลฯ) กลับมาเป็น feedback หากเทรนสองโมเดลนี้ไปพร้อมกัน ความหมายของสรุปโทเค็นจะไม่ถูกนิยามตายตัวไว้ล่วงหน้า แต่เกิดขึ้นระหว่างการเรียนรู้เอง โหมดนี้ยังเป็นแบบ end-to-end ที่ใช้หลักการทางสัทศาสตร์ (phonetic) ล้วน ๆ โดยไม่แปลเป็นข้อความ ระบุว่าส่วนข้อมูลที่ไร้ความหมายหรือข้อมูลความหนาแน่นต่ำสามารถบีบเป็นโทเค็นที่เล็กลงได้ ตรงด้านตรรกะหรือการอธิบายโค้ด โมเดลข้อความยังไม่ทัน LLM มนุษย์เองก็อธิบายอัลกอริทึมเชิงลึกด้วยภาษาธรรมชาติง่ายไม่มากอยู่แล้ว
มีคำถามต่อมาว่าทำไมไม่ใช้ audio codec ทั่วไปอย่าง JPEG, MP3 และอธิบายว่า MP3 แต่ละเฟรมสามารถฟื้นคืนออดิโอช่วงสั้น ๆ หลายสิบมิลลิวินาทีได้อิสระต่อเฟรม โดยที่ 128 kbps จะได้ 418 ไบต์สำหรับ 26ms ลดขนาดลงจากต้นฉบับประมาณ 10~11 เท่า และข้อมูลที่ไม่จำเป็นก็ถูกตัดทิ้ง จึงนึกภาพว่า หากใส่ตัวแปลงแบบนี้ เฟรมอาจถูกใช้เป็นโทเค็นได้
มนุษย์รับรู้เสียงจากองค์ประกอบความถี่ ภายในหูมี filter bank ที่ให้ความถี่เรโซแนนซ์ต่างระดับ และการรับรู้เสียงพูดพึ่งพา formant เพื่ออนุมานการกระทำทาง articulation ขณะพูด หากทำ tokenization จากเฟรม MP3 จะถูกทำให้เป็น black box จาก quantization, Huffman coding และโครงสร้างเฟรม ทำให้ข้อมูลความถี่ถูกปิดบัง แม้ในรูปแบบนี้อาจพอทำนายข้อความได้ แต่ยิ่งอินพุตซ่อนข้อมูลสำคัญ ความยากก็ยิ่งเพิ่ม การเข้าถึง formant โดยตรงไม่เกิดอาจทำให้ generalize ได้ยาก และหาก LLM เทรนเฉพาะผู้พูดบางกลุ่ม มันจะยังจำเสียงเด็กหรือนักแสดงเสียงสังเคราะห์ได้ดีหรือไม่เป็นเรื่องต้องสงสัย
มีคำถามต่อว่า “ทำไมไม่ tokenizing ตัวเสียงเองเพื่อทำ LLM ตั้งแต่ต้น แต่กลับพึ่งพาเพียง transcript เสมอไป?” และเน้นว่าข้อมูลเสียงมีจำนวนมหาศาลเหลือเฟือ
เขาไม่เคยรู้จัก Kyutai มาก่อน แต่รู้สึกว่าฟีเจอร์นี้ตรงกับโปรเจกต์ที่กำลังทำมากจริง ๆ และขอบคุณมาก
งานนี้น่าทึ่งมาก แม้เสียงดิบจะยากกว่าข้อความในการจัดการมาก แต่จุดสำคัญสุดท้ายของการเทียบกับ LLM คือการหาค็อดก์เสียงที่มีประสิทธิภาพที่สุด ซึ่งน่าสนใจมาก จินตนาการว่ากันได้ไหมว่าอนาคตจะมี voice codec ตัวแทนหลักที่เข้ากับ LLM ซึ่งไม่ได้อิง Fourier transform แต่ยึดอิงพารามิเตอร์ทางกายภาพของสายเสียง ลิ้น กล่องเสียง คอหอย ฯลฯ แทน ด้วยเหตุผลว่ากายวิภาคมนุษย์แทบไม่เปลี่ยน คุณลักษณะแบบนี้อาจกลายเป็นมาตรฐานเชิงสถิติได้ในวันหนึ่ง ลองเชื่อมโยงว่าเป็นแนวทาง formant speech encoding และเป็นพื้นที่ที่เดิมทีทำงานวิจัยด้าน speech synthesis มามาก
เขาถามว่าการเทรน 100k ชั่วโมงพอไหม ในมาตรฐาน LLM ยังไม่มากนัก จึงนึกถึง “Bitter Lesson” ขึ้นมา
เขาบอกว่าบทความนี้จัดการครบถ้วนและเป็นประโยชน์มาก ต้องการแชร์ให้ทีมฟัง เพราะบริษัทของเขาเพิ่งเริ่มใส่ audio/voice เข้าใน AI product และถือเป็นข้อมูลอ้างอิงที่ใช้ได้จริงมาก