1 คะแนน โดย GN⁺ 2025-10-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Neural Audio Codec คือโค้ดเอคเสียงเชิงประสาทที่เป็นเครื่องมือหลักในการป้อนข้อมูลเสียงเข้าสู่ LLM อย่างมีประสิทธิภาพ
  • อินเทอร์เฟซเสียงของ LLM เดิมส่วนใหญ่เป็น wrapper ที่พึ่งพาข้อความเป็นหลัก ทำให้มีข้อจำกัดด้านการเข้าใจเสียงจริงและการรับรู้อารมณ์
  • การโมเดลเสียงต่างจากข้อความตรงที่มีจำนวน sample สูงมาก และการรักษาความสอดคล้องระยะยาวทำได้ยาก จึงต้องการการอัดข้อมูลและการทำ tokenization ที่มีประสิทธิภาพ
  • ใช้เทคนิคโค้ดเอคเสียงเชิงประสาทล่าสุด เช่น Residual Vector Quantization (RVQ) ในการแปลงเสียงเป็นโทเคนแบบไม่ต่อเนื่องที่เป็นมิตรกับ LLM เพื่อการประมวลผล
  • แนวโน้มล่าสุดคือการประยุกต์ใช้โค้ดเอคเสียงขั้นสูงเช่น Mimi ของ Kyutai กำลังยกระดับความสามารถในการแทนเสียงและคุณภาพของ Audio LLM อย่างต่อเนื่อง

ความเป็นมาของ Neural Audio Codec และการนำ Audio LLM มาใช้

  • โมเดลเสียงส่วนใหญ่ที่อิง LLM มักทำงานด้วยแนวทาง แปลงเป็นข้อความ → ตอบ → สังเคราะห์เสียง มากกว่าการเข้าใจเสียงจริง ๆ
  • ในการเข้าใจเสียงแบบแท้จริง จำเป็นต้องจับอารมณ์, โทนเสียง, ความประชด, และนัยทางการสื่อสารที่ไม่ใช่คำพูด
  • โมเดลบางตัวเช่น Gemini, ChatGPT Advanced Voice Mode, Qwen, Moshi รองรับการป้อนเสียงได้ แต่โดยสาระแล้วยังขาดความสามารถในการเข้าใจเสียงเชิงลึก
  • ขณะที่ LLM ข้อความพัฒนาได้อย่างรวดเร็วเมื่อเพิ่มข้อมูล อัลกอริทึม และทรัพยากรคอมพิวเตอร์ เทียบกับนั้นข้อมูลเสียงมีความซับซ้อนในการประมวลผลสูงกว่ามาก

ความต่างของการทำ Tokenize ระหว่างข้อความและเสียง

  • ข้อความให้ผลลัพธ์ที่ดีได้แม้ใช้ตัวทำ Token แบบคงที่ที่ค่อนข้างง่าย ๆ เช่น byte-pair encoding
  • แม้กระทั่ง LSTM และ RNN ช่วงแรกก็ยังให้ผลลัพธ์ที่สมเหตุสมผลด้วยการทำนายตัวอย่างต่ออักษรตัวเดียว
  • เสียงต้องคาดการณ์ลำดับเวลาเป็นตัวอย่างนับหมื่นต่อวินาที และเพียง 10 วินาทีก็ต้องทำนายได้เป็นหลักแสนค่านาทีเวลา
  • เมื่อสร้างเสียงแบบทำนายทีละ sample เช่น WaveNet คุณภาพเสียงอาจดูดี แต่ความสามารถสื่อสารความหมายยังมีความท้าทาย

คอขวดของการโมเดลเสียงและขีดจำกัดการทำนายราย sample

  • การสร้างต่อ sample ทำให้ความเร็วในการสร้างช้ามากในทางปฏิบัติ และไม่สามารถรับรองความเชื่อมโยงเชิงความหมายของหน่วยความหมายที่แท้จริงได้
  • ตัวอย่างการทดลอง (151M พารามิเตอร์, ข้อมูล 1000 ชั่วโมง) พบปัญหาเช่นเสียงมีรบกวนและความไม่สม่ำเสมอ จึงใช้งานจริงได้ไม่ดี
  • อัตรา sampling ของเสียงที่สูงมาก (อิง 16kHz, 2048 context = 128ms) ส่งผลให้เกิดขีดจำกัดในการจัดการบริบทของ LLM
  • สำหรับการประมวลผลเสียงแบบเรียลไทม์ การอัดข้อมูลอย่างมีประสิทธิภาพจึงเป็นสิ่งจำเป็น

Neural Audio Codec: Autoencoder และ RVQ

หลักการพื้นฐานของ Autoencoder และ Vector Quantization (VQ-VAE)

  • เป็นโครงสร้างเครือข่ายประสาทที่บีบอัดอินพุต (เช่นเสียง, ภาพ) ลงสู่ latent space ขนาดเล็ก แล้วคืนค่าเดิมออกมา
  • การฝังแบบเวกเตอร์ถูกทำ vector quantization (เช่น k-means) ให้กลายเป็นโทเคนแบบไม่ต่อเนื่อง เพื่อป้อนเข้าสู่ LLM ได้อย่างเหมาะสม
  • ใช้เทคนิค Straight-through estimator เพื่อฝึกแม้มีลักษณะไม่สามารถหาลิมิตอนุพันธ์โดยตรง
  • เพิ่ม commitment loss เพื่อบังคับให้ระยะห่างระหว่าง embedding กับจุดศูนย์กลาง cluster ลดลง
  • โครงสร้างโมเดล VQ-VAE คือเวอร์ชันที่พัฒนาจาก Autoencoder ให้เป็นมิตรกับการ quantization มากขึ้น

แนวคิด Residual Vector Quantization (RVQ)

  • เมื่อต้องใช้ระดับการ quantization จำนวนมาก จำเป็นต้องเพิ่มระดับโทเคน Residual เพื่อแก้ข้อจำกัดการจัดการ cluster ขนาดใหญ่แบบเดี่ยว
  • เริ่มต้น quantize embedding เป็นขั้นแรก แล้ว quantize เศษ (residual) เพิ่มเติมเพื่อเพิ่มประสิทธิภาพการอัดข้อมูลสูงสุด
  • หากต้องการ ทำได้ถึงการ quantization หลายระดับตั้งแต่ 2 ขั้นขึ้นไป โดยโครงข่ายขยายอย่างง่าย (for level in range(levels))
  • RVQ ถูกนำไปใช้เป็นองค์ประกอบหลักในโค้ดเอคเสียงเชิงประสาทล่าสุด เช่น SoundStream (2021)

Tokenization เสียงและการประยุกต์กับ LLM

  • ใช้ CNN-based autoencoder ลดอัตรา sample เสียง (เช่น downsample 128 เท่า, vector 32 มิติ) จากนั้นทำ RVQ แบบอิสระกับแต่ละ embedding
  • เอาผลลัพธ์โค้ด RVQ โดยตรง เช่น RVQ 8 ระดับ แล้วแปลงต่อเนื่องเป็นลำดับโทเคน 1D เพื่อป้อนเข้า LLM
  • การนำวิธี flattening มาใช้มีผลให้สูญเสียการอัดข้อมูลเชิงเวลาในบางส่วน (เช่น 128x downsampling → ขยายกลับเป็น 8x)
  • ระดับ codebook, จำนวนระดับ, ลำดับการ FLATTEN ฯลฯ ล้วนมีผลต่อคุณภาพและอัตราการอัดข้อมูลแต่ละแบบ

การฝึก Neuro Audio Codec แบบใช้งานจริงและการปรับปรุงคุณภาพ

  • ผลการทดลองชี้ว่าเมื่อระดับ RVQ สูงขึ้น Reconstruction Loss ลดลงและคุณภาพเสียงดีขึ้น
  • อย่างไรก็ตาม โมเดลโค้ดเอคแบบง่ายที่พัฒนาขึ้นเองเองยังคงมีเสียงรบกวนและความผิดเพี้ยนของ timbre บ้าง
  • โค้ดเอคเสียงประสาทชั้นสูงอย่าง Mimi ของ Kyutai ใช้เทคนิคเช่น loss ฟังก์ชันแบบ GAN และ RVQ dropout เพื่อดันคุณภาพให้สูงสุด
    • ฝึกโดยใช้ GAN discriminator แยกแยะเสียงจริงและเสียงปลอม
    • สุ่มปิดบางระดับ RVQ หลายระดับ ทำให้คงคุณภาพได้ในทุกระดับการอัดข้อมูล

การเปลี่ยนแปลงคุณภาพ LLM ด้วย Mimi Codec

  • Mimi รองรับการ downsample และอัดข้อมูลได้มีประสิทธิภาพมากขึ้น เช่น ที่ sample rate 24kHz และ 12.5fps
  • เมื่อ tokenization ข้อมูล Libri-Light 10k ชั่วโมงด้วย Mimi ทำให้พื้นที่เก็บลดลงประมาณครึ่งหนึ่ง และประสิทธิภาพการฝึกพร้อมคุณภาพดีขึ้น
  • ในงานสร้างเสียงเชิงความหมาย เช่น เพลงและบทกวี โมเดลแสดงความสอดคล้องกับข้อความได้สูงขึ้น

การนำแนวคิด Semantic Token มาใช้งาน

  • ระดับสูงสุดของ Mimi คือ semantic token ที่ดึงมาจากโมเดลเสียง BERT อย่าง WavLM
  • semantic token รับผิดชอบเนื้อหาทางความหมายของเสียง ส่วน RVQ token ระดับล่างรับผิดชอบข้อมูลโทนเสียงและเสียงผู้พูด
  • หากคง semantic token ไว้ แล้วให้ LLM สร้างเฉพาะ token อื่นต่อ จะสามารถได้ผลลัพธ์ที่พูดข้อความเดียวกันด้วยเสียงผู้พูดที่ต่างกัน

Trade-off ระหว่างความหมายกับคุณภาพเสียง

  • ยิ่งลดจำนวนระดับ RVQ จะยิ่งเพิ่มสัดส่วนของ semantic token ทำให้อัตราความสอดคล้องเชิงความหมายสูงขึ้นและความสามารถของ LLM ในการสร้างข้อความเพิ่มขึ้น
  • ในทางปฏิบัติสามารถถึงขั้นจำข้อมูลบางส่วนจากชุดฝึกโดยตรง เช่น คำแนะนำจาก "Librivox"
  • สามารถปรับการใช้งานได้หลากหลายตามน้ำหนักฟังก์ชัน loss ระหว่างความหมายกับคุณภาพเสียง (Moshi ให้ความสำคัญกับ loss ความหมายมากกว่าปกติถึง 100 เท่า)

เทรนด์โมเดล Audio LLM ล่าสุดและงานวิจัย

  • ด้วยความก้าวหน้าหลายปีที่ผ่านมา Kyutai Moshi, Sesame CSM และ Alibaba Qwen3-Omni เป็นผู้นำในการวิจัย เสียง native LLM
  • โมเดลส่วนใหญ่ยังคงพึ่งพาแนวทางที่ประมวลผล text stream ร่วมกัน และการให้เหตุผลตามบริบทยังค่อนข้างเกิดจากข้อความเป็นหลัก
  • มีการวิจัยทางเลือกอย่างหลากหลายที่ผสมและสลับใช้โทเคนข้อความ/เสียง รวมถึงการสร้างจาก latent space แบบต่อเนื่อง (Diffusion, consistency models)

บทสรุปและมุมมองอนาคต

  • Neural Audio Codec คือโครงสร้างพื้นฐานสำคัญของ Audio LLM ที่ช่วยยกระดับคุณภาพการสร้างเสียงได้มากผ่านการ tokenization ที่สมดุลระหว่างความหมายและข้อมูลโทนเสียง
  • แม้จะมีความก้าวหน้า แต่ยังคงมี modality gap เมื่อเทียบกับ LLM ข้อความในแง่ reasoning และความเข้าใจเสียง
  • Moshi ของ Kyutai และอื่น ๆ กำลังขับเคลื่อนนวัตกรรมต่าง ๆ เช่น ความพยายาม Voice AI แบบ end-to-end แบบแรก ๆ ต่อไป ซึ่งคาดว่าจะยกระดับ Audio ML อย่างต่อเนื่อง

เอกสารอ้างอิงและการอ่านเพิ่มเติม

  • รายงานการพัฒนาและแนวคิดหลักของโมเดลสร้างเสียง เช่น WaveNet (2016), SampleRNN (2016), MelGAN (2019), HiFi-GAN (2020)
  • แนะนำงานวิจัยการนำไปใช้โค้ดเอคและโมเดลต่าง ๆ เช่น Neural Discrete Representation Learning, SoundStream, EnCodec, WavLM, MiMo-Audio
  • ชี้ให้เห็นความเป็นไปได้ของการสร้างเสียงแบบต่อเนื่องด้วย Diffusion/Consistency model

ตัวอย่าง Audio-based LLM ล่าสุด (อ้างอิงปี 2025)

  • Moshi (Kyutai)
  • CSM (Sesame)
  • Qwen3-Omni (Alibaba)
  • MiMo-Audio (Xiaomi)
  • LFM2-Audio (Liquid AI)

1 ความคิดเห็น

 
GN⁺ 2025-10-22
ความคิดเห็นจาก Hacker News
  • มีบางคนพูดถึงว่าถ้าถาม LLM ว่า “ฉันกำลังพูดเสียงต่ำหรือเสียงสูงอยู่เหรอ” โดยใช้น้ำเสียงสูง ๆ แล้ว LLM ไม่แยกได้ ทำให้สงสัยว่าปัญหานี้เป็นข้อจำกัดของ LLM เองหรือเป็นผลของการโอเวอร์ฟิตด้านความปลอดภัย อีกทั้งชี้ว่าระบบโหมดเสียงของ ChatGPT มีการป้องกันหลายอย่าง เช่น การบล็อกการสร้างเพลง การไม่เลียนแบบสำเนียง (เช่นไม่เลียนแบบสำเนียงแบบอินเดีย) และการป้องกันการคาดเดาเชื้อชาติหรืออคติ ทำให้คิดว่าคุณสมบัติเหล่านี้อาจถูกตัดออกจากโมเดลไปบ้างแล้ว

    • ผู้เขียนตัวเองอธิบายว่ามองว่านี่เป็นข้อจำกัดด้านความสามารถมากกว่าเรื่องความปลอดภัย การเทรนด้านเสียงยังยากกว่าการเทรนข้อความ และยัง generalize ได้ไม่ดีเท่าเดิม จึงมีแนวทางใช้โมเดลที่รวมข้อมูลข้อความ+เสียงในโมเดลเดียว (เช่นป้อนและพยากรณ์ทั้งโทเค็นข้อความและโทเค็นเสียงพร้อมกัน) ซึ่งทำให้โทเค็นเสียงกลายเป็นตัวแปลงเสียง-ข้อความแบบบูรณาการ ประสบการณ์ที่เพื่อนร่วมงานที่ทำที่ Moshi ก็คล้ายกัน และโมเดลอื่น ๆ ก็พบแบบเดียวกัน อีกประเด็นคือข้อมูลสังเคราะห์ด้วย TTS หากทำ fine-tune จากข้อมูลนี้ โทนเสียงไม่มีอยู่จึงโมเดลเรียนรู้ที่จะมองข้ามมัน
    • เรื่อง “การปรับสำเนียงให้เข้ากัน (เช่น ทำให้ LLM ก็ไม่ใช้สำเนียงอินเดียเมื่ออีกฝ่ายมีสำเนียงอินเดีย)” ทำไมถึงยังทำไม่ได้จริง ๆ ก็สงสัยไว้ โดยเล่าว่าถ้าปรับให้สำเนียงใกล้กันได้ ความเข้าใจซึ่งกันและกันดีขึ้นอย่างมาก และเมื่ออีกฝ่ายไม่สามารถสลับสำเนียงเอง การที่ฝ่ายตรงข้ามปรับสำเนียงให้เหมาะสมมักเป็นประโยชน์มาก เขาเองก็ว่า ถ้าตนสามารถใช้สำเนียงอังกฤษแบบอินเดียได้ก็คงใช้ได้ดีมากในงานคุยกับลูกค้าเซอร์วิสแบบเอาท์ซอร์ส
    • แวะถามว่ามีประสบการณ์ว่า LLM ตอบโต้ต่างกันตามเชื้อชาติของผู้พูดหรือไม่ และว่าโดยฐานข้อมูลที่ใช้ฝึกส่วนใหญ่เป็นข้อความสนทนา จะมีหลักฐานพอให้โมเดลเรียนรู้อคติเช่นนั้นน้อยมาก จึงแปลกใจ
    • บอกว่าทวีด Qwen3 omni transcriber อธิบายโทนเสียงและอารมณ์ได้คมชัดมาก
    • ไม่คิดว่าเป็นเรื่องมาตรการความปลอดภัยอย่างเดียว แต่กลับรู้สึกว่าโมเดลยังเข้าใจ pitch ของเสียงไม่ดีจริง ๆ ตัวอย่างเช่นขอให้ ChatGPT โหมดเสียงระดับสูงจำฝีมือ “ฮัม” อย่างเดียว แต่กลับตอบว่า “บีโธเฟนซิมโฟนีที่ 5” ตลอดไป คงได้ tokenize เสียงฮัมของเขาเป็น “เด่อล-เด่อล-เด่อล-เด่อล~” ก็เป็นได้
  • ในงานออดิโอ โดยทั่วไปบริบทระยะไกล (long range context) อาจไม่สำคัญมาก เลยสงสัยว่าโมเดลเชิง linear-space และเวลาคงที่ (RWKV, S4 ฯลฯ) อาจเหมาะกว่า เพราะ Transformer ถูกทำงานขนานในย่านความถี่ต่ำ/ความถี่ต่ำกว่า และจินตนาการโมเดลเชิงเส้นที่ส่ง “สรุปโทเค็น” หนึ่งโทเค็นต่อวินาที (รวมข้อความ+อารมณ์ ฯลฯ) กลับมาเป็น feedback หากเทรนสองโมเดลนี้ไปพร้อมกัน ความหมายของสรุปโทเค็นจะไม่ถูกนิยามตายตัวไว้ล่วงหน้า แต่เกิดขึ้นระหว่างการเรียนรู้เอง โหมดนี้ยังเป็นแบบ end-to-end ที่ใช้หลักการทางสัทศาสตร์ (phonetic) ล้วน ๆ โดยไม่แปลเป็นข้อความ ระบุว่าส่วนข้อมูลที่ไร้ความหมายหรือข้อมูลความหนาแน่นต่ำสามารถบีบเป็นโทเค็นที่เล็กลงได้ ตรงด้านตรรกะหรือการอธิบายโค้ด โมเดลข้อความยังไม่ทัน LLM มนุษย์เองก็อธิบายอัลกอริทึมเชิงลึกด้วยภาษาธรรมชาติง่ายไม่มากอยู่แล้ว

    • แม้ตัวผู้แปลไม่ชำนาญด้านโมเดลเชิงเส้น แต่ชี้ว่าแนวคิด hierarchical modeling นี้เป็นความคิดทั่วไปในงานวิจัยเสียงอยู่แล้ว เช่น OpenAI Jukebox (2020) ใช้โค้ดก์เสียงแบบ 3 ชั้น โดย language model พยากรณ์ระดับหยาบสุดก่อน แล้วต่อยอดไปดึงรายละเอียดละเอียดจนสุดท้าย รายละเอียดล่าสุดอย่าง MiMo-audio ทำนาย 4 time steps เป็นหนึ่ง patch ต่อครั้ง แสดงลิงก์งาน OpenAI Jukebox และ MiMo-Audio Technical Report ให้เป็นข้อมูลอ้างอิง
    • ชี้ว่า Cartesia ก็กำลังพัฒนาโมเดลเวลาคงที่สำหรับออดิโออยู่เช่นกัน พร้อมลิงก์ที่ เว็บไซต์
    • แสดงกำลังใจว่า “ช่วยเขียนเป็น paper ให้หน่อยนะ!”
  • มีคำถามต่อมาว่าทำไมไม่ใช้ audio codec ทั่วไปอย่าง JPEG, MP3 และอธิบายว่า MP3 แต่ละเฟรมสามารถฟื้นคืนออดิโอช่วงสั้น ๆ หลายสิบมิลลิวินาทีได้อิสระต่อเฟรม โดยที่ 128 kbps จะได้ 418 ไบต์สำหรับ 26ms ลดขนาดลงจากต้นฉบับประมาณ 10~11 เท่า และข้อมูลที่ไม่จำเป็นก็ถูกตัดทิ้ง จึงนึกภาพว่า หากใส่ตัวแปลงแบบนี้ เฟรมอาจถูกใช้เป็นโทเค็นได้

    • แชร์สรุปงานวิจัยที่ใช้ JPEG เป็นอินพุตเข้าตรงให้ deep learning โดยเทรน CNN บนค่าสัมประสิทธิ์ DCT ทำให้ตัดขั้นตอนดึงภาพออกมาใหม่และแปลงกลับได้ ยกตัวอย่างกับ ResNet-50 พบว่าเร็วขึ้นได้สูงสุด 1.77 เท่าและความแม่นยำดีขึ้นด้วย ลิงก์งานวิจัยนี้ และคาดว่าแนวคิด MP3 ก็น่าสนใจไม่แพ้กัน
    • ผู้เขียนเองเพิ่มว่าเหตุผลสำคัญอย่างหนึ่งที่ยังไม่ใช้วิธีนี้คืออัตราการบีบอัดที่ต่างกัน SoundStream รุ่นแรกของ neural audio codec สามารถรักษาคุณภาพเสียงได้ดีแม้ที่ 3 kbps ในขณะที่ MP3 อยู่ระดับ 128 kbps และ SoundStream เดิมถูกพัฒนาขึ้นเพื่อบีบอัดเสียงใน Google Meet ส่วน neural codec สมัยใหม่มีประสิทธิภาพยิ่งขึ้นอีก ขณะนี้ Opus ที่แท้จะเป็นตัวเลือกใหม่ของ MP3 ทำได้ 12 kbps ได้เช่นกันแต่ก็ยังไม่เทียบเท่า efficiency ของ neural audio codec ได้ และจุดเด่นของ codec แบบดั้งเดิมคือภาระ CPU ต่ำกว่า
    • 400 ไบต์ของเฟรม MP3 สามารถฝึกเป็นตัวแปลง (adapter) ส่งเข้า embedding สำหรับ LLM ได้ แต่ข้อมูลที่เข้า neural network ควรมีโครงสร้างที่ย่อยสลายได้ โมเดลมักถนัดข้อมูลที่มีความซ้ำซ้อนสูงเช่น tokenized text และมักไม่ชอบข้อมูลบีบอัดสูงแบบ GZIP ในที่สุด การลองแนวนี้ทำได้ค่อนข้างง่าย แต่ความสำเร็จยังไม่ชัดเจน บางครั้งผลลัพธ์น่าจะออกมาได้โดยบังเอิญก็มี
    • วิธีของ TFA เข้ารหัสลงพื้นที่ 32 มิติ ซึ่งเหนือกว่าการบีบอัดเชิงจิตสัญญาณ (psychoacoustic) แบบเดิมมาก และการตัดทิ้งข้อมูลที่มนุษย์รับรู้น้อยเกินไปก็ไม่ใช่เรื่องสำคัญมากถ้าเป้าหมายคือการสร้างใหม่อย่าง speech synthesis
  • มนุษย์รับรู้เสียงจากองค์ประกอบความถี่ ภายในหูมี filter bank ที่ให้ความถี่เรโซแนนซ์ต่างระดับ และการรับรู้เสียงพูดพึ่งพา formant เพื่ออนุมานการกระทำทาง articulation ขณะพูด หากทำ tokenization จากเฟรม MP3 จะถูกทำให้เป็น black box จาก quantization, Huffman coding และโครงสร้างเฟรม ทำให้ข้อมูลความถี่ถูกปิดบัง แม้ในรูปแบบนี้อาจพอทำนายข้อความได้ แต่ยิ่งอินพุตซ่อนข้อมูลสำคัญ ความยากก็ยิ่งเพิ่ม การเข้าถึง formant โดยตรงไม่เกิดอาจทำให้ generalize ได้ยาก และหาก LLM เทรนเฉพาะผู้พูดบางกลุ่ม มันจะยังจำเสียงเด็กหรือนักแสดงเสียงสังเคราะห์ได้ดีหรือไม่เป็นเรื่องต้องสงสัย

    • ชื่นชมว่าคำอธิบายนี้สวยงามที่สุดจากมุมมองภาพเทียบเคียง เขายังแชร์ประสบการณ์ตัวเองที่เคยลองทดสอบ tokenization ข้อความที่ render แล้วด้วย VQ-VAE สร้างภาพข้อความครบชุดจากซอร์ส PDF ด้วยฟอนต์ 10pt โดยฝึก diffusion model ให้เรียน latent representation ที่รวมประเภทเอกสารและภาษาได้ด้วย ได้รับความรู้มากมายและชมว่าบทความนี้อธิบายได้สวยงามมาก
  • มีคำถามต่อว่า “ทำไมไม่ tokenizing ตัวเสียงเองเพื่อทำ LLM ตั้งแต่ต้น แต่กลับพึ่งพาเพียง transcript เสมอไป?” และเน้นว่าข้อมูลเสียงมีจำนวนมหาศาลเหลือเฟือ

    • ตอบว่าบทความนี้กำลังพูดถึงความคิดเดิมของการแปลงสัญญาณเสียงต่อเนื่องให้เป็นโทเค็นแบบดิสครีตจริง ๆ ขนาดหน้าต่างเสียง 10~100 ms ต่อก้อน ทำให้ยากที่จะบรรจุข้อมูลไว้ในโทเค็นเดียว Residual vector quantization ทำงานโดยให้ time slice หนึ่งผ่านหลาย dictionary เพื่อ refine โทเค็นทีละรอบ และปลายโพสต์ก็มีตัวอย่างการเทรน LLM กับ Mimi audio codec
    • แม้ข้อมูลข้อความจะผ่านการทำความสะอาดและ standardize มาก แต่ข้อมูลเสียงต้องรองรับเรื่องภาษา สำเนียง ลักษณะการออกเสียง สีหน้า กิริยา ฯลฯ จึงซับซ้อนมาก เมื่อแปลงเป็นข้อความ เราสามารถตัดข้อมูลพวกนี้ทิ้ง และเก็บเฉพาะโทเค็นที่สะอาดในเชิงความหมายทางภาษา ทำให้ mapping ข้ามภาษาทำได้ดีและมีประสิทธิภาพกว่า
    • การเทรนด้วยโทเค็นเสียงแพงกว่า แต่คาดว่าในอนาคตแนวทางนี้จะเป็นกระแสหลัก ชัดเจนว่าเทรนด้วย transcript ของการบรรยาย YouTube กับเทรนด้วยไฟล์เสียงจริงให้ผลและประสิทธิภาพต่างกันมาก
    • Audio tokenizing ใช้จำนวนโทเค็นมากกว่าข้อความอย่างน้อย 4 เท่า ดังนั้นความท้าทายด้านประสิทธิภาพเป็นจุดเริ่มต้น และยังมีคำถามเรื่องว่าข้อมูลเพียงพอไหมสำหรับเทรน LLM โดยใช้เสียงล้วน
    • ยังคิดว่านวัตกรรม transformer เฉพาะสำหรับออดิโอยังไม่มา แต่คาดว่าโมเดลแบบ audio-first จะเหนือกว่าเชิงทฤษฎี
  • เขาไม่เคยรู้จัก Kyutai มาก่อน แต่รู้สึกว่าฟีเจอร์นี้ตรงกับโปรเจกต์ที่กำลังทำมากจริง ๆ และขอบคุณมาก

  • งานนี้น่าทึ่งมาก แม้เสียงดิบจะยากกว่าข้อความในการจัดการมาก แต่จุดสำคัญสุดท้ายของการเทียบกับ LLM คือการหาค็อดก์เสียงที่มีประสิทธิภาพที่สุด ซึ่งน่าสนใจมาก จินตนาการว่ากันได้ไหมว่าอนาคตจะมี voice codec ตัวแทนหลักที่เข้ากับ LLM ซึ่งไม่ได้อิง Fourier transform แต่ยึดอิงพารามิเตอร์ทางกายภาพของสายเสียง ลิ้น กล่องเสียง คอหอย ฯลฯ แทน ด้วยเหตุผลว่ากายวิภาคมนุษย์แทบไม่เปลี่ยน คุณลักษณะแบบนี้อาจกลายเป็นมาตรฐานเชิงสถิติได้ในวันหนึ่ง ลองเชื่อมโยงว่าเป็นแนวทาง formant speech encoding และเป็นพื้นที่ที่เดิมทีทำงานวิจัยด้าน speech synthesis มามาก

    • ผู้เขียนซึ่งรับแรงหนุนก็ขอบคุณก่อน และชี้ว่าโค้ดแบบอิงพารามิเตอร์ทางกายภาพ (เส้นเสียง ลิ้น ฯลฯ) ไม่ค่อยสอดรับกับแนว ML สมัยใหม่ที่ต้องการลดข้อมูลจากผู้เชี่ยวชาญโดเมนให้เหลือน้อยสุด ยอมให้ transformer ทำงานมากที่สุดเท่าที่เป็นไปได้ ข้อจำกัดที่มากขึ้นย่อมทำให้ช่วงเสียงที่สังเคราะห์ได้แคบลงและถึงขีดคุณภาพเร็ว แม้มีงานที่ใส่ constraint แล้วก็ยังออกมาน่าสนใจได้ เช่น DDSP ที่ควบคุม synthesizer โดย ML เพื่อสังเคราะห์เสียงเครื่องดนตรี ซึ่งก็อาจทำกับ speech ได้เช่นกัน แน่นอนว่าเสียงอาจด้อยกว่าเดิมแต่ใช้พารามิเตอร์น้อยลงมาก และงานอย่าง KokoroTTS ที่สังเคราะห์เสียงจากพยัญชนะ+สระแบบตรง ๆ ก็ทำงานแบบเดียวกันและใช้ออปชันพารามิเตอร์น้อยมาก เอกสาร DDSP, โปรเจกต์ KokoroTTS
    • การพยายามทำ speech แบบ physics-based มานานแล้ว มีทั้งทดลองจำลองโครงสร้าง tract ลมหายใจให้พูดได้จริง แต่วิธีนี้เสี่ยงต่อความเข้าใจผิด เพราะบางครั้งมองว่าความพูดมาจากการเขียนตัวอักษรแล้วจึงสังเคราะห์ต่อ
    • ในงาน voice coding และ synthesis แล้ว source-filter model (การพารามิเตอร์ไวยากรณ์เสียงแบบ source-vocal tract → filter) เป็นแนวทางดั้งเดิมเก่ากว่า FFT มาก
  • เขาถามว่าการเทรน 100k ชั่วโมงพอไหม ในมาตรฐาน LLM ยังไม่มากนัก จึงนึกถึง “Bitter Lesson” ขึ้นมา

    • เขาเทรนมา 1M สเต็ป (batch size 64, block size 2048) และคิดว่าเท่านี้ก็ converge แล้ว ด้วยพารามิเตอร์ 150M จัดว่าเล็กในโลก LLM เป้าหมายจึงไม่ใช่ไล่ชนะแบบสภาวะสูงสุด แต่เพื่อเห็นว่าการเปลี่ยนเฉพาะ tokenizer อย่างเดียวทำให้ประสิทธิภาพเปลี่ยนอย่างไรได้มากพอ
  • เขาบอกว่าบทความนี้จัดการครบถ้วนและเป็นประโยชน์มาก ต้องการแชร์ให้ทีมฟัง เพราะบริษัทของเขาเพิ่งเริ่มใส่ audio/voice เข้าใน AI product และถือเป็นข้อมูลอ้างอิงที่ใช้ได้จริงมาก