ก้าวข้ามหุบเหวความรู้สึกประหลาดของเสียงสนทนา

(sesame.com)

5 คะแนน โดย GN⁺ 2025-03-03 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

สำหรับผู้ช่วยเสียงดิจิทัลที่จะถูกใช้งานต่อเนื่องยาวนาน การมีตัวตนผ่านเสียง (voice presence) ที่สะท้อนอารมณ์ จังหวะ และบริบท สำคัญกว่าเสียงสังเคราะห์ที่ใสสะอาด และ Sesame เสนอ Conversational Speech Model เพื่อสิ่งนี้
CSM เป็น multimodal transformer แบบ end-to-end ที่ประมวลผลข้อความและเสียงร่วมกัน ออกแบบมาเพื่อใช้ประวัติการสนทนาในการสร้างคำพูดที่เป็นธรรมชาติและสอดคล้องกันมากขึ้น
โมเดลจัดการโทเค็น RVQ โดยตรง แต่แบ่งเป็น backbone ที่รับผิดชอบ codebook ลำดับที่ 0 และ audio decoder ขนาดเล็กที่กู้คืน codebook ที่เหลือ เพื่อหาสมดุลระหว่าง latency กับพลังในการแสดงออก
ฝึกโมเดล 3 ขนาดคือ Tiny, Small, Medium ด้วยข้อมูลเสียงสาธารณะประมาณ 1 ล้านชั่วโมง ซึ่งส่วนใหญ่เป็นภาษาอังกฤษ และเพิ่มการประเมินการออกเสียงคำพ้องรูปกับความสม่ำเสมอของการออกเสียง นอกเหนือจาก WER และความคล้ายคลึงของผู้พูด
เมื่อไม่มีบริบท ความชอบระหว่าง CSM-Medium กับเสียงจริงไม่แตกต่างชัดเจน แต่เมื่อให้ บริบทการสนทนา ผู้ประเมินยังชอบเสียงบันทึกจริงมากกว่าในฐานะการพูดต่อที่เหมาะสมกว่า แสดงว่ายังมีช่องว่างด้าน prosody ของการสนทนาอยู่

การมีตัวตนผ่านเสียงและเป้าหมาย

เป้าหมายของ Sesame คือการทำให้เสียงพูดรู้สึกเหมือนได้รับความเข้าใจและมีคุณค่าอย่างแท้จริง ด้วยการสร้าง การมีตัวตนผ่านเสียง
ผู้ช่วยเสียงดิจิทัลในปัจจุบันมักยังอยู่กับน้ำเสียงเป็นกลาง ทำให้หลังจากความแปลกใหม่ช่วงแรกหายไป ก็ใช้งานต่อในชีวิตประจำวันได้ยาก
องค์ประกอบที่จำเป็นสรุปได้เป็น 4 อย่าง
- ความฉลาดทางอารมณ์: อ่านและตอบสนองต่อบริบททางอารมณ์
- พลวัตของการสนทนา: จัดการจังหวะที่เป็นธรรมชาติ การหยุด การพูดแทรก และการเน้นเสียง
- การรับรู้บริบท: ปรับโทนและสไตล์ให้เหมาะกับสถานการณ์
- บุคลิกที่สม่ำเสมอ: รักษาการมีตัวตนที่น่าเชื่อถือและเหมาะสม
คู่สนทนาในเดโมปัจจุบันถูกปรับให้เน้นความเป็นมิตรและความสามารถในการแสดงออก ส่วนบุคลิก ความจำ ความสามารถในการแสดงออก และความเหมาะสมยังอยู่ระหว่างปรับปรุง

การกำหนดโจทย์ของ Conversational Speech Model

TTS แบบดั้งเดิมสร้างเสียงจากข้อความโดยตรง แต่ยังขาด การรับรู้บริบท ที่จำเป็นสำหรับบทสนทนาที่เป็นธรรมชาติ
แม้โมเดลล่าสุดจะสร้างเสียงเหมือนมนุษย์ได้ แต่วิธีพูดประโยคหนึ่งมีได้หลายแบบ และวิธีที่เหมาะกับสถานการณ์หนึ่ง ๆ มีเพียงบางส่วนเท่านั้น
หากไม่มีบริบทเพิ่มเติม เช่น โทน จังหวะ และประวัติการสนทนา โมเดลจะเลือกวิธีเปล่งเสียงที่เหมาะสมที่สุดได้ยาก
CSM จัดการปัญหานี้ด้วย การเรียนรู้แบบ multimodal end-to-end โดยให้ transformer ใช้ประวัติการสนทนาเพื่อสร้างเสียงที่เป็นธรรมชาติและสอดคล้องกันมากขึ้น
คุณสมบัติหลักมี 2 อย่าง
- ทำงานเป็นโมเดลขั้นตอนเดียว เพื่อเพิ่มประสิทธิภาพและพลังในการแสดงออก
- ใช้ชุดประเมินแยกต่างหากเพื่อวัดความก้าวหน้าด้านความสามารถเชิงบริบท ในสถานการณ์ที่การประเมินสาธารณะทั่วไปเริ่มอิ่มตัวแล้ว

โทเค็นเสียงและการออกแบบ RVQ

เพื่อโมเดลเสียงด้วย transformer ต้องแปลงคลื่นเสียงต่อเนื่องให้เป็นลำดับ โทเค็นเสียง แบบไม่ต่อเนื่อง
แนวทางสมัยใหม่มักใช้โทเค็น 2 ชนิด
- โทเค็นเชิงความหมาย: บีบอัดความหมายและลักษณะหน่วยเสียงไว้ แต่แลกกับการลดความเที่ยงตรงสูงของการแทนข้อมูล
- โทเค็นเชิงเสียง: เก็บข้อมูลเสียงที่ละเอียด ทำให้กู้คืนเสียงความเที่ยงตรงสูงได้ และรักษาคุณลักษณะอย่างตัวตนผู้พูดกับสีเสียง
วิธีทั่วไปคือโมเดลโทเค็นเชิงความหมายก่อน แล้วจึงสร้างเสียงด้วย RVQ หรือวิธีฐาน diffusion
วิธี 2 ขั้นตอนนี้ช่วยให้สังเคราะห์อย่างมีโครงสร้างได้ แต่สร้าง คอขวด เพราะโทเค็นเชิงความหมายต้องบรรจุ prosody ให้เพียงพอด้วย
วิธีฐาน RVQ ต้องจัดการ dependency ตามลำดับระหว่าง codebook ภายในเฟรมเดียวกัน
- delay pattern จะเลื่อน codebook ระดับสูงอย่างค่อยเป็นค่อยไป เพื่อ condition กับ codebook ระดับต่ำในเฟรมเดียวกัน
- หาก RVQ tokenizer มี codebook N ชุด จะต้องใช้ขั้นตอน backbone N ครั้งก่อนถอดรหัสชิ้นเสียงแรก ทำให้ time-to-first-audio แย่ลง
- เหมาะกับงานออฟไลน์อย่างหนังสือเสียง แต่ในสถานการณ์เรียลไทม์ latency จะเป็นปัญหา

โครงสร้างของ CSM และวิธี inference

CSM เป็น โมเดลข้อความ·เสียงแบบ multimodal ที่จัดการโทเค็น RVQ โดยตรง
โครงสร้างแบ่งเป็น autoregressive transformer 2 ตัว
- multimodal backbone ตัวแรก รับข้อความและเสียงเป็นอินพุตสลับกัน และโมเดล codebook ลำดับที่ 0
- audio decoder ตัวที่สอง ใช้ linear head แยกสำหรับแต่ละ codebook เพื่อโมเดล codebook ที่เหลืออีก N−1 ชุดและกู้คืนเสียง
decoder มีขนาดเล็กกว่า backbone มาก ทำให้สร้างเสียง latency ต่ำได้ ขณะยังรักษาโมเดลแบบ end-to-end
inference เป็นไปตามลำดับต่อไปนี้
- ป้อนโทเค็นข้อความและโทเค็นเสียงเข้า backbone ตามลำดับ
- backbone คาดการณ์ระดับ codebook ลำดับที่ 0
- decoder condition กับระดับลำดับที่ 0 แล้วสุ่มตัวอย่างระดับ 1 ถึง N−1
- โทเค็นเสียงที่กู้คืนแล้วจะถูกป้อนกลับเข้า backbone แบบ autoregressive สำหรับขั้นตอนถัดไป
- เมื่อสัญลักษณ์ audio EOT ปรากฏ การสร้างจะจบลง และในคำขอถัดไป เสียงแทรกระหว่างทาง เช่นคำพูดของผู้ใช้ จะถูกแทนด้วยโทเค็นเสียงและโทเค็นถอดเสียงข้อความ
transformer ทั้งสองเป็นรูปแบบดัดแปลงของสถาปัตยกรรม Llama และโทเค็นข้อความสร้างด้วย Llama tokenizer
เสียงประมวลผลด้วย Mimi ซึ่งเป็น split-RVQ tokenizer โดยที่ 12.5Hz จะสร้าง codebook เชิงความหมาย 1 ชุดและ codebook เชิงเสียง N−1 ชุดในแต่ละเฟรม
ตัวอย่างสำหรับฝึกเป็นรูปแบบที่ข้อความกับเสียงสลับกัน และตัวตนผู้พูดถูก encode โดยตรงไว้ในการแทนข้อความ

ประสิทธิภาพการฝึกและข้อมูล

ระหว่างการฝึก audio decoder ต้องประมวลผล effective batch size B×S และ codebook N ชุดแบบ autoregressive ทำให้เกิด ภาระหน่วยความจำ มาก
ภาระนี้ทำให้แม้แต่โมเดลขนาดเล็กก็ฝึกช้าลง และทำให้การขยายโมเดลกับการทดลองอย่างรวดเร็วทำได้ยาก
Sesame ใช้ compute amortization เพื่อลดคอขวด ขณะยังคงความเที่ยงตรงของ RVQ codebook ทั้งหมด
- audio decoder ถูกฝึกเฉพาะ subset แบบสุ่ม 1/16 ของเฟรมเสียง
- codebook ลำดับที่ 0 ถูกฝึกในทุกเฟรม
- ด้วยวิธีนี้ ไม่พบความแตกต่างที่รับรู้ได้ใน loss ของ audio decoder ระหว่างการฝึก
ชุดข้อมูลสร้างจากการถอดเสียง แยกผู้พูด แบ่งช่วง และกรองเสียงสาธารณะ
หลังการกรอง ข้อมูลมีประมาณ 1 ล้านชั่วโมง และส่วนใหญ่เป็นเสียงภาษาอังกฤษ
ขนาดโมเดลที่ฝึกมี 3 แบบ
- Tiny: backbone 1B, decoder 100M
- Small: backbone 3B, decoder 250M
- Medium: backbone 8B, decoder 300M
แต่ละโมเดลฝึก 5 epoch ด้วย sequence length 2048 หรือเทียบเท่าเสียงประมาณ 2 นาที

ตัวอย่างและกรอบการประเมิน

ตัวอย่างรวมองค์ประกอบกึ่งภาษา คำภาษาต่างประเทศ ความสามารถในการแสดงออกตามบริบท การแก้การออกเสียง และบทสนทนาหลายผู้พูด
ชุดการประเมินวัด 4 ด้าน
- ความเที่ยงตรงต่อข้อความ
- การใช้บริบท
- prosody
- เวลาแฝง
การประเมินเชิงวัตถุรวม WER, แบบทดสอบการออกเสียงใหม่ และความคล้ายคลึงของผู้พูด
การประเมินเชิงอัตวิสัยประกอบด้วยการประเมินโดยมนุษย์แบบ Comparative Mean Opinion Score(CMOS) โดยใช้ชุดข้อมูล Expresso
ใน benchmark ดั้งเดิมอย่าง WER และ speaker similarity โมเดลสมัยใหม่รวมถึง CSM ทำได้เกือบระดับมนุษย์ จึงใกล้ ภาวะอิ่มตัว

การประเมินการออกเสียงและความเข้าใจบริบท

benchmark ใหม่ที่อิงการถอดเสียงพูดถูกนำมาใช้เพื่อประเมินการออกเสียงและความเข้าใจบริบทได้ดีขึ้น
การแยกแยะคำพ้องรูป ประเมินว่าสามารถออกเสียงคำที่สะกดเหมือนกันแต่เสียงต่างกันได้ถูกต้องหรือไม่
- ตัวอย่างคือการแยกแยะว่า “lead” เป็น /lɛd/ ในความหมายโลหะ หรือ /liːd/ ในความหมายว่านำ
ความสม่ำเสมอของการออกเสียงในการพูดต่อ ประเมินว่าคำที่มีรูปแบบการออกเสียงได้หลายแบบยังคงสม่ำเสมอในการพูดหลายเทิร์นหรือไม่
- ตัวอย่างคือ “route” ที่อาจออกเสียงต่างกันเป็น /raʊt/ หรือ /ruːt/
การประเมินความแม่นยำของคำพ้องรูปทำกับตัวอย่างเสียง 200 ตัวอย่าง ซึ่งมีคำ 5 คำคือ lead, bass, tear, wound, row โดยแต่ละคำมี 2 รูปแบบ
การประเมินความสม่ำเสมอของการออกเสียงทำกับตัวอย่างเสียง 200 ตัวอย่าง ซึ่งมีคำ 10 คำ ได้แก่ aunt, data, envelope, mobile, route, vase, either, adult, often, caramel
การประเมินใช้ wav2vec2-lv-60-espeak-cv-ft
ผลลัพธ์ที่สร้างโดย Play.ht, Elevenlabs และ OpenAI ทำด้วยการตั้งค่าเริ่มต้นและเสียงเริ่มต้นตามเอกสาร API ของแต่ละราย
โดยรวม ยิ่งโมเดลมีขนาดใหญ่ ประสิทธิภาพยิ่งดีขึ้น สนับสนุนสมมติฐานว่า scaling ช่วยให้การสังเคราะห์เสียงสมจริงยิ่งขึ้น

ผลการประเมินโดยมนุษย์

เพื่อประเมินความเป็นธรรมชาติและความเหมาะสมของ prosody ของ CSM-Medium ได้ทำการศึกษา CMOS 2 ครั้งด้วยชุดข้อมูล Expresso
ผู้ประเมินฟังเสียงที่โมเดลสร้างกับเสียงบันทึกมนุษย์จริงเป็นคู่ แล้วให้คะแนนตัวอย่างที่สร้างเมื่อเทียบกับตัวอ้างอิงบนสเกลความชอบ 7 ระดับ
การศึกษาครั้งแรกนำเสนอตัวอย่างที่สร้างและตัวอย่างมนุษย์โดยไม่มีบริบท แล้วให้เลือก “เสียงใดรู้สึกเหมือนเสียงมนุษย์มากกว่า”
การศึกษาครั้งที่สองให้บริบทเสียงและข้อความก่อนหน้า 90 วินาที แล้วให้เลือก “เสียงใดรู้สึกเหมือนการพูดต่อของบทสนทนาที่เหมาะสมกว่า”
มีผู้เข้าร่วมแบบได้รับค่าตอบแทน 80 คน และแต่ละคนประเมินตัวอย่างเฉลี่ย 15 ตัวอย่าง
เมื่อไม่มีบริบท ผู้ประเมินไม่แสดงความชอบชัดเจนระหว่างเสียงที่สร้างกับเสียงจริง บ่งชี้ว่าการประเมินความเป็นธรรมชาติอยู่ในภาวะอิ่มตัว
เมื่อมีบริบท ผู้ประเมินเลือกเสียงบันทึกต้นฉบับอย่างสม่ำเสมอ แสดงว่ายังมี ช่องว่าง กับ prosody แบบมนุษย์ในการสร้างเสียงสนทนา

แผนการเผยแพร่และข้อจำกัด

Sesame วางแผนเปิดซอร์สองค์ประกอบหลักของงานวิจัย และโมเดลจะให้ใช้ภายใต้ไลเซนส์ Apache 2.0
สามารถติดตามอัปเดตและการมีส่วนร่วมได้ที่ GitHub repository SesameAILabs/csm
CSM ปัจจุบันฝึกด้วยข้อมูลภาษาอังกฤษเป็นหลัก
- แม้จะมีความสามารถหลายภาษาบางส่วนจากการปนเปื้อนของข้อมูล แต่ยังทำงานได้ไม่ดี
- ยังไม่ได้ใช้ข้อมูลที่อยู่ในน้ำหนักของโมเดลภาษาที่ผ่านการ pretrain
ในอีกไม่กี่เดือนข้างหน้า มีแผนขยายขนาดโมเดล เพิ่มขนาดชุดข้อมูล และขยายการรองรับเป็นมากกว่า 20 ภาษา
จะสำรวจวิธีใช้โมเดลภาษาที่ผ่านการ pretrain ด้วย โดยมีเป้าหมายเป็นโมเดล multimodal ขนาดใหญ่ที่มีความรู้เชิงลึกทั้งด้านเสียงและข้อความ
CSM สร้าง prosody การสนทนาคุณภาพสูง แต่โมเดลเฉพาะเนื้อหาข้อความและเสียงของการสนทนาเท่านั้น ไม่ได้โมเดลโครงสร้างของการสนทนาเอง
บทสนทนาของมนุษย์เป็นกระบวนการซับซ้อนที่รวมการผลัดเทิร์น การหยุด และการปรับความเร็ว ดังนั้น AI สนทนาในอนาคตจึงใกล้เคียงกับ โมเดล fully duplex ที่เรียนรู้พลวัตเหล่านี้โดยนัยจากข้อมูล
โมเดล fully duplex ต้องการการเปลี่ยนแปลงพื้นฐานตลอดทั้ง stack ตั้งแต่การคัดสรรข้อมูลไปจนถึงวิธีวิทยาหลังการฝึก

ก้าวข้ามหุบเหวความรู้สึกประหลาดของเสียงสนทนา

การมีตัวตนผ่านเสียงและเป้าหมาย

การกำหนดโจทย์ของ Conversational Speech Model

โทเค็นเสียงและการออกแบบ RVQ

โครงสร้างของ CSM และวิธี inference

ประสิทธิภาพการฝึกและข้อมูล

ตัวอย่างและกรอบการประเมิน

การประเมินการออกเสียงและความเข้าใจบริบท

ผลการประเมินโดยมนุษย์

แผนการเผยแพร่และข้อจำกัด

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น