ก้าวข้ามหุบเหวความรู้สึกประหลาดของเสียงสนทนา
(sesame.com)- สำหรับผู้ช่วยเสียงดิจิทัลที่จะถูกใช้งานต่อเนื่องยาวนาน การมีตัวตนผ่านเสียง (voice presence) ที่สะท้อนอารมณ์ จังหวะ และบริบท สำคัญกว่าเสียงสังเคราะห์ที่ใสสะอาด และ Sesame เสนอ Conversational Speech Model เพื่อสิ่งนี้
- CSM เป็น multimodal transformer แบบ end-to-end ที่ประมวลผลข้อความและเสียงร่วมกัน ออกแบบมาเพื่อใช้ประวัติการสนทนาในการสร้างคำพูดที่เป็นธรรมชาติและสอดคล้องกันมากขึ้น
- โมเดลจัดการโทเค็น RVQ โดยตรง แต่แบ่งเป็น backbone ที่รับผิดชอบ codebook ลำดับที่ 0 และ audio decoder ขนาดเล็กที่กู้คืน codebook ที่เหลือ เพื่อหาสมดุลระหว่าง latency กับพลังในการแสดงออก
- ฝึกโมเดล 3 ขนาดคือ Tiny, Small, Medium ด้วยข้อมูลเสียงสาธารณะประมาณ 1 ล้านชั่วโมง ซึ่งส่วนใหญ่เป็นภาษาอังกฤษ และเพิ่มการประเมินการออกเสียงคำพ้องรูปกับความสม่ำเสมอของการออกเสียง นอกเหนือจาก WER และความคล้ายคลึงของผู้พูด
- เมื่อไม่มีบริบท ความชอบระหว่าง CSM-Medium กับเสียงจริงไม่แตกต่างชัดเจน แต่เมื่อให้ บริบทการสนทนา ผู้ประเมินยังชอบเสียงบันทึกจริงมากกว่าในฐานะการพูดต่อที่เหมาะสมกว่า แสดงว่ายังมีช่องว่างด้าน prosody ของการสนทนาอยู่
การมีตัวตนผ่านเสียงและเป้าหมาย
- เป้าหมายของ Sesame คือการทำให้เสียงพูดรู้สึกเหมือนได้รับความเข้าใจและมีคุณค่าอย่างแท้จริง ด้วยการสร้าง การมีตัวตนผ่านเสียง
- ผู้ช่วยเสียงดิจิทัลในปัจจุบันมักยังอยู่กับน้ำเสียงเป็นกลาง ทำให้หลังจากความแปลกใหม่ช่วงแรกหายไป ก็ใช้งานต่อในชีวิตประจำวันได้ยาก
- องค์ประกอบที่จำเป็นสรุปได้เป็น 4 อย่าง
- ความฉลาดทางอารมณ์: อ่านและตอบสนองต่อบริบททางอารมณ์
- พลวัตของการสนทนา: จัดการจังหวะที่เป็นธรรมชาติ การหยุด การพูดแทรก และการเน้นเสียง
- การรับรู้บริบท: ปรับโทนและสไตล์ให้เหมาะกับสถานการณ์
- บุคลิกที่สม่ำเสมอ: รักษาการมีตัวตนที่น่าเชื่อถือและเหมาะสม
- คู่สนทนาในเดโมปัจจุบันถูกปรับให้เน้นความเป็นมิตรและความสามารถในการแสดงออก ส่วนบุคลิก ความจำ ความสามารถในการแสดงออก และความเหมาะสมยังอยู่ระหว่างปรับปรุง
การกำหนดโจทย์ของ Conversational Speech Model
- TTS แบบดั้งเดิมสร้างเสียงจากข้อความโดยตรง แต่ยังขาด การรับรู้บริบท ที่จำเป็นสำหรับบทสนทนาที่เป็นธรรมชาติ
- แม้โมเดลล่าสุดจะสร้างเสียงเหมือนมนุษย์ได้ แต่วิธีพูดประโยคหนึ่งมีได้หลายแบบ และวิธีที่เหมาะกับสถานการณ์หนึ่ง ๆ มีเพียงบางส่วนเท่านั้น
- หากไม่มีบริบทเพิ่มเติม เช่น โทน จังหวะ และประวัติการสนทนา โมเดลจะเลือกวิธีเปล่งเสียงที่เหมาะสมที่สุดได้ยาก
- CSM จัดการปัญหานี้ด้วย การเรียนรู้แบบ multimodal end-to-end โดยให้ transformer ใช้ประวัติการสนทนาเพื่อสร้างเสียงที่เป็นธรรมชาติและสอดคล้องกันมากขึ้น
- คุณสมบัติหลักมี 2 อย่าง
- ทำงานเป็นโมเดลขั้นตอนเดียว เพื่อเพิ่มประสิทธิภาพและพลังในการแสดงออก
- ใช้ชุดประเมินแยกต่างหากเพื่อวัดความก้าวหน้าด้านความสามารถเชิงบริบท ในสถานการณ์ที่การประเมินสาธารณะทั่วไปเริ่มอิ่มตัวแล้ว
โทเค็นเสียงและการออกแบบ RVQ
- เพื่อโมเดลเสียงด้วย transformer ต้องแปลงคลื่นเสียงต่อเนื่องให้เป็นลำดับ โทเค็นเสียง แบบไม่ต่อเนื่อง
- แนวทางสมัยใหม่มักใช้โทเค็น 2 ชนิด
- โทเค็นเชิงความหมาย: บีบอัดความหมายและลักษณะหน่วยเสียงไว้ แต่แลกกับการลดความเที่ยงตรงสูงของการแทนข้อมูล
- โทเค็นเชิงเสียง: เก็บข้อมูลเสียงที่ละเอียด ทำให้กู้คืนเสียงความเที่ยงตรงสูงได้ และรักษาคุณลักษณะอย่างตัวตนผู้พูดกับสีเสียง
- วิธีทั่วไปคือโมเดลโทเค็นเชิงความหมายก่อน แล้วจึงสร้างเสียงด้วย RVQ หรือวิธีฐาน diffusion
- วิธี 2 ขั้นตอนนี้ช่วยให้สังเคราะห์อย่างมีโครงสร้างได้ แต่สร้าง คอขวด เพราะโทเค็นเชิงความหมายต้องบรรจุ prosody ให้เพียงพอด้วย
- วิธีฐาน RVQ ต้องจัดการ dependency ตามลำดับระหว่าง codebook ภายในเฟรมเดียวกัน
- delay pattern จะเลื่อน codebook ระดับสูงอย่างค่อยเป็นค่อยไป เพื่อ condition กับ codebook ระดับต่ำในเฟรมเดียวกัน
- หาก RVQ tokenizer มี codebook N ชุด จะต้องใช้ขั้นตอน backbone N ครั้งก่อนถอดรหัสชิ้นเสียงแรก ทำให้ time-to-first-audio แย่ลง
- เหมาะกับงานออฟไลน์อย่างหนังสือเสียง แต่ในสถานการณ์เรียลไทม์ latency จะเป็นปัญหา
โครงสร้างของ CSM และวิธี inference
- CSM เป็น โมเดลข้อความ·เสียงแบบ multimodal ที่จัดการโทเค็น RVQ โดยตรง
- โครงสร้างแบ่งเป็น autoregressive transformer 2 ตัว
- multimodal backbone ตัวแรก รับข้อความและเสียงเป็นอินพุตสลับกัน และโมเดล codebook ลำดับที่ 0
- audio decoder ตัวที่สอง ใช้ linear head แยกสำหรับแต่ละ codebook เพื่อโมเดล codebook ที่เหลืออีก N−1 ชุดและกู้คืนเสียง
- decoder มีขนาดเล็กกว่า backbone มาก ทำให้สร้างเสียง latency ต่ำได้ ขณะยังรักษาโมเดลแบบ end-to-end
- inference เป็นไปตามลำดับต่อไปนี้
- ป้อนโทเค็นข้อความและโทเค็นเสียงเข้า backbone ตามลำดับ
- backbone คาดการณ์ระดับ codebook ลำดับที่ 0
- decoder condition กับระดับลำดับที่ 0 แล้วสุ่มตัวอย่างระดับ 1 ถึง N−1
- โทเค็นเสียงที่กู้คืนแล้วจะถูกป้อนกลับเข้า backbone แบบ autoregressive สำหรับขั้นตอนถัดไป
- เมื่อสัญลักษณ์ audio EOT ปรากฏ การสร้างจะจบลง และในคำขอถัดไป เสียงแทรกระหว่างทาง เช่นคำพูดของผู้ใช้ จะถูกแทนด้วยโทเค็นเสียงและโทเค็นถอดเสียงข้อความ
- transformer ทั้งสองเป็นรูปแบบดัดแปลงของสถาปัตยกรรม Llama และโทเค็นข้อความสร้างด้วย Llama tokenizer
- เสียงประมวลผลด้วย Mimi ซึ่งเป็น split-RVQ tokenizer โดยที่ 12.5Hz จะสร้าง codebook เชิงความหมาย 1 ชุดและ codebook เชิงเสียง N−1 ชุดในแต่ละเฟรม
- ตัวอย่างสำหรับฝึกเป็นรูปแบบที่ข้อความกับเสียงสลับกัน และตัวตนผู้พูดถูก encode โดยตรงไว้ในการแทนข้อความ
ประสิทธิภาพการฝึกและข้อมูล
- ระหว่างการฝึก audio decoder ต้องประมวลผล effective batch size B×S และ codebook N ชุดแบบ autoregressive ทำให้เกิด ภาระหน่วยความจำ มาก
- ภาระนี้ทำให้แม้แต่โมเดลขนาดเล็กก็ฝึกช้าลง และทำให้การขยายโมเดลกับการทดลองอย่างรวดเร็วทำได้ยาก
- Sesame ใช้ compute amortization เพื่อลดคอขวด ขณะยังคงความเที่ยงตรงของ RVQ codebook ทั้งหมด
- audio decoder ถูกฝึกเฉพาะ subset แบบสุ่ม 1/16 ของเฟรมเสียง
- codebook ลำดับที่ 0 ถูกฝึกในทุกเฟรม
- ด้วยวิธีนี้ ไม่พบความแตกต่างที่รับรู้ได้ใน loss ของ audio decoder ระหว่างการฝึก
- ชุดข้อมูลสร้างจากการถอดเสียง แยกผู้พูด แบ่งช่วง และกรองเสียงสาธารณะ
- หลังการกรอง ข้อมูลมีประมาณ 1 ล้านชั่วโมง และส่วนใหญ่เป็นเสียงภาษาอังกฤษ
- ขนาดโมเดลที่ฝึกมี 3 แบบ
- Tiny: backbone 1B, decoder 100M
- Small: backbone 3B, decoder 250M
- Medium: backbone 8B, decoder 300M
- แต่ละโมเดลฝึก 5 epoch ด้วย sequence length 2048 หรือเทียบเท่าเสียงประมาณ 2 นาที
ตัวอย่างและกรอบการประเมิน
- ตัวอย่างรวมองค์ประกอบกึ่งภาษา คำภาษาต่างประเทศ ความสามารถในการแสดงออกตามบริบท การแก้การออกเสียง และบทสนทนาหลายผู้พูด
- ชุดการประเมินวัด 4 ด้าน
- ความเที่ยงตรงต่อข้อความ
- การใช้บริบท
- prosody
- เวลาแฝง
- การประเมินเชิงวัตถุรวม WER, แบบทดสอบการออกเสียงใหม่ และความคล้ายคลึงของผู้พูด
- การประเมินเชิงอัตวิสัยประกอบด้วยการประเมินโดยมนุษย์แบบ Comparative Mean Opinion Score(CMOS) โดยใช้ชุดข้อมูล Expresso
- ใน benchmark ดั้งเดิมอย่าง WER และ speaker similarity โมเดลสมัยใหม่รวมถึง CSM ทำได้เกือบระดับมนุษย์ จึงใกล้ ภาวะอิ่มตัว
การประเมินการออกเสียงและความเข้าใจบริบท
- benchmark ใหม่ที่อิงการถอดเสียงพูดถูกนำมาใช้เพื่อประเมินการออกเสียงและความเข้าใจบริบทได้ดีขึ้น
- การแยกแยะคำพ้องรูป ประเมินว่าสามารถออกเสียงคำที่สะกดเหมือนกันแต่เสียงต่างกันได้ถูกต้องหรือไม่
- ตัวอย่างคือการแยกแยะว่า “lead” เป็น /lɛd/ ในความหมายโลหะ หรือ /liːd/ ในความหมายว่านำ
- ความสม่ำเสมอของการออกเสียงในการพูดต่อ ประเมินว่าคำที่มีรูปแบบการออกเสียงได้หลายแบบยังคงสม่ำเสมอในการพูดหลายเทิร์นหรือไม่
- ตัวอย่างคือ “route” ที่อาจออกเสียงต่างกันเป็น /raʊt/ หรือ /ruːt/
- การประเมินความแม่นยำของคำพ้องรูปทำกับตัวอย่างเสียง 200 ตัวอย่าง ซึ่งมีคำ 5 คำคือ lead, bass, tear, wound, row โดยแต่ละคำมี 2 รูปแบบ
- การประเมินความสม่ำเสมอของการออกเสียงทำกับตัวอย่างเสียง 200 ตัวอย่าง ซึ่งมีคำ 10 คำ ได้แก่ aunt, data, envelope, mobile, route, vase, either, adult, often, caramel
- การประเมินใช้ wav2vec2-lv-60-espeak-cv-ft
- ผลลัพธ์ที่สร้างโดย Play.ht, Elevenlabs และ OpenAI ทำด้วยการตั้งค่าเริ่มต้นและเสียงเริ่มต้นตามเอกสาร API ของแต่ละราย
- โดยรวม ยิ่งโมเดลมีขนาดใหญ่ ประสิทธิภาพยิ่งดีขึ้น สนับสนุนสมมติฐานว่า scaling ช่วยให้การสังเคราะห์เสียงสมจริงยิ่งขึ้น
ผลการประเมินโดยมนุษย์
- เพื่อประเมินความเป็นธรรมชาติและความเหมาะสมของ prosody ของ CSM-Medium ได้ทำการศึกษา CMOS 2 ครั้งด้วยชุดข้อมูล Expresso
- ผู้ประเมินฟังเสียงที่โมเดลสร้างกับเสียงบันทึกมนุษย์จริงเป็นคู่ แล้วให้คะแนนตัวอย่างที่สร้างเมื่อเทียบกับตัวอ้างอิงบนสเกลความชอบ 7 ระดับ
- การศึกษาครั้งแรกนำเสนอตัวอย่างที่สร้างและตัวอย่างมนุษย์โดยไม่มีบริบท แล้วให้เลือก “เสียงใดรู้สึกเหมือนเสียงมนุษย์มากกว่า”
- การศึกษาครั้งที่สองให้บริบทเสียงและข้อความก่อนหน้า 90 วินาที แล้วให้เลือก “เสียงใดรู้สึกเหมือนการพูดต่อของบทสนทนาที่เหมาะสมกว่า”
- มีผู้เข้าร่วมแบบได้รับค่าตอบแทน 80 คน และแต่ละคนประเมินตัวอย่างเฉลี่ย 15 ตัวอย่าง
- เมื่อไม่มีบริบท ผู้ประเมินไม่แสดงความชอบชัดเจนระหว่างเสียงที่สร้างกับเสียงจริง บ่งชี้ว่าการประเมินความเป็นธรรมชาติอยู่ในภาวะอิ่มตัว
- เมื่อมีบริบท ผู้ประเมินเลือกเสียงบันทึกต้นฉบับอย่างสม่ำเสมอ แสดงว่ายังมี ช่องว่าง กับ prosody แบบมนุษย์ในการสร้างเสียงสนทนา
แผนการเผยแพร่และข้อจำกัด
- Sesame วางแผนเปิดซอร์สองค์ประกอบหลักของงานวิจัย และโมเดลจะให้ใช้ภายใต้ไลเซนส์ Apache 2.0
- สามารถติดตามอัปเดตและการมีส่วนร่วมได้ที่ GitHub repository SesameAILabs/csm
- CSM ปัจจุบันฝึกด้วยข้อมูลภาษาอังกฤษเป็นหลัก
- แม้จะมีความสามารถหลายภาษาบางส่วนจากการปนเปื้อนของข้อมูล แต่ยังทำงานได้ไม่ดี
- ยังไม่ได้ใช้ข้อมูลที่อยู่ในน้ำหนักของโมเดลภาษาที่ผ่านการ pretrain
- ในอีกไม่กี่เดือนข้างหน้า มีแผนขยายขนาดโมเดล เพิ่มขนาดชุดข้อมูล และขยายการรองรับเป็นมากกว่า 20 ภาษา
- จะสำรวจวิธีใช้โมเดลภาษาที่ผ่านการ pretrain ด้วย โดยมีเป้าหมายเป็นโมเดล multimodal ขนาดใหญ่ที่มีความรู้เชิงลึกทั้งด้านเสียงและข้อความ
- CSM สร้าง prosody การสนทนาคุณภาพสูง แต่โมเดลเฉพาะเนื้อหาข้อความและเสียงของการสนทนาเท่านั้น ไม่ได้โมเดลโครงสร้างของการสนทนาเอง
- บทสนทนาของมนุษย์เป็นกระบวนการซับซ้อนที่รวมการผลัดเทิร์น การหยุด และการปรับความเร็ว ดังนั้น AI สนทนาในอนาคตจึงใกล้เคียงกับ โมเดล fully duplex ที่เรียนรู้พลวัตเหล่านี้โดยนัยจากข้อมูล
- โมเดล fully duplex ต้องการการเปลี่ยนแปลงพื้นฐานตลอดทั้ง stack ตั้งแต่การคัดสรรข้อมูลไปจนถึงวิธีวิทยาหลังการฝึก
ยังไม่มีความคิดเห็น