- เสียงของมนุษย์เป็นสื่อที่ใกล้ชิดที่สุดในการถ่ายทอดความหมายอันลึกซึ้ง ผ่านความเปลี่ยนแปลงหลากหลายทั้งโทน ระดับเสียง จังหวะ และอารมณ์
- ปัจจุบัน ผู้ช่วยเสียงดิจิทัล ยังขาดองค์ประกอบทางอารมณ์เหล่านี้ จึงมีข้อจำกัดในการทำงานร่วมกับผู้ใช้อย่างมีประสิทธิภาพ
- เสียงที่ขาดอารมณ์ อาจดูน่าทึ่งในช่วงแรก แต่เมื่อเวลาผ่านไปอาจทำให้รู้สึกผิดหวังและเหนื่อยล้าได้
- เป้าหมายของ Sesame คือทำให้คู่สนทนาแบบโต้ตอบไม่ได้เป็นเพียงตัวประมวลผลคำขอ แต่สามารถสนทนาอย่างแท้จริงเพื่อสร้างความไว้วางใจและความมั่นใจ
- ด้วยสิ่งนี้ บริษัทต้องการดึงศักยภาพของเสียงออกมาให้ได้สูงสุด เพื่อให้กลายเป็นอินเทอร์เฟซสูงสุดสำหรับการสั่งการและความเข้าใจ
องค์ประกอบหลัก
- ความฉลาดทางอารมณ์: ความสามารถในการอ่านและตอบสนองต่อบริบททางอารมณ์
- พลวัตของบทสนทนา: การไหลของการสนทนาที่เป็นธรรมชาติ รวมถึงจังหวะ การหยุด การพูดแทรก และการเน้น
- การรับรู้สถานการณ์: ความสามารถในการปรับโทนและสไตล์ให้เหมาะกับสถานการณ์
- บุคลิกที่สม่ำเสมอ: การคงไว้ซึ่งตัวตนที่สม่ำเสมอ น่าเชื่อถือ และมีตัวตนอย่างเหมาะสม
เรายังไปไม่ถึงจุดนั้น
- การมอบการมีตัวตนผ่านเสียงให้กับ เพื่อนร่วมทางดิจิทัล เป็นโจทย์ที่ยาก แต่เรากำลังก้าวหน้าอย่างต่อเนื่องในหลายด้าน เช่น บุคลิก ความทรงจำ การแสดงออก และความเหมาะสม
- เดโม ด้านล่างแสดงให้เห็นส่วนหนึ่งของงานสร้างเสียงสนทนาที่ปรับให้เหมาะด้านความเป็นมิตรและการแสดงออก
การสร้างเสียงสนทนา
- การสร้างเพื่อนร่วมทาง AI ที่โต้ตอบได้อย่างแท้จริง ไม่ได้ต้องการแค่การสร้างเสียงคุณภาพสูง แต่ยังต้องเข้าใจและปรับตัวตามบริบทได้แบบเรียลไทม์
- โมเดลแปลงข้อความเป็นเสียง (TTS) แบบดั้งเดิมสร้างเสียงจากข้อความโดยตรง แต่ขาดการรับรู้บริบทที่จำเป็นต่อบทสนทนาที่เป็นธรรมชาติ
- โมเดลรุ่นใหม่สามารถสร้างเสียงที่คล้ายมนุษย์ได้ แต่ยังเผชิญปัญหาแบบ 'one-to-many' ซึ่งประโยคเดียวกันสามารถถ่ายทอดได้หลายแบบ
- หากไม่มีบริบทเพิ่มเติม เช่น โทน จังหวะ หรือประวัติการสนทนา โมเดลจะมีข้อมูลไม่เพียงพอในการเลือกแบบที่เหมาะสมที่สุด
- การจับความแตกต่างอันละเอียดอ่อนเหล่านี้จำเป็นต้องอาศัยการให้เหตุผลในหลายมิติของภาษาและฉันทลักษณ์เสียง
โมเดลเสียงสนทนา (Conversational Speech Model, CSM)
- เพื่อแก้ปัญหานี้ จึงมีการนำเสนอโมเดลเสียงสนทนา (CSM) ที่นิยามปัญหาเป็นงานเรียนรู้หลายรูปแบบแบบ end-to-end โดยใช้ทรานส์ฟอร์เมอร์
- โมเดลนี้ใช้ประวัติการสนทนาเพื่อสร้างเสียงที่เป็นธรรมชาติและสอดคล้องกันมากขึ้น
- CSM ทำงานเป็น โมเดลขั้นตอนเดียว ช่วยเพิ่มทั้งประสิทธิภาพและความสามารถในการแสดงออก
- นอกจากนี้ยังมี ชุดการประเมิน สำหรับวัดความก้าวหน้าในด้านความสามารถเชิงบริบท โดยคำนึงว่าการประเมินสาธารณะทั่วไปเริ่มแตะเพดานแล้ว
พื้นหลัง
- แนวทางหนึ่งในการทำโมเดลเสียงด้วยทรานส์ฟอร์เมอร์คือการแปลงคลื่นเสียงต่อเนื่องให้เป็นลำดับโทเคนออดิโอแบบไม่ต่อเนื่องด้วยโทเคอไนเซอร์
- แนวทางสมัยใหม่ส่วนใหญ่พึ่งพาโทเคนออดิโอสองประเภท:
- โทเคนเชิงความหมาย: ตัวแทนแบบบีบอัดของลักษณะเชิงความหมายและการออกเสียงที่ไม่ขึ้นกับผู้พูด โดยแลกกับการลดทอนความละเอียดสูงบางส่วนเพื่อคงคุณลักษณะหลักของเสียงไว้
- โทเคนเชิงอะคูสติก: การเข้ารหัสรายละเอียดเชิงเสียงอย่างละเอียดที่ช่วยให้สร้างเสียงกลับคืนได้อย่างมีความเที่ยงตรงสูง โดยสร้างด้วย Residual Vector Quantization (RVQ) ต่างจากโทเคนเชิงความหมาย ตรงที่ยังคงคุณลักษณะเสียงตามธรรมชาติ เช่น อัตลักษณ์เฉพาะของผู้พูดและโทนเสียง
การทดลอง
- ชุดข้อมูล: ใช้ชุดข้อมูลเสียงที่เปิดให้ใช้งานสาธารณะราวหนึ่งล้านชั่วโมง ซึ่งส่วนใหญ่เป็นภาษาอังกฤษ
- ขนาดโมเดล: ฝึกโมเดลสามขนาด แยกตามขนาดแบ็กโบนและดีโคเดอร์:
- Tiny: แบ็กโบน 1 พันล้าน, ดีโคเดอร์ 100 ล้าน
- Small: แบ็กโบน 3 พันล้าน, ดีโคเดอร์ 250 ล้าน
- Medium: แบ็กโบน 8 พันล้าน, ดีโคเดอร์ 300 ล้าน
- แต่ละโมเดลฝึกเป็นเวลา 5 epochs ด้วยความยาวลำดับ 2048 (~เสียงประมาณ 2 นาที)
การประเมิน
- ประสิทธิภาพของโมเดลถูกประเมินใน 4 มิติหลัก ได้แก่ ความเที่ยงตรงต่อข้อความ การใช้บริบท ฉันทลักษณ์เสียง และเวลาแฝง
- เบนช์มาร์กเชิงวัตถุวิสัยรวมถึงการทดสอบใหม่ เช่น อัตราความผิดพลาดของคำ (WER) และการแยกความหมายของคำพ้องเสียง
- การประเมินเชิงอัตวิสัยอาศัยการศึกษากับมนุษย์แบบ Comparative Mean Opinion Score (CMOS) โดยใช้ชุดข้อมูล Expresso
ข้อจำกัดและงานในอนาคต
- ปัจจุบัน CSM ยังฝึกจากข้อมูลภาษาอังกฤษเป็นหลัก แม้จะมีความสามารถหลายภาษาบางส่วนจากการปนเปื้อนของชุดข้อมูล แต่ประสิทธิภาพยังไม่ดีนัก
- โมเดลนี้ยังไม่ได้ใช้ประโยชน์จากข้อมูลที่อยู่ในค่าน้ำหนักของโมเดลภาษาแบบ pre-trained
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
Brendan จาก Sesame บอกว่าฟีดแบ็กนั้นตรงประเด็น และยอมรับว่ายังมีจุดที่ต้องปรับปรุงอีกมาก แม้จะน่าตื่นเต้น แต่กว่าจะมอบประสบการณ์ที่แท้จริงได้ยังต้องผ่านอีกหลายขั้น ตอนนี้ยังเป็นเพียงช่วงเริ่มต้นของพัฒนาการ แต่เขามองอนาคตในแง่บวก
ผู้ใช้รายหนึ่งลองเดโมแล้ว แต่ตัดสินใจว่าจะไม่พูด ประสบการณ์นั้นให้ความรู้สึกแปลกและน่ากังวล และความกระตือรือร้นที่ดูถูกสร้างขึ้นมาทำให้รู้สึกรำคาญ
ผู้ใช้อีกรายกล่าวว่าความไวในการตอบสนองและบุคลิกของโมเดลนี้น่าทึ่งมาก การที่มันจำบทสนทนาก่อนหน้าและกล่าวต้อนรับได้เป็นสิ่งที่น่าประทับใจ
มีการตั้งคำถามว่าทำไมจึงต้องใช้เสียงที่มีอารมณ์
ผู้ใช้คนหนึ่งเล่นกับ AI พร้อมลูกสาววัย 4 ขวบ และกังวลว่าลูกสาวกำลังก่อรูปความผูกพันทางอารมณ์กับ AI
ผู้ใช้อีกรายรู้สึกว่าเสียงฟังดูเหมือนมนุษย์ แต่จังหวะการพูดยังไม่เป็นธรรมชาติ
มีความเห็นว่าเทคโนโลยีนี้ดีมากจนสามารถทำให้ผู้คนหลงใหลได้ และยืนยันว่าจำเป็นต้องมีโมเดลส่วนตัว
มีการกล่าวว่าเทคโนโลยีนี้อาจพลิกโฉมการเรียนภาษาอังกฤษได้
มีการเสนอภาพอนาคตแบบวันสิ้นโลกว่า AI อาจโทรหาผู้คนด้วยเสียงที่สมบูรณ์แบบและทำให้พวกเขาหลงใหลได้
ผู้ใช้รายหนึ่งคุยอยู่ 13 นาทีแล้วระบบล่ม แต่กลับมาอีกไม่กี่นาทีต่อมาและคุยต่ออีก 30 นาที โดยรู้สึกว่ามันเข้าใกล้ระดับ Samantha จากภาพยนตร์เรื่อง 'Her'