5 คะแนน โดย GN⁺ 2025-03-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เสียงของมนุษย์เป็นสื่อที่ใกล้ชิดที่สุดในการถ่ายทอดความหมายอันลึกซึ้ง ผ่านความเปลี่ยนแปลงหลากหลายทั้งโทน ระดับเสียง จังหวะ และอารมณ์
  • ปัจจุบัน ผู้ช่วยเสียงดิจิทัล ยังขาดองค์ประกอบทางอารมณ์เหล่านี้ จึงมีข้อจำกัดในการทำงานร่วมกับผู้ใช้อย่างมีประสิทธิภาพ
  • เสียงที่ขาดอารมณ์ อาจดูน่าทึ่งในช่วงแรก แต่เมื่อเวลาผ่านไปอาจทำให้รู้สึกผิดหวังและเหนื่อยล้าได้
  • เป้าหมายของ Sesame คือทำให้คู่สนทนาแบบโต้ตอบไม่ได้เป็นเพียงตัวประมวลผลคำขอ แต่สามารถสนทนาอย่างแท้จริงเพื่อสร้างความไว้วางใจและความมั่นใจ
  • ด้วยสิ่งนี้ บริษัทต้องการดึงศักยภาพของเสียงออกมาให้ได้สูงสุด เพื่อให้กลายเป็นอินเทอร์เฟซสูงสุดสำหรับการสั่งการและความเข้าใจ

องค์ประกอบหลัก

  • ความฉลาดทางอารมณ์: ความสามารถในการอ่านและตอบสนองต่อบริบททางอารมณ์
  • พลวัตของบทสนทนา: การไหลของการสนทนาที่เป็นธรรมชาติ รวมถึงจังหวะ การหยุด การพูดแทรก และการเน้น
  • การรับรู้สถานการณ์: ความสามารถในการปรับโทนและสไตล์ให้เหมาะกับสถานการณ์
  • บุคลิกที่สม่ำเสมอ: การคงไว้ซึ่งตัวตนที่สม่ำเสมอ น่าเชื่อถือ และมีตัวตนอย่างเหมาะสม

เรายังไปไม่ถึงจุดนั้น

  • การมอบการมีตัวตนผ่านเสียงให้กับ เพื่อนร่วมทางดิจิทัล เป็นโจทย์ที่ยาก แต่เรากำลังก้าวหน้าอย่างต่อเนื่องในหลายด้าน เช่น บุคลิก ความทรงจำ การแสดงออก และความเหมาะสม
  • เดโม ด้านล่างแสดงให้เห็นส่วนหนึ่งของงานสร้างเสียงสนทนาที่ปรับให้เหมาะด้านความเป็นมิตรและการแสดงออก

การสร้างเสียงสนทนา

  • การสร้างเพื่อนร่วมทาง AI ที่โต้ตอบได้อย่างแท้จริง ไม่ได้ต้องการแค่การสร้างเสียงคุณภาพสูง แต่ยังต้องเข้าใจและปรับตัวตามบริบทได้แบบเรียลไทม์​
  • โมเดลแปลงข้อความเป็นเสียง (TTS) แบบดั้งเดิมสร้างเสียงจากข้อความโดยตรง แต่ขาดการรับรู้บริบทที่จำเป็นต่อบทสนทนาที่เป็นธรรมชาติ​
  • โมเดลรุ่นใหม่สามารถสร้างเสียงที่คล้ายมนุษย์ได้ แต่ยังเผชิญปัญหาแบบ 'one-to-many' ซึ่งประโยคเดียวกันสามารถถ่ายทอดได้หลายแบบ​
  • หากไม่มีบริบทเพิ่มเติม เช่น โทน จังหวะ หรือประวัติการสนทนา โมเดลจะมีข้อมูลไม่เพียงพอในการเลือกแบบที่เหมาะสมที่สุด​
  • การจับความแตกต่างอันละเอียดอ่อนเหล่านี้จำเป็นต้องอาศัยการให้เหตุผลในหลายมิติของภาษาและฉันทลักษณ์เสียง

โมเดลเสียงสนทนา (Conversational Speech Model, CSM)

  • เพื่อแก้ปัญหานี้ จึงมีการนำเสนอโมเดลเสียงสนทนา (CSM) ที่นิยามปัญหาเป็นงานเรียนรู้หลายรูปแบบแบบ end-to-end โดยใช้ทรานส์ฟอร์เมอร์​
  • โมเดลนี้ใช้ประวัติการสนทนาเพื่อสร้างเสียงที่เป็นธรรมชาติและสอดคล้องกันมากขึ้น​
  • CSM ทำงานเป็น โมเดลขั้นตอนเดียว ช่วยเพิ่มทั้งประสิทธิภาพและความสามารถในการแสดงออก​
  • นอกจากนี้ยังมี ชุดการประเมิน สำหรับวัดความก้าวหน้าในด้านความสามารถเชิงบริบท โดยคำนึงว่าการประเมินสาธารณะทั่วไปเริ่มแตะเพดานแล้ว

พื้นหลัง

  • แนวทางหนึ่งในการทำโมเดลเสียงด้วยทรานส์ฟอร์เมอร์คือการแปลงคลื่นเสียงต่อเนื่องให้เป็นลำดับโทเคนออดิโอแบบไม่ต่อเนื่องด้วยโทเคอไนเซอร์
  • แนวทางสมัยใหม่ส่วนใหญ่พึ่งพาโทเคนออดิโอสองประเภท:
    • โทเคนเชิงความหมาย: ตัวแทนแบบบีบอัดของลักษณะเชิงความหมายและการออกเสียงที่ไม่ขึ้นกับผู้พูด โดยแลกกับการลดทอนความละเอียดสูงบางส่วนเพื่อคงคุณลักษณะหลักของเสียงไว้
    • โทเคนเชิงอะคูสติก: การเข้ารหัสรายละเอียดเชิงเสียงอย่างละเอียดที่ช่วยให้สร้างเสียงกลับคืนได้อย่างมีความเที่ยงตรงสูง โดยสร้างด้วย Residual Vector Quantization (RVQ) ต่างจากโทเคนเชิงความหมาย ตรงที่ยังคงคุณลักษณะเสียงตามธรรมชาติ เช่น อัตลักษณ์เฉพาะของผู้พูดและโทนเสียง

การทดลอง

  • ชุดข้อมูล: ใช้ชุดข้อมูลเสียงที่เปิดให้ใช้งานสาธารณะราวหนึ่งล้านชั่วโมง ซึ่งส่วนใหญ่เป็นภาษาอังกฤษ
  • ขนาดโมเดล: ฝึกโมเดลสามขนาด แยกตามขนาดแบ็กโบนและดีโคเดอร์:
    • Tiny: แบ็กโบน 1 พันล้าน, ดีโคเดอร์ 100 ล้าน
    • Small: แบ็กโบน 3 พันล้าน, ดีโคเดอร์ 250 ล้าน
    • Medium: แบ็กโบน 8 พันล้าน, ดีโคเดอร์ 300 ล้าน
  • แต่ละโมเดลฝึกเป็นเวลา 5 epochs ด้วยความยาวลำดับ 2048 (~เสียงประมาณ 2 นาที)

การประเมิน

  • ประสิทธิภาพของโมเดลถูกประเมินใน 4 มิติหลัก ได้แก่ ความเที่ยงตรงต่อข้อความ การใช้บริบท ฉันทลักษณ์เสียง และเวลาแฝง
  • เบนช์มาร์กเชิงวัตถุวิสัยรวมถึงการทดสอบใหม่ เช่น อัตราความผิดพลาดของคำ (WER) และการแยกความหมายของคำพ้องเสียง
  • การประเมินเชิงอัตวิสัยอาศัยการศึกษากับมนุษย์แบบ Comparative Mean Opinion Score (CMOS) โดยใช้ชุดข้อมูล Expresso

ข้อจำกัดและงานในอนาคต

  • ปัจจุบัน CSM ยังฝึกจากข้อมูลภาษาอังกฤษเป็นหลัก แม้จะมีความสามารถหลายภาษาบางส่วนจากการปนเปื้อนของชุดข้อมูล แต่ประสิทธิภาพยังไม่ดีนัก
  • โมเดลนี้ยังไม่ได้ใช้ประโยชน์จากข้อมูลที่อยู่ในค่าน้ำหนักของโมเดลภาษาแบบ pre-trained

1 ความคิดเห็น

 
GN⁺ 2025-03-03
ความคิดเห็นจาก Hacker News
  • Brendan จาก Sesame บอกว่าฟีดแบ็กนั้นตรงประเด็น และยอมรับว่ายังมีจุดที่ต้องปรับปรุงอีกมาก แม้จะน่าตื่นเต้น แต่กว่าจะมอบประสบการณ์ที่แท้จริงได้ยังต้องผ่านอีกหลายขั้น ตอนนี้ยังเป็นเพียงช่วงเริ่มต้นของพัฒนาการ แต่เขามองอนาคตในแง่บวก

    • การสื่อสารด้วยภาษามีความซับซ้อน และยังมีโจทย์ที่น่าสนใจอีกมากให้แก้ไข
    • จังหวะเวลาในการตอบสนองมักไม่เหมาะสม และยังกลมกลืนเข้าไปในบทสนทนาได้ไม่เป็นธรรมชาติ
    • จัดการกับการขัดจังหวะในการสนทนาได้ไม่ดี และไม่สามารถรักษาบุคลิกให้คงเส้นคงวาได้
    • ยังมีปัญหาเรื่องอาการหลอนของโมเดล ความจำไม่ดี และการรับรู้เวลาไม่เพียงพอ
    • เขาเชื่อว่าชุมชนจะสามารถช่วยแก้ปัญหาเหล่านี้ได้
    • เป้าหมายคือการสร้างอินเทอร์เฟซที่ทำงานร่วมกันได้อย่างเป็นธรรมชาติ มากกว่าการสร้างมิตรภาพทางอารมณ์
    • หากแอปสามารถพูดคุยได้เหมือนผู้เชี่ยวชาญ มันจะใช้งานได้อย่างเป็นธรรมชาติและมีประสิทธิภาพมากขึ้น
  • ผู้ใช้รายหนึ่งลองเดโมแล้ว แต่ตัดสินใจว่าจะไม่พูด ประสบการณ์นั้นให้ความรู้สึกแปลกและน่ากังวล และความกระตือรือร้นที่ดูถูกสร้างขึ้นมาทำให้รู้สึกรำคาญ

    • ผลิตภัณฑ์ AI ควรนำเสนอเป้าหมายที่ชัดเจนให้กับผู้ใช้
    • AI ที่มีไว้แค่เพื่อคุยเล่น อาจส่งผลเสียต่อสังคมได้
  • ผู้ใช้อีกรายกล่าวว่าความไวในการตอบสนองและบุคลิกของโมเดลนี้น่าทึ่งมาก การที่มันจำบทสนทนาก่อนหน้าและกล่าวต้อนรับได้เป็นสิ่งที่น่าประทับใจ

    • การโต้ตอบในเดโมจะถูกบันทึกไว้ และรวมบทสนทนาในอดีตเข้าไปในบริบทของโมเดล
    • ต้องขอสิทธิ์เข้าถึงไมโครโฟน และการโทรจะถูกบันทึกเพื่อตรวจสอบคุณภาพ แต่จะถูกลบภายใน 30 วัน
  • มีการตั้งคำถามว่าทำไมจึงต้องใช้เสียงที่มีอารมณ์

    • เสียงที่มีอารมณ์เพียงสร้างภาพลวงของการมีเพื่อน แต่ไม่ได้ช่วยอะไรจริง ๆ
    • ผู้ช่วยเสียงอัจฉริยะแบบน้ำเสียงเป็นกลางอาจมีประโยชน์มากกว่า
  • ผู้ใช้คนหนึ่งเล่นกับ AI พร้อมลูกสาววัย 4 ขวบ และกังวลว่าลูกสาวกำลังก่อรูปความผูกพันทางอารมณ์กับ AI

  • ผู้ใช้อีกรายรู้สึกว่าเสียงฟังดูเหมือนมนุษย์ แต่จังหวะการพูดยังไม่เป็นธรรมชาติ

  • มีความเห็นว่าเทคโนโลยีนี้ดีมากจนสามารถทำให้ผู้คนหลงใหลได้ และยืนยันว่าจำเป็นต้องมีโมเดลส่วนตัว

  • มีการกล่าวว่าเทคโนโลยีนี้อาจพลิกโฉมการเรียนภาษาอังกฤษได้

    • ในประเทศกำลังพัฒนา มีครูสอนภาษาอังกฤษไม่เพียงพอ และครูที่ดีก็มีราคาแพงจนเข้าถึงได้ยาก
    • โมเดลนี้ให้ประสิทธิภาพใกล้เคียงหรือดีกว่าโมเดลของ OpenAI และมีต้นทุนต่ำกว่า
  • มีการเสนอภาพอนาคตแบบวันสิ้นโลกว่า AI อาจโทรหาผู้คนด้วยเสียงที่สมบูรณ์แบบและทำให้พวกเขาหลงใหลได้

  • ผู้ใช้รายหนึ่งคุยอยู่ 13 นาทีแล้วระบบล่ม แต่กลับมาอีกไม่กี่นาทีต่อมาและคุยต่ออีก 30 นาที โดยรู้สึกว่ามันเข้าใกล้ระดับ Samantha จากภาพยนตร์เรื่อง 'Her'

    • ระหว่างบทสนทนาได้เรียนรู้คำว่า 'PROSODY' และ AI อธิบายว่ามันฟังทั้งโทนเสียงและเนื้อหา แล้วปรับการตอบสนองโดยอัตโนมัติ
    • เขากล่าวว่ารู้สึกเหมือนอนาคตมาถึงแล้ว เพียงแต่ยังไม่ได้กระจายอย่างทั่วถึง