13 คะแนน โดย xguru 2024-11-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Voice AI ไม่ใช่แค่การอัปเกรด UI แบบง่าย ๆ แต่เป็นการปฏิวัติวิธีที่ธุรกิจเชื่อมต่อกับลูกค้า
    • เช่น งานบริการลูกค้าของสายการบินที่ต้องรอสายนาน ต้องเลือกเมนูซ้ำ ๆ และระบบไม่เข้าใจสถานการณ์ของลูกค้า ปัญหาไม่ได้ถูกแก้ แต่กลับสร้างความเครียดและเสียเวลาโดยไม่จำเป็น
    • Voice AI แตกต่างจากระบบ IVR (การตอบรับด้วยเสียงอัตโนมัติ) แบบเดิมที่แข็งทื่อ โดยสามารถมอบประสบการณ์ที่ สนทนาได้เหมือนมนุษย์และปรับแต่งประสบการณ์ลูกค้าให้เป็นรายบุคคล ได้ และให้บริการได้ตลอด 24 ชั่วโมง
      • เข้าใจสถานการณ์ของลูกค้าได้ทันทีและ เสนอทางเลือกที่เหมาะสมที่สุด
      • ตัวอย่าง: จองเที่ยวบินใหม่ให้อัตโนมัติเมื่อเที่ยวบินถูกยกเลิก หรือแนะนำทางเลือกตามความชอบของลูกค้า
      • ในบางสถานการณ์ ลูกค้าอาจชอบ AI agent มากกว่ามนุษย์ก็ได้
    • Voice AI ช่วยตอบสนองอุปสงค์และความคาดหวังของลูกค้าที่สูงขึ้น พร้อมเพิ่มประสิทธิภาพการดำเนินงาน
  • Voice AI คือการหลอมรวมกันของโมเดล AI แบบ voice-native และเทคโนโลยีมัลติโหมด

ตลาดขนาดมหาศาลของการสื่อสารด้วยเสียง

  • มนุษย์ชอบการพูดคุยมากกว่า:
    • มีการโทรศัพท์หลายพันล้านสายเกิดขึ้นทุกวัน
    • แม้ว่าข้อความ อีเมล และโซเชียลมีเดียจะกลายเป็นเรื่องปกติ แต่โทรศัพท์ก็ยังคงเป็น ช่องทางการสื่อสารหลัก ของหลายธุรกิจ
    • เป็นสิ่งจำเป็นในหลายอุตสาหกรรม เช่น การแพทย์ บริการกฎหมาย บริการภายในบ้าน ประกันภัย และโลจิสติกส์ สำหรับ การสื่อสารข้อมูลที่ซับซ้อน การให้บริการแบบเฉพาะบุคคล และการแก้ปัญหาเร่งด่วน
  • ปัญหาของการสื่อสารทางโทรศัพท์แบบเดิม
    • อัตราการรับสายไม่เพียงพอ:
      • 62% ของ SMB (ธุรกิจขนาดเล็กและกลาง) พลาดสายโทรศัพท์ จนไม่สามารถตอบสนองความต้องการของลูกค้าและสูญเสียโอกาสทางธุรกิจ
      • ปัญหาทั่วไป:
        • นอกเวลาทำการจะเปลี่ยนไปที่ระบบฝากข้อความเสียง
        • รับได้ทีละสายเท่านั้น
        • คุณภาพการให้บริการไม่สม่ำเสมอ
    • ข้อจำกัดทางเทคนิค:
      • ระบบ IVR (เริ่มใช้ในทศวรรษ 1970):
        • รองรับได้เฉพาะคำสั่งที่ตั้งค่าไว้ล่วงหน้า ขาดความยืดหยุ่น เช่น "กด 1 หากต้องการจอง" "พูดสั้น ๆ ถึงสิ่งที่คุณต้องการความช่วยเหลือ"
        • ไม่เข้าใจเจตนาหรือความเร่งด่วนของลูกค้า
      • ประสบการณ์ลูกค้าแย่ลง:
        • เวลารอสายนาน
        • การไล่เมนูที่ไม่มีประสิทธิภาพ
        • แก้ปัญหาไม่สำเร็จ
  • แม้จะมี ความต้องการสูง:
    • เทคโนโลยีเดิมยังมีข้อจำกัดในการ แก้ปัญหาของลูกค้าอย่างมีประสิทธิภาพและราบรื่น
    • จึงจำเป็นต้องมี เทคโนโลยีอัตโนมัติด้านเสียง ที่ก้าวหน้ากว่าเดิม

[ทำไมตอนนี้จึงเป็นช่วงเวลาที่เหมาะที่สุดในการพัฒนาเทคโนโลยี Voice]

วิวัฒนาการของเทคโนโลยีเสียง

  1. ระบบ IVR ยุคแรก:
  • เทคโนโลยี IVR (Interactive Voice Response) ที่เริ่มใช้ในทศวรรษ 1970:
    • รองรับได้เฉพาะคำสั่งที่ตั้งค่าไว้ล่วงหน้า
    • ไม่เข้าใจเจตนาและความเร่งด่วนของผู้ใช้
  • แม้จะเป็นเทคโนโลยีที่คนไม่ชอบ แต่ก็ยังเป็น ตลาดมูลค่า 5 พันล้านดอลลาร์
  1. การมาของเทคโนโลยี ASR/STT:
  • โมเดล ASR (Automatic Speech Recognition) และ STT (Speech-to-Text):
    • เทคโนโลยีที่แปลงเสียงเป็นข้อความแบบเรียลไทม์
    • การเกิดขึ้นของสตาร์ทอัพอย่าง Gong, Rev, DeepL
    • การเปิดตัว Whisper model ของ OpenAI (2022) และ Reverb ของ Rev (2024):
      • รองรับระบบสนทนาที่เป็นธรรมชาติซึ่งจัดการสำเนียง เสียงรบกวนพื้นหลัง และอารมณ์ได้
  1. นวัตกรรมล่าสุด: ความก้าวหน้าของ Voice AI:
  • การพัฒนาโมเดล Text-To-Speech (TTS) ที่สร้าง เสียงพูดซึ่งมีอารมณ์สมจริง:
    • บริษัทชั้นนำอย่าง Eleven Labs
  • ความสามารถแบบมัลติโหมด:
    • Google Gemini 1.5: ผสานเสียง ข้อความ และข้อมูลภาพ
    • Voice Engine ของ OpenAI: สร้างเสียงที่เลียนแบบการสนทนาของมนุษย์
  • การเปิดตัว GPT-4o:
    • การผสานเสียง วิดีโอ/ภาพ และข้อความแบบเนทีฟในเวลาจริง
    • รองรับการสนทนาที่ซับซ้อนและการตอบสนองอย่างชาญฉลาด

ความก้าวหน้าสำคัญ 2 ประการจากนวัตกรรมล่าสุด

  • การแพร่หลายของโมเดลคุณภาพสูงและการพัฒนาแอปพลิเคชัน:
    • ข้อจำกัดของสถาปัตยกรรมแบบ "cascading" เดิม:
      • ในกระบวนการแปลง STT → LLM → TTS เกิด ความหน่วง และ การสูญเสียข้อมูลที่ไม่ใช่ข้อความ
      • latency สูงทำให้ประสบการณ์ผู้ใช้แย่ลง
    • โมเดลใหม่:
      • GPT-4 Turbo: ลดความหน่วง
      • สามารถเลือกโมเดลให้เหมาะกับ use case ได้
  • การเติบโตของโมเดล Speech-to-Speech (STS):
    • ประมวลผลเสียงโดยตรง โดยไม่ต้องแปลงเป็นข้อความ:
      • ความหน่วงต่ำมาก: เวลาตอบสนองราว 300ms ทำให้สนทนาได้เป็นธรรมชาติ
      • เข้าใจบริบท: รักษาข้อมูลจากบทสนทนาก่อนหน้า เข้าใจเจตนาและอารมณ์
      • การรับรู้อารมณ์และน้ำเสียงดีขึ้น: ตอบสนองโดยสะท้อนอารมณ์และความรู้สึก
      • การตรวจจับกิจกรรมเสียงแบบเรียลไทม์: ผู้ใช้สนทนาได้โดยไม่ต้องหยุดชะงัก

โมเดลแบบ voice-native: อนาคตของเสียงสนทนา

  • ก้าวข้ามข้อจำกัดของสถาปัตยกรรมแบบ cascading:
    • โมเดล STS ที่ออกแบบเพื่อเสียงโดยเฉพาะ:
      • Kyutai Moshi: โมเดลโอเพนซอร์ส
      • Alibaba SenseVoice & CosyVoice: โมเดลเฉพาะทางด้านเสียง
      • Hume Empathetic Voice Interface: จัดการการตอบสนองเชิงอารมณ์
  • Realtime API ของ OpenAI:
    • รองรับการโต้ตอบแบบ Speech-to-Speech บนพื้นฐาน GPT-4o

ความท้าทายหลักของการยอมรับในอุตสาหกรรม

3 ปัจจัยหลักที่ขัดขวางการนำ voice agent ไปใช้

  • คุณภาพ (Quality):
    • voice AI agent จำนวนมากยัง ไม่เสถียรพอ ที่จะไว้วางใจได้ในหลาย use case
    • โดยทั่วไปองค์กรจะเริ่มทดลองใช้ voice agent ใน สภาพแวดล้อมที่มีความเสี่ยงต่ำ:
      • ตัวอย่าง: บริษัทซ่อมหลังคาขนาดเล็กใช้ agent รับสายหลังเวลาทำการ
      • เมื่อขยายไปสู่ use case มูลค่าสูง เกณฑ์ด้านคุณภาพก็ยิ่งเข้มงวดขึ้น
      • ตัวอย่าง: หากโทรศัพท์จากลูกค้าหนึ่งรายอาจนำไปสู่โครงการมูลค่า 30,000 ดอลลาร์ ความผิดพลาดของการสนทนาจะยอมรับได้น้อยมาก
  • ความไว้วางใจ (Trust):
    • ลูกค้าเคยมีประสบการณ์เชิงลบกับ เทคโนโลยี IVR มาแล้วจำนวนมาก:
      • ตอบสนองช้า โครงสร้างเมนูไม่มีประสิทธิภาพ และขาดการสนทนาที่เป็นธรรมชาติ
    • องค์กรจึงต้องสร้าง ความเชื่อมั่น ว่า AI จะจัดการความต้องการของลูกค้าได้อย่างถูกต้องและรวดเร็ว
  • ความน่าเชื่อถือ (Reliability):
    • ตัวอย่างข้อร้องเรียนหลัก:
      • สายหลุด: การโทรถูกตัดกลางคันทำให้ลูกค้าหงุดหงิด
      • Hallucination: AI ให้คำตอบที่ไม่ถูกต้องหรือหลุดประเด็น
      • latency: ใช้เวลาประมวลผลนานจนลูกค้าถอนตัว

ทิศทางการพัฒนาเพื่อแก้ปัญหา

  • ปรับ latency และความน่าเชื่อถือให้เหมาะสม:
    • มี developer platform เพิ่มขึ้นที่มอบโครงสร้างพื้นฐานซึ่ง เชื่อถือได้มากกว่า โดยเน้นลดความหน่วงและป้องกันบทสนทนาสะดุด
  • Fail Gracefully:
    • เมื่อการโทรล้มเหลว ต้อง กู้คืน flow ของบทสนทนา อย่างเป็นธรรมชาติ เพื่อลดการสะดุดของประสบการณ์ลูกค้า
  • การ orchestrate บทสนทนา:
    • ออกแบบให้ AI agent เดินตาม flow ที่คาดการณ์ได้: ลด hallucination, ตั้ง guardrail สำหรับข้อมูลและขอบเขตบทสนทนาที่จะสื่อสารกับลูกค้า

แผนที่ตลาด Voice AI

  • ตลาด Voice AI กำลังเกิดนวัตกรรมในหลายชั้น ตั้งแต่ foundation model, voice infrastructure, developer platform ไปจนถึง applications
  • โดยเฉพาะมีโอกาสที่น่าสนใจใน 3 ด้านหลักต่อไปนี้

1. โมเดล (Models)

  • บทบาท: สร้างเทคโนโลยีเพื่อรองรับ use case ด้านเสียง โดยเชี่ยวชาญเฉพาะทาง เช่น SST (Speech-to-Speech), LLS (Large Language Models), TTS (Text-to-Speech)
  • ทิศทางในอนาคต:
    • โมเดลมัลติโหมดและโมเดลแบบ voice-native จะเป็นผู้นำ
    • เทคโนโลยีที่สามารถ ประมวลผลเสียงโดยตรง โดยไม่ต้องสลับระหว่างข้อความกับเสียงจะมีความสำคัญ
  • โมเดลรุ่นถัดไป:
    • บริษัทอย่าง Cartesia กำลังบุกเบิกสถาปัตยกรรมใหม่โดยใช้ State Space Models (SSMs)
    • แยกงานสนทนาแบบง่ายให้โมเดลขนาดเล็ก และงานซับซ้อนให้โมเดลทรงพลัง เพื่อคาดหวัง ลด latency และต้นทุน

2. แพลตฟอร์มสำหรับนักพัฒนา (Developer Platforms)

  • การสร้าง voice AI agent และการจัดการโครงสร้างพื้นฐานเสียงแบบเรียลไทม์ยังคงเป็น ความท้าทายทางเทคนิคครั้งใหญ่ สำหรับนักพัฒนา แพลตฟอร์มใหม่ ๆ กำลังช่วยแก้ความซับซ้อนนี้และมอบการสนับสนุนในหลายด้าน
  • การปรับ latency และความน่าเชื่อถือให้เหมาะสม:
    • จัดการ real-time voice agent ที่มีประสิทธิภาพสูงในรูปแบบที่ขยายได้
  • การจัดการสัญญาณบทสนทนาและบริบทที่ไม่ใช่คำพูด:
    • ตรวจจับ "endpointing" เพื่อพิจารณาว่าผู้ใช้พูดจบแล้วหรือยัง
    • ปรับปรุงการกรองเสียงรบกวนพื้นหลังและการตรวจจับอารมณ์/ความรู้สึก
  • การจัดการข้อผิดพลาดอย่างมีประสิทธิภาพ:
    • ตรวจจับการเรียก API ที่ล้มเหลวและ retry ได้ทันที
    • แทรกคำตอบสำรอง เพื่อป้องกันบทสนทนาสะดุด
  • การผสานกับระบบภายนอกและการรองรับ RAG:
    • ต้องการการเชื่อมต่อกับฐานความรู้และระบบภายนอกแบบ latency ต่ำ
  • การควบคุม flow ของบทสนทนา:
    • รองรับการจัดการบทสนทนาที่ละเอียดอ่อนหรืออยู่ภายใต้กฎระเบียบ ด้วยการออกแบบ flow ที่คาดการณ์ได้
  • การสังเกตการณ์ การวิเคราะห์ และการทดสอบ:
    • แก้ปัญหาการขาดแคลนเครื่องมือที่ใช้ติดตามคุณภาพและประสิทธิภาพของบทสนทนาในวงกว้าง
  • ตัวอย่างแพลตฟอร์ม Vapi: ช่วยลดความซับซ้อนของโครงสร้างพื้นฐานเสียง และสนับสนุนการสร้าง voice agent คุณภาพสูงได้อย่างรวดเร็ว

3. แอปพลิเคชัน (Applications)

  • มีการพัฒนาผลิตภัณฑ์อัตโนมัติที่ใช้เสียงในหลากหลายสาขา
  • คุณลักษณะของแอปพลิเคชันที่โดดเด่นที่สุด:
    • จัดการงานของลูกค้าได้ครบถ้วน และมอบผลลัพธ์ที่มีคุณค่า
    • มีความสามารถในการขยายเพื่อรองรับสายพร้อมกันหลายพันสายเมื่อ ความต้องการพุ่งสูง
    • มอบ โซลูชันเฉพาะทาง ที่ปรับให้เหมาะกับแต่ละอุตสาหกรรม
  • โอกาสหลักตามฟังก์ชัน
    • การถอดเสียง (Transcription): จดโน้ตการสนทนา แนะนำงานติดตามผล
    • การรับสายเข้า (Inbound Calling): จัดการการจอง เปลี่ยนผู้สนใจให้เป็นลูกค้า ดูแลความสำเร็จของลูกค้า
    • การโทรออก (Outbound Calling): คัดกรองผู้สมัคร ยืนยันนัดหมาย
    • การฝึกอบรม (Training): ฝึกการขายหรือการสัมภาษณ์
    • การเจรจา (Negotiation): ต่อรองการจัดซื้อ ข้อพิพาทด้านประกันภัย ปรับเงื่อนไขสัญญา
  • กรณีการลงทุน
    • Abridge: จัดทำเอกสารบทสนทนาทางการแพทย์
    • Rilla: โค้ชชิ่งสำหรับงานขายภาคสนาม
    • Rev: ให้บริการถอดเสียงแบบผสาน AI และมนุษย์ในหลากหลายอุตสาหกรรม

ตัวอย่างการใช้งานที่เป็นรูปธรรม

  • โซลูชันเฉพาะอุตสาหกรรม Sameday AI: AI sales agent สำหรับอุตสาหกรรมบริการภายในบ้าน รับสายลูกค้า → เสนอราคาโดยอิงจากปัญหา → นัดหมาย → ชำระเงิน ครบวงจรแบบอัตโนมัติ
  • การโทรออก Wayfaster: ทำกระบวนการสรรหาบุคลากรให้เป็นอัตโนมัติ ดำเนินการโทรคัดกรองผู้สมัครโดยอัตโนมัติเพื่อให้โฟกัสกับผู้สมัครที่ดีที่สุด
  • การแพทย์ การต่อรองประกันภัย: ใช้ LLM วิเคราะห์เอกสารประกันและประวัติผู้ป่วยหลายพันรายการ เพื่อสนับสนุนการเจรจาแบบเรียลไทม์

หลักการลงทุนในเทคโนโลยี Voice AI

  • ระบบนิเวศ Voice AI มีโอกาสในการสร้างสตาร์ทอัพมากที่สุดที่ชั้น developer platform และ applications
  • ด้วยความเร็วของการพัฒนาโมเดลที่สูงขึ้น ทำให้ผู้ประกอบการสามารถพัฒนาและทดสอบ MVP (ผลิตภัณฑ์ต้นแบบที่ใช้งานได้ขั้นต่ำ) อย่างมีประสิทธิภาพได้อย่างรวดเร็วด้วยเงินลงทุนเริ่มต้นไม่มาก
  • 1. โซลูชันที่ผสานลึกกับ workflow รายอุตสาหกรรมและมัลติโมดาลิตี
    • แอปพลิเคชัน voice AI ที่ทรงอิทธิพลที่สุดจะผสานเข้ากับ workflow ของอุตสาหกรรมเฉพาะ อย่างลึกซึ้ง
    • ปรับให้เหมาะกับภาษาและรูปแบบบทสนทนาเฉพาะของแต่ละอุตสาหกรรม
    • ตัวอย่าง:
      • voice agent สำหรับดีลเลอร์รถยนต์ที่เชื่อมกับ CRM และใช้ข้อมูลปฏิสัมพันธ์ลูกค้าในอดีตเพื่อยกระดับคุณภาพบริการและเพิ่มความเร็วในการ deploy
      • ผสานหลาย modality เช่น เสียง ข้อความ และภาพ เพื่อแก้กระบวนการหลายขั้นตอนที่ซับซ้อนของมนุษย์
  • 2. มอบผลิตภัณฑ์คุณภาพสูงด้วยวิศวกรรมที่แข็งแกร่ง
    • การสร้างเดโมสำหรับ hackathon ค่อนข้างง่าย แต่ผลิตภัณฑ์จริงต้องการ ความน่าเชื่อถือสูง ความสามารถในการขยาย และความสามารถในการรองรับ use case จริง
    • ข้อกำหนดขององค์กร: ประสิทธิภาพที่สม่ำเสมอ รับประกัน latency ต่ำ การผสานกับระบบเดิมอย่างราบรื่น
    • องค์ประกอบการออกแบบสำคัญ: การจัดการอินพุตเสียงที่คาดเดาไม่ได้ การเสริมความปลอดภัย การรักษา uptime สูง
  • 3. สร้างสมดุลระหว่างการเติบโต การรักษาลูกค้า และ KPI ด้านคุณภาพผลิตภัณฑ์
    • voice agent มีศักยภาพการเติบโตสูงในฟังก์ชันที่ขับเคลื่อนรายได้ เช่น งานขาย
    • เมื่อองค์กรย้าย workflow หลักจากมนุษย์ไปเป็น agent คุณภาพที่ลดลง อาจนำไปสู่ churn สูง

KPI และตัวชี้วัดคุณภาพที่สำคัญ

  • Churn (อัตราการสูญเสียลูกค้า):
    • ในระยะแรก แอปพลิเคชันเสียงจำนวนมากเผชิญปัญหาอัตราการยกเลิกใช้งานสูง
    • เกิดขึ้นเมื่อบริการไม่น่าเชื่อถือจนลูกค้าย้ายไปหาคู่แข่ง
  • Self-Serve Resolution (อัตราการแก้ปัญหาด้วยตนเอง):
    • บ่งชี้ว่า voice agent สามารถแก้ปัญหาของผู้ใช้ได้อย่างมีประสิทธิภาพเพียงใดโดยไม่ต้องมีมนุษย์เข้ามาแทรกแซง
  • Customer Satisfaction Score (คะแนนความพึงพอใจของลูกค้า):
    • วัดความพึงพอใจโดยรวมของลูกค้าที่มีปฏิสัมพันธ์กับ voice agent เพื่อให้ข้อมูลเชิงลึกด้านคุณภาพ
  • Call Termination Rates (อัตราการยุติสาย):
    • อัตราที่ยุติสายสูงบ่งชี้ถึงปัญหาด้านประสบการณ์ผู้ใช้และปัญหาที่ยังไม่ได้รับการแก้ไข
  • Cohort Call Volume Expansion (การขยายปริมาณการโทรของ cohort):
    • วัดว่าลูกค้าเพิ่มการใช้งาน voice agent เมื่อเวลาผ่านไปหรือไม่ เป็นตัวชี้วัดคุณค่าของผลิตภัณฑ์และการมีส่วนร่วมของผู้ใช้

อนาคตของ Voice AI

  • ความก้าวหน้าทางเทคโนโลยีในช่วงไม่กี่ปีที่ผ่านมาได้เปิดทางสู่การพัฒนาผลิตภัณฑ์นวัตกรรมที่สามารถแก้ปัญหาซับซ้อนได้
  • คาดว่าในอนาคต ระบบมัลติโหมดและระบบสนทนาแบบเรียลไทม์จะเข้ามาช่วยแก้ปัญหาได้มากขึ้นในหลากหลายอุตสาหกรรม

1 ความคิดเห็น

 
xguru 2024-11-28

ผมเคยทำงานฝั่ง IVR มาก่อน เลยสนใจด้านนี้เป็นพิเศษครับ

ลองอ่านบทความ ทุกเรื่องเกี่ยวกับเอเจนต์เสียง AI ที่ a16z สรุปไว้ ไปด้วยได้ครับ