โรดแมป Voice AI: อนาคตของ AI เชิงสนทนา
(bvp.com)- Voice AI ไม่ใช่แค่การอัปเกรด UI แบบง่าย ๆ แต่เป็นการปฏิวัติวิธีที่ธุรกิจเชื่อมต่อกับลูกค้า
- เช่น งานบริการลูกค้าของสายการบินที่ต้องรอสายนาน ต้องเลือกเมนูซ้ำ ๆ และระบบไม่เข้าใจสถานการณ์ของลูกค้า ปัญหาไม่ได้ถูกแก้ แต่กลับสร้างความเครียดและเสียเวลาโดยไม่จำเป็น
- Voice AI แตกต่างจากระบบ IVR (การตอบรับด้วยเสียงอัตโนมัติ) แบบเดิมที่แข็งทื่อ โดยสามารถมอบประสบการณ์ที่ สนทนาได้เหมือนมนุษย์และปรับแต่งประสบการณ์ลูกค้าให้เป็นรายบุคคล ได้ และให้บริการได้ตลอด 24 ชั่วโมง
- เข้าใจสถานการณ์ของลูกค้าได้ทันทีและ เสนอทางเลือกที่เหมาะสมที่สุด
- ตัวอย่าง: จองเที่ยวบินใหม่ให้อัตโนมัติเมื่อเที่ยวบินถูกยกเลิก หรือแนะนำทางเลือกตามความชอบของลูกค้า
- ในบางสถานการณ์ ลูกค้าอาจชอบ AI agent มากกว่ามนุษย์ก็ได้
- Voice AI ช่วยตอบสนองอุปสงค์และความคาดหวังของลูกค้าที่สูงขึ้น พร้อมเพิ่มประสิทธิภาพการดำเนินงาน
- Voice AI คือการหลอมรวมกันของโมเดล AI แบบ voice-native และเทคโนโลยีมัลติโหมด
- มอบ นวัตกรรมระดับรากฐาน ให้กับอุตสาหกรรมที่การสื่อสารของมนุษย์มีความสำคัญ
- ช่วยตอบโจทย์ความคาดหวังของลูกค้า ขยายการดำเนินงานอย่างมีประสิทธิภาพ และวางรากฐานให้กับ ยุคถัดไปของการสื่อสารทางธุรกิจ
- ฟังอินไซต์สำคัญของบทความนี้ผ่านพอดแคสต์ที่สร้างโดย NotebookLM
ตลาดขนาดมหาศาลของการสื่อสารด้วยเสียง
- มนุษย์ชอบการพูดคุยมากกว่า:
- มีการโทรศัพท์หลายพันล้านสายเกิดขึ้นทุกวัน
- แม้ว่าข้อความ อีเมล และโซเชียลมีเดียจะกลายเป็นเรื่องปกติ แต่โทรศัพท์ก็ยังคงเป็น ช่องทางการสื่อสารหลัก ของหลายธุรกิจ
- เป็นสิ่งจำเป็นในหลายอุตสาหกรรม เช่น การแพทย์ บริการกฎหมาย บริการภายในบ้าน ประกันภัย และโลจิสติกส์ สำหรับ การสื่อสารข้อมูลที่ซับซ้อน การให้บริการแบบเฉพาะบุคคล และการแก้ปัญหาเร่งด่วน
- ปัญหาของการสื่อสารทางโทรศัพท์แบบเดิม
- อัตราการรับสายไม่เพียงพอ:
- 62% ของ SMB (ธุรกิจขนาดเล็กและกลาง) พลาดสายโทรศัพท์ จนไม่สามารถตอบสนองความต้องการของลูกค้าและสูญเสียโอกาสทางธุรกิจ
- ปัญหาทั่วไป:
- นอกเวลาทำการจะเปลี่ยนไปที่ระบบฝากข้อความเสียง
- รับได้ทีละสายเท่านั้น
- คุณภาพการให้บริการไม่สม่ำเสมอ
- ข้อจำกัดทางเทคนิค:
- ระบบ IVR (เริ่มใช้ในทศวรรษ 1970):
- รองรับได้เฉพาะคำสั่งที่ตั้งค่าไว้ล่วงหน้า ขาดความยืดหยุ่น เช่น "กด 1 หากต้องการจอง" "พูดสั้น ๆ ถึงสิ่งที่คุณต้องการความช่วยเหลือ"
- ไม่เข้าใจเจตนาหรือความเร่งด่วนของลูกค้า
- ประสบการณ์ลูกค้าแย่ลง:
- เวลารอสายนาน
- การไล่เมนูที่ไม่มีประสิทธิภาพ
- แก้ปัญหาไม่สำเร็จ
- ระบบ IVR (เริ่มใช้ในทศวรรษ 1970):
- อัตราการรับสายไม่เพียงพอ:
- แม้จะมี ความต้องการสูง:
- เทคโนโลยีเดิมยังมีข้อจำกัดในการ แก้ปัญหาของลูกค้าอย่างมีประสิทธิภาพและราบรื่น
- จึงจำเป็นต้องมี เทคโนโลยีอัตโนมัติด้านเสียง ที่ก้าวหน้ากว่าเดิม
[ทำไมตอนนี้จึงเป็นช่วงเวลาที่เหมาะที่สุดในการพัฒนาเทคโนโลยี Voice]
วิวัฒนาการของเทคโนโลยีเสียง
- ระบบ IVR ยุคแรก:
- เทคโนโลยี IVR (Interactive Voice Response) ที่เริ่มใช้ในทศวรรษ 1970:
- รองรับได้เฉพาะคำสั่งที่ตั้งค่าไว้ล่วงหน้า
- ไม่เข้าใจเจตนาและความเร่งด่วนของผู้ใช้
- แม้จะเป็นเทคโนโลยีที่คนไม่ชอบ แต่ก็ยังเป็น ตลาดมูลค่า 5 พันล้านดอลลาร์
- การมาของเทคโนโลยี ASR/STT:
- โมเดล ASR (Automatic Speech Recognition) และ STT (Speech-to-Text):
- นวัตกรรมล่าสุด: ความก้าวหน้าของ Voice AI:
- การพัฒนาโมเดล Text-To-Speech (TTS) ที่สร้าง เสียงพูดซึ่งมีอารมณ์สมจริง:
- บริษัทชั้นนำอย่าง Eleven Labs
- ความสามารถแบบมัลติโหมด:
- Google Gemini 1.5: ผสานเสียง ข้อความ และข้อมูลภาพ
- Voice Engine ของ OpenAI: สร้างเสียงที่เลียนแบบการสนทนาของมนุษย์
- การเปิดตัว GPT-4o:
- การผสานเสียง วิดีโอ/ภาพ และข้อความแบบเนทีฟในเวลาจริง
- รองรับการสนทนาที่ซับซ้อนและการตอบสนองอย่างชาญฉลาด
ความก้าวหน้าสำคัญ 2 ประการจากนวัตกรรมล่าสุด
- การแพร่หลายของโมเดลคุณภาพสูงและการพัฒนาแอปพลิเคชัน:
- ข้อจำกัดของสถาปัตยกรรมแบบ "cascading" เดิม:
- ในกระบวนการแปลง STT → LLM → TTS เกิด ความหน่วง และ การสูญเสียข้อมูลที่ไม่ใช่ข้อความ
- latency สูงทำให้ประสบการณ์ผู้ใช้แย่ลง
- โมเดลใหม่:
- GPT-4 Turbo: ลดความหน่วง
- สามารถเลือกโมเดลให้เหมาะกับ use case ได้
- ข้อจำกัดของสถาปัตยกรรมแบบ "cascading" เดิม:
- การเติบโตของโมเดล Speech-to-Speech (STS):
- ประมวลผลเสียงโดยตรง โดยไม่ต้องแปลงเป็นข้อความ:
- ความหน่วงต่ำมาก: เวลาตอบสนองราว 300ms ทำให้สนทนาได้เป็นธรรมชาติ
- เข้าใจบริบท: รักษาข้อมูลจากบทสนทนาก่อนหน้า เข้าใจเจตนาและอารมณ์
- การรับรู้อารมณ์และน้ำเสียงดีขึ้น: ตอบสนองโดยสะท้อนอารมณ์และความรู้สึก
- การตรวจจับกิจกรรมเสียงแบบเรียลไทม์: ผู้ใช้สนทนาได้โดยไม่ต้องหยุดชะงัก
- ประมวลผลเสียงโดยตรง โดยไม่ต้องแปลงเป็นข้อความ:
โมเดลแบบ voice-native: อนาคตของเสียงสนทนา
- ก้าวข้ามข้อจำกัดของสถาปัตยกรรมแบบ cascading:
- โมเดล STS ที่ออกแบบเพื่อเสียงโดยเฉพาะ:
- Kyutai Moshi: โมเดลโอเพนซอร์ส
- Alibaba SenseVoice & CosyVoice: โมเดลเฉพาะทางด้านเสียง
- Hume Empathetic Voice Interface: จัดการการตอบสนองเชิงอารมณ์
- โมเดล STS ที่ออกแบบเพื่อเสียงโดยเฉพาะ:
- Realtime API ของ OpenAI:
- รองรับการโต้ตอบแบบ Speech-to-Speech บนพื้นฐาน GPT-4o
ความท้าทายหลักของการยอมรับในอุตสาหกรรม
3 ปัจจัยหลักที่ขัดขวางการนำ voice agent ไปใช้
- คุณภาพ (Quality):
- voice AI agent จำนวนมากยัง ไม่เสถียรพอ ที่จะไว้วางใจได้ในหลาย use case
- โดยทั่วไปองค์กรจะเริ่มทดลองใช้ voice agent ใน สภาพแวดล้อมที่มีความเสี่ยงต่ำ:
- ตัวอย่าง: บริษัทซ่อมหลังคาขนาดเล็กใช้ agent รับสายหลังเวลาทำการ
- เมื่อขยายไปสู่ use case มูลค่าสูง เกณฑ์ด้านคุณภาพก็ยิ่งเข้มงวดขึ้น
- ตัวอย่าง: หากโทรศัพท์จากลูกค้าหนึ่งรายอาจนำไปสู่โครงการมูลค่า 30,000 ดอลลาร์ ความผิดพลาดของการสนทนาจะยอมรับได้น้อยมาก
- ความไว้วางใจ (Trust):
- ลูกค้าเคยมีประสบการณ์เชิงลบกับ เทคโนโลยี IVR มาแล้วจำนวนมาก:
- ตอบสนองช้า โครงสร้างเมนูไม่มีประสิทธิภาพ และขาดการสนทนาที่เป็นธรรมชาติ
- องค์กรจึงต้องสร้าง ความเชื่อมั่น ว่า AI จะจัดการความต้องการของลูกค้าได้อย่างถูกต้องและรวดเร็ว
- ลูกค้าเคยมีประสบการณ์เชิงลบกับ เทคโนโลยี IVR มาแล้วจำนวนมาก:
- ความน่าเชื่อถือ (Reliability):
- ตัวอย่างข้อร้องเรียนหลัก:
- สายหลุด: การโทรถูกตัดกลางคันทำให้ลูกค้าหงุดหงิด
- Hallucination: AI ให้คำตอบที่ไม่ถูกต้องหรือหลุดประเด็น
- latency: ใช้เวลาประมวลผลนานจนลูกค้าถอนตัว
- ตัวอย่างข้อร้องเรียนหลัก:
ทิศทางการพัฒนาเพื่อแก้ปัญหา
- ปรับ latency และความน่าเชื่อถือให้เหมาะสม:
- มี developer platform เพิ่มขึ้นที่มอบโครงสร้างพื้นฐานซึ่ง เชื่อถือได้มากกว่า โดยเน้นลดความหน่วงและป้องกันบทสนทนาสะดุด
- Fail Gracefully:
- เมื่อการโทรล้มเหลว ต้อง กู้คืน flow ของบทสนทนา อย่างเป็นธรรมชาติ เพื่อลดการสะดุดของประสบการณ์ลูกค้า
- การ orchestrate บทสนทนา:
- ออกแบบให้ AI agent เดินตาม flow ที่คาดการณ์ได้: ลด hallucination, ตั้ง guardrail สำหรับข้อมูลและขอบเขตบทสนทนาที่จะสื่อสารกับลูกค้า
แผนที่ตลาด Voice AI
- ตลาด Voice AI กำลังเกิดนวัตกรรมในหลายชั้น ตั้งแต่ foundation model, voice infrastructure, developer platform ไปจนถึง applications
- โดยเฉพาะมีโอกาสที่น่าสนใจใน 3 ด้านหลักต่อไปนี้
1. โมเดล (Models)
- บทบาท: สร้างเทคโนโลยีเพื่อรองรับ use case ด้านเสียง โดยเชี่ยวชาญเฉพาะทาง เช่น SST (Speech-to-Speech), LLS (Large Language Models), TTS (Text-to-Speech)
- ทิศทางในอนาคต:
- โมเดลมัลติโหมดและโมเดลแบบ voice-native จะเป็นผู้นำ
- เทคโนโลยีที่สามารถ ประมวลผลเสียงโดยตรง โดยไม่ต้องสลับระหว่างข้อความกับเสียงจะมีความสำคัญ
- โมเดลรุ่นถัดไป:
- บริษัทอย่าง Cartesia กำลังบุกเบิกสถาปัตยกรรมใหม่โดยใช้ State Space Models (SSMs)
- แยกงานสนทนาแบบง่ายให้โมเดลขนาดเล็ก และงานซับซ้อนให้โมเดลทรงพลัง เพื่อคาดหวัง ลด latency และต้นทุน
2. แพลตฟอร์มสำหรับนักพัฒนา (Developer Platforms)
- การสร้าง voice AI agent และการจัดการโครงสร้างพื้นฐานเสียงแบบเรียลไทม์ยังคงเป็น ความท้าทายทางเทคนิคครั้งใหญ่ สำหรับนักพัฒนา แพลตฟอร์มใหม่ ๆ กำลังช่วยแก้ความซับซ้อนนี้และมอบการสนับสนุนในหลายด้าน
- การปรับ latency และความน่าเชื่อถือให้เหมาะสม:
- จัดการ real-time voice agent ที่มีประสิทธิภาพสูงในรูปแบบที่ขยายได้
- การจัดการสัญญาณบทสนทนาและบริบทที่ไม่ใช่คำพูด:
- ตรวจจับ "endpointing" เพื่อพิจารณาว่าผู้ใช้พูดจบแล้วหรือยัง
- ปรับปรุงการกรองเสียงรบกวนพื้นหลังและการตรวจจับอารมณ์/ความรู้สึก
- การจัดการข้อผิดพลาดอย่างมีประสิทธิภาพ:
- ตรวจจับการเรียก API ที่ล้มเหลวและ retry ได้ทันที
- แทรกคำตอบสำรอง เพื่อป้องกันบทสนทนาสะดุด
- การผสานกับระบบภายนอกและการรองรับ RAG:
- ต้องการการเชื่อมต่อกับฐานความรู้และระบบภายนอกแบบ latency ต่ำ
- การควบคุม flow ของบทสนทนา:
- รองรับการจัดการบทสนทนาที่ละเอียดอ่อนหรืออยู่ภายใต้กฎระเบียบ ด้วยการออกแบบ flow ที่คาดการณ์ได้
- การสังเกตการณ์ การวิเคราะห์ และการทดสอบ:
- แก้ปัญหาการขาดแคลนเครื่องมือที่ใช้ติดตามคุณภาพและประสิทธิภาพของบทสนทนาในวงกว้าง
- ตัวอย่างแพลตฟอร์ม Vapi: ช่วยลดความซับซ้อนของโครงสร้างพื้นฐานเสียง และสนับสนุนการสร้าง voice agent คุณภาพสูงได้อย่างรวดเร็ว
3. แอปพลิเคชัน (Applications)
- มีการพัฒนาผลิตภัณฑ์อัตโนมัติที่ใช้เสียงในหลากหลายสาขา
- คุณลักษณะของแอปพลิเคชันที่โดดเด่นที่สุด:
- จัดการงานของลูกค้าได้ครบถ้วน และมอบผลลัพธ์ที่มีคุณค่า
- มีความสามารถในการขยายเพื่อรองรับสายพร้อมกันหลายพันสายเมื่อ ความต้องการพุ่งสูง
- มอบ โซลูชันเฉพาะทาง ที่ปรับให้เหมาะกับแต่ละอุตสาหกรรม
- โอกาสหลักตามฟังก์ชัน
- การถอดเสียง (Transcription): จดโน้ตการสนทนา แนะนำงานติดตามผล
- การรับสายเข้า (Inbound Calling): จัดการการจอง เปลี่ยนผู้สนใจให้เป็นลูกค้า ดูแลความสำเร็จของลูกค้า
- การโทรออก (Outbound Calling): คัดกรองผู้สมัคร ยืนยันนัดหมาย
- การฝึกอบรม (Training): ฝึกการขายหรือการสัมภาษณ์
- การเจรจา (Negotiation): ต่อรองการจัดซื้อ ข้อพิพาทด้านประกันภัย ปรับเงื่อนไขสัญญา
- กรณีการลงทุน
- Abridge: จัดทำเอกสารบทสนทนาทางการแพทย์
- Rilla: โค้ชชิ่งสำหรับงานขายภาคสนาม
- Rev: ให้บริการถอดเสียงแบบผสาน AI และมนุษย์ในหลากหลายอุตสาหกรรม
ตัวอย่างการใช้งานที่เป็นรูปธรรม
- โซลูชันเฉพาะอุตสาหกรรม Sameday AI: AI sales agent สำหรับอุตสาหกรรมบริการภายในบ้าน รับสายลูกค้า → เสนอราคาโดยอิงจากปัญหา → นัดหมาย → ชำระเงิน ครบวงจรแบบอัตโนมัติ
- การโทรออก Wayfaster: ทำกระบวนการสรรหาบุคลากรให้เป็นอัตโนมัติ ดำเนินการโทรคัดกรองผู้สมัครโดยอัตโนมัติเพื่อให้โฟกัสกับผู้สมัครที่ดีที่สุด
- การแพทย์ การต่อรองประกันภัย: ใช้ LLM วิเคราะห์เอกสารประกันและประวัติผู้ป่วยหลายพันรายการ เพื่อสนับสนุนการเจรจาแบบเรียลไทม์
หลักการลงทุนในเทคโนโลยี Voice AI
- ระบบนิเวศ Voice AI มีโอกาสในการสร้างสตาร์ทอัพมากที่สุดที่ชั้น developer platform และ applications
- ด้วยความเร็วของการพัฒนาโมเดลที่สูงขึ้น ทำให้ผู้ประกอบการสามารถพัฒนาและทดสอบ MVP (ผลิตภัณฑ์ต้นแบบที่ใช้งานได้ขั้นต่ำ) อย่างมีประสิทธิภาพได้อย่างรวดเร็วด้วยเงินลงทุนเริ่มต้นไม่มาก
- 1. โซลูชันที่ผสานลึกกับ workflow รายอุตสาหกรรมและมัลติโมดาลิตี
- แอปพลิเคชัน voice AI ที่ทรงอิทธิพลที่สุดจะผสานเข้ากับ workflow ของอุตสาหกรรมเฉพาะ อย่างลึกซึ้ง
- ปรับให้เหมาะกับภาษาและรูปแบบบทสนทนาเฉพาะของแต่ละอุตสาหกรรม
- ตัวอย่าง:
- voice agent สำหรับดีลเลอร์รถยนต์ที่เชื่อมกับ CRM และใช้ข้อมูลปฏิสัมพันธ์ลูกค้าในอดีตเพื่อยกระดับคุณภาพบริการและเพิ่มความเร็วในการ deploy
- ผสานหลาย modality เช่น เสียง ข้อความ และภาพ เพื่อแก้กระบวนการหลายขั้นตอนที่ซับซ้อนของมนุษย์
- 2. มอบผลิตภัณฑ์คุณภาพสูงด้วยวิศวกรรมที่แข็งแกร่ง
- การสร้างเดโมสำหรับ hackathon ค่อนข้างง่าย แต่ผลิตภัณฑ์จริงต้องการ ความน่าเชื่อถือสูง ความสามารถในการขยาย และความสามารถในการรองรับ use case จริง
- ข้อกำหนดขององค์กร: ประสิทธิภาพที่สม่ำเสมอ รับประกัน latency ต่ำ การผสานกับระบบเดิมอย่างราบรื่น
- องค์ประกอบการออกแบบสำคัญ: การจัดการอินพุตเสียงที่คาดเดาไม่ได้ การเสริมความปลอดภัย การรักษา uptime สูง
- 3. สร้างสมดุลระหว่างการเติบโต การรักษาลูกค้า และ KPI ด้านคุณภาพผลิตภัณฑ์
- voice agent มีศักยภาพการเติบโตสูงในฟังก์ชันที่ขับเคลื่อนรายได้ เช่น งานขาย
- เมื่อองค์กรย้าย workflow หลักจากมนุษย์ไปเป็น agent คุณภาพที่ลดลง อาจนำไปสู่ churn สูง
KPI และตัวชี้วัดคุณภาพที่สำคัญ
- Churn (อัตราการสูญเสียลูกค้า):
- ในระยะแรก แอปพลิเคชันเสียงจำนวนมากเผชิญปัญหาอัตราการยกเลิกใช้งานสูง
- เกิดขึ้นเมื่อบริการไม่น่าเชื่อถือจนลูกค้าย้ายไปหาคู่แข่ง
- Self-Serve Resolution (อัตราการแก้ปัญหาด้วยตนเอง):
- บ่งชี้ว่า voice agent สามารถแก้ปัญหาของผู้ใช้ได้อย่างมีประสิทธิภาพเพียงใดโดยไม่ต้องมีมนุษย์เข้ามาแทรกแซง
- Customer Satisfaction Score (คะแนนความพึงพอใจของลูกค้า):
- วัดความพึงพอใจโดยรวมของลูกค้าที่มีปฏิสัมพันธ์กับ voice agent เพื่อให้ข้อมูลเชิงลึกด้านคุณภาพ
- Call Termination Rates (อัตราการยุติสาย):
- อัตราที่ยุติสายสูงบ่งชี้ถึงปัญหาด้านประสบการณ์ผู้ใช้และปัญหาที่ยังไม่ได้รับการแก้ไข
- Cohort Call Volume Expansion (การขยายปริมาณการโทรของ cohort):
- วัดว่าลูกค้าเพิ่มการใช้งาน voice agent เมื่อเวลาผ่านไปหรือไม่ เป็นตัวชี้วัดคุณค่าของผลิตภัณฑ์และการมีส่วนร่วมของผู้ใช้
อนาคตของ Voice AI
- ความก้าวหน้าทางเทคโนโลยีในช่วงไม่กี่ปีที่ผ่านมาได้เปิดทางสู่การพัฒนาผลิตภัณฑ์นวัตกรรมที่สามารถแก้ปัญหาซับซ้อนได้
- คาดว่าในอนาคต ระบบมัลติโหมดและระบบสนทนาแบบเรียลไทม์จะเข้ามาช่วยแก้ปัญหาได้มากขึ้นในหลากหลายอุตสาหกรรม
1 ความคิดเห็น
ผมเคยทำงานฝั่ง IVR มาก่อน เลยสนใจด้านนี้เป็นพิเศษครับ
ลองอ่านบทความ ทุกเรื่องเกี่ยวกับเอเจนต์เสียง AI ที่ a16z สรุปไว้ ไปด้วยได้ครับ