โรดแมป Voice AI: อนาคตของ AI เชิงสนทนา

xguru · 2024-11-28T11:10:01+09:00

Voice AI ไม่ใช่แค่การอัปเกรด UI แบบง่าย ๆ แต่เป็นการปฏิวัติวิธีที่ธุรกิจเชื่อมต่อกับลูกค้า เช่น งานบริการลูกค้าของสายการบินที่ต้องรอสายนาน ต้องเลือกเมนูซ้ำ ๆ และระบบไม่เข้าใจสถานการณ์ของลูกค้า ปัญหาไม่ได้ถูกแก้ แต่กลับสร้างความเครียดและเสียเวลาโดยไม่จำเป็น Voice AI แตกต่างจากระบบ IVR (การตอบรับด้วยเสียงอัตโนมัติ) แบบเดิมที่แข็งทื่อ โดยสามารถมอบประสบการณ์ที่ สนทนาได้เหมือนมนุษย์และปรับแต่งประสบการณ์ลูกค้าให้เป็นรายบุคคล ได้ และให้บริการได้ตลอด 24 ชั่วโมง เข้าใจสถานการณ์ของลูกค้าได้ทันทีและ เสนอทางเลือกที่เหมาะสมที่สุด ตัวอย่าง: จองเที่ยวบินใหม่ให้อัตโนมัติเมื่อเที่ยวบินถูกยกเลิก หรือแนะนำทางเลือกตามความชอบของลูกค้า ในบางสถานการณ์ ลูกค้าอาจชอบ AI agent มากกว่ามนุษย์ก็ได้ Voice AI ช่วยตอบสนองอุปสงค์และความคาดหวังของลูกค้าที่สูงขึ้น พร้อมเพิ่มประสิทธิภาพการดำเนินงาน Voice AI คือการหลอมรวมกันของโมเดล AI แบบ voice-native และเทคโนโลยีมัลติโหมด มอบ นวัตกรรมระดับรากฐาน ให้กับอุตสาหกรรมที่การสื่อสารของมนุษย์มีความสำคัญ ช่วยตอบโจทย์ความคาดหวังของลูกค้า ขยายการดำเนินงานอย่างมีประสิทธิภาพ และวางรากฐานให้กับ ยุคถัดไปของการสื่อสารทางธุรกิจ ฟังอินไซต์สำคัญของบทความนี้ผ่านพอดแคสต์ที่สร้างโดย NotebookLM ตลาดขนาดมหาศาลของการสื่อสารด้วยเสียง มนุษย์ชอบการพูดคุยมากกว่า: มีการโทรศัพท์หลายพันล้านสายเกิดขึ้นทุกวัน แม้ว่าข้อความ อีเมล และโซเชียลมีเดียจะกลายเป็นเรื่องปกติ แต่โทรศัพท์ก็ยังคงเป็น ช่องทางการสื่อสารหลัก ของหลายธุรกิจ เป็นสิ่งจำเป็นในหลายอุตสาหกรรม เช่น การแพทย์ บริการกฎหมาย บริการภายในบ้าน ประกันภัย และโลจิสติกส์ สำหรับ การสื่อสารข้อมูลที่ซับซ้อน การให้บริการแบบเฉพาะบุคคล และการแก้ปัญหาเร่งด่วน ปัญหาของการสื่อสารทางโทรศัพท์แบบเดิม อัตราการรับสายไม่เพียงพอ: 62% ของ SMB (ธุรกิจขนาดเล็กและกลาง) พลาดสายโทรศัพท์ จนไม่สามารถตอบสนองความต้องการของลูกค้าและสูญเสียโอกาสทางธุรกิจ ปัญหาทั่วไป: นอกเวลาทำการจะเปลี่ยนไปที่ระบบฝากข้อความเสียง รับได้ทีละสายเท่านั้น คุณภาพการให้บริการไม่สม่ำเสมอ ข้อจำกัดทางเทคนิค: ระบบ IVR (เริ่มใช้ในทศวรรษ 1970): รองรับได้เฉพาะคำสั่งที่ตั้งค่าไว้ล่วงหน้า ขาดความยืดหยุ่น เช่น "กด 1 หากต้องการจอง" "พูดสั้น ๆ ถึงสิ่งที่คุณต้องการความช่วยเหลือ" ไม่เข้าใจเจตนาหรือความเร่งด่วนของลูกค้า ประสบการณ์ลูกค้าแย่ลง: เวลารอสายนาน การไล่เมนูที่ไม่มีประสิทธิภาพ แก้ปัญหาไม่สำเร็จ แม้จะมี ความต้องการสูง: เทคโนโลยีเดิมยังมีข้อจำกัดในการ แก้ปัญหาของลูกค้าอย่างมีประสิทธิภาพและราบรื่น จึงจำเป็นต้องมี เทคโนโลยีอัตโนมัติด้านเสียง ที่ก้าวหน้ากว่าเดิม [ทำไมตอนนี้จึงเป็นช่วงเวลาที่เหมาะที่สุดในการพัฒนาเทคโนโลยี Voice] วิวัฒนาการของเทคโนโลยีเสียง ระบบ IVR ยุคแรก: เทคโนโลยี IVR (Interactive Voice Response) ที่เริ่มใช้ในทศวรรษ 1970: รองรับได้เฉพาะคำสั่งที่ตั้งค่าไว้ล่วงหน้า ไม่เข้าใจเจตนาและความเร่งด่วนของผู้ใช้ แม้จะเป็นเทคโนโลยีที่คนไม่ชอบ แต่ก็ยังเป็น ตลาดมูลค่า 5 พันล้านดอลลาร์ การมาของเทคโนโลยี ASR/STT: โมเดล ASR (Automatic Speech Recognition) และ STT (Speech-to-Text): เทคโนโลยีที่แปลงเสียงเป็นข้อความแบบเรียลไทม์ การเกิดขึ้นของสตาร์ทอัพอย่าง Gong, Rev, DeepL การเปิดตัว Whisper model ของ OpenAI (2022) และ Reverb ของ Rev (2024): รองรับระบบสนทนาที่เป็นธรรมชาติซึ่งจัดการสำเนียง เสียงรบกวนพื้นหลัง และอารมณ์ได้ นวัตกรรมล่าสุด: ความก้าวหน้าของ Voice AI: การพัฒนาโมเดล Text-To-Speech (TTS) ที่สร้าง เสียงพูดซึ่งมีอารมณ์สมจริง: บริษัทชั้นนำอย่าง Eleven Labs ความสามารถแบบมัลติโหมด: Google Gemini 1.5: ผสานเสียง ข้อความ และข้อมูลภาพ Voice Engine ของ OpenAI: สร้างเสียงที่เลียนแบบการสนทนาของมนุษย์ การเปิดตัว GPT-4o: การผสานเสียง วิดีโอ/ภาพ และข้อความแบบเนทีฟในเวลาจริง รองรับการสนทนาที่ซับซ้อนและการตอบสนองอย่างชาญฉลาด ความก้าวหน้าสำคัญ 2 ประการจากนวัตกรรมล่าสุด การแพร่หลายของโมเดลคุณภาพสูงและการพัฒนาแอปพลิเคชัน: ข้อจำกัดของสถาปัตยกรรมแบบ "cascading" เดิม: ในกระบวนการแปลง STT → LLM → TTS เกิด ความหน่วง และ การสูญเสียข้อมูลที่ไม่ใช่ข้อความ latency สูงทำให้ประสบการณ์ผู้ใช้แย่ลง โมเดลใหม่: GPT-4 Turbo: ลดความหน่วง สามารถเลือกโมเดลให้เหมาะกับ use case ได้ การเติบโตของโมเดล Speech-to-Speech (STS): ประมวลผลเสียงโดยตรง โดยไม่ต้องแปลงเป็นข้อความ: ความหน่วงต่ำมาก: เวลาตอบสนองราว 300ms ทำให้สนทนาได้เป็นธรรมชาติ เข้าใจบริบท: รักษาข้อมูลจากบทสนทนาก่อนหน้า เข้าใจเจตนาและอารมณ์ การรับรู้อารมณ์และน้ำเสียงดีขึ้น: ตอบสนองโดยสะท้อนอารมณ์และความรู้สึก การตรวจจับกิจกรรมเสียงแบบเรียลไทม์: ผู้ใช้สนทนาได้โดยไม่ต้องหยุดชะงัก โมเดลแบบ voice-native: อนาคตของเสียงสนทนา ก้าวข้ามข้อจำกัดของสถาปัตยกรรมแบบ cascading: โมเดล STS ที่ออกแบบเพื่อเสียงโดยเฉพาะ: Kyutai Moshi: โมเดลโอเพนซอร์ส Alibaba SenseVoice & CosyVoice: โมเดลเฉพาะทางด้านเสียง Hume Empathetic Voice Interface: จัดการการตอบสนองเชิงอารมณ์ Realtime API ของ OpenAI: รองรับการโต้ตอบแบบ Speech-to-Speech บนพื้นฐาน GPT-4o ความท้าทายหลักของการยอมรับในอุตสาหกรรม 3 ปัจจัยหลักที่ขัดขวางการนำ voice agent ไปใช้ คุณภาพ (Quality): voice AI agent จำนวนมากยัง ไม่เสถียรพอ ที่จะไว้วางใจได้ในหลาย use case โดยทั่วไปองค์กรจะเริ่มทดลองใช้ voice agent ใน สภาพแวดล้อมที่มีความเสี่ยงต่ำ: ตัวอย่าง: บริษัทซ่อมหลังคาขนาดเล็กใช้ agent รับสายหลังเวลาทำการ เมื่อขยายไปสู่ use case มูลค่าสูง เกณฑ์ด้านคุณภาพก็ยิ่งเข้มงวดขึ้น ตัวอย่าง: หากโทรศัพท์จากลูกค้าหนึ่งรายอาจนำไปสู่โครงการมูลค่า 30,000 ดอลลาร์ ความผิดพลาดของการสนทนาจะยอมรับได้น้อยมาก ความไว้วางใจ (Trust): ลูกค้าเคยมีประสบการณ์เชิงลบกับ เทคโนโลยี IVR มาแล้วจำนวนมาก: ตอบสนองช้า โครงสร้างเมนูไม่มีประสิทธิภาพ และขาดการสนทนาที่เป็นธรรมชาติ องค์กรจึงต้องสร้าง ความเชื่อมั่น ว่า AI จะจัดการความต้องการของลูกค้าได้อย่างถูกต้องและรวดเร็ว ความน่าเชื่อถือ (Reliability): ตัวอย่างข้อร้องเรียนหลัก: สายหลุด: การโทรถูกตัดกลางคันทำให้ลูกค้าหงุดหงิด Hallucination: AI ให้คำตอบที่ไม่ถูกต้องหรือหลุดประเด็น latency: ใช้เวลาประมวลผลนานจนลูกค้าถอนตัว ทิศทางการพัฒนาเพื่อแก้ปัญหา ปรับ latency และความน่าเชื่อถือให้เหมาะสม: มี developer platform เพิ่มขึ้นที่มอบโครงสร้างพื้นฐานซึ่ง เชื่อถือได้มากกว่า โดยเน้นลดความหน่วงและป้องกันบทสนทนาสะดุด Fail Gracefully: เมื่อการโทรล้มเหลว ต้อง กู้คืน flow ของบทสนทนา อย่างเป็นธรรมชาติ เพื่อลดการสะดุดของประสบการณ์ลูกค้า การ orchestrate บทสนทนา: ออกแบบให้ AI agent เดินตาม flow ที่คาดการณ์ได้: ลด hallucination, ตั้ง guardrail สำหรับข้อมูลและขอบเขตบทสนทนาที่จะสื่อสารกับลูกค้า แผนที่ตลาด Voice AI ตลาด Voice AI กำลังเกิดนวัตกรรมในหลายชั้น ตั้งแต่ foundation model, voice infrastructure, developer platform ไปจนถึง applications โดยเฉพาะมีโอกาสที่น่าสนใจใน 3 ด้านหลักต่อไปนี้ 1. โมเดล (Models) บทบาท: สร้างเทคโนโลยีเพื่อรองรับ use case ด้านเสียง โดยเชี่ยวชาญเฉพาะทาง เช่น SST (Speech-to-Speech), LLS (Large Language Models), TTS (Text-to-Speech) ทิศทางในอนาคต: โมเดลมัลติโหมดและโมเดลแบบ voice-native จะเป็นผู้นำ เทคโนโลยีที่สามารถ ประมวลผลเสียงโดยตรง โดยไม่ต้องสลับระหว่างข้อความกับเสียงจะมีความสำคัญ โมเดลรุ่นถัดไป: บริษัทอย่าง Cartesia กำลังบุกเบิกสถาปัตยกรรมใหม่โดยใช้ State Space Models (SSMs) แยกงานสนทนาแบบง่ายให้โมเดลขนาดเล็ก และงานซับซ้อนให้โมเดลทรงพลัง เพื่อคาดหวัง ลด latency และต้นทุน 2. แพลตฟอร์มสำหรับนักพัฒนา (Developer Platforms) การสร้าง voice AI agent และการจัดการโครงสร้างพื้นฐานเสียงแบบเรียลไทม์ยังคงเป็น ความท้าทายทางเทคนิคครั้งใหญ่ สำหรับนักพัฒนา แพลตฟอร์มใหม่ ๆ กำลังช่วยแก้ความซับซ้อนนี้และมอบการสนับสนุนในหลายด้าน การปรับ latency และความน่าเชื่อถือให้เหมาะสม: จัดการ real-time voice agent ที่มีประสิทธิภาพสูงในรูปแบบที่ขยายได้ การจัดการสัญญาณบทสนทนาและบริบทที่ไม่ใช่คำพูด: ตรวจจับ "endpointing" เพื่อพิจารณาว่าผู้ใช้พูดจบแล้วหรือยัง ปรับปรุงการกรองเสียงรบกวนพื้นหลังและการตรวจจับอารมณ์/ความรู้สึก การจัดการข้อผิดพลาดอย่างมีประสิทธิภาพ: ตรวจจับการเรียก API ที่ล้มเหลวและ retry ได้ทันที แทรกคำตอบสำรอง เพื่อป้องกันบทสนทนาสะดุด การผสานกับระบบภายนอกและการรองรับ RAG: ต้องการการเชื่อมต่อกับฐานความรู้และระบบภายนอกแบบ latency ต่ำ การควบคุม flow ของบทสนทนา: รองรับการจัดการบทสนทนาที่ละเอียดอ่อนหรืออยู่ภายใต้กฎระเบียบ ด้วยการออกแบบ flow ที่คาดการณ์ได้ การสังเกตการณ์ การวิเคราะห์ และการทดสอบ: แก้ปัญหาการขาดแคลนเครื่องมือที่ใช้ติดตามคุณภาพและประสิทธิภาพของบทสนทนาในวงกว้าง ตัวอย่างแพลตฟอร์ม Vapi: ช่วยลดความซับซ้อนของโครงสร้างพื้นฐานเสียง และสนับสนุนการสร้าง voice agent คุณภาพสูงได้อย่างรวดเร็ว 3. แอปพลิเคชัน (Applications) มีการพัฒนาผลิตภัณฑ์อัตโนมัติที่ใช้เสียงในหลากหลายสาขา คุณลักษณะของแอปพลิเคชันที่โดดเด่นที่สุด: จัดการงานของลูกค้าได้ครบถ้วน และมอบผลลัพธ์ที่มีคุณค่า มีความสามารถในการขยายเพื่อรองรับสายพร้อมกันหลายพันสายเมื่อ ความต้องการพุ่งสูง มอบ โซลูชันเฉพาะทาง ที่ปรับให้เหมาะกับแต่ละอุตสาหกรรม โอกาสหลักตามฟังก์ชัน การถอดเสียง (Transcription): จดโน้ตการสนทนา แนะนำงานติดตามผล การรับสายเข้า (Inbound Calling): จัดการการจอง เปลี่ยนผู้สนใจให้เป็นลูกค้า ดูแลความสำเร็จของลูกค้า การโทรออก (Outbound Calling): คัดกรองผู้สมัคร ยืนยันนัดหมาย การฝึกอบรม (Training): ฝึกการขายหรือการสัมภาษณ์ การเจรจา (Negotiation): ต่อรองการจัดซื้อ ข้อพิพาทด้านประกันภัย ปรับเงื่อนไขสัญญา กรณีการลงทุน Abridge: จัดทำเอกสารบทสนทนาทางการแพทย์ Rilla: โค้ชชิ่งสำหรับงานขายภาคสนาม Rev: ให้บริการถอดเสียงแบบผสาน AI และมนุษย์ในหลากหลายอุตสาหกรรม ตัวอย่างการใช้งานที่เป็นรูปธรรม โซลูชันเฉพาะอุตสาหกรรม Sameday AI: AI sales agent สำหรับอุตสาหกรรมบริการภายในบ้าน รับสายลูกค้า → เสนอราคาโดยอิงจากปัญหา → นัดหมาย → ชำระเงิน ครบวงจรแบบอัตโนมัติ การโทรออก Wayfaster: ทำกระบวนการสรรหาบุคลากรให้เป็นอัตโนมัติ ดำเนินการโทรคัดกรองผู้สมัครโดยอัตโนมัติเพื่อให้โฟกัสกับผู้สมัครที่ดีที่สุด การแพทย์ การต่อรองประกันภัย: ใช้ LLM วิเคราะห์เอกสารประกันและประวัติผู้ป่วยหลายพันรายการ เพื่อสนับสนุนการเจรจาแบบเรียลไทม์ หลักการลงทุนในเทคโนโลยี Voice AI ระบบนิเวศ Voice AI มีโอกาสในการสร้างสตาร์ทอัพมากที่สุดที่ชั้น developer platform และ applications ด้วยความเร็วของการพัฒนาโมเดลที่สูงขึ้น ทำให้ผู้ประกอบการสามารถพัฒนาและทดสอบ MVP (ผลิตภัณฑ์ต้นแบบที่ใช้งานได้ขั้นต่ำ) อย่างมีประสิทธิภาพได้อย่างรวดเร็วด้วยเงินลงทุนเริ่มต้นไม่มาก 1. โซลูชันที่ผสานลึกกับ workflow รายอุตสาหกรรมและมัลติโมดาลิตี แอปพลิเคชัน voice AI ที่ทรงอิทธิพลที่สุดจะผสานเข้ากับ workflow ของอุตสาหกรรมเฉพาะ อย่างลึกซึ้ง ปรับให้เหมาะกับภาษาและรูปแบบบทสนทนาเฉพาะของแต่ละอุตสาหกรรม ตัวอย่าง: voice agent สำหรับดีลเลอร์รถยนต์ที่เชื่อมกับ CRM และใช้ข้อมูลปฏิสัมพันธ์ลูกค้าในอดีตเพื่อยกระดับคุณภาพบริการและเพิ่มความเร็วในการ deploy ผสานหลาย modality เช่น เสียง ข้อความ และภาพ เพื่อแก้กระบวนการหลายขั้นตอนที่ซับซ้อนของมนุษย์ 2. มอบผลิตภัณฑ์คุณภาพสูงด้วยวิศวกรรมที่แข็งแกร่ง การสร้างเดโมสำหรับ hackathon ค่อนข้างง่าย แต่ผลิตภัณฑ์จริงต้องการ ความน่าเชื่อถือสูง ความสามารถในการขยาย และความสามารถในการรองรับ use case จริง ข้อกำหนดขององค์กร: ประสิทธิภาพที่สม่ำเสมอ รับประกัน latency ต่ำ การผสานกับระบบเดิมอย่างราบรื่น องค์ประกอบการออกแบบสำคัญ: การจัดการอินพุตเสียงที่คาดเดาไม่ได้ การเสริมความปลอดภัย การรักษา uptime สูง 3. สร้างสมดุลระหว่างการเติบโต การรักษาลูกค้า และ KPI ด้านคุณภาพผลิตภัณฑ์ voice agent มีศักยภาพการเติบโตสูงในฟังก์ชันที่ขับเคลื่อนรายได้ เช่น งานขาย เมื่อองค์กรย้าย workflow หลักจากมนุษย์ไปเป็น agent คุณภาพที่ลดลง อาจนำไปสู่ churn สูง KPI และตัวชี้วัดคุณภาพที่สำคัญ Churn (อัตราการสูญเสียลูกค้า): ในระยะแรก แอปพลิเคชันเสียงจำนวนมากเผชิญปัญหาอัตราการยกเลิกใช้งานสูง เกิดขึ้นเมื่อบริการไม่น่าเชื่อถือจนลูกค้าย้ายไปหาคู่แข่ง Self-Serve Resolution (อัตราการแก้ปัญหาด้วยตนเอง): บ่งชี้ว่า voice agent สามารถแก้ปัญหาของผู้ใช้ได้อย่างมีประสิทธิภาพเพียงใดโดยไม่ต้องมีมนุษย์เข้ามาแทรกแซง Customer Satisfaction Score (คะแนนความพึงพอใจของลูกค้า): วัดความพึงพอใจโดยรวมของลูกค้าที่มีปฏิสัมพันธ์กับ voice agent เพื่อให้ข้อมูลเชิงลึกด้านคุณภาพ Call Termination Rates (อัตราการยุติสาย): อัตราที่ยุติสายสูงบ่งชี้ถึงปัญหาด้านประสบการณ์ผู้ใช้และปัญหาที่ยังไม่ได้รับการแก้ไข Cohort Call Volume Expansion (การขยายปริมาณการโทรของ cohort): วัดว่าลูกค้าเพิ่มการใช้งาน voice agent เมื่อเวลาผ่านไปหรือไม่ เป็นตัวชี้วัดคุณค่าของผลิตภัณฑ์และการมีส่วนร่วมของผู้ใช้ อนาคตของ Voice AI ความก้าวหน้าทางเทคโนโลยีในช่วงไม่กี่ปีที่ผ่านมาได้เปิดทางสู่การพัฒนาผลิตภัณฑ์นวัตกรรมที่สามารถแก้ปัญหาซับซ้อนได้ คาดว่าในอนาคต ระบบมัลติโหมดและระบบสนทนาแบบเรียลไทม์จะเข้ามาช่วยแก้ปัญหาได้มากขึ้นในหลากหลายอุตสาหกรรม

(bvp.com)

13 คะแนน โดย xguru 2024-11-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Voice AI ไม่ใช่แค่การอัปเกรด UI แบบง่าย ๆ แต่เป็นการปฏิวัติวิธีที่ธุรกิจเชื่อมต่อกับลูกค้า
- เช่น งานบริการลูกค้าของสายการบินที่ต้องรอสายนาน ต้องเลือกเมนูซ้ำ ๆ และระบบไม่เข้าใจสถานการณ์ของลูกค้า ปัญหาไม่ได้ถูกแก้ แต่กลับสร้างความเครียดและเสียเวลาโดยไม่จำเป็น
- Voice AI แตกต่างจากระบบ IVR (การตอบรับด้วยเสียงอัตโนมัติ) แบบเดิมที่แข็งทื่อ โดยสามารถมอบประสบการณ์ที่ สนทนาได้เหมือนมนุษย์และปรับแต่งประสบการณ์ลูกค้าให้เป็นรายบุคคล ได้ และให้บริการได้ตลอด 24 ชั่วโมง
  - เข้าใจสถานการณ์ของลูกค้าได้ทันทีและ เสนอทางเลือกที่เหมาะสมที่สุด
  - ตัวอย่าง: จองเที่ยวบินใหม่ให้อัตโนมัติเมื่อเที่ยวบินถูกยกเลิก หรือแนะนำทางเลือกตามความชอบของลูกค้า
  - ในบางสถานการณ์ ลูกค้าอาจชอบ AI agent มากกว่ามนุษย์ก็ได้
- Voice AI ช่วยตอบสนองอุปสงค์และความคาดหวังของลูกค้าที่สูงขึ้น พร้อมเพิ่มประสิทธิภาพการดำเนินงาน
Voice AI คือการหลอมรวมกันของโมเดล AI แบบ voice-native และเทคโนโลยีมัลติโหมด
- มอบ นวัตกรรมระดับรากฐาน ให้กับอุตสาหกรรมที่การสื่อสารของมนุษย์มีความสำคัญ
- ช่วยตอบโจทย์ความคาดหวังของลูกค้า ขยายการดำเนินงานอย่างมีประสิทธิภาพ และวางรากฐานให้กับ ยุคถัดไปของการสื่อสารทางธุรกิจ
- ฟังอินไซต์สำคัญของบทความนี้ผ่านพอดแคสต์ที่สร้างโดย NotebookLM

ตลาดขนาดมหาศาลของการสื่อสารด้วยเสียง

มนุษย์ชอบการพูดคุยมากกว่า:
- มีการโทรศัพท์หลายพันล้านสายเกิดขึ้นทุกวัน
- แม้ว่าข้อความ อีเมล และโซเชียลมีเดียจะกลายเป็นเรื่องปกติ แต่โทรศัพท์ก็ยังคงเป็น ช่องทางการสื่อสารหลัก ของหลายธุรกิจ
- เป็นสิ่งจำเป็นในหลายอุตสาหกรรม เช่น การแพทย์ บริการกฎหมาย บริการภายในบ้าน ประกันภัย และโลจิสติกส์ สำหรับ การสื่อสารข้อมูลที่ซับซ้อน การให้บริการแบบเฉพาะบุคคล และการแก้ปัญหาเร่งด่วน
ปัญหาของการสื่อสารทางโทรศัพท์แบบเดิม
- อัตราการรับสายไม่เพียงพอ:
  - 62% ของ SMB (ธุรกิจขนาดเล็กและกลาง) พลาดสายโทรศัพท์ จนไม่สามารถตอบสนองความต้องการของลูกค้าและสูญเสียโอกาสทางธุรกิจ
  - ปัญหาทั่วไป:
    - นอกเวลาทำการจะเปลี่ยนไปที่ระบบฝากข้อความเสียง
    - รับได้ทีละสายเท่านั้น
    - คุณภาพการให้บริการไม่สม่ำเสมอ
- ข้อจำกัดทางเทคนิค:
  - ระบบ IVR (เริ่มใช้ในทศวรรษ 1970):
    - รองรับได้เฉพาะคำสั่งที่ตั้งค่าไว้ล่วงหน้า ขาดความยืดหยุ่น เช่น "กด 1 หากต้องการจอง" "พูดสั้น ๆ ถึงสิ่งที่คุณต้องการความช่วยเหลือ"
    - ไม่เข้าใจเจตนาหรือความเร่งด่วนของลูกค้า
  - ประสบการณ์ลูกค้าแย่ลง:
    - เวลารอสายนาน
    - การไล่เมนูที่ไม่มีประสิทธิภาพ
    - แก้ปัญหาไม่สำเร็จ
แม้จะมี ความต้องการสูง:
- เทคโนโลยีเดิมยังมีข้อจำกัดในการ แก้ปัญหาของลูกค้าอย่างมีประสิทธิภาพและราบรื่น
- จึงจำเป็นต้องมี เทคโนโลยีอัตโนมัติด้านเสียง ที่ก้าวหน้ากว่าเดิม

[ทำไมตอนนี้จึงเป็นช่วงเวลาที่เหมาะที่สุดในการพัฒนาเทคโนโลยี Voice]

วิวัฒนาการของเทคโนโลยีเสียง

ระบบ IVR ยุคแรก:

เทคโนโลยี IVR (Interactive Voice Response) ที่เริ่มใช้ในทศวรรษ 1970:
- รองรับได้เฉพาะคำสั่งที่ตั้งค่าไว้ล่วงหน้า
- ไม่เข้าใจเจตนาและความเร่งด่วนของผู้ใช้
แม้จะเป็นเทคโนโลยีที่คนไม่ชอบ แต่ก็ยังเป็น ตลาดมูลค่า 5 พันล้านดอลลาร์

การมาของเทคโนโลยี ASR/STT:

โมเดล ASR (Automatic Speech Recognition) และ STT (Speech-to-Text):
- เทคโนโลยีที่แปลงเสียงเป็นข้อความแบบเรียลไทม์
- การเกิดขึ้นของสตาร์ทอัพอย่าง Gong, Rev, DeepL
- การเปิดตัว Whisper model ของ OpenAI (2022) และ Reverb ของ Rev (2024):
  - รองรับระบบสนทนาที่เป็นธรรมชาติซึ่งจัดการสำเนียง เสียงรบกวนพื้นหลัง และอารมณ์ได้

นวัตกรรมล่าสุด: ความก้าวหน้าของ Voice AI:

การพัฒนาโมเดล Text-To-Speech (TTS) ที่สร้าง เสียงพูดซึ่งมีอารมณ์สมจริง:
- บริษัทชั้นนำอย่าง Eleven Labs
ความสามารถแบบมัลติโหมด:
- Google Gemini 1.5: ผสานเสียง ข้อความ และข้อมูลภาพ
- Voice Engine ของ OpenAI: สร้างเสียงที่เลียนแบบการสนทนาของมนุษย์
การเปิดตัว GPT-4o:
- การผสานเสียง วิดีโอ/ภาพ และข้อความแบบเนทีฟในเวลาจริง
- รองรับการสนทนาที่ซับซ้อนและการตอบสนองอย่างชาญฉลาด

ความก้าวหน้าสำคัญ 2 ประการจากนวัตกรรมล่าสุด

การแพร่หลายของโมเดลคุณภาพสูงและการพัฒนาแอปพลิเคชัน:
- ข้อจำกัดของสถาปัตยกรรมแบบ "cascading" เดิม:
  - ในกระบวนการแปลง STT → LLM → TTS เกิด ความหน่วง และ การสูญเสียข้อมูลที่ไม่ใช่ข้อความ
  - latency สูงทำให้ประสบการณ์ผู้ใช้แย่ลง
- โมเดลใหม่:
  - GPT-4 Turbo: ลดความหน่วง
  - สามารถเลือกโมเดลให้เหมาะกับ use case ได้
การเติบโตของโมเดล Speech-to-Speech (STS):
- ประมวลผลเสียงโดยตรง โดยไม่ต้องแปลงเป็นข้อความ:
  - ความหน่วงต่ำมาก: เวลาตอบสนองราว 300ms ทำให้สนทนาได้เป็นธรรมชาติ
  - เข้าใจบริบท: รักษาข้อมูลจากบทสนทนาก่อนหน้า เข้าใจเจตนาและอารมณ์
  - การรับรู้อารมณ์และน้ำเสียงดีขึ้น: ตอบสนองโดยสะท้อนอารมณ์และความรู้สึก
  - การตรวจจับกิจกรรมเสียงแบบเรียลไทม์: ผู้ใช้สนทนาได้โดยไม่ต้องหยุดชะงัก

โมเดลแบบ voice-native: อนาคตของเสียงสนทนา

ก้าวข้ามข้อจำกัดของสถาปัตยกรรมแบบ cascading:
- โมเดล STS ที่ออกแบบเพื่อเสียงโดยเฉพาะ:
  - Kyutai Moshi: โมเดลโอเพนซอร์ส
  - Alibaba SenseVoice & CosyVoice: โมเดลเฉพาะทางด้านเสียง
  - Hume Empathetic Voice Interface: จัดการการตอบสนองเชิงอารมณ์
Realtime API ของ OpenAI:
- รองรับการโต้ตอบแบบ Speech-to-Speech บนพื้นฐาน GPT-4o

ความท้าทายหลักของการยอมรับในอุตสาหกรรม

3 ปัจจัยหลักที่ขัดขวางการนำ voice agent ไปใช้

คุณภาพ (Quality):
- voice AI agent จำนวนมากยัง ไม่เสถียรพอ ที่จะไว้วางใจได้ในหลาย use case
- โดยทั่วไปองค์กรจะเริ่มทดลองใช้ voice agent ใน สภาพแวดล้อมที่มีความเสี่ยงต่ำ:
  - ตัวอย่าง: บริษัทซ่อมหลังคาขนาดเล็กใช้ agent รับสายหลังเวลาทำการ
  - เมื่อขยายไปสู่ use case มูลค่าสูง เกณฑ์ด้านคุณภาพก็ยิ่งเข้มงวดขึ้น
  - ตัวอย่าง: หากโทรศัพท์จากลูกค้าหนึ่งรายอาจนำไปสู่โครงการมูลค่า 30,000 ดอลลาร์ ความผิดพลาดของการสนทนาจะยอมรับได้น้อยมาก
ความไว้วางใจ (Trust):
- ลูกค้าเคยมีประสบการณ์เชิงลบกับ เทคโนโลยี IVR มาแล้วจำนวนมาก:
  - ตอบสนองช้า โครงสร้างเมนูไม่มีประสิทธิภาพ และขาดการสนทนาที่เป็นธรรมชาติ
- องค์กรจึงต้องสร้าง ความเชื่อมั่น ว่า AI จะจัดการความต้องการของลูกค้าได้อย่างถูกต้องและรวดเร็ว
ความน่าเชื่อถือ (Reliability):
- ตัวอย่างข้อร้องเรียนหลัก:
  - สายหลุด: การโทรถูกตัดกลางคันทำให้ลูกค้าหงุดหงิด
  - Hallucination: AI ให้คำตอบที่ไม่ถูกต้องหรือหลุดประเด็น
  - latency: ใช้เวลาประมวลผลนานจนลูกค้าถอนตัว

ทิศทางการพัฒนาเพื่อแก้ปัญหา

ปรับ latency และความน่าเชื่อถือให้เหมาะสม:
- มี developer platform เพิ่มขึ้นที่มอบโครงสร้างพื้นฐานซึ่ง เชื่อถือได้มากกว่า โดยเน้นลดความหน่วงและป้องกันบทสนทนาสะดุด
Fail Gracefully:
- เมื่อการโทรล้มเหลว ต้อง กู้คืน flow ของบทสนทนา อย่างเป็นธรรมชาติ เพื่อลดการสะดุดของประสบการณ์ลูกค้า
การ orchestrate บทสนทนา:
- ออกแบบให้ AI agent เดินตาม flow ที่คาดการณ์ได้: ลด hallucination, ตั้ง guardrail สำหรับข้อมูลและขอบเขตบทสนทนาที่จะสื่อสารกับลูกค้า

แผนที่ตลาด Voice AI

ตลาด Voice AI กำลังเกิดนวัตกรรมในหลายชั้น ตั้งแต่ foundation model, voice infrastructure, developer platform ไปจนถึง applications
โดยเฉพาะมีโอกาสที่น่าสนใจใน 3 ด้านหลักต่อไปนี้

1. โมเดล (Models)

บทบาท: สร้างเทคโนโลยีเพื่อรองรับ use case ด้านเสียง โดยเชี่ยวชาญเฉพาะทาง เช่น SST (Speech-to-Speech), LLS (Large Language Models), TTS (Text-to-Speech)
ทิศทางในอนาคต:
- โมเดลมัลติโหมดและโมเดลแบบ voice-native จะเป็นผู้นำ
- เทคโนโลยีที่สามารถ ประมวลผลเสียงโดยตรง โดยไม่ต้องสลับระหว่างข้อความกับเสียงจะมีความสำคัญ
โมเดลรุ่นถัดไป:
- บริษัทอย่าง Cartesia กำลังบุกเบิกสถาปัตยกรรมใหม่โดยใช้ State Space Models (SSMs)
- แยกงานสนทนาแบบง่ายให้โมเดลขนาดเล็ก และงานซับซ้อนให้โมเดลทรงพลัง เพื่อคาดหวัง ลด latency และต้นทุน

2. แพลตฟอร์มสำหรับนักพัฒนา (Developer Platforms)

การสร้าง voice AI agent และการจัดการโครงสร้างพื้นฐานเสียงแบบเรียลไทม์ยังคงเป็น ความท้าทายทางเทคนิคครั้งใหญ่ สำหรับนักพัฒนา แพลตฟอร์มใหม่ ๆ กำลังช่วยแก้ความซับซ้อนนี้และมอบการสนับสนุนในหลายด้าน
การปรับ latency และความน่าเชื่อถือให้เหมาะสม:
- จัดการ real-time voice agent ที่มีประสิทธิภาพสูงในรูปแบบที่ขยายได้
การจัดการสัญญาณบทสนทนาและบริบทที่ไม่ใช่คำพูด:
- ตรวจจับ "endpointing" เพื่อพิจารณาว่าผู้ใช้พูดจบแล้วหรือยัง
- ปรับปรุงการกรองเสียงรบกวนพื้นหลังและการตรวจจับอารมณ์/ความรู้สึก
การจัดการข้อผิดพลาดอย่างมีประสิทธิภาพ:
- ตรวจจับการเรียก API ที่ล้มเหลวและ retry ได้ทันที
- แทรกคำตอบสำรอง เพื่อป้องกันบทสนทนาสะดุด
การผสานกับระบบภายนอกและการรองรับ RAG:
- ต้องการการเชื่อมต่อกับฐานความรู้และระบบภายนอกแบบ latency ต่ำ
การควบคุม flow ของบทสนทนา:
- รองรับการจัดการบทสนทนาที่ละเอียดอ่อนหรืออยู่ภายใต้กฎระเบียบ ด้วยการออกแบบ flow ที่คาดการณ์ได้
การสังเกตการณ์ การวิเคราะห์ และการทดสอบ:
- แก้ปัญหาการขาดแคลนเครื่องมือที่ใช้ติดตามคุณภาพและประสิทธิภาพของบทสนทนาในวงกว้าง
ตัวอย่างแพลตฟอร์ม Vapi: ช่วยลดความซับซ้อนของโครงสร้างพื้นฐานเสียง และสนับสนุนการสร้าง voice agent คุณภาพสูงได้อย่างรวดเร็ว

3. แอปพลิเคชัน (Applications)

มีการพัฒนาผลิตภัณฑ์อัตโนมัติที่ใช้เสียงในหลากหลายสาขา
คุณลักษณะของแอปพลิเคชันที่โดดเด่นที่สุด:
- จัดการงานของลูกค้าได้ครบถ้วน และมอบผลลัพธ์ที่มีคุณค่า
- มีความสามารถในการขยายเพื่อรองรับสายพร้อมกันหลายพันสายเมื่อ ความต้องการพุ่งสูง
- มอบ โซลูชันเฉพาะทาง ที่ปรับให้เหมาะกับแต่ละอุตสาหกรรม
โอกาสหลักตามฟังก์ชัน
- การถอดเสียง (Transcription): จดโน้ตการสนทนา แนะนำงานติดตามผล
- การรับสายเข้า (Inbound Calling): จัดการการจอง เปลี่ยนผู้สนใจให้เป็นลูกค้า ดูแลความสำเร็จของลูกค้า
- การโทรออก (Outbound Calling): คัดกรองผู้สมัคร ยืนยันนัดหมาย
- การฝึกอบรม (Training): ฝึกการขายหรือการสัมภาษณ์
- การเจรจา (Negotiation): ต่อรองการจัดซื้อ ข้อพิพาทด้านประกันภัย ปรับเงื่อนไขสัญญา
กรณีการลงทุน
- Abridge: จัดทำเอกสารบทสนทนาทางการแพทย์
- Rilla: โค้ชชิ่งสำหรับงานขายภาคสนาม
- Rev: ให้บริการถอดเสียงแบบผสาน AI และมนุษย์ในหลากหลายอุตสาหกรรม

ตัวอย่างการใช้งานที่เป็นรูปธรรม

โซลูชันเฉพาะอุตสาหกรรม Sameday AI: AI sales agent สำหรับอุตสาหกรรมบริการภายในบ้าน รับสายลูกค้า → เสนอราคาโดยอิงจากปัญหา → นัดหมาย → ชำระเงิน ครบวงจรแบบอัตโนมัติ
การโทรออก Wayfaster: ทำกระบวนการสรรหาบุคลากรให้เป็นอัตโนมัติ ดำเนินการโทรคัดกรองผู้สมัครโดยอัตโนมัติเพื่อให้โฟกัสกับผู้สมัครที่ดีที่สุด
การแพทย์ การต่อรองประกันภัย: ใช้ LLM วิเคราะห์เอกสารประกันและประวัติผู้ป่วยหลายพันรายการ เพื่อสนับสนุนการเจรจาแบบเรียลไทม์

หลักการลงทุนในเทคโนโลยี Voice AI

ระบบนิเวศ Voice AI มีโอกาสในการสร้างสตาร์ทอัพมากที่สุดที่ชั้น developer platform และ applications
ด้วยความเร็วของการพัฒนาโมเดลที่สูงขึ้น ทำให้ผู้ประกอบการสามารถพัฒนาและทดสอบ MVP (ผลิตภัณฑ์ต้นแบบที่ใช้งานได้ขั้นต่ำ) อย่างมีประสิทธิภาพได้อย่างรวดเร็วด้วยเงินลงทุนเริ่มต้นไม่มาก
1. โซลูชันที่ผสานลึกกับ workflow รายอุตสาหกรรมและมัลติโมดาลิตี
- แอปพลิเคชัน voice AI ที่ทรงอิทธิพลที่สุดจะผสานเข้ากับ workflow ของอุตสาหกรรมเฉพาะ อย่างลึกซึ้ง
- ปรับให้เหมาะกับภาษาและรูปแบบบทสนทนาเฉพาะของแต่ละอุตสาหกรรม
- ตัวอย่าง:
  - voice agent สำหรับดีลเลอร์รถยนต์ที่เชื่อมกับ CRM และใช้ข้อมูลปฏิสัมพันธ์ลูกค้าในอดีตเพื่อยกระดับคุณภาพบริการและเพิ่มความเร็วในการ deploy
  - ผสานหลาย modality เช่น เสียง ข้อความ และภาพ เพื่อแก้กระบวนการหลายขั้นตอนที่ซับซ้อนของมนุษย์
2. มอบผลิตภัณฑ์คุณภาพสูงด้วยวิศวกรรมที่แข็งแกร่ง
- การสร้างเดโมสำหรับ hackathon ค่อนข้างง่าย แต่ผลิตภัณฑ์จริงต้องการ ความน่าเชื่อถือสูง ความสามารถในการขยาย และความสามารถในการรองรับ use case จริง
- ข้อกำหนดขององค์กร: ประสิทธิภาพที่สม่ำเสมอ รับประกัน latency ต่ำ การผสานกับระบบเดิมอย่างราบรื่น
- องค์ประกอบการออกแบบสำคัญ: การจัดการอินพุตเสียงที่คาดเดาไม่ได้ การเสริมความปลอดภัย การรักษา uptime สูง
3. สร้างสมดุลระหว่างการเติบโต การรักษาลูกค้า และ KPI ด้านคุณภาพผลิตภัณฑ์
- voice agent มีศักยภาพการเติบโตสูงในฟังก์ชันที่ขับเคลื่อนรายได้ เช่น งานขาย
- เมื่อองค์กรย้าย workflow หลักจากมนุษย์ไปเป็น agent คุณภาพที่ลดลง อาจนำไปสู่ churn สูง

KPI และตัวชี้วัดคุณภาพที่สำคัญ

Churn (อัตราการสูญเสียลูกค้า):
- ในระยะแรก แอปพลิเคชันเสียงจำนวนมากเผชิญปัญหาอัตราการยกเลิกใช้งานสูง
- เกิดขึ้นเมื่อบริการไม่น่าเชื่อถือจนลูกค้าย้ายไปหาคู่แข่ง
Self-Serve Resolution (อัตราการแก้ปัญหาด้วยตนเอง):
- บ่งชี้ว่า voice agent สามารถแก้ปัญหาของผู้ใช้ได้อย่างมีประสิทธิภาพเพียงใดโดยไม่ต้องมีมนุษย์เข้ามาแทรกแซง
Customer Satisfaction Score (คะแนนความพึงพอใจของลูกค้า):
- วัดความพึงพอใจโดยรวมของลูกค้าที่มีปฏิสัมพันธ์กับ voice agent เพื่อให้ข้อมูลเชิงลึกด้านคุณภาพ
Call Termination Rates (อัตราการยุติสาย):
- อัตราที่ยุติสายสูงบ่งชี้ถึงปัญหาด้านประสบการณ์ผู้ใช้และปัญหาที่ยังไม่ได้รับการแก้ไข
Cohort Call Volume Expansion (การขยายปริมาณการโทรของ cohort):
- วัดว่าลูกค้าเพิ่มการใช้งาน voice agent เมื่อเวลาผ่านไปหรือไม่ เป็นตัวชี้วัดคุณค่าของผลิตภัณฑ์และการมีส่วนร่วมของผู้ใช้

อนาคตของ Voice AI

ความก้าวหน้าทางเทคโนโลยีในช่วงไม่กี่ปีที่ผ่านมาได้เปิดทางสู่การพัฒนาผลิตภัณฑ์นวัตกรรมที่สามารถแก้ปัญหาซับซ้อนได้
คาดว่าในอนาคต ระบบมัลติโหมดและระบบสนทนาแบบเรียลไทม์จะเข้ามาช่วยแก้ปัญหาได้มากขึ้นในหลากหลายอุตสาหกรรม

1 ความคิดเห็น

xguru 2024-11-28

ผมเคยทำงานฝั่ง IVR มาก่อน เลยสนใจด้านนี้เป็นพิเศษครับ

ลองอ่านบทความ ทุกเรื่องเกี่ยวกับเอเจนต์เสียง AI ที่ a16z สรุปไว้ ไปด้วยได้ครับ