ทุกเรื่องเกี่ยวกับ AI Voice Agent ที่ a16z สรุปไว้

xguru · 2024-06-12T11:07:01+09:00

ด้วยพลังของ Generative AI ในอนาคตมนุษย์จะไม่จำเป็นต้องคุยโทรศัพท์อีกต่อไป มนุษย์จะใช้เวลาไปกับการคุยโทรศัพท์เฉพาะเมื่อมันมีคุณค่าเท่านั้น ประโยชน์ต่อองค์กร ลดเวลาและต้นทุนแรงงานจากผู้โทรที่เป็นมนุษย์ สามารถโยกย้ายทรัพยากรไปเพิ่มการสร้างรายได้ได้ ลดความเสี่ยงด้วยประสบการณ์ลูกค้าที่เป็นมาตรฐานและสม่ำเสมอยิ่งขึ้น ประโยชน์ต่อผู้บริโภค Voice agent สามารถให้บริการในระดับมนุษย์ได้โดยไม่ต้องจ่ายเงินให้คนจริงหรือทำ "matching" ปัจจุบันรวมถึงนักบำบัด โค้ช เพื่อนคุย เป็นต้น ในอนาคตมีแนวโน้มสูงว่าจะครอบคลุมประสบการณ์ที่กว้างกว่านี้มากและสร้างขึ้นโดยมีเสียงเป็นศูนย์กลาง เช่นเดียวกับซอฟต์แวร์ผู้บริโภคส่วนใหญ่ เป็นการยากจะคาดเดาว่าใครจะเป็น "ผู้ชนะ" การคุยโทรศัพท์คือ API สำหรับสื่อสารกับโลก และ AI กำลังยกระดับมันไปอีกขั้น จุดที่ดูเหมือนมีโอกาส แต่ละเลเยอร์ ไม่ว่าจะเป็นผู้เล่นด้านโครงสร้างพื้นฐาน อินเทอร์เฟซผู้บริโภค หรือเอเจนต์สำหรับองค์กร ล้วนมีโอกาสมหาศาล สำหรับ voice agent ทั้งแบบ B2C และ B2B มีสมมติฐานบางประการเกี่ยวกับผลิตภัณฑ์เกิดใหม่ที่น่าสนใจที่สุด: คุณลักษณะสำคัญของ voice agent แบบ B2B และ B2C Built to scale (สร้างมาเพื่อขยายได้) เรื่อง latency และประสบการณ์การสนทนายังไม่ถูกแก้ได้สมบูรณ์ กำลังมองหาผู้ก่อตั้งที่มีมุมมองชัดเจนต่อการสร้างเอเจนต์ กำลังพยายามเพิ่มประสิทธิภาพสิ่งที่สำคัญที่สุดของเอเจนต์ให้สูงสุด เช่น ความเร็ว ความแม่นยำ น้ำเสียง/อารมณ์ Vertically focused (โฟกัสเชิงอุตสาหกรรมเฉพาะ) นี่อาจเป็น performer agent ที่อาศัยโมเดลที่ปรับจูนมาเฉพาะสำหรับ use case บางอย่างและมีการผสานรวมอย่างแน่นแฟ้น ทำให้สร้าง ออกสู่ตลาด และเติบโตได้สำเร็จง่ายกว่า Realistic in scope (กำหนดขอบเขตอย่างสมจริง) การมอบหมายสายสำคัญให้ AI รับผิดชอบทั้งหมดเป็นโจทย์ใหญ่ เราคาดหวังให้บริษัท voice agent ทำงานบางอย่างที่ยัง "ขยาย" ไม่ได้ในระยะสั้น ซึ่งอาจรวมถึงการปรับจูนตามลูกค้าแต่ละราย หรือส่งต่อสายให้ human agent ในขั้นตอนสุดท้าย สแตกสำหรับสร้าง voice agent เพื่อให้ voice agent ทำงานได้ ต้องมีสิ่งต่อไปนี้: รับเสียงพูดของมนุษย์ (ASR) ใช้ LLM ประมวลผลอินพุตนี้และส่งผลลัพธ์กลับ พูดกลับไปยังมนุษย์ (TTS) โมเดลมัลติโหมดรุ่นใหม่อย่าง GPT-4o อาจเปลี่ยนโครงสร้างของสแตกได้ ด้วยการ "รัน" หลายเลเยอร์เหล่านี้พร้อมกันผ่านโมเดลเดียว ซึ่งอาจลด latency และต้นทุน พร้อมมอบอินเทอร์เฟซแบบสนทนาที่เป็นธรรมชาติมากขึ้น เอเจนต์จำนวนมากยังไปไม่ถึงคุณภาพที่เหมือนมนุษย์จริงด้วยสแตกแบบประกอบด้านล่างนี้ ในบางบริษัท/แนวทาง LLM หรือชุดของ LLM จะจัดการ flow ของบทสนทนาและอารมณ์ ส่วนในบางกรณีจะมีเอนจินเฉพาะที่เพิ่มอารมณ์ จัดการการขัดจังหวะ ฯลฯ ผู้ให้บริการ voice แบบ "full stack" จะรวมทุกอย่างนี้ไว้ในที่เดียว แอปผู้บริโภค (B2C) และแอปองค์กร (B2B) อยู่บนสแตกนี้ แม้จะใช้ผู้ให้บริการ third-party แอปก็มักจะเสียบ custom LLM เข้าไป ซึ่งบ่อยครั้งทำหน้าที่เป็น conversation engine ด้วย Full stack vs. ประกอบเอง: เปรียบเทียบปัจจัยหลัก ผู้ก่อตั้ง voice agent สามารถเลือกระหว่างการรันเอเจนต์บนแพลตฟอร์ม full stack (เช่น Retell, Vapi, Bland) หรือประกอบสแตกเอง มีปัจจัยสำคัญบางอย่างในการตัดสินใจนี้: Complexity (ความซับซ้อน) ผู้เล่นแบบ full stack มอบวิธีสร้าง voice agent ที่ง่ายกว่า โดยช่วยซ่อนความซับซ้อนฝั่งอินฟราสตรักเจอร์ แต่ก็ยังเปิดพื้นที่ให้ทำ customization และ tuning เช่น การเสียบ prompt หรือเอกสารความรู้ (RAG) เข้าไปใน LLM Flexibility (ความยืดหยุ่น) ผู้ก่อตั้งที่สร้างผลิตภัณฑ์สำหรับตลาดแนวตั้งและ use case เฉพาะ มีแนวโน้มจะต้องการความยืดหยุ่นสูงสุดต่อการทำงาน/การรันของแต่ละเลเยอร์ในสแตก และยังอาจได้ประโยชน์ในด้านการลด latency ให้ต่ำที่สุดด้วย Cost (ต้นทุน) ผู้ให้บริการ full stack อาจเพิ่มต้นทุนต่อสาย และอาจต่อรองราคาได้ดีกว่าเมื่อมีปริมาณมาก สำหรับ voice agent ที่ใช้งานในระดับใหญ่ ความต่างเพียงไม่กี่เซ็นต์ต่อสายก็มีความสำคัญ Control (การควบคุม) เมื่อเกิดปัญหา ผู้ก่อตั้ง voice agent ต้องสามารถไล่ตรวจและแก้ไขได้ทันที โดยเฉพาะใน use case ที่อ่อนไหว อีกทั้งอาจต้องการการมองเห็นการทำงานของแต่ละเลเยอร์ให้มากที่สุด ซึ่งทำได้ง่ายกว่าด้วยสแตกแบบประกอบเอง ผู้เล่นหลักในสแตก Full Stack : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI Emotion : hume Text to Speech : ElevenLabs, Azure Speech to Text : Deepgram, Whisper, AssemblyAI, Azure Streaming : LiveKit, daily มุมมองของเราต่อเอเจนต์ B2B วิวัฒนาการของ AI เสียง เรากำลังเปลี่ยนผ่านจาก AI เสียง 1.0 (phone tree) ไปสู่ยุค AI เสียง 2.0 (ขับเคลื่อนด้วย LLM) บริษัทกลุ่ม 2.0 เพิ่งเริ่มปรากฏขึ้นในช่วงราว 6 เดือนที่ผ่านมา แม้บริษัท 1.0 อาจแม่นยำกว่าตอนนี้ แต่ในระยะยาวแนวทาง 2.0 จะขยายได้มากกว่าและแม่นยำกว่ามาก ความจำเป็นของโมเดลเฉพาะตลาดแนวตั้ง จะไม่มีโมเดลหรือแพลตฟอร์มแนวนอนตัวเดียวที่ใช้ได้กับ voice agent สำหรับองค์กรทุกประเภท มีความแตกต่างสำคัญบางประการในแต่ละตลาดแนวตั้ง: ประเภท น้ำเสียง และโครงสร้างของการโทร การผสานรวมและกระบวนการ GTM และ "killer feature" สิ่งนี้อาจหมายถึงการเติบโตแบบระเบิดของ vertical agent ที่มีมุมมองชัดเจนอย่างมากในระดับ UI และต้องการทีมผู้ก่อตั้งที่มีความเชี่ยวชาญหรือความสนใจในสาขานั้น โอกาสที่ใกล้ที่สุด สำหรับธุรกิจที่ใช้แรงงานจำนวนมาก TAM มีขนาดใหญ่ โอกาสในระยะใกล้อาจอยู่ในอุตสาหกรรมที่: อยู่รอดหรือพังเพราะการจองผ่านโทรศัพท์ กำลังเผชิญปัญหาขาดแคลนแรงงานอย่างหนัก มีความซับซ้อนของสายโทรต่ำ เมื่อเอเจนต์มีความซับซ้อนมากขึ้น ก็จะสามารถรับมือกับสายที่ซับซ้อนมากขึ้นได้ วิวัฒนาการของเอเจนต์ B2B กระบวนการวิวัฒนาการ IVR (Interactive Voice Response) : โมเดล touch-tone แบบดั้งเดิม ที่เอเจนต์เสนอชุดตัวเลือกให้ผู้บริโภค (กด 1 สำหรับฝ่ายขาย กด 2 สำหรับบริการลูกค้า เป็นต้น) แล้วนำทางตามนั้น AI 1.0 (Phone Trees) : เวอร์ชันของ IVR ที่ยืดหยุ่นและเป็นธรรมชาติกว่า โดยผู้บริโภคพูดด้วยภาษาธรรมชาติ และเอเจนต์พยายามนำทางผ่านชุดของ flow บทสนทนา AI 2.0 (LLMs) : การสนทนาแบบอิสระ ที่ AI ไม่พยายามจับคู่สิ่งที่มนุษย์พูดเข้ากับตัวเลือกที่กำหนดไว้ล่วงหน้าแบบตายตัว บริษัท voice agent จำนวนมากใช้แนวทางเฉพาะตลาดแนวตั้งสำหรับอุตสาหกรรมหนึ่ง ๆ (เช่น บริการยานยนต์) หรือประเภทงานหนึ่ง ๆ (เช่น การนัดหมาย) ด้วยเหตุผลหลายประการ: ความยากในการดำเนินการ มาตรฐานคุณภาพสำหรับการให้ AI รับสายแทนค่อนข้างสูง และ flow ของบทสนทนา (รวมถึง backend workflow ฝั่งลูกค้า) อาจซับซ้อนหรือเฉพาะทางได้อย่างรวดเร็ว บริษัทที่สร้างเพื่อรองรับ "กรณียกเว้น" ของตลาดแนวตั้งเหล่านี้มีโอกาสสำเร็จสูงกว่า (เช่น คำศัพท์เฉพาะที่โมเดลทั่วไปอาจตีความผิด) กฎระเบียบและใบอนุญาต บริษัท voice agent บางรายต้องเผชิญข้อจำกัดพิเศษ การรับรองที่จำเป็น ฯลฯ ตัวอย่างที่ชัดเจนคือภาคสาธารณสุข (เช่น การปฏิบัติตาม HIPAA) แต่ยังเริ่มปรากฏในหมวดอื่นอย่างงานขายที่มีข้อบังคับเรื่อง AI cold calling ระดับประเทศ การผสานรวม ในบางหมวดหมู่ หากต้องการทำให้ประสบการณ์ผู้ใช้ถูกต้องจริง ๆ (ทั้งฝั่งองค์กรและผู้บริโภค) อาจต้องอาศัย long-tail integration หรือ integration แบบเฉพาะ ซึ่งไม่คุ้มจะสร้างหากไม่ได้ตั้งใจแก้ use case เฉพาะนั้น การเข้าสู่ซอฟต์แวร์อื่น เสียงสามารถแทรกเข้าสู่พฤติกรรมลูกค้าหลักได้อย่างเป็นธรรมชาติ เช่น การจอง การต่ออายุ การขอราคา ในบางกรณี นี่อาจเป็นจุดเริ่มต้นสู่แพลตฟอร์ม vertical SaaS ที่กว้างขึ้นสำหรับธุรกิจเหล่านี้ โดยเฉพาะเมื่อฐานลูกค้ายังดำเนินงานออฟไลน์อยู่มาก เอเจนต์ B2B: จุดที่เห็นโอกาส ขับเคลื่อนด้วย LLM — แต่ไม่จำเป็นต้องอัตโนมัติ 100% ตั้งแต่วันแรก รูปแบบที่ "ทรงพลัง" ของ AI voice agent จะเป็นการสนทนาที่ขับเคลื่อนด้วย LLM อย่างเต็มรูปแบบ ไม่ใช่แนวทางแบบ IVR หรือ phone tree แต่เพราะ LLM ยังเชื่อถือได้ไม่ 100% ตลอดทั้งกระบวนการ จึงมีแนวโน้มว่าจะยังมี "human-in-the-loop" (ชั่วคราว) สำหรับดีลที่อ่อนไหวหรือมูลค่าสูง สิ่งนี้ยังทำให้ workflow เฉพาะตลาดแนวตั้งมีความสำคัญเป็นพิเศษ เพราะช่วยเพิ่มโอกาสสำเร็จให้สูงสุด ลด edge case และลดการแทรกแซงจากมนุษย์ การปรับจูนโมเดลแบบกำหนดเอง vs. การใช้ prompt กับแนวทาง LLM voice agent แบบ B2B จำเป็นต้องจัดการบทสนทนาเฉพาะทาง (หรือเฉพาะตลาดแนวตั้ง) ซึ่ง LLM ทั่วไปอาจไม่เพียงพอ หลายบริษัทกำลังปรับจูนโมเดลรายลูกค้า (โดยใช้ข้อมูลไม่กี่ร้อยถึงหลักพันต้น ๆ) และมีแนวโน้มจะสรุปสิ่งที่ได้กลับไปเป็นโมเดลพื้นฐานของทั้งบริษัท การปรับจูนแบบกำหนดเองสำหรับลูกค้าองค์กรอาจยังคงดำเนินต่อไป หมายเหตุ: บางบริษัทอาจปรับจูนโมเดล "ทั่วไป" (ที่จะใช้กับลูกค้าทั้งหมด) ให้เข้ากับ use case เฉพาะก่อน แล้วค่อย prompt แยกตามลูกค้า ทีมเทคนิคที่มีความเชี่ยวชาญด้านโดเมน เมื่อพิจารณาจากความซับซ้อน การมีพื้นฐาน AI มาก่อนย่อมเป็นประโยชน์ต่อการสร้างและขยาย B2B voice agent คุณภาพสูง แต่การเข้าใจวิธีแพ็กผลิตภัณฑ์และวิธีปักหมุดในตลาดแนวตั้งก็มีแนวโน้มสำคัญไม่แพ้กัน เพราะต้องอาศัยความเชี่ยวชาญเชิงโดเมนหรือความสนใจอย่างจริงจัง การสร้างและเปิดตัว voice agent สำหรับองค์กรไม่ได้จำเป็นต้องมีปริญญาเอกด้าน AI เสมอไป! มุมมองที่เฉียบคมต่อการผสานรวม + ecosystem เช่นเดียวกับประเด็นด้านบน ผู้ซื้อในแต่ละตลาดแนวตั้งมักมีฟีเจอร์หรือ integration บางอย่างที่อยากเห็นก่อนตัดสินใจซื้อ ในทางปฏิบัติ สิ่งนี้อาจเป็นหลักฐานที่ยกระดับผลิตภัณฑ์จากแค่ "ใช้งานได้" ไปเป็น "มหัศจรรย์" นี่คืออีกเหตุผลหนึ่งว่าทำไมการเริ่มจากจุดที่ค่อนข้าง vertical จึงสมเหตุสมผล การขายแบบ "enterprise-grade" หรือ motion แบบ product-led growth (PLG) ที่แข็งแรง สำหรับตลาดแนวตั้งที่รายได้กระจุกตัวอยู่กับบริษัท/ผู้ให้บริการรายใหญ่ voice agent company อาจเริ่มจากลูกค้าองค์กรใหญ่ แล้วค่อย "ไล่ลง" ไปสู่ SMB ด้วยผลิตภัณฑ์แบบ self-service ในภายหลัง ลูกค้า SMB ต้องการโซลูชันนี้อย่างมากและยินดีทดสอบหลายทางเลือก แต่ก็อาจไม่ได้ให้ข้อมูลที่มีขนาด/คุณภาพพอให้สตาร์ทอัพปรับจูนโมเดลไปถึงระดับองค์กรได้ มุมมองของเราต่อเอเจนต์ B2C ความแตกต่างจาก B2B ใน B2B voice agent มีหน้าที่หลักในการแทนที่การคุยโทรศัพท์ที่มีอยู่เดิมเพื่อทำงานบางอย่างให้เสร็จ แต่สำหรับเอเจนต์ผู้บริโภค ผู้ใช้ต้องเลือกที่จะมีส่วนร่วมต่อเนื่อง ซึ่งเป็นเรื่องยากเพราะการโต้ตอบด้วยเสียงไม่ได้สะดวกเสมอไป นี่จึงหมายความว่าเกณฑ์ของผลิตภัณฑ์ "สูงกว่า" พื้นที่การใช้งานแรก พื้นที่ใช้งานแรกและชัดเจนที่สุดของ voice agent ฝั่งผู้บริโภค คือการใช้ AI แทนบริการมนุษย์ที่มีราคาแพงหรือเข้าถึงยาก ซึ่งรวมถึงทุกสิ่งที่เป็นบทสนทนาและทำได้ในรูปแบบเสมือนจริง เช่น การบำบัด การโค้ช การติว ความเป็นไปได้ในอนาคต แต่เราเชื่อว่าเวทมนตร์ที่แท้จริงของ B2C voice agent ยังมาไม่ถึง! เรากำลังมองหาผลิตภัณฑ์ที่ใช้พลังของเสียงเพื่อทำให้เกิด "บทสนทนา" รูปแบบใหม่ที่ไม่เคยมีมาก่อน สิ่งนี้อาจเป็นการคิดรูปแบบบริการเดิมใหม่ หรือสร้างบริการใหม่ขึ้นมาโดยสิ้นเชิง การจำลองความเชื่อมโยงแบบมนุษย์ สำหรับผลิตภัณฑ์ที่ออกแบบ UX ได้ถูกต้อง voice agent เปิดโอกาสในการดึงดูดผู้บริโภคในระดับที่ซอฟต์แวร์ไม่เคยทำได้มาก่อน นี่คือการจำลองความเชื่อมโยงแบบมนุษย์อย่างแท้จริง มันอาจปรากฏในรูปของเอเจนต์ในฐานะตัวผลิตภัณฑ์เอง หรือเป็นโหมดเสียงของผลิตภัณฑ์ที่กว้างกว่า วิวัฒนาการของเอเจนต์ B2C จนถึงตอนนี้ AI voice agent สำหรับผู้บริโภคที่โดดเด่นส่วนใหญ่มาจากบริษัทขนาดใหญ่ เช่น ChatGPT Voice และแอป Pi ของ Inflection มีหลายเหตุผลที่ทำให้เสียงสำหรับผู้บริโภคเกิดขึ้นช้ากว่า: ความได้เปรียบของบริษัทใหญ่ บริษัทใหญ่มีทั้งช่องทางการกระจายสู่ผู้บริโภคอยู่แล้ว และมีโมเดลระดับแนวหน้าทั้งด้านความแม่นยำ latency ฯลฯ เสียงไม่ใช่สิ่งที่ให้บริการในระดับใหญ่ได้ง่าย โดยเฉพาะเมื่อคำนึงถึงการมาของ GPT-4o ล่าสุด ความยากของการสร้างพฤติกรรมใหม่ B2B voice agent เป็นการ "เสียบ" AI เข้ากับกระบวนการเดิม ขณะที่ B2C voice agent ต้องให้ผู้ใช้ยอมรับพฤติกรรมใหม่ ซึ่งอาจต้องการผลิตภัณฑ์ที่ช้ากว่า หรือมหัศจรรย์กว่ามาก ภาพจำเชิงลบต่อ voice AI เดิม ผู้บริโภคอาจมีอคติเชิงลบต่อ voice AI จากประสบการณ์กับผลิตภัณฑ์อย่าง Siri จึงอาจไม่รู้สึกอยากลองแอปใหม่ ผลิตภัณฑ์ฐานกว้างตอบโจทย์ use case พื้นฐานไปแล้ว ผลิตภัณฑ์ฐานกว้างสามารถตอบ use case พื้นฐานของ voice AI ได้อยู่แล้ว เช่น การติว การเป็นเพื่อนคุย เป็นต้น สตาร์ทอัพ B2C ด้านเสียงเพิ่งอยู่ในช่วงเริ่มสร้าง use case หรือประสบการณ์ที่ ChatGPT, Pi และรายอื่นยังไม่ครอบคลุม เอเจนต์ B2C: จุดที่เห็นโอกาส มุมมองที่ชัดเจนว่าทำไมต้องใช้เสียง เราตื่นเต้นกับผลิตภัณฑ์และผู้ก่อตั้งที่มีมุมมองชัดเจนว่าเสียงสร้างคุณค่าเฉพาะให้ผลิตภัณฑ์ได้อย่างไร ไม่ใช่แค่ "ใส่เสียงเพราะมีเสียง" ในหลายกรณี อินเทอร์เฟซเสียงกลับด้อยกว่าอินเทอร์เฟซข้อความ เพราะบริโภคและดึงข้อมูลได้ไม่สะดวกกว่า มุมมองที่ชัดเจนว่าทำไมต้องเป็นเสียงแบบเรียลไทม์ เสียงนั้นบริโภคยากอยู่แล้ว และเสียงแบบเรียลไทม์ยิ่งยากกว่าอีก (เมื่อเทียบกับข้อความเสียงแบบอะซิงก์) เราตื่นเต้นกับผู้ก่อตั้งที่มีมุมมองว่าทำไมผลิตภัณฑ์ของพวกเขาจึงต้องสร้างขึ้นรอบการสนทนาแบบเรียลไทม์ อาจเป็นเพื่อความรู้สึกเหมือนมีเพื่อนร่วมทางแบบมนุษย์ สภาพแวดล้อมสำหรับการฝึกฝน เป็นต้น ความไม่เหมือนกับ "ผลิตภัณฑ์" ในยุคก่อน AI เราสงสัยว่าผลิตภัณฑ์ในรูปแบบที่แข็งแรงจะไม่ใช่แค่การย้ายบทสนทนาแบบคนต่อคนในอดีตมาให้ AI voice agent ทำแทนตรง ๆ ประการแรก มันยากที่จะทำให้ถึงมาตรฐานนั้น และที่สำคัญกว่านั้นคือ มีโอกาสใช้ AI เพื่อส่งมอบคุณค่าเดิมได้ดีกว่าเดิม (มีประสิทธิภาพกว่า สนุกกว่า) ความเป็น vertical ที่คุณภาพโมเดลไม่ใช่ตัวตัดสินผู้ชนะ ผลิตภัณฑ์ AI ผู้บริโภคหลักทั่วไป (ChatGPT, Pi, Claude) ต่างก็มีโหมดเสียงคุณภาพสูง พวกมันสามารถมีส่วนร่วมกับบทสนทนาและการโต้ตอบได้อย่างมีความหมายในหลายรูปแบบ เนื่องจากพวกมันโฮสต์โมเดลและสแตกของตัวเอง จึงมีแนวโน้มจะชนะด้าน latency และ flow ของบทสนทนาในระยะสั้น เราคาดหวังว่าสตาร์ทอัพจะประสบความสำเร็จด้วยวิธีต่อไปนี้: ปรับหรือ tune ให้เหมาะกับบทสนทนาบางประเภทโดยเฉพาะ หรือ สร้าง UI ที่เพิ่มบริบทและคุณค่าให้ประสบการณ์ voice agent มากขึ้น (เช่น ติดตามความคืบหน้าตามช่วงเวลา ควบคุมบทสนทนา/ประสบการณ์ในแบบที่มีมุมมองชัดเจน)

(a16z.com)

12 คะแนน โดย xguru 2024-06-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ด้วยพลังของ Generative AI ในอนาคตมนุษย์จะไม่จำเป็นต้องคุยโทรศัพท์อีกต่อไป
มนุษย์จะใช้เวลาไปกับการคุยโทรศัพท์เฉพาะเมื่อมันมีคุณค่าเท่านั้น

ประโยชน์ต่อองค์กร

ลดเวลาและต้นทุนแรงงานจากผู้โทรที่เป็นมนุษย์
สามารถโยกย้ายทรัพยากรไปเพิ่มการสร้างรายได้ได้
ลดความเสี่ยงด้วยประสบการณ์ลูกค้าที่เป็นมาตรฐานและสม่ำเสมอยิ่งขึ้น

ประโยชน์ต่อผู้บริโภค

Voice agent สามารถให้บริการในระดับมนุษย์ได้โดยไม่ต้องจ่ายเงินให้คนจริงหรือทำ "matching"
- ปัจจุบันรวมถึงนักบำบัด โค้ช เพื่อนคุย เป็นต้น
- ในอนาคตมีแนวโน้มสูงว่าจะครอบคลุมประสบการณ์ที่กว้างกว่านี้มากและสร้างขึ้นโดยมีเสียงเป็นศูนย์กลาง
เช่นเดียวกับซอฟต์แวร์ผู้บริโภคส่วนใหญ่ เป็นการยากจะคาดเดาว่าใครจะเป็น "ผู้ชนะ"

การคุยโทรศัพท์คือ API สำหรับสื่อสารกับโลก และ AI กำลังยกระดับมันไปอีกขั้น

จุดที่ดูเหมือนมีโอกาส

แต่ละเลเยอร์ ไม่ว่าจะเป็นผู้เล่นด้านโครงสร้างพื้นฐาน อินเทอร์เฟซผู้บริโภค หรือเอเจนต์สำหรับองค์กร ล้วนมีโอกาสมหาศาล
สำหรับ voice agent ทั้งแบบ B2C และ B2B มีสมมติฐานบางประการเกี่ยวกับผลิตภัณฑ์เกิดใหม่ที่น่าสนใจที่สุด:

คุณลักษณะสำคัญของ voice agent แบบ B2B และ B2C

Built to scale (สร้างมาเพื่อขยายได้)
- เรื่อง latency และประสบการณ์การสนทนายังไม่ถูกแก้ได้สมบูรณ์
- กำลังมองหาผู้ก่อตั้งที่มีมุมมองชัดเจนต่อการสร้างเอเจนต์
- กำลังพยายามเพิ่มประสิทธิภาพสิ่งที่สำคัญที่สุดของเอเจนต์ให้สูงสุด เช่น ความเร็ว ความแม่นยำ น้ำเสียง/อารมณ์
Vertically focused (โฟกัสเชิงอุตสาหกรรมเฉพาะ)
- นี่อาจเป็น performer agent ที่อาศัยโมเดลที่ปรับจูนมาเฉพาะสำหรับ use case บางอย่างและมีการผสานรวมอย่างแน่นแฟ้น
- ทำให้สร้าง ออกสู่ตลาด และเติบโตได้สำเร็จง่ายกว่า
โฆษณา
Realistic in scope (กำหนดขอบเขตอย่างสมจริง)
- การมอบหมายสายสำคัญให้ AI รับผิดชอบทั้งหมดเป็นโจทย์ใหญ่
- เราคาดหวังให้บริษัท voice agent ทำงานบางอย่างที่ยัง "ขยาย" ไม่ได้ในระยะสั้น
- ซึ่งอาจรวมถึงการปรับจูนตามลูกค้าแต่ละราย หรือส่งต่อสายให้ human agent ในขั้นตอนสุดท้าย

สแตกสำหรับสร้าง voice agent

เพื่อให้ voice agent ทำงานได้ ต้องมีสิ่งต่อไปนี้:
- รับเสียงพูดของมนุษย์ (ASR)
- ใช้ LLM ประมวลผลอินพุตนี้และส่งผลลัพธ์กลับ
- พูดกลับไปยังมนุษย์ (TTS)
โมเดลมัลติโหมดรุ่นใหม่อย่าง GPT-4o อาจเปลี่ยนโครงสร้างของสแตกได้ ด้วยการ "รัน" หลายเลเยอร์เหล่านี้พร้อมกันผ่านโมเดลเดียว
- ซึ่งอาจลด latency และต้นทุน พร้อมมอบอินเทอร์เฟซแบบสนทนาที่เป็นธรรมชาติมากขึ้น
- เอเจนต์จำนวนมากยังไปไม่ถึงคุณภาพที่เหมือนมนุษย์จริงด้วยสแตกแบบประกอบด้านล่างนี้
ในบางบริษัท/แนวทาง LLM หรือชุดของ LLM จะจัดการ flow ของบทสนทนาและอารมณ์ ส่วนในบางกรณีจะมีเอนจินเฉพาะที่เพิ่มอารมณ์ จัดการการขัดจังหวะ ฯลฯ
- ผู้ให้บริการ voice แบบ "full stack" จะรวมทุกอย่างนี้ไว้ในที่เดียว
แอปผู้บริโภค (B2C) และแอปองค์กร (B2B) อยู่บนสแตกนี้
แม้จะใช้ผู้ให้บริการ third-party แอปก็มักจะเสียบ custom LLM เข้าไป ซึ่งบ่อยครั้งทำหน้าที่เป็น conversation engine ด้วย

Full stack vs. ประกอบเอง: เปรียบเทียบปัจจัยหลัก

ผู้ก่อตั้ง voice agent สามารถเลือกระหว่างการรันเอเจนต์บนแพลตฟอร์ม full stack (เช่น Retell, Vapi, Bland) หรือประกอบสแตกเอง
มีปัจจัยสำคัญบางอย่างในการตัดสินใจนี้:
- Complexity (ความซับซ้อน)
  - ผู้เล่นแบบ full stack มอบวิธีสร้าง voice agent ที่ง่ายกว่า โดยช่วยซ่อนความซับซ้อนฝั่งอินฟราสตรักเจอร์
  - แต่ก็ยังเปิดพื้นที่ให้ทำ customization และ tuning เช่น การเสียบ prompt หรือเอกสารความรู้ (RAG) เข้าไปใน LLM
- Flexibility (ความยืดหยุ่น)
  - ผู้ก่อตั้งที่สร้างผลิตภัณฑ์สำหรับตลาดแนวตั้งและ use case เฉพาะ มีแนวโน้มจะต้องการความยืดหยุ่นสูงสุดต่อการทำงาน/การรันของแต่ละเลเยอร์ในสแตก
  - และยังอาจได้ประโยชน์ในด้านการลด latency ให้ต่ำที่สุดด้วย
- Cost (ต้นทุน)
  - ผู้ให้บริการ full stack อาจเพิ่มต้นทุนต่อสาย และอาจต่อรองราคาได้ดีกว่าเมื่อมีปริมาณมาก
  - สำหรับ voice agent ที่ใช้งานในระดับใหญ่ ความต่างเพียงไม่กี่เซ็นต์ต่อสายก็มีความสำคัญ
  โฆษณา
- Control (การควบคุม)
  - เมื่อเกิดปัญหา ผู้ก่อตั้ง voice agent ต้องสามารถไล่ตรวจและแก้ไขได้ทันที โดยเฉพาะใน use case ที่อ่อนไหว
  - อีกทั้งอาจต้องการการมองเห็นการทำงานของแต่ละเลเยอร์ให้มากที่สุด
  - ซึ่งทำได้ง่ายกว่าด้วยสแตกแบบประกอบเอง
ผู้เล่นหลักในสแตก
- Full Stack : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion : hume
- Text to Speech : ElevenLabs, Azure
- Speech to Text : Deepgram, Whisper, AssemblyAI, Azure
- Streaming : LiveKit, daily

มุมมองของเราต่อเอเจนต์ B2B

วิวัฒนาการของ AI เสียง

เรากำลังเปลี่ยนผ่านจาก AI เสียง 1.0 (phone tree) ไปสู่ยุค AI เสียง 2.0 (ขับเคลื่อนด้วย LLM)
บริษัทกลุ่ม 2.0 เพิ่งเริ่มปรากฏขึ้นในช่วงราว 6 เดือนที่ผ่านมา
แม้บริษัท 1.0 อาจแม่นยำกว่าตอนนี้ แต่ในระยะยาวแนวทาง 2.0 จะขยายได้มากกว่าและแม่นยำกว่ามาก

ความจำเป็นของโมเดลเฉพาะตลาดแนวตั้ง

จะไม่มีโมเดลหรือแพลตฟอร์มแนวนอนตัวเดียวที่ใช้ได้กับ voice agent สำหรับองค์กรทุกประเภท
มีความแตกต่างสำคัญบางประการในแต่ละตลาดแนวตั้ง:
1. ประเภท น้ำเสียง และโครงสร้างของการโทร
2. การผสานรวมและกระบวนการ
3. GTM และ "killer feature"
สิ่งนี้อาจหมายถึงการเติบโตแบบระเบิดของ vertical agent ที่มีมุมมองชัดเจนอย่างมากในระดับ UI
และต้องการทีมผู้ก่อตั้งที่มีความเชี่ยวชาญหรือความสนใจในสาขานั้น

โอกาสที่ใกล้ที่สุด

สำหรับธุรกิจที่ใช้แรงงานจำนวนมาก TAM มีขนาดใหญ่
โอกาสในระยะใกล้อาจอยู่ในอุตสาหกรรมที่:
- อยู่รอดหรือพังเพราะการจองผ่านโทรศัพท์
- กำลังเผชิญปัญหาขาดแคลนแรงงานอย่างหนัก
- มีความซับซ้อนของสายโทรต่ำ
เมื่อเอเจนต์มีความซับซ้อนมากขึ้น ก็จะสามารถรับมือกับสายที่ซับซ้อนมากขึ้นได้

วิวัฒนาการของเอเจนต์ B2B

กระบวนการวิวัฒนาการ
- IVR (Interactive Voice Response) : โมเดล touch-tone แบบดั้งเดิม ที่เอเจนต์เสนอชุดตัวเลือกให้ผู้บริโภค (กด 1 สำหรับฝ่ายขาย กด 2 สำหรับบริการลูกค้า เป็นต้น) แล้วนำทางตามนั้น
- AI 1.0 (Phone Trees) : เวอร์ชันของ IVR ที่ยืดหยุ่นและเป็นธรรมชาติกว่า โดยผู้บริโภคพูดด้วยภาษาธรรมชาติ และเอเจนต์พยายามนำทางผ่านชุดของ flow บทสนทนา
- AI 2.0 (LLMs) : การสนทนาแบบอิสระ ที่ AI ไม่พยายามจับคู่สิ่งที่มนุษย์พูดเข้ากับตัวเลือกที่กำหนดไว้ล่วงหน้าแบบตายตัว
โฆษณา
บริษัท voice agent จำนวนมากใช้แนวทางเฉพาะตลาดแนวตั้งสำหรับอุตสาหกรรมหนึ่ง ๆ (เช่น บริการยานยนต์) หรือประเภทงานหนึ่ง ๆ (เช่น การนัดหมาย) ด้วยเหตุผลหลายประการ:
- ความยากในการดำเนินการ
  - มาตรฐานคุณภาพสำหรับการให้ AI รับสายแทนค่อนข้างสูง และ flow ของบทสนทนา (รวมถึง backend workflow ฝั่งลูกค้า) อาจซับซ้อนหรือเฉพาะทางได้อย่างรวดเร็ว
  - บริษัทที่สร้างเพื่อรองรับ "กรณียกเว้น" ของตลาดแนวตั้งเหล่านี้มีโอกาสสำเร็จสูงกว่า (เช่น คำศัพท์เฉพาะที่โมเดลทั่วไปอาจตีความผิด)
- กฎระเบียบและใบอนุญาต
  - บริษัท voice agent บางรายต้องเผชิญข้อจำกัดพิเศษ การรับรองที่จำเป็น ฯลฯ
  - ตัวอย่างที่ชัดเจนคือภาคสาธารณสุข (เช่น การปฏิบัติตาม HIPAA) แต่ยังเริ่มปรากฏในหมวดอื่นอย่างงานขายที่มีข้อบังคับเรื่อง AI cold calling ระดับประเทศ
- การผสานรวม
  - ในบางหมวดหมู่ หากต้องการทำให้ประสบการณ์ผู้ใช้ถูกต้องจริง ๆ (ทั้งฝั่งองค์กรและผู้บริโภค) อาจต้องอาศัย long-tail integration หรือ integration แบบเฉพาะ ซึ่งไม่คุ้มจะสร้างหากไม่ได้ตั้งใจแก้ use case เฉพาะนั้น
- การเข้าสู่ซอฟต์แวร์อื่น
  - เสียงสามารถแทรกเข้าสู่พฤติกรรมลูกค้าหลักได้อย่างเป็นธรรมชาติ เช่น การจอง การต่ออายุ การขอราคา
  - ในบางกรณี นี่อาจเป็นจุดเริ่มต้นสู่แพลตฟอร์ม vertical SaaS ที่กว้างขึ้นสำหรับธุรกิจเหล่านี้ โดยเฉพาะเมื่อฐานลูกค้ายังดำเนินงานออฟไลน์อยู่มาก

เอเจนต์ B2B: จุดที่เห็นโอกาส

ขับเคลื่อนด้วย LLM — แต่ไม่จำเป็นต้องอัตโนมัติ 100% ตั้งแต่วันแรก

รูปแบบที่ "ทรงพลัง" ของ AI voice agent จะเป็นการสนทนาที่ขับเคลื่อนด้วย LLM อย่างเต็มรูปแบบ ไม่ใช่แนวทางแบบ IVR หรือ phone tree
แต่เพราะ LLM ยังเชื่อถือได้ไม่ 100% ตลอดทั้งกระบวนการ จึงมีแนวโน้มว่าจะยังมี "human-in-the-loop" (ชั่วคราว) สำหรับดีลที่อ่อนไหวหรือมูลค่าสูง
สิ่งนี้ยังทำให้ workflow เฉพาะตลาดแนวตั้งมีความสำคัญเป็นพิเศษ เพราะช่วยเพิ่มโอกาสสำเร็จให้สูงสุด ลด edge case และลดการแทรกแซงจากมนุษย์

การปรับจูนโมเดลแบบกำหนดเอง vs. การใช้ prompt กับแนวทาง LLM

voice agent แบบ B2B จำเป็นต้องจัดการบทสนทนาเฉพาะทาง (หรือเฉพาะตลาดแนวตั้ง) ซึ่ง LLM ทั่วไปอาจไม่เพียงพอ
หลายบริษัทกำลังปรับจูนโมเดลรายลูกค้า (โดยใช้ข้อมูลไม่กี่ร้อยถึงหลักพันต้น ๆ) และมีแนวโน้มจะสรุปสิ่งที่ได้กลับไปเป็นโมเดลพื้นฐานของทั้งบริษัท
การปรับจูนแบบกำหนดเองสำหรับลูกค้าองค์กรอาจยังคงดำเนินต่อไป
- หมายเหตุ: บางบริษัทอาจปรับจูนโมเดล "ทั่วไป" (ที่จะใช้กับลูกค้าทั้งหมด) ให้เข้ากับ use case เฉพาะก่อน แล้วค่อย prompt แยกตามลูกค้า

ทีมเทคนิคที่มีความเชี่ยวชาญด้านโดเมน

เมื่อพิจารณาจากความซับซ้อน การมีพื้นฐาน AI มาก่อนย่อมเป็นประโยชน์ต่อการสร้างและขยาย B2B voice agent คุณภาพสูง
แต่การเข้าใจวิธีแพ็กผลิตภัณฑ์และวิธีปักหมุดในตลาดแนวตั้งก็มีแนวโน้มสำคัญไม่แพ้กัน เพราะต้องอาศัยความเชี่ยวชาญเชิงโดเมนหรือความสนใจอย่างจริงจัง
การสร้างและเปิดตัว voice agent สำหรับองค์กรไม่ได้จำเป็นต้องมีปริญญาเอกด้าน AI เสมอไป!

มุมมองที่เฉียบคมต่อการผสานรวม + ecosystem

เช่นเดียวกับประเด็นด้านบน ผู้ซื้อในแต่ละตลาดแนวตั้งมักมีฟีเจอร์หรือ integration บางอย่างที่อยากเห็นก่อนตัดสินใจซื้อ
ในทางปฏิบัติ สิ่งนี้อาจเป็นหลักฐานที่ยกระดับผลิตภัณฑ์จากแค่ "ใช้งานได้" ไปเป็น "มหัศจรรย์"
นี่คืออีกเหตุผลหนึ่งว่าทำไมการเริ่มจากจุดที่ค่อนข้าง vertical จึงสมเหตุสมผล

การขายแบบ "enterprise-grade" หรือ motion แบบ product-led growth (PLG) ที่แข็งแรง

สำหรับตลาดแนวตั้งที่รายได้กระจุกตัวอยู่กับบริษัท/ผู้ให้บริการรายใหญ่ voice agent company อาจเริ่มจากลูกค้าองค์กรใหญ่ แล้วค่อย "ไล่ลง" ไปสู่ SMB ด้วยผลิตภัณฑ์แบบ self-service ในภายหลัง
ลูกค้า SMB ต้องการโซลูชันนี้อย่างมากและยินดีทดสอบหลายทางเลือก แต่ก็อาจไม่ได้ให้ข้อมูลที่มีขนาด/คุณภาพพอให้สตาร์ทอัพปรับจูนโมเดลไปถึงระดับองค์กรได้

มุมมองของเราต่อเอเจนต์ B2C

ความแตกต่างจาก B2B

ใน B2B voice agent มีหน้าที่หลักในการแทนที่การคุยโทรศัพท์ที่มีอยู่เดิมเพื่อทำงานบางอย่างให้เสร็จ
แต่สำหรับเอเจนต์ผู้บริโภค ผู้ใช้ต้องเลือกที่จะมีส่วนร่วมต่อเนื่อง ซึ่งเป็นเรื่องยากเพราะการโต้ตอบด้วยเสียงไม่ได้สะดวกเสมอไป
นี่จึงหมายความว่าเกณฑ์ของผลิตภัณฑ์ "สูงกว่า"

พื้นที่การใช้งานแรก

พื้นที่ใช้งานแรกและชัดเจนที่สุดของ voice agent ฝั่งผู้บริโภค คือการใช้ AI แทนบริการมนุษย์ที่มีราคาแพงหรือเข้าถึงยาก
ซึ่งรวมถึงทุกสิ่งที่เป็นบทสนทนาและทำได้ในรูปแบบเสมือนจริง เช่น การบำบัด การโค้ช การติว

ความเป็นไปได้ในอนาคต

แต่เราเชื่อว่าเวทมนตร์ที่แท้จริงของ B2C voice agent ยังมาไม่ถึง!
เรากำลังมองหาผลิตภัณฑ์ที่ใช้พลังของเสียงเพื่อทำให้เกิด "บทสนทนา" รูปแบบใหม่ที่ไม่เคยมีมาก่อน
สิ่งนี้อาจเป็นการคิดรูปแบบบริการเดิมใหม่ หรือสร้างบริการใหม่ขึ้นมาโดยสิ้นเชิง

การจำลองความเชื่อมโยงแบบมนุษย์

สำหรับผลิตภัณฑ์ที่ออกแบบ UX ได้ถูกต้อง voice agent เปิดโอกาสในการดึงดูดผู้บริโภคในระดับที่ซอฟต์แวร์ไม่เคยทำได้มาก่อน
นี่คือการจำลองความเชื่อมโยงแบบมนุษย์อย่างแท้จริง
มันอาจปรากฏในรูปของเอเจนต์ในฐานะตัวผลิตภัณฑ์เอง หรือเป็นโหมดเสียงของผลิตภัณฑ์ที่กว้างกว่า

วิวัฒนาการของเอเจนต์ B2C

จนถึงตอนนี้ AI voice agent สำหรับผู้บริโภคที่โดดเด่นส่วนใหญ่มาจากบริษัทขนาดใหญ่ เช่น ChatGPT Voice และแอป Pi ของ Inflection
มีหลายเหตุผลที่ทำให้เสียงสำหรับผู้บริโภคเกิดขึ้นช้ากว่า:

ความได้เปรียบของบริษัทใหญ่

บริษัทใหญ่มีทั้งช่องทางการกระจายสู่ผู้บริโภคอยู่แล้ว และมีโมเดลระดับแนวหน้าทั้งด้านความแม่นยำ latency ฯลฯ
เสียงไม่ใช่สิ่งที่ให้บริการในระดับใหญ่ได้ง่าย โดยเฉพาะเมื่อคำนึงถึงการมาของ GPT-4o ล่าสุด

ความยากของการสร้างพฤติกรรมใหม่

B2B voice agent เป็นการ "เสียบ" AI เข้ากับกระบวนการเดิม ขณะที่ B2C voice agent ต้องให้ผู้ใช้ยอมรับพฤติกรรมใหม่
ซึ่งอาจต้องการผลิตภัณฑ์ที่ช้ากว่า หรือมหัศจรรย์กว่ามาก

ภาพจำเชิงลบต่อ voice AI เดิม

ผู้บริโภคอาจมีอคติเชิงลบต่อ voice AI จากประสบการณ์กับผลิตภัณฑ์อย่าง Siri จึงอาจไม่รู้สึกอยากลองแอปใหม่

ผลิตภัณฑ์ฐานกว้างตอบโจทย์ use case พื้นฐานไปแล้ว

ผลิตภัณฑ์ฐานกว้างสามารถตอบ use case พื้นฐานของ voice AI ได้อยู่แล้ว เช่น การติว การเป็นเพื่อนคุย เป็นต้น
สตาร์ทอัพ B2C ด้านเสียงเพิ่งอยู่ในช่วงเริ่มสร้าง use case หรือประสบการณ์ที่ ChatGPT, Pi และรายอื่นยังไม่ครอบคลุม

เอเจนต์ B2C: จุดที่เห็นโอกาส

มุมมองที่ชัดเจนว่าทำไมต้องใช้เสียง

เราตื่นเต้นกับผลิตภัณฑ์และผู้ก่อตั้งที่มีมุมมองชัดเจนว่าเสียงสร้างคุณค่าเฉพาะให้ผลิตภัณฑ์ได้อย่างไร
ไม่ใช่แค่ "ใส่เสียงเพราะมีเสียง"
ในหลายกรณี อินเทอร์เฟซเสียงกลับด้อยกว่าอินเทอร์เฟซข้อความ เพราะบริโภคและดึงข้อมูลได้ไม่สะดวกกว่า

มุมมองที่ชัดเจนว่าทำไมต้องเป็นเสียงแบบเรียลไทม์

เสียงนั้นบริโภคยากอยู่แล้ว และเสียงแบบเรียลไทม์ยิ่งยากกว่าอีก (เมื่อเทียบกับข้อความเสียงแบบอะซิงก์)
เราตื่นเต้นกับผู้ก่อตั้งที่มีมุมมองว่าทำไมผลิตภัณฑ์ของพวกเขาจึงต้องสร้างขึ้นรอบการสนทนาแบบเรียลไทม์
อาจเป็นเพื่อความรู้สึกเหมือนมีเพื่อนร่วมทางแบบมนุษย์ สภาพแวดล้อมสำหรับการฝึกฝน เป็นต้น

ความไม่เหมือนกับ "ผลิตภัณฑ์" ในยุคก่อน AI

เราสงสัยว่าผลิตภัณฑ์ในรูปแบบที่แข็งแรงจะไม่ใช่แค่การย้ายบทสนทนาแบบคนต่อคนในอดีตมาให้ AI voice agent ทำแทนตรง ๆ
ประการแรก มันยากที่จะทำให้ถึงมาตรฐานนั้น
และที่สำคัญกว่านั้นคือ มีโอกาสใช้ AI เพื่อส่งมอบคุณค่าเดิมได้ดีกว่าเดิม (มีประสิทธิภาพกว่า สนุกกว่า)

ความเป็น vertical ที่คุณภาพโมเดลไม่ใช่ตัวตัดสินผู้ชนะ

ผลิตภัณฑ์ AI ผู้บริโภคหลักทั่วไป (ChatGPT, Pi, Claude) ต่างก็มีโหมดเสียงคุณภาพสูง
พวกมันสามารถมีส่วนร่วมกับบทสนทนาและการโต้ตอบได้อย่างมีความหมายในหลายรูปแบบ
เนื่องจากพวกมันโฮสต์โมเดลและสแตกของตัวเอง จึงมีแนวโน้มจะชนะด้าน latency และ flow ของบทสนทนาในระยะสั้น

เราคาดหวังว่าสตาร์ทอัพจะประสบความสำเร็จด้วยวิธีต่อไปนี้:

ปรับหรือ tune ให้เหมาะกับบทสนทนาบางประเภทโดยเฉพาะ หรือ
สร้าง UI ที่เพิ่มบริบทและคุณค่าให้ประสบการณ์ voice agent มากขึ้น
- (เช่น ติดตามความคืบหน้าตามช่วงเวลา ควบคุมบทสนทนา/ประสบการณ์ในแบบที่มีมุมมองชัดเจน)

1 ความคิดเห็น

bus710 2024-06-13

ผมเคยมีโอกาสได้เห็นทีม integration ของบริษัทระดับองค์กรแห่งหนึ่งอย่างใกล้ชิด แล้วก็ได้เห็นแบบเรียลไทม์ว่ามีโปรเจกต์ที่คล้ายกับเนื้อหาในบทความกำลังดำเนินอยู่ครับ

ตอนแรกเป้าหมายคือการทำให้บริการลูกค้าเป็นอัตโนมัติผ่าน AWS connect แต่ต่อมาก็เริ่มทำทั้งการกระจายทราฟฟิก และมีส่วนร่วมในการวางแผนบริการพิเศษสำหรับลูกค้า VVIP ด้วย... การได้เห็นขอบเขตงานค่อย ๆ ใหญ่ขึ้นเรื่อย ๆ ก็น่าสนใจดีครับ

พอเป็นแบบนี้ เอาจริง ๆ คือแนวทางบริการก็คือให้บอทตอบรับอัตโนมัติรับมือกับลูกค้าที่ทำเงินไม่ได้ให้ได้มากที่สุด ส่วนลูกค้าที่มียอดเงินฝากมากก็จะให้เอเจนต์ที่เป็นมนุษย์ติดต่อโดยตรงให้เร็วที่สุด ซึ่งก็คงเป็นเรื่องที่เลี่ยงไม่ได้แหละครับ ฮ่าๆ