- ด้วยพลังของ Generative AI ในอนาคตมนุษย์จะไม่จำเป็นต้องคุยโทรศัพท์อีกต่อไป
- มนุษย์จะใช้เวลาไปกับการคุยโทรศัพท์เฉพาะเมื่อมันมีคุณค่าเท่านั้น
ประโยชน์ต่อองค์กร
- ลดเวลาและต้นทุนแรงงานจากผู้โทรที่เป็นมนุษย์
- สามารถโยกย้ายทรัพยากรไปเพิ่มการสร้างรายได้ได้
- ลดความเสี่ยงด้วยประสบการณ์ลูกค้าที่เป็นมาตรฐานและสม่ำเสมอยิ่งขึ้น
ประโยชน์ต่อผู้บริโภค
- Voice agent สามารถให้บริการในระดับมนุษย์ได้โดยไม่ต้องจ่ายเงินให้คนจริงหรือทำ "matching"
- ปัจจุบันรวมถึงนักบำบัด โค้ช เพื่อนคุย เป็นต้น
- ในอนาคตมีแนวโน้มสูงว่าจะครอบคลุมประสบการณ์ที่กว้างกว่านี้มากและสร้างขึ้นโดยมีเสียงเป็นศูนย์กลาง
- เช่นเดียวกับซอฟต์แวร์ผู้บริโภคส่วนใหญ่ เป็นการยากจะคาดเดาว่าใครจะเป็น "ผู้ชนะ"
การคุยโทรศัพท์คือ API สำหรับสื่อสารกับโลก และ AI กำลังยกระดับมันไปอีกขั้น
จุดที่ดูเหมือนมีโอกาส
- แต่ละเลเยอร์ ไม่ว่าจะเป็นผู้เล่นด้านโครงสร้างพื้นฐาน อินเทอร์เฟซผู้บริโภค หรือเอเจนต์สำหรับองค์กร ล้วนมีโอกาสมหาศาล
- สำหรับ voice agent ทั้งแบบ B2C และ B2B มีสมมติฐานบางประการเกี่ยวกับผลิตภัณฑ์เกิดใหม่ที่น่าสนใจที่สุด:
คุณลักษณะสำคัญของ voice agent แบบ B2B และ B2C
- Built to scale (สร้างมาเพื่อขยายได้)
- เรื่อง latency และประสบการณ์การสนทนายังไม่ถูกแก้ได้สมบูรณ์
- กำลังมองหาผู้ก่อตั้งที่มีมุมมองชัดเจนต่อการสร้างเอเจนต์
- กำลังพยายามเพิ่มประสิทธิภาพสิ่งที่สำคัญที่สุดของเอเจนต์ให้สูงสุด เช่น ความเร็ว ความแม่นยำ น้ำเสียง/อารมณ์
- Vertically focused (โฟกัสเชิงอุตสาหกรรมเฉพาะ)
- นี่อาจเป็น performer agent ที่อาศัยโมเดลที่ปรับจูนมาเฉพาะสำหรับ use case บางอย่างและมีการผสานรวมอย่างแน่นแฟ้น
- ทำให้สร้าง ออกสู่ตลาด และเติบโตได้สำเร็จง่ายกว่า
- Realistic in scope (กำหนดขอบเขตอย่างสมจริง)
- การมอบหมายสายสำคัญให้ AI รับผิดชอบทั้งหมดเป็นโจทย์ใหญ่
- เราคาดหวังให้บริษัท voice agent ทำงานบางอย่างที่ยัง "ขยาย" ไม่ได้ในระยะสั้น
- ซึ่งอาจรวมถึงการปรับจูนตามลูกค้าแต่ละราย หรือส่งต่อสายให้ human agent ในขั้นตอนสุดท้าย
สแตกสำหรับสร้าง voice agent
- เพื่อให้ voice agent ทำงานได้ ต้องมีสิ่งต่อไปนี้:
- รับเสียงพูดของมนุษย์ (ASR)
- ใช้ LLM ประมวลผลอินพุตนี้และส่งผลลัพธ์กลับ
- พูดกลับไปยังมนุษย์ (TTS)
- โมเดลมัลติโหมดรุ่นใหม่อย่าง GPT-4o อาจเปลี่ยนโครงสร้างของสแตกได้ ด้วยการ "รัน" หลายเลเยอร์เหล่านี้พร้อมกันผ่านโมเดลเดียว
- ซึ่งอาจลด latency และต้นทุน พร้อมมอบอินเทอร์เฟซแบบสนทนาที่เป็นธรรมชาติมากขึ้น
- เอเจนต์จำนวนมากยังไปไม่ถึงคุณภาพที่เหมือนมนุษย์จริงด้วยสแตกแบบประกอบด้านล่างนี้
- ในบางบริษัท/แนวทาง LLM หรือชุดของ LLM จะจัดการ flow ของบทสนทนาและอารมณ์ ส่วนในบางกรณีจะมีเอนจินเฉพาะที่เพิ่มอารมณ์ จัดการการขัดจังหวะ ฯลฯ
- ผู้ให้บริการ voice แบบ "full stack" จะรวมทุกอย่างนี้ไว้ในที่เดียว
- แอปผู้บริโภค (B2C) และแอปองค์กร (B2B) อยู่บนสแตกนี้
- แม้จะใช้ผู้ให้บริการ third-party แอปก็มักจะเสียบ custom LLM เข้าไป ซึ่งบ่อยครั้งทำหน้าที่เป็น conversation engine ด้วย
Full stack vs. ประกอบเอง: เปรียบเทียบปัจจัยหลัก
- ผู้ก่อตั้ง voice agent สามารถเลือกระหว่างการรันเอเจนต์บนแพลตฟอร์ม full stack (เช่น Retell, Vapi, Bland) หรือประกอบสแตกเอง
- มีปัจจัยสำคัญบางอย่างในการตัดสินใจนี้:
- Complexity (ความซับซ้อน)
- ผู้เล่นแบบ full stack มอบวิธีสร้าง voice agent ที่ง่ายกว่า โดยช่วยซ่อนความซับซ้อนฝั่งอินฟราสตรักเจอร์
- แต่ก็ยังเปิดพื้นที่ให้ทำ customization และ tuning เช่น การเสียบ prompt หรือเอกสารความรู้ (RAG) เข้าไปใน LLM
- Flexibility (ความยืดหยุ่น)
- ผู้ก่อตั้งที่สร้างผลิตภัณฑ์สำหรับตลาดแนวตั้งและ use case เฉพาะ มีแนวโน้มจะต้องการความยืดหยุ่นสูงสุดต่อการทำงาน/การรันของแต่ละเลเยอร์ในสแตก
- และยังอาจได้ประโยชน์ในด้านการลด latency ให้ต่ำที่สุดด้วย
- Cost (ต้นทุน)
- ผู้ให้บริการ full stack อาจเพิ่มต้นทุนต่อสาย และอาจต่อรองราคาได้ดีกว่าเมื่อมีปริมาณมาก
- สำหรับ voice agent ที่ใช้งานในระดับใหญ่ ความต่างเพียงไม่กี่เซ็นต์ต่อสายก็มีความสำคัญ
- Control (การควบคุม)
- เมื่อเกิดปัญหา ผู้ก่อตั้ง voice agent ต้องสามารถไล่ตรวจและแก้ไขได้ทันที โดยเฉพาะใน use case ที่อ่อนไหว
- อีกทั้งอาจต้องการการมองเห็นการทำงานของแต่ละเลเยอร์ให้มากที่สุด
- ซึ่งทำได้ง่ายกว่าด้วยสแตกแบบประกอบเอง
- Complexity (ความซับซ้อน)
- ผู้เล่นหลักในสแตก
- Full Stack : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion : hume
- Text to Speech : ElevenLabs, Azure
- Speech to Text : Deepgram, Whisper, AssemblyAI, Azure
- Streaming : LiveKit, daily
มุมมองของเราต่อเอเจนต์ B2B
วิวัฒนาการของ AI เสียง
- เรากำลังเปลี่ยนผ่านจาก AI เสียง 1.0 (phone tree) ไปสู่ยุค AI เสียง 2.0 (ขับเคลื่อนด้วย LLM)
- บริษัทกลุ่ม 2.0 เพิ่งเริ่มปรากฏขึ้นในช่วงราว 6 เดือนที่ผ่านมา
- แม้บริษัท 1.0 อาจแม่นยำกว่าตอนนี้ แต่ในระยะยาวแนวทาง 2.0 จะขยายได้มากกว่าและแม่นยำกว่ามาก
ความจำเป็นของโมเดลเฉพาะตลาดแนวตั้ง
- จะไม่มีโมเดลหรือแพลตฟอร์มแนวนอนตัวเดียวที่ใช้ได้กับ voice agent สำหรับองค์กรทุกประเภท
- มีความแตกต่างสำคัญบางประการในแต่ละตลาดแนวตั้ง:
- ประเภท น้ำเสียง และโครงสร้างของการโทร
- การผสานรวมและกระบวนการ
- GTM และ "killer feature"
- สิ่งนี้อาจหมายถึงการเติบโตแบบระเบิดของ vertical agent ที่มีมุมมองชัดเจนอย่างมากในระดับ UI
- และต้องการทีมผู้ก่อตั้งที่มีความเชี่ยวชาญหรือความสนใจในสาขานั้น
โอกาสที่ใกล้ที่สุด
- สำหรับธุรกิจที่ใช้แรงงานจำนวนมาก TAM มีขนาดใหญ่
- โอกาสในระยะใกล้อาจอยู่ในอุตสาหกรรมที่:
- อยู่รอดหรือพังเพราะการจองผ่านโทรศัพท์
- กำลังเผชิญปัญหาขาดแคลนแรงงานอย่างหนัก
- มีความซับซ้อนของสายโทรต่ำ
- เมื่อเอเจนต์มีความซับซ้อนมากขึ้น ก็จะสามารถรับมือกับสายที่ซับซ้อนมากขึ้นได้
วิวัฒนาการของเอเจนต์ B2B
- กระบวนการวิวัฒนาการ
- IVR (Interactive Voice Response) : โมเดล touch-tone แบบดั้งเดิม ที่เอเจนต์เสนอชุดตัวเลือกให้ผู้บริโภค (กด 1 สำหรับฝ่ายขาย กด 2 สำหรับบริการลูกค้า เป็นต้น) แล้วนำทางตามนั้น
- AI 1.0 (Phone Trees) : เวอร์ชันของ IVR ที่ยืดหยุ่นและเป็นธรรมชาติกว่า โดยผู้บริโภคพูดด้วยภาษาธรรมชาติ และเอเจนต์พยายามนำทางผ่านชุดของ flow บทสนทนา
- AI 2.0 (LLMs) : การสนทนาแบบอิสระ ที่ AI ไม่พยายามจับคู่สิ่งที่มนุษย์พูดเข้ากับตัวเลือกที่กำหนดไว้ล่วงหน้าแบบตายตัว
- บริษัท voice agent จำนวนมากใช้แนวทางเฉพาะตลาดแนวตั้งสำหรับอุตสาหกรรมหนึ่ง ๆ (เช่น บริการยานยนต์) หรือประเภทงานหนึ่ง ๆ (เช่น การนัดหมาย) ด้วยเหตุผลหลายประการ:
- ความยากในการดำเนินการ
- มาตรฐานคุณภาพสำหรับการให้ AI รับสายแทนค่อนข้างสูง และ flow ของบทสนทนา (รวมถึง backend workflow ฝั่งลูกค้า) อาจซับซ้อนหรือเฉพาะทางได้อย่างรวดเร็ว
- บริษัทที่สร้างเพื่อรองรับ "กรณียกเว้น" ของตลาดแนวตั้งเหล่านี้มีโอกาสสำเร็จสูงกว่า (เช่น คำศัพท์เฉพาะที่โมเดลทั่วไปอาจตีความผิด)
- กฎระเบียบและใบอนุญาต
- บริษัท voice agent บางรายต้องเผชิญข้อจำกัดพิเศษ การรับรองที่จำเป็น ฯลฯ
- ตัวอย่างที่ชัดเจนคือภาคสาธารณสุข (เช่น การปฏิบัติตาม HIPAA) แต่ยังเริ่มปรากฏในหมวดอื่นอย่างงานขายที่มีข้อบังคับเรื่อง AI cold calling ระดับประเทศ
- การผสานรวม
- ในบางหมวดหมู่ หากต้องการทำให้ประสบการณ์ผู้ใช้ถูกต้องจริง ๆ (ทั้งฝั่งองค์กรและผู้บริโภค) อาจต้องอาศัย long-tail integration หรือ integration แบบเฉพาะ ซึ่งไม่คุ้มจะสร้างหากไม่ได้ตั้งใจแก้ use case เฉพาะนั้น
- การเข้าสู่ซอฟต์แวร์อื่น
- เสียงสามารถแทรกเข้าสู่พฤติกรรมลูกค้าหลักได้อย่างเป็นธรรมชาติ เช่น การจอง การต่ออายุ การขอราคา
- ในบางกรณี นี่อาจเป็นจุดเริ่มต้นสู่แพลตฟอร์ม vertical SaaS ที่กว้างขึ้นสำหรับธุรกิจเหล่านี้ โดยเฉพาะเมื่อฐานลูกค้ายังดำเนินงานออฟไลน์อยู่มาก
- ความยากในการดำเนินการ
เอเจนต์ B2B: จุดที่เห็นโอกาส
ขับเคลื่อนด้วย LLM — แต่ไม่จำเป็นต้องอัตโนมัติ 100% ตั้งแต่วันแรก
- รูปแบบที่ "ทรงพลัง" ของ AI voice agent จะเป็นการสนทนาที่ขับเคลื่อนด้วย LLM อย่างเต็มรูปแบบ ไม่ใช่แนวทางแบบ IVR หรือ phone tree
- แต่เพราะ LLM ยังเชื่อถือได้ไม่ 100% ตลอดทั้งกระบวนการ จึงมีแนวโน้มว่าจะยังมี "human-in-the-loop" (ชั่วคราว) สำหรับดีลที่อ่อนไหวหรือมูลค่าสูง
- สิ่งนี้ยังทำให้ workflow เฉพาะตลาดแนวตั้งมีความสำคัญเป็นพิเศษ เพราะช่วยเพิ่มโอกาสสำเร็จให้สูงสุด ลด edge case และลดการแทรกแซงจากมนุษย์
การปรับจูนโมเดลแบบกำหนดเอง vs. การใช้ prompt กับแนวทาง LLM
- voice agent แบบ B2B จำเป็นต้องจัดการบทสนทนาเฉพาะทาง (หรือเฉพาะตลาดแนวตั้ง) ซึ่ง LLM ทั่วไปอาจไม่เพียงพอ
- หลายบริษัทกำลังปรับจูนโมเดลรายลูกค้า (โดยใช้ข้อมูลไม่กี่ร้อยถึงหลักพันต้น ๆ) และมีแนวโน้มจะสรุปสิ่งที่ได้กลับไปเป็นโมเดลพื้นฐานของทั้งบริษัท
- การปรับจูนแบบกำหนดเองสำหรับลูกค้าองค์กรอาจยังคงดำเนินต่อไป
- หมายเหตุ: บางบริษัทอาจปรับจูนโมเดล "ทั่วไป" (ที่จะใช้กับลูกค้าทั้งหมด) ให้เข้ากับ use case เฉพาะก่อน แล้วค่อย prompt แยกตามลูกค้า
ทีมเทคนิคที่มีความเชี่ยวชาญด้านโดเมน
- เมื่อพิจารณาจากความซับซ้อน การมีพื้นฐาน AI มาก่อนย่อมเป็นประโยชน์ต่อการสร้างและขยาย B2B voice agent คุณภาพสูง
- แต่การเข้าใจวิธีแพ็กผลิตภัณฑ์และวิธีปักหมุดในตลาดแนวตั้งก็มีแนวโน้มสำคัญไม่แพ้กัน เพราะต้องอาศัยความเชี่ยวชาญเชิงโดเมนหรือความสนใจอย่างจริงจัง
- การสร้างและเปิดตัว voice agent สำหรับองค์กรไม่ได้จำเป็นต้องมีปริญญาเอกด้าน AI เสมอไป!
มุมมองที่เฉียบคมต่อการผสานรวม + ecosystem
- เช่นเดียวกับประเด็นด้านบน ผู้ซื้อในแต่ละตลาดแนวตั้งมักมีฟีเจอร์หรือ integration บางอย่างที่อยากเห็นก่อนตัดสินใจซื้อ
- ในทางปฏิบัติ สิ่งนี้อาจเป็นหลักฐานที่ยกระดับผลิตภัณฑ์จากแค่ "ใช้งานได้" ไปเป็น "มหัศจรรย์"
- นี่คืออีกเหตุผลหนึ่งว่าทำไมการเริ่มจากจุดที่ค่อนข้าง vertical จึงสมเหตุสมผล
การขายแบบ "enterprise-grade" หรือ motion แบบ product-led growth (PLG) ที่แข็งแรง
- สำหรับตลาดแนวตั้งที่รายได้กระจุกตัวอยู่กับบริษัท/ผู้ให้บริการรายใหญ่ voice agent company อาจเริ่มจากลูกค้าองค์กรใหญ่ แล้วค่อย "ไล่ลง" ไปสู่ SMB ด้วยผลิตภัณฑ์แบบ self-service ในภายหลัง
- ลูกค้า SMB ต้องการโซลูชันนี้อย่างมากและยินดีทดสอบหลายทางเลือก แต่ก็อาจไม่ได้ให้ข้อมูลที่มีขนาด/คุณภาพพอให้สตาร์ทอัพปรับจูนโมเดลไปถึงระดับองค์กรได้
มุมมองของเราต่อเอเจนต์ B2C
ความแตกต่างจาก B2B
- ใน B2B voice agent มีหน้าที่หลักในการแทนที่การคุยโทรศัพท์ที่มีอยู่เดิมเพื่อทำงานบางอย่างให้เสร็จ
- แต่สำหรับเอเจนต์ผู้บริโภค ผู้ใช้ต้องเลือกที่จะมีส่วนร่วมต่อเนื่อง ซึ่งเป็นเรื่องยากเพราะการโต้ตอบด้วยเสียงไม่ได้สะดวกเสมอไป
- นี่จึงหมายความว่าเกณฑ์ของผลิตภัณฑ์ "สูงกว่า"
พื้นที่การใช้งานแรก
- พื้นที่ใช้งานแรกและชัดเจนที่สุดของ voice agent ฝั่งผู้บริโภค คือการใช้ AI แทนบริการมนุษย์ที่มีราคาแพงหรือเข้าถึงยาก
- ซึ่งรวมถึงทุกสิ่งที่เป็นบทสนทนาและทำได้ในรูปแบบเสมือนจริง เช่น การบำบัด การโค้ช การติว
ความเป็นไปได้ในอนาคต
- แต่เราเชื่อว่าเวทมนตร์ที่แท้จริงของ B2C voice agent ยังมาไม่ถึง!
- เรากำลังมองหาผลิตภัณฑ์ที่ใช้พลังของเสียงเพื่อทำให้เกิด "บทสนทนา" รูปแบบใหม่ที่ไม่เคยมีมาก่อน
- สิ่งนี้อาจเป็นการคิดรูปแบบบริการเดิมใหม่ หรือสร้างบริการใหม่ขึ้นมาโดยสิ้นเชิง
การจำลองความเชื่อมโยงแบบมนุษย์
- สำหรับผลิตภัณฑ์ที่ออกแบบ UX ได้ถูกต้อง voice agent เปิดโอกาสในการดึงดูดผู้บริโภคในระดับที่ซอฟต์แวร์ไม่เคยทำได้มาก่อน
- นี่คือการจำลองความเชื่อมโยงแบบมนุษย์อย่างแท้จริง
- มันอาจปรากฏในรูปของเอเจนต์ในฐานะตัวผลิตภัณฑ์เอง หรือเป็นโหมดเสียงของผลิตภัณฑ์ที่กว้างกว่า
วิวัฒนาการของเอเจนต์ B2C
- จนถึงตอนนี้ AI voice agent สำหรับผู้บริโภคที่โดดเด่นส่วนใหญ่มาจากบริษัทขนาดใหญ่ เช่น ChatGPT Voice และแอป Pi ของ Inflection
- มีหลายเหตุผลที่ทำให้เสียงสำหรับผู้บริโภคเกิดขึ้นช้ากว่า:
ความได้เปรียบของบริษัทใหญ่
- บริษัทใหญ่มีทั้งช่องทางการกระจายสู่ผู้บริโภคอยู่แล้ว และมีโมเดลระดับแนวหน้าทั้งด้านความแม่นยำ latency ฯลฯ
- เสียงไม่ใช่สิ่งที่ให้บริการในระดับใหญ่ได้ง่าย โดยเฉพาะเมื่อคำนึงถึงการมาของ GPT-4o ล่าสุด
ความยากของการสร้างพฤติกรรมใหม่
- B2B voice agent เป็นการ "เสียบ" AI เข้ากับกระบวนการเดิม ขณะที่ B2C voice agent ต้องให้ผู้ใช้ยอมรับพฤติกรรมใหม่
- ซึ่งอาจต้องการผลิตภัณฑ์ที่ช้ากว่า หรือมหัศจรรย์กว่ามาก
ภาพจำเชิงลบต่อ voice AI เดิม
- ผู้บริโภคอาจมีอคติเชิงลบต่อ voice AI จากประสบการณ์กับผลิตภัณฑ์อย่าง Siri จึงอาจไม่รู้สึกอยากลองแอปใหม่
ผลิตภัณฑ์ฐานกว้างตอบโจทย์ use case พื้นฐานไปแล้ว
- ผลิตภัณฑ์ฐานกว้างสามารถตอบ use case พื้นฐานของ voice AI ได้อยู่แล้ว เช่น การติว การเป็นเพื่อนคุย เป็นต้น
- สตาร์ทอัพ B2C ด้านเสียงเพิ่งอยู่ในช่วงเริ่มสร้าง use case หรือประสบการณ์ที่ ChatGPT, Pi และรายอื่นยังไม่ครอบคลุม
เอเจนต์ B2C: จุดที่เห็นโอกาส
มุมมองที่ชัดเจนว่าทำไมต้องใช้เสียง
- เราตื่นเต้นกับผลิตภัณฑ์และผู้ก่อตั้งที่มีมุมมองชัดเจนว่าเสียงสร้างคุณค่าเฉพาะให้ผลิตภัณฑ์ได้อย่างไร
- ไม่ใช่แค่ "ใส่เสียงเพราะมีเสียง"
- ในหลายกรณี อินเทอร์เฟซเสียงกลับด้อยกว่าอินเทอร์เฟซข้อความ เพราะบริโภคและดึงข้อมูลได้ไม่สะดวกกว่า
มุมมองที่ชัดเจนว่าทำไมต้องเป็นเสียงแบบเรียลไทม์
- เสียงนั้นบริโภคยากอยู่แล้ว และเสียงแบบเรียลไทม์ยิ่งยากกว่าอีก (เมื่อเทียบกับข้อความเสียงแบบอะซิงก์)
- เราตื่นเต้นกับผู้ก่อตั้งที่มีมุมมองว่าทำไมผลิตภัณฑ์ของพวกเขาจึงต้องสร้างขึ้นรอบการสนทนาแบบเรียลไทม์
- อาจเป็นเพื่อความรู้สึกเหมือนมีเพื่อนร่วมทางแบบมนุษย์ สภาพแวดล้อมสำหรับการฝึกฝน เป็นต้น
ความไม่เหมือนกับ "ผลิตภัณฑ์" ในยุคก่อน AI
- เราสงสัยว่าผลิตภัณฑ์ในรูปแบบที่แข็งแรงจะไม่ใช่แค่การย้ายบทสนทนาแบบคนต่อคนในอดีตมาให้ AI voice agent ทำแทนตรง ๆ
- ประการแรก มันยากที่จะทำให้ถึงมาตรฐานนั้น
- และที่สำคัญกว่านั้นคือ มีโอกาสใช้ AI เพื่อส่งมอบคุณค่าเดิมได้ดีกว่าเดิม (มีประสิทธิภาพกว่า สนุกกว่า)
ความเป็น vertical ที่คุณภาพโมเดลไม่ใช่ตัวตัดสินผู้ชนะ
- ผลิตภัณฑ์ AI ผู้บริโภคหลักทั่วไป (ChatGPT, Pi, Claude) ต่างก็มีโหมดเสียงคุณภาพสูง
- พวกมันสามารถมีส่วนร่วมกับบทสนทนาและการโต้ตอบได้อย่างมีความหมายในหลายรูปแบบ
- เนื่องจากพวกมันโฮสต์โมเดลและสแตกของตัวเอง จึงมีแนวโน้มจะชนะด้าน latency และ flow ของบทสนทนาในระยะสั้น
เราคาดหวังว่าสตาร์ทอัพจะประสบความสำเร็จด้วยวิธีต่อไปนี้:
- ปรับหรือ tune ให้เหมาะกับบทสนทนาบางประเภทโดยเฉพาะ หรือ
- สร้าง UI ที่เพิ่มบริบทและคุณค่าให้ประสบการณ์ voice agent มากขึ้น
- (เช่น ติดตามความคืบหน้าตามช่วงเวลา ควบคุมบทสนทนา/ประสบการณ์ในแบบที่มีมุมมองชัดเจน)
1 ความคิดเห็น
ผมเคยมีโอกาสได้เห็นทีม integration ของบริษัทระดับองค์กรแห่งหนึ่งอย่างใกล้ชิด แล้วก็ได้เห็นแบบเรียลไทม์ว่ามีโปรเจกต์ที่คล้ายกับเนื้อหาในบทความกำลังดำเนินอยู่ครับ
ตอนแรกเป้าหมายคือการทำให้บริการลูกค้าเป็นอัตโนมัติผ่าน AWS connect แต่ต่อมาก็เริ่มทำทั้งการกระจายทราฟฟิก และมีส่วนร่วมในการวางแผนบริการพิเศษสำหรับลูกค้า VVIP ด้วย... การได้เห็นขอบเขตงานค่อย ๆ ใหญ่ขึ้นเรื่อย ๆ ก็น่าสนใจดีครับ
พอเป็นแบบนี้ เอาจริง ๆ คือแนวทางบริการก็คือให้บอทตอบรับอัตโนมัติรับมือกับลูกค้าที่ทำเงินไม่ได้ให้ได้มากที่สุด ส่วนลูกค้าที่มียอดเงินฝากมากก็จะให้เอเจนต์ที่เป็นมนุษย์ติดต่อโดยตรงให้เร็วที่สุด ซึ่งก็คงเป็นเรื่องที่เลี่ยงไม่ได้แหละครับ ฮ่าๆ