12 คะแนน โดย xguru 2024-06-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ด้วยพลังของ Generative AI ในอนาคตมนุษย์จะไม่จำเป็นต้องคุยโทรศัพท์อีกต่อไป
  • มนุษย์จะใช้เวลาไปกับการคุยโทรศัพท์เฉพาะเมื่อมันมีคุณค่าเท่านั้น

ประโยชน์ต่อองค์กร

  1. ลดเวลาและต้นทุนแรงงานจากผู้โทรที่เป็นมนุษย์
  2. สามารถโยกย้ายทรัพยากรไปเพิ่มการสร้างรายได้ได้
  3. ลดความเสี่ยงด้วยประสบการณ์ลูกค้าที่เป็นมาตรฐานและสม่ำเสมอยิ่งขึ้น

ประโยชน์ต่อผู้บริโภค

  • Voice agent สามารถให้บริการในระดับมนุษย์ได้โดยไม่ต้องจ่ายเงินให้คนจริงหรือทำ "matching"
    • ปัจจุบันรวมถึงนักบำบัด โค้ช เพื่อนคุย เป็นต้น
    • ในอนาคตมีแนวโน้มสูงว่าจะครอบคลุมประสบการณ์ที่กว้างกว่านี้มากและสร้างขึ้นโดยมีเสียงเป็นศูนย์กลาง
  • เช่นเดียวกับซอฟต์แวร์ผู้บริโภคส่วนใหญ่ เป็นการยากจะคาดเดาว่าใครจะเป็น "ผู้ชนะ"

การคุยโทรศัพท์คือ API สำหรับสื่อสารกับโลก และ AI กำลังยกระดับมันไปอีกขั้น

จุดที่ดูเหมือนมีโอกาส

  • แต่ละเลเยอร์ ไม่ว่าจะเป็นผู้เล่นด้านโครงสร้างพื้นฐาน อินเทอร์เฟซผู้บริโภค หรือเอเจนต์สำหรับองค์กร ล้วนมีโอกาสมหาศาล
  • สำหรับ voice agent ทั้งแบบ B2C และ B2B มีสมมติฐานบางประการเกี่ยวกับผลิตภัณฑ์เกิดใหม่ที่น่าสนใจที่สุด:

คุณลักษณะสำคัญของ voice agent แบบ B2B และ B2C

  • Built to scale (สร้างมาเพื่อขยายได้)
    • เรื่อง latency และประสบการณ์การสนทนายังไม่ถูกแก้ได้สมบูรณ์
    • กำลังมองหาผู้ก่อตั้งที่มีมุมมองชัดเจนต่อการสร้างเอเจนต์
    • กำลังพยายามเพิ่มประสิทธิภาพสิ่งที่สำคัญที่สุดของเอเจนต์ให้สูงสุด เช่น ความเร็ว ความแม่นยำ น้ำเสียง/อารมณ์
  • Vertically focused (โฟกัสเชิงอุตสาหกรรมเฉพาะ)
    • นี่อาจเป็น performer agent ที่อาศัยโมเดลที่ปรับจูนมาเฉพาะสำหรับ use case บางอย่างและมีการผสานรวมอย่างแน่นแฟ้น
    • ทำให้สร้าง ออกสู่ตลาด และเติบโตได้สำเร็จง่ายกว่า
  • Realistic in scope (กำหนดขอบเขตอย่างสมจริง)
    • การมอบหมายสายสำคัญให้ AI รับผิดชอบทั้งหมดเป็นโจทย์ใหญ่
    • เราคาดหวังให้บริษัท voice agent ทำงานบางอย่างที่ยัง "ขยาย" ไม่ได้ในระยะสั้น
    • ซึ่งอาจรวมถึงการปรับจูนตามลูกค้าแต่ละราย หรือส่งต่อสายให้ human agent ในขั้นตอนสุดท้าย

สแตกสำหรับสร้าง voice agent

  • เพื่อให้ voice agent ทำงานได้ ต้องมีสิ่งต่อไปนี้:
    • รับเสียงพูดของมนุษย์ (ASR)
    • ใช้ LLM ประมวลผลอินพุตนี้และส่งผลลัพธ์กลับ
    • พูดกลับไปยังมนุษย์ (TTS)
  • โมเดลมัลติโหมดรุ่นใหม่อย่าง GPT-4o อาจเปลี่ยนโครงสร้างของสแตกได้ ด้วยการ "รัน" หลายเลเยอร์เหล่านี้พร้อมกันผ่านโมเดลเดียว
    • ซึ่งอาจลด latency และต้นทุน พร้อมมอบอินเทอร์เฟซแบบสนทนาที่เป็นธรรมชาติมากขึ้น
    • เอเจนต์จำนวนมากยังไปไม่ถึงคุณภาพที่เหมือนมนุษย์จริงด้วยสแตกแบบประกอบด้านล่างนี้
  • ในบางบริษัท/แนวทาง LLM หรือชุดของ LLM จะจัดการ flow ของบทสนทนาและอารมณ์ ส่วนในบางกรณีจะมีเอนจินเฉพาะที่เพิ่มอารมณ์ จัดการการขัดจังหวะ ฯลฯ
    • ผู้ให้บริการ voice แบบ "full stack" จะรวมทุกอย่างนี้ไว้ในที่เดียว
  • แอปผู้บริโภค (B2C) และแอปองค์กร (B2B) อยู่บนสแตกนี้
  • แม้จะใช้ผู้ให้บริการ third-party แอปก็มักจะเสียบ custom LLM เข้าไป ซึ่งบ่อยครั้งทำหน้าที่เป็น conversation engine ด้วย

Full stack vs. ประกอบเอง: เปรียบเทียบปัจจัยหลัก

  • ผู้ก่อตั้ง voice agent สามารถเลือกระหว่างการรันเอเจนต์บนแพลตฟอร์ม full stack (เช่น Retell, Vapi, Bland) หรือประกอบสแตกเอง
  • มีปัจจัยสำคัญบางอย่างในการตัดสินใจนี้:
    • Complexity (ความซับซ้อน)
      • ผู้เล่นแบบ full stack มอบวิธีสร้าง voice agent ที่ง่ายกว่า โดยช่วยซ่อนความซับซ้อนฝั่งอินฟราสตรักเจอร์
      • แต่ก็ยังเปิดพื้นที่ให้ทำ customization และ tuning เช่น การเสียบ prompt หรือเอกสารความรู้ (RAG) เข้าไปใน LLM
    • Flexibility (ความยืดหยุ่น)
      • ผู้ก่อตั้งที่สร้างผลิตภัณฑ์สำหรับตลาดแนวตั้งและ use case เฉพาะ มีแนวโน้มจะต้องการความยืดหยุ่นสูงสุดต่อการทำงาน/การรันของแต่ละเลเยอร์ในสแตก
      • และยังอาจได้ประโยชน์ในด้านการลด latency ให้ต่ำที่สุดด้วย
    • Cost (ต้นทุน)
      • ผู้ให้บริการ full stack อาจเพิ่มต้นทุนต่อสาย และอาจต่อรองราคาได้ดีกว่าเมื่อมีปริมาณมาก
      • สำหรับ voice agent ที่ใช้งานในระดับใหญ่ ความต่างเพียงไม่กี่เซ็นต์ต่อสายก็มีความสำคัญ
    • Control (การควบคุม)
      • เมื่อเกิดปัญหา ผู้ก่อตั้ง voice agent ต้องสามารถไล่ตรวจและแก้ไขได้ทันที โดยเฉพาะใน use case ที่อ่อนไหว
      • อีกทั้งอาจต้องการการมองเห็นการทำงานของแต่ละเลเยอร์ให้มากที่สุด
      • ซึ่งทำได้ง่ายกว่าด้วยสแตกแบบประกอบเอง
  • ผู้เล่นหลักในสแตก
    • Full Stack : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
    • Emotion : hume
    • Text to Speech : ElevenLabs, Azure
    • Speech to Text : Deepgram, Whisper, AssemblyAI, Azure
    • Streaming : LiveKit, daily

มุมมองของเราต่อเอเจนต์ B2B

วิวัฒนาการของ AI เสียง

  • เรากำลังเปลี่ยนผ่านจาก AI เสียง 1.0 (phone tree) ไปสู่ยุค AI เสียง 2.0 (ขับเคลื่อนด้วย LLM)
  • บริษัทกลุ่ม 2.0 เพิ่งเริ่มปรากฏขึ้นในช่วงราว 6 เดือนที่ผ่านมา
  • แม้บริษัท 1.0 อาจแม่นยำกว่าตอนนี้ แต่ในระยะยาวแนวทาง 2.0 จะขยายได้มากกว่าและแม่นยำกว่ามาก

ความจำเป็นของโมเดลเฉพาะตลาดแนวตั้ง

  • จะไม่มีโมเดลหรือแพลตฟอร์มแนวนอนตัวเดียวที่ใช้ได้กับ voice agent สำหรับองค์กรทุกประเภท
  • มีความแตกต่างสำคัญบางประการในแต่ละตลาดแนวตั้ง:
    1. ประเภท น้ำเสียง และโครงสร้างของการโทร
    2. การผสานรวมและกระบวนการ
    3. GTM และ "killer feature"
  • สิ่งนี้อาจหมายถึงการเติบโตแบบระเบิดของ vertical agent ที่มีมุมมองชัดเจนอย่างมากในระดับ UI
  • และต้องการทีมผู้ก่อตั้งที่มีความเชี่ยวชาญหรือความสนใจในสาขานั้น

โอกาสที่ใกล้ที่สุด

  • สำหรับธุรกิจที่ใช้แรงงานจำนวนมาก TAM มีขนาดใหญ่
  • โอกาสในระยะใกล้อาจอยู่ในอุตสาหกรรมที่:
    • อยู่รอดหรือพังเพราะการจองผ่านโทรศัพท์
    • กำลังเผชิญปัญหาขาดแคลนแรงงานอย่างหนัก
    • มีความซับซ้อนของสายโทรต่ำ
  • เมื่อเอเจนต์มีความซับซ้อนมากขึ้น ก็จะสามารถรับมือกับสายที่ซับซ้อนมากขึ้นได้

วิวัฒนาการของเอเจนต์ B2B

  • กระบวนการวิวัฒนาการ
    • IVR (Interactive Voice Response) : โมเดล touch-tone แบบดั้งเดิม ที่เอเจนต์เสนอชุดตัวเลือกให้ผู้บริโภค (กด 1 สำหรับฝ่ายขาย กด 2 สำหรับบริการลูกค้า เป็นต้น) แล้วนำทางตามนั้น
    • AI 1.0 (Phone Trees) : เวอร์ชันของ IVR ที่ยืดหยุ่นและเป็นธรรมชาติกว่า โดยผู้บริโภคพูดด้วยภาษาธรรมชาติ และเอเจนต์พยายามนำทางผ่านชุดของ flow บทสนทนา
    • AI 2.0 (LLMs) : การสนทนาแบบอิสระ ที่ AI ไม่พยายามจับคู่สิ่งที่มนุษย์พูดเข้ากับตัวเลือกที่กำหนดไว้ล่วงหน้าแบบตายตัว
  • บริษัท voice agent จำนวนมากใช้แนวทางเฉพาะตลาดแนวตั้งสำหรับอุตสาหกรรมหนึ่ง ๆ (เช่น บริการยานยนต์) หรือประเภทงานหนึ่ง ๆ (เช่น การนัดหมาย) ด้วยเหตุผลหลายประการ:
    • ความยากในการดำเนินการ
      • มาตรฐานคุณภาพสำหรับการให้ AI รับสายแทนค่อนข้างสูง และ flow ของบทสนทนา (รวมถึง backend workflow ฝั่งลูกค้า) อาจซับซ้อนหรือเฉพาะทางได้อย่างรวดเร็ว
      • บริษัทที่สร้างเพื่อรองรับ "กรณียกเว้น" ของตลาดแนวตั้งเหล่านี้มีโอกาสสำเร็จสูงกว่า (เช่น คำศัพท์เฉพาะที่โมเดลทั่วไปอาจตีความผิด)
    • กฎระเบียบและใบอนุญาต
      • บริษัท voice agent บางรายต้องเผชิญข้อจำกัดพิเศษ การรับรองที่จำเป็น ฯลฯ
      • ตัวอย่างที่ชัดเจนคือภาคสาธารณสุข (เช่น การปฏิบัติตาม HIPAA) แต่ยังเริ่มปรากฏในหมวดอื่นอย่างงานขายที่มีข้อบังคับเรื่อง AI cold calling ระดับประเทศ
    • การผสานรวม
      • ในบางหมวดหมู่ หากต้องการทำให้ประสบการณ์ผู้ใช้ถูกต้องจริง ๆ (ทั้งฝั่งองค์กรและผู้บริโภค) อาจต้องอาศัย long-tail integration หรือ integration แบบเฉพาะ ซึ่งไม่คุ้มจะสร้างหากไม่ได้ตั้งใจแก้ use case เฉพาะนั้น
    • การเข้าสู่ซอฟต์แวร์อื่น
      • เสียงสามารถแทรกเข้าสู่พฤติกรรมลูกค้าหลักได้อย่างเป็นธรรมชาติ เช่น การจอง การต่ออายุ การขอราคา
      • ในบางกรณี นี่อาจเป็นจุดเริ่มต้นสู่แพลตฟอร์ม vertical SaaS ที่กว้างขึ้นสำหรับธุรกิจเหล่านี้ โดยเฉพาะเมื่อฐานลูกค้ายังดำเนินงานออฟไลน์อยู่มาก

เอเจนต์ B2B: จุดที่เห็นโอกาส

ขับเคลื่อนด้วย LLM — แต่ไม่จำเป็นต้องอัตโนมัติ 100% ตั้งแต่วันแรก

  • รูปแบบที่ "ทรงพลัง" ของ AI voice agent จะเป็นการสนทนาที่ขับเคลื่อนด้วย LLM อย่างเต็มรูปแบบ ไม่ใช่แนวทางแบบ IVR หรือ phone tree
  • แต่เพราะ LLM ยังเชื่อถือได้ไม่ 100% ตลอดทั้งกระบวนการ จึงมีแนวโน้มว่าจะยังมี "human-in-the-loop" (ชั่วคราว) สำหรับดีลที่อ่อนไหวหรือมูลค่าสูง
  • สิ่งนี้ยังทำให้ workflow เฉพาะตลาดแนวตั้งมีความสำคัญเป็นพิเศษ เพราะช่วยเพิ่มโอกาสสำเร็จให้สูงสุด ลด edge case และลดการแทรกแซงจากมนุษย์

การปรับจูนโมเดลแบบกำหนดเอง vs. การใช้ prompt กับแนวทาง LLM

  • voice agent แบบ B2B จำเป็นต้องจัดการบทสนทนาเฉพาะทาง (หรือเฉพาะตลาดแนวตั้ง) ซึ่ง LLM ทั่วไปอาจไม่เพียงพอ
  • หลายบริษัทกำลังปรับจูนโมเดลรายลูกค้า (โดยใช้ข้อมูลไม่กี่ร้อยถึงหลักพันต้น ๆ) และมีแนวโน้มจะสรุปสิ่งที่ได้กลับไปเป็นโมเดลพื้นฐานของทั้งบริษัท
  • การปรับจูนแบบกำหนดเองสำหรับลูกค้าองค์กรอาจยังคงดำเนินต่อไป
    • หมายเหตุ: บางบริษัทอาจปรับจูนโมเดล "ทั่วไป" (ที่จะใช้กับลูกค้าทั้งหมด) ให้เข้ากับ use case เฉพาะก่อน แล้วค่อย prompt แยกตามลูกค้า

ทีมเทคนิคที่มีความเชี่ยวชาญด้านโดเมน

  • เมื่อพิจารณาจากความซับซ้อน การมีพื้นฐาน AI มาก่อนย่อมเป็นประโยชน์ต่อการสร้างและขยาย B2B voice agent คุณภาพสูง
  • แต่การเข้าใจวิธีแพ็กผลิตภัณฑ์และวิธีปักหมุดในตลาดแนวตั้งก็มีแนวโน้มสำคัญไม่แพ้กัน เพราะต้องอาศัยความเชี่ยวชาญเชิงโดเมนหรือความสนใจอย่างจริงจัง
  • การสร้างและเปิดตัว voice agent สำหรับองค์กรไม่ได้จำเป็นต้องมีปริญญาเอกด้าน AI เสมอไป!

มุมมองที่เฉียบคมต่อการผสานรวม + ecosystem

  • เช่นเดียวกับประเด็นด้านบน ผู้ซื้อในแต่ละตลาดแนวตั้งมักมีฟีเจอร์หรือ integration บางอย่างที่อยากเห็นก่อนตัดสินใจซื้อ
  • ในทางปฏิบัติ สิ่งนี้อาจเป็นหลักฐานที่ยกระดับผลิตภัณฑ์จากแค่ "ใช้งานได้" ไปเป็น "มหัศจรรย์"
  • นี่คืออีกเหตุผลหนึ่งว่าทำไมการเริ่มจากจุดที่ค่อนข้าง vertical จึงสมเหตุสมผล

การขายแบบ "enterprise-grade" หรือ motion แบบ product-led growth (PLG) ที่แข็งแรง

  • สำหรับตลาดแนวตั้งที่รายได้กระจุกตัวอยู่กับบริษัท/ผู้ให้บริการรายใหญ่ voice agent company อาจเริ่มจากลูกค้าองค์กรใหญ่ แล้วค่อย "ไล่ลง" ไปสู่ SMB ด้วยผลิตภัณฑ์แบบ self-service ในภายหลัง
  • ลูกค้า SMB ต้องการโซลูชันนี้อย่างมากและยินดีทดสอบหลายทางเลือก แต่ก็อาจไม่ได้ให้ข้อมูลที่มีขนาด/คุณภาพพอให้สตาร์ทอัพปรับจูนโมเดลไปถึงระดับองค์กรได้

มุมมองของเราต่อเอเจนต์ B2C

ความแตกต่างจาก B2B

  • ใน B2B voice agent มีหน้าที่หลักในการแทนที่การคุยโทรศัพท์ที่มีอยู่เดิมเพื่อทำงานบางอย่างให้เสร็จ
  • แต่สำหรับเอเจนต์ผู้บริโภค ผู้ใช้ต้องเลือกที่จะมีส่วนร่วมต่อเนื่อง ซึ่งเป็นเรื่องยากเพราะการโต้ตอบด้วยเสียงไม่ได้สะดวกเสมอไป
  • นี่จึงหมายความว่าเกณฑ์ของผลิตภัณฑ์ "สูงกว่า"

พื้นที่การใช้งานแรก

  • พื้นที่ใช้งานแรกและชัดเจนที่สุดของ voice agent ฝั่งผู้บริโภค คือการใช้ AI แทนบริการมนุษย์ที่มีราคาแพงหรือเข้าถึงยาก
  • ซึ่งรวมถึงทุกสิ่งที่เป็นบทสนทนาและทำได้ในรูปแบบเสมือนจริง เช่น การบำบัด การโค้ช การติว

ความเป็นไปได้ในอนาคต

  • แต่เราเชื่อว่าเวทมนตร์ที่แท้จริงของ B2C voice agent ยังมาไม่ถึง!
  • เรากำลังมองหาผลิตภัณฑ์ที่ใช้พลังของเสียงเพื่อทำให้เกิด "บทสนทนา" รูปแบบใหม่ที่ไม่เคยมีมาก่อน
  • สิ่งนี้อาจเป็นการคิดรูปแบบบริการเดิมใหม่ หรือสร้างบริการใหม่ขึ้นมาโดยสิ้นเชิง

การจำลองความเชื่อมโยงแบบมนุษย์

  • สำหรับผลิตภัณฑ์ที่ออกแบบ UX ได้ถูกต้อง voice agent เปิดโอกาสในการดึงดูดผู้บริโภคในระดับที่ซอฟต์แวร์ไม่เคยทำได้มาก่อน
  • นี่คือการจำลองความเชื่อมโยงแบบมนุษย์อย่างแท้จริง
  • มันอาจปรากฏในรูปของเอเจนต์ในฐานะตัวผลิตภัณฑ์เอง หรือเป็นโหมดเสียงของผลิตภัณฑ์ที่กว้างกว่า

วิวัฒนาการของเอเจนต์ B2C

  • จนถึงตอนนี้ AI voice agent สำหรับผู้บริโภคที่โดดเด่นส่วนใหญ่มาจากบริษัทขนาดใหญ่ เช่น ChatGPT Voice และแอป Pi ของ Inflection
  • มีหลายเหตุผลที่ทำให้เสียงสำหรับผู้บริโภคเกิดขึ้นช้ากว่า:

ความได้เปรียบของบริษัทใหญ่

  • บริษัทใหญ่มีทั้งช่องทางการกระจายสู่ผู้บริโภคอยู่แล้ว และมีโมเดลระดับแนวหน้าทั้งด้านความแม่นยำ latency ฯลฯ
  • เสียงไม่ใช่สิ่งที่ให้บริการในระดับใหญ่ได้ง่าย โดยเฉพาะเมื่อคำนึงถึงการมาของ GPT-4o ล่าสุด

ความยากของการสร้างพฤติกรรมใหม่

  • B2B voice agent เป็นการ "เสียบ" AI เข้ากับกระบวนการเดิม ขณะที่ B2C voice agent ต้องให้ผู้ใช้ยอมรับพฤติกรรมใหม่
  • ซึ่งอาจต้องการผลิตภัณฑ์ที่ช้ากว่า หรือมหัศจรรย์กว่ามาก

ภาพจำเชิงลบต่อ voice AI เดิม

  • ผู้บริโภคอาจมีอคติเชิงลบต่อ voice AI จากประสบการณ์กับผลิตภัณฑ์อย่าง Siri จึงอาจไม่รู้สึกอยากลองแอปใหม่

ผลิตภัณฑ์ฐานกว้างตอบโจทย์ use case พื้นฐานไปแล้ว

  • ผลิตภัณฑ์ฐานกว้างสามารถตอบ use case พื้นฐานของ voice AI ได้อยู่แล้ว เช่น การติว การเป็นเพื่อนคุย เป็นต้น
  • สตาร์ทอัพ B2C ด้านเสียงเพิ่งอยู่ในช่วงเริ่มสร้าง use case หรือประสบการณ์ที่ ChatGPT, Pi และรายอื่นยังไม่ครอบคลุม

เอเจนต์ B2C: จุดที่เห็นโอกาส

มุมมองที่ชัดเจนว่าทำไมต้องใช้เสียง

  • เราตื่นเต้นกับผลิตภัณฑ์และผู้ก่อตั้งที่มีมุมมองชัดเจนว่าเสียงสร้างคุณค่าเฉพาะให้ผลิตภัณฑ์ได้อย่างไร
  • ไม่ใช่แค่ "ใส่เสียงเพราะมีเสียง"
  • ในหลายกรณี อินเทอร์เฟซเสียงกลับด้อยกว่าอินเทอร์เฟซข้อความ เพราะบริโภคและดึงข้อมูลได้ไม่สะดวกกว่า

มุมมองที่ชัดเจนว่าทำไมต้องเป็นเสียงแบบเรียลไทม์

  • เสียงนั้นบริโภคยากอยู่แล้ว และเสียงแบบเรียลไทม์ยิ่งยากกว่าอีก (เมื่อเทียบกับข้อความเสียงแบบอะซิงก์)
  • เราตื่นเต้นกับผู้ก่อตั้งที่มีมุมมองว่าทำไมผลิตภัณฑ์ของพวกเขาจึงต้องสร้างขึ้นรอบการสนทนาแบบเรียลไทม์
  • อาจเป็นเพื่อความรู้สึกเหมือนมีเพื่อนร่วมทางแบบมนุษย์ สภาพแวดล้อมสำหรับการฝึกฝน เป็นต้น

ความไม่เหมือนกับ "ผลิตภัณฑ์" ในยุคก่อน AI

  • เราสงสัยว่าผลิตภัณฑ์ในรูปแบบที่แข็งแรงจะไม่ใช่แค่การย้ายบทสนทนาแบบคนต่อคนในอดีตมาให้ AI voice agent ทำแทนตรง ๆ
  • ประการแรก มันยากที่จะทำให้ถึงมาตรฐานนั้น
  • และที่สำคัญกว่านั้นคือ มีโอกาสใช้ AI เพื่อส่งมอบคุณค่าเดิมได้ดีกว่าเดิม (มีประสิทธิภาพกว่า สนุกกว่า)

ความเป็น vertical ที่คุณภาพโมเดลไม่ใช่ตัวตัดสินผู้ชนะ

  • ผลิตภัณฑ์ AI ผู้บริโภคหลักทั่วไป (ChatGPT, Pi, Claude) ต่างก็มีโหมดเสียงคุณภาพสูง
  • พวกมันสามารถมีส่วนร่วมกับบทสนทนาและการโต้ตอบได้อย่างมีความหมายในหลายรูปแบบ
  • เนื่องจากพวกมันโฮสต์โมเดลและสแตกของตัวเอง จึงมีแนวโน้มจะชนะด้าน latency และ flow ของบทสนทนาในระยะสั้น

เราคาดหวังว่าสตาร์ทอัพจะประสบความสำเร็จด้วยวิธีต่อไปนี้:

  • ปรับหรือ tune ให้เหมาะกับบทสนทนาบางประเภทโดยเฉพาะ หรือ
  • สร้าง UI ที่เพิ่มบริบทและคุณค่าให้ประสบการณ์ voice agent มากขึ้น
    • (เช่น ติดตามความคืบหน้าตามช่วงเวลา ควบคุมบทสนทนา/ประสบการณ์ในแบบที่มีมุมมองชัดเจน)

1 ความคิดเห็น

 
bus710 2024-06-13

ผมเคยมีโอกาสได้เห็นทีม integration ของบริษัทระดับองค์กรแห่งหนึ่งอย่างใกล้ชิด แล้วก็ได้เห็นแบบเรียลไทม์ว่ามีโปรเจกต์ที่คล้ายกับเนื้อหาในบทความกำลังดำเนินอยู่ครับ

ตอนแรกเป้าหมายคือการทำให้บริการลูกค้าเป็นอัตโนมัติผ่าน AWS connect แต่ต่อมาก็เริ่มทำทั้งการกระจายทราฟฟิก และมีส่วนร่วมในการวางแผนบริการพิเศษสำหรับลูกค้า VVIP ด้วย... การได้เห็นขอบเขตงานค่อย ๆ ใหญ่ขึ้นเรื่อย ๆ ก็น่าสนใจดีครับ

พอเป็นแบบนี้ เอาจริง ๆ คือแนวทางบริการก็คือให้บอทตอบรับอัตโนมัติรับมือกับลูกค้าที่ทำเงินไม่ได้ให้ได้มากที่สุด ส่วนลูกค้าที่มียอดเงินฝากมากก็จะให้เอเจนต์ที่เป็นมนุษย์ติดต่อโดยตรงให้เร็วที่สุด ซึ่งก็คงเป็นเรื่องที่เลี่ยงไม่ได้แหละครับ ฮ่าๆ