15 คะแนน โดย xguru 2025-02-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

วิทยานิพนธ์ของเรา - "ทำไมต้องเป็นเสียง?"

  • เสียงเป็นจุดเปลี่ยนสำคัญในแง่การนำ AI ไปใช้งาน
  • สำหรับธุรกิจ AI ทำให้สามารถทดแทนแรงงานและให้บริการลูกค้าได้ตลอด 24 ชั่วโมง
  • ในมุมผู้บริโภค ก็มีมุมมองว่าเสียงจะกลายเป็นอินเทอร์เฟซหลักของ AI
  • ขณะนี้เป็นช่วงที่โครงสร้างพื้นฐานด้านเสียงของ AI เริ่มลงตัวในระดับหนึ่ง และเริ่มมีการใช้งานเสียงอย่างจริงจังในแอปพลิเคชันหลากหลายประเภท
  • มีการคาดการณ์ว่าเมื่อประสิทธิภาพของโมเดลดียิ่งขึ้น เสียงจะไม่ใช่ตัวผลิตภัณฑ์เอง แต่จะทำหน้าที่เป็น ‘wedge’ สำหรับการเข้าสู่ตลาด

สิ่งใหม่ ๆ ที่ประกาศออกมาในช่วงที่ผ่านมา

  • พฤษภาคม 2024: OpenAI เปิดตัว GPT-4o voice พร้อมสาธิตความสามารถด้านเสียงแบบเรียลไทม์, Cartesia เปิดตัว Sonic
  • มิถุนายน 2024: Character เริ่มเปิดฟีเจอร์การโทรด้วยเสียงแบบเบต้า, Apple ประกาศผสาน ChatGPT เข้ากับ Siri
  • กรกฎาคม 2024: OpenAI เริ่มทยอยเปิดใช้ Advanced Voice, Speechmatics เปิดตัวโมเดล Flow
  • สิงหาคม 2024: Amazon ผสาน Claude เข้ากับ Alexa, Meta เปิดตัว AI companion ที่ใช้เสียงคนดัง
  • กันยายน 2024: NotebookLM ได้รับความสนใจจาก Audio Overview, PlayHT เปิดตัวโมเดล 2.0
  • ตุลาคม 2024: OpenAI เปิดตัว Realtime API, Kyutai เปิดตัวโมเดล Moshi
  • พฤศจิกายน 2024: ElevenLabs เปิดตัว Conversational AI, NVIDIA เปิดตัวโมเดล Fugatto, Gemini Live เปิดตัวแอปแบบเรียลไทม์
  • ธันวาคม 2024: ChatGPT Advanced Voice Mode เพิ่มการค้นหาบนอินเทอร์เน็ต, 1-800-CHATGPT กลายเป็นกระแส

อะไรเปลี่ยนไป?

  • โครงสร้างพื้นฐานของโมเดลง่ายขึ้น และมี voice agent ที่มี latency ต่ำพร้อมประสิทธิภาพสูงเกิดขึ้น
  • โมเดลสนทนารุ่นใหม่ในช่วง 6 เดือนที่ผ่านมาเป็นแรงผลักดันสำคัญของการพัฒนานี้
  • ต้นทุนก็ลดลงอย่างต่อเนื่อง โดยในเดือนธันวาคม 2024 OpenAI ได้ลดราคา GPT-4o Realtime API ลงอย่างมาก
  • GPT-4o mini ก็มีเวอร์ชันเรียลไทม์ให้ใช้งานเช่นกัน

สถานการณ์ปัจจุบัน

  • คุณภาพของโมเดล

    • คุณภาพของการสนทนา (latency, ความสามารถในการแทรกจังหวะพูด, การแสดงอารมณ์ ฯลฯ) อยู่ในระดับที่แก้ปัญหาได้เกือบทั้งหมดแล้ว
    • ด้วยความก้าวหน้าของโมเดลเสียงแบบเรียลไทม์ของ OpenAI และโมเดลอื่น ๆ มีบางกรณีที่ทำผลงานได้ดีกว่าคอลเซ็นเตอร์/BPO
  • GTM(go-to-market)

    • ผลิตภัณฑ์ agent สามารถขยายตัวได้รวดเร็วเพราะทดแทนแรงงานโดยตรง
    • แต่ขณะเดียวกันอุปสรรคในการเข้าสู่ตลาดก็ต่ำ และองค์กรขนาดใหญ่ที่มีความอนุรักษ์นิยมก็ยังมีข้อจำกัดในการนำไปใช้สูง
    • ความสามารถในการดำเนินกลยุทธ์ GTM และขั้นต่อยอดของผลิตภัณฑ์ (act 2) คือปัจจัยสำคัญของความสำเร็จ
  • การสร้างรายได้

    • ในช่วงแรกเน้นการคิดค่าบริการตามนาที แต่เมื่อค่าใช้จ่ายของโมเดลลดลงอย่างรวดเร็ว แรงกดดันด้านราคาก็เพิ่มขึ้น
    • ในอนาคตคาดว่าจะมีโมเดลการคิดค่าบริการแบบผสม ระหว่างค่าธรรมเนียมแพลตฟอร์ม + ค่าบริการตามการใช้งาน
  • ลักษณะการแข่งขัน

    • voice agent สำหรับองค์กรกำลังแข่งขันกันระหว่างแพลตฟอร์มสาย developer, แพลตฟอร์มใช้งานทั่วไปแบบ no-code และโซลูชันที่เชี่ยวชาญเฉพาะอุตสาหกรรม
    • คาดว่าการแข่งขันจะยิ่งรุนแรงขึ้น

วิวัฒนาการของตลาด

  • ตลาด voice agent เติบโตอย่างรวดเร็วในช่วงครึ่งหลังของปี 2024
  • สินค้าหลากหลายประเภทกำลังเพิ่มความสามารถด้านเสียง
  • ในหลายเลเยอร์ของ conversational voice stack มีทั้งการระดมทุนรอบใหม่และการได้ลูกค้าจริงอย่างต่อเนื่อง
  • โดยเฉพาะในองค์กรขนาดใหญ่ มักไม่ได้แทนที่งานคอลของมนุษย์ทั้งหมดด้วย AI ทันที แต่เริ่มจากบางประเภทของสายโทรก่อนแล้วค่อยขยาย
    • สายโทรกลางคืน·สายล้นระบบ: โดยทั่วไปสายที่เคยถูกส่งไป voicemail สามารถให้ AI รับแทน เพื่อเก็บข้อมูลในระดับหนึ่งและดำเนินธุรกรรมบางอย่างได้
    • สายโทรออกประเภทใหม่: ทำให้สายที่เดิมไม่คุ้มทุนสามารถเกิดขึ้นได้ และคาดหวังผลด้านรายได้เพิ่มหรือประหยัดต้นทุน
      • สายโทร ‘back-office’: เพิ่มประสิทธิภาพด้วยการทำงานอัตโนมัติของงานที่ต้องโทรไปยังบริษัทหรือหน่วยงานอื่น

วิวัฒนาการของตลาด - กรณีการระดมทุน

  • บริษัทโมเดล

    • มีข่าวการระดมทุนขนาดใหญ่ต่อเนื่องตั้งแต่ seed round ถึง Series B จาก ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI เป็นต้น
  • แพลตฟอร์มใช้งานทั่วไป

    • Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland เป็นต้น ระดมทุนตั้งแต่ Series A ถึง C
    • บริษัทอย่าง 11x, Decagon, Sierra, Artisan ที่โฟกัสอุตสาหกรรมเฉพาะ เช่น sales และ customer support ก็ได้รับความสนใจ
    • แพลตฟอร์มสำหรับ developer อย่าง Vapi และ Retell AI ก็เริ่มปรากฏขึ้น
  • แพลตฟอร์มแนวตั้ง

    • สตาร์ตอัปจำนวนมากได้รับการลงทุนในด้านเฉพาะทาง เช่น healthcare, HR และการตอบสนองเหตุฉุกเฉิน จาก Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad เป็นต้น
    • Wayfaster, HappyRobot และรายอื่น ๆ ก็ประสบความสำเร็จในการระดมทุนในด้านโลจิสติกส์ การสัมภาษณ์ และสาขาอื่น

ตลาดแนวตั้งสำคัญ

  • กลุ่มที่มีแนวโน้มจะนำ voice agent ไปใช้ก่อนที่สุดคืออุตสาหกรรมที่มีค่าใช้จ่ายด้านคอลเซ็นเตอร์/BPO สูง
  • อุตสาหกรรมหลักอย่างการเงิน ประกัน B2C, B2B, ภาครัฐ และ healthcare มีแนวโน้มสูงที่จะมีโซลูชันเสียงเฉพาะของตนเอง
  • คาดว่าผู้ก่อตั้งจะทดลองอย่างคึกคักในสาขาต่อไปนี้
    • Financial services (เช่น การติดตามหนี้)
    • Insurance (งานติดต่อกับลูกค้าและ back-office)
    • Government
    • Support services (เช่น การสนับสนุน IT ที่ต้องใช้ความรู้เฉพาะทาง และงานดูแลลูกค้าที่ซับซ้อน)
  • นอกเหนือจากหมวดคอลเซ็นเตอร์ ยังพบว่ามีความยินดีจ่ายสำหรับ AI voice agent ด้าน coaching/training ที่มุ่งไปยังตำแหน่งงานเงินเดือนสูง
    • voice agent ที่สมจริงสามารถทำหน้าที่เป็น ‘simulator’ และยกระดับทักษะการทำงานได้อย่างมาก
    • สิ่งนี้ช่วยทดแทนต้นทุนบุคลากร เช่น sales coach หรือซอฟต์แวร์เดิมที่ไม่มีประสิทธิภาพ

หมวดแนวตั้งที่น่าจับตา - แนวโน้มของบริษัทใน YC

  • จำนวนบริษัท voice agent ที่เข้าร่วม YC กำลังเพิ่มขึ้นอย่างรวดเร็ว
  • B2B (~69%) และ healthcare (~18%) เป็นกลุ่มหลัก โดยในหมวดย่อยของ B2B มีสตาร์ตอัปด้าน fintech และ customer support จำนวนมาก
  • ใน healthcare แบ่งออกเป็น front-office (ฝั่งผู้ป่วย) และ back-office (เช่น ร้านขายยา บริษัทประกัน)
  • โดยรวมแล้วสตาร์ตอัปกำลังพยายามใช้ voice agent เพื่อแก้ปัญหาในอุตสาหกรรมที่หลากหลาย

สิ่งที่เรากำลังมองหา

  • อุตสาหกรรมที่โทรศัพท์เป็นช่องทางหลัก หรือเหมาะกับการใช้โทรศัพท์ที่สุดในเชิงกฎระเบียบและประสิทธิภาพ
    • โทรศัพท์เป็นวิธีหลักในการเดโมให้ลูกค้า (เช่น โลจิสติกส์)
    • การสนทนาทางโทรศัพท์มีประสิทธิภาพมากกว่าในเชิงข้อกำกับดูแล (เช่น การติดตามหนี้)
    • หรือเป็นพื้นที่ที่อัตราความสำเร็จสูงกว่าวิธีอื่น (เช่น healthcare)
  • โครงสร้างของสายสนทนาต้องชัดเจนและวัดผลได้
    • มี data point ที่ต้องเก็บ หรือข้อมูลที่ต้องสื่อสารอย่างชัดเจน
    • วัดผลลัพธ์ได้ง่าย ทำให้ธุรกิจสามารถพิจารณานำ AI voice agent มาใช้ได้โดยไม่ลังเลมาก
  • ต้องลดต้นทุนแรงงานได้มากกว่า 50% พร้อมให้ผลลัพธ์ใกล้เคียงมนุษย์
    • จะนำไปใช้ได้ง่ายกว่าในกรณีที่เห็นชัดว่าตำแหน่งงานใดถูกแทนที่ หรือสามารถโยกย้ายบุคลากรได้
    • ภายในองค์กรอาจยังมีความสงสัยต่อ AI ดังนั้น ROI ต้องสูงมาก
  • การโทรเป็นปัญหาที่ ‘เดิมพันสูง’ สำหรับลูกค้า แต่ฝั่งที่โทรหรือรับสายยังอยู่ในสภาพแวดล้อมที่ยอมรับความล้มเหลวได้
    • หลายครั้งเริ่มจากสายโทรกลางคืน·สาย overflow หรือสาย ‘subprime’
    • AI เข้าสู่ตลาดได้ง่ายในจุดที่เกณฑ์ประสิทธิภาพไม่สูงมาก
  • มีผลต่อการสร้างรายได้โดยตรง (เช่น การจองใหม่ การชำระเงิน) หรือช่วยเพิ่มประสิทธิภาพการโทรในจุดที่มีค่าใช้จ่ายสูง (เช่น drive-through)
  • สำหรับการเข้าสู่ตลาด SMB/mid-market ต้องสามารถเชื่อมต่อ VoIP แบบง่ายหรือ self-setup ได้
  • ฝั่ง enterprise ยิ่งการเชื่อมต่อเริ่มต้นซับซ้อนมากเท่าไร ก็ยิ่งเป็นอุปสรรคในการเข้าสู่ตลาด แต่หากสร้างได้ดีจะกลายเป็นความได้เปรียบในการแข่งขัน
    • หรืออาจเริ่มได้ง่ายด้วยการเชื่อมต่อที่ซับซ้อนต่ำ แล้วค่อยขยายในภายหลัง
  • โดยรวมแล้ว ตลาดให้ความสนใจกับโซลูชันที่ทำได้ทั้งอัตราความสำเร็จสูงและประหยัดต้นทุนอย่างมากพร้อมกัน

กรณีศึกษา - การสัมภาษณ์ด้วยเสียง AI

  • ในช่วงแรก การนำเสียง AI มาใช้กับการสัมภาษณ์งานซึ่งมีความซับซ้อนและอ่อนไหวสูงอาจดูเหนือความคาดหมาย
  • แต่ในอุตสาหกรรม staffing มันแสดงผลลัพธ์ที่ดีมากในการจัดการการสัมภาษณ์ปริมาณมากและทำซ้ำบ่อย
  • สามารถดำเนินการสัมภาษณ์ได้รวดเร็วและสม่ำเสมอยิ่งขึ้น โดยไม่ทำลายประสบการณ์ของผู้สมัคร
  • AI สามารถทำการสัมภาษณ์ได้ทันทีเมื่อจำเป็น หรือประเมินผู้สมัครได้โดยไม่มีอุปสรรคด้านภาษา/สำเนียง
  • โดยเฉพาะในตำแหน่งสายเทคนิค มีเสียงตอบรับว่า AI ประเมินได้แม่นยำกว่าฝ่าย HR ทั่วไป
  • ฝั่งบริษัทรับรู้ถึงข้อดีทั้งอัตราการผ่านสัมภาษณ์ที่สูงขึ้น และกระบวนการจับคู่ผู้สมัครที่รวดเร็วขึ้น