วิทยานิพนธ์ของเรา - "ทำไมต้องเป็นเสียง?"
- เสียงเป็นจุดเปลี่ยนสำคัญในแง่การนำ AI ไปใช้งาน
- สำหรับธุรกิจ AI ทำให้สามารถทดแทนแรงงานและให้บริการลูกค้าได้ตลอด 24 ชั่วโมง
- ในมุมผู้บริโภค ก็มีมุมมองว่าเสียงจะกลายเป็นอินเทอร์เฟซหลักของ AI
- ขณะนี้เป็นช่วงที่โครงสร้างพื้นฐานด้านเสียงของ AI เริ่มลงตัวในระดับหนึ่ง และเริ่มมีการใช้งานเสียงอย่างจริงจังในแอปพลิเคชันหลากหลายประเภท
- มีการคาดการณ์ว่าเมื่อประสิทธิภาพของโมเดลดียิ่งขึ้น เสียงจะไม่ใช่ตัวผลิตภัณฑ์เอง แต่จะทำหน้าที่เป็น ‘wedge’ สำหรับการเข้าสู่ตลาด
สิ่งใหม่ ๆ ที่ประกาศออกมาในช่วงที่ผ่านมา
- พฤษภาคม 2024: OpenAI เปิดตัว GPT-4o voice พร้อมสาธิตความสามารถด้านเสียงแบบเรียลไทม์, Cartesia เปิดตัว Sonic
- มิถุนายน 2024: Character เริ่มเปิดฟีเจอร์การโทรด้วยเสียงแบบเบต้า, Apple ประกาศผสาน ChatGPT เข้ากับ Siri
- กรกฎาคม 2024: OpenAI เริ่มทยอยเปิดใช้ Advanced Voice, Speechmatics เปิดตัวโมเดล Flow
- สิงหาคม 2024: Amazon ผสาน Claude เข้ากับ Alexa, Meta เปิดตัว AI companion ที่ใช้เสียงคนดัง
- กันยายน 2024: NotebookLM ได้รับความสนใจจาก Audio Overview, PlayHT เปิดตัวโมเดล 2.0
- ตุลาคม 2024: OpenAI เปิดตัว Realtime API, Kyutai เปิดตัวโมเดล Moshi
- พฤศจิกายน 2024: ElevenLabs เปิดตัว Conversational AI, NVIDIA เปิดตัวโมเดล Fugatto, Gemini Live เปิดตัวแอปแบบเรียลไทม์
- ธันวาคม 2024: ChatGPT Advanced Voice Mode เพิ่มการค้นหาบนอินเทอร์เน็ต, 1-800-CHATGPT กลายเป็นกระแส
อะไรเปลี่ยนไป?
- โครงสร้างพื้นฐานของโมเดลง่ายขึ้น และมี voice agent ที่มี latency ต่ำพร้อมประสิทธิภาพสูงเกิดขึ้น
- โมเดลสนทนารุ่นใหม่ในช่วง 6 เดือนที่ผ่านมาเป็นแรงผลักดันสำคัญของการพัฒนานี้
- ต้นทุนก็ลดลงอย่างต่อเนื่อง โดยในเดือนธันวาคม 2024 OpenAI ได้ลดราคา GPT-4o Realtime API ลงอย่างมาก
- GPT-4o mini ก็มีเวอร์ชันเรียลไทม์ให้ใช้งานเช่นกัน
สถานการณ์ปัจจุบัน
-
คุณภาพของโมเดล
- คุณภาพของการสนทนา (latency, ความสามารถในการแทรกจังหวะพูด, การแสดงอารมณ์ ฯลฯ) อยู่ในระดับที่แก้ปัญหาได้เกือบทั้งหมดแล้ว
- ด้วยความก้าวหน้าของโมเดลเสียงแบบเรียลไทม์ของ OpenAI และโมเดลอื่น ๆ มีบางกรณีที่ทำผลงานได้ดีกว่าคอลเซ็นเตอร์/BPO
-
GTM(go-to-market)
- ผลิตภัณฑ์ agent สามารถขยายตัวได้รวดเร็วเพราะทดแทนแรงงานโดยตรง
- แต่ขณะเดียวกันอุปสรรคในการเข้าสู่ตลาดก็ต่ำ และองค์กรขนาดใหญ่ที่มีความอนุรักษ์นิยมก็ยังมีข้อจำกัดในการนำไปใช้สูง
- ความสามารถในการดำเนินกลยุทธ์ GTM และขั้นต่อยอดของผลิตภัณฑ์ (act 2) คือปัจจัยสำคัญของความสำเร็จ
-
การสร้างรายได้
- ในช่วงแรกเน้นการคิดค่าบริการตามนาที แต่เมื่อค่าใช้จ่ายของโมเดลลดลงอย่างรวดเร็ว แรงกดดันด้านราคาก็เพิ่มขึ้น
- ในอนาคตคาดว่าจะมีโมเดลการคิดค่าบริการแบบผสม ระหว่างค่าธรรมเนียมแพลตฟอร์ม + ค่าบริการตามการใช้งาน
-
ลักษณะการแข่งขัน
- voice agent สำหรับองค์กรกำลังแข่งขันกันระหว่างแพลตฟอร์มสาย developer, แพลตฟอร์มใช้งานทั่วไปแบบ no-code และโซลูชันที่เชี่ยวชาญเฉพาะอุตสาหกรรม
- คาดว่าการแข่งขันจะยิ่งรุนแรงขึ้น
วิวัฒนาการของตลาด
- ตลาด voice agent เติบโตอย่างรวดเร็วในช่วงครึ่งหลังของปี 2024
- สินค้าหลากหลายประเภทกำลังเพิ่มความสามารถด้านเสียง
- ในหลายเลเยอร์ของ conversational voice stack มีทั้งการระดมทุนรอบใหม่และการได้ลูกค้าจริงอย่างต่อเนื่อง
- โดยเฉพาะในองค์กรขนาดใหญ่ มักไม่ได้แทนที่งานคอลของมนุษย์ทั้งหมดด้วย AI ทันที แต่เริ่มจากบางประเภทของสายโทรก่อนแล้วค่อยขยาย
- สายโทรกลางคืน·สายล้นระบบ: โดยทั่วไปสายที่เคยถูกส่งไป voicemail สามารถให้ AI รับแทน เพื่อเก็บข้อมูลในระดับหนึ่งและดำเนินธุรกรรมบางอย่างได้
- สายโทรออกประเภทใหม่: ทำให้สายที่เดิมไม่คุ้มทุนสามารถเกิดขึ้นได้ และคาดหวังผลด้านรายได้เพิ่มหรือประหยัดต้นทุน
- สายโทร ‘back-office’: เพิ่มประสิทธิภาพด้วยการทำงานอัตโนมัติของงานที่ต้องโทรไปยังบริษัทหรือหน่วยงานอื่น
วิวัฒนาการของตลาด - กรณีการระดมทุน
-
บริษัทโมเดล
- มีข่าวการระดมทุนขนาดใหญ่ต่อเนื่องตั้งแต่ seed round ถึง Series B จาก ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI เป็นต้น
-
แพลตฟอร์มใช้งานทั่วไป
- Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland เป็นต้น ระดมทุนตั้งแต่ Series A ถึง C
- บริษัทอย่าง 11x, Decagon, Sierra, Artisan ที่โฟกัสอุตสาหกรรมเฉพาะ เช่น sales และ customer support ก็ได้รับความสนใจ
- แพลตฟอร์มสำหรับ developer อย่าง Vapi และ Retell AI ก็เริ่มปรากฏขึ้น
-
แพลตฟอร์มแนวตั้ง
- สตาร์ตอัปจำนวนมากได้รับการลงทุนในด้านเฉพาะทาง เช่น healthcare, HR และการตอบสนองเหตุฉุกเฉิน จาก Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad เป็นต้น
- Wayfaster, HappyRobot และรายอื่น ๆ ก็ประสบความสำเร็จในการระดมทุนในด้านโลจิสติกส์ การสัมภาษณ์ และสาขาอื่น
ตลาดแนวตั้งสำคัญ
- กลุ่มที่มีแนวโน้มจะนำ voice agent ไปใช้ก่อนที่สุดคืออุตสาหกรรมที่มีค่าใช้จ่ายด้านคอลเซ็นเตอร์/BPO สูง
- อุตสาหกรรมหลักอย่างการเงิน ประกัน B2C, B2B, ภาครัฐ และ healthcare มีแนวโน้มสูงที่จะมีโซลูชันเสียงเฉพาะของตนเอง
- คาดว่าผู้ก่อตั้งจะทดลองอย่างคึกคักในสาขาต่อไปนี้
- Financial services (เช่น การติดตามหนี้)
- Insurance (งานติดต่อกับลูกค้าและ back-office)
- Government
- Support services (เช่น การสนับสนุน IT ที่ต้องใช้ความรู้เฉพาะทาง และงานดูแลลูกค้าที่ซับซ้อน)
- นอกเหนือจากหมวดคอลเซ็นเตอร์ ยังพบว่ามีความยินดีจ่ายสำหรับ AI voice agent ด้าน coaching/training ที่มุ่งไปยังตำแหน่งงานเงินเดือนสูง
- voice agent ที่สมจริงสามารถทำหน้าที่เป็น ‘simulator’ และยกระดับทักษะการทำงานได้อย่างมาก
- สิ่งนี้ช่วยทดแทนต้นทุนบุคลากร เช่น sales coach หรือซอฟต์แวร์เดิมที่ไม่มีประสิทธิภาพ
หมวดแนวตั้งที่น่าจับตา - แนวโน้มของบริษัทใน YC
- จำนวนบริษัท voice agent ที่เข้าร่วม YC กำลังเพิ่มขึ้นอย่างรวดเร็ว
- B2B (~69%) และ healthcare (~18%) เป็นกลุ่มหลัก โดยในหมวดย่อยของ B2B มีสตาร์ตอัปด้าน fintech และ customer support จำนวนมาก
- ใน healthcare แบ่งออกเป็น front-office (ฝั่งผู้ป่วย) และ back-office (เช่น ร้านขายยา บริษัทประกัน)
- โดยรวมแล้วสตาร์ตอัปกำลังพยายามใช้ voice agent เพื่อแก้ปัญหาในอุตสาหกรรมที่หลากหลาย
สิ่งที่เรากำลังมองหา
- อุตสาหกรรมที่โทรศัพท์เป็นช่องทางหลัก หรือเหมาะกับการใช้โทรศัพท์ที่สุดในเชิงกฎระเบียบและประสิทธิภาพ
- โทรศัพท์เป็นวิธีหลักในการเดโมให้ลูกค้า (เช่น โลจิสติกส์)
- การสนทนาทางโทรศัพท์มีประสิทธิภาพมากกว่าในเชิงข้อกำกับดูแล (เช่น การติดตามหนี้)
- หรือเป็นพื้นที่ที่อัตราความสำเร็จสูงกว่าวิธีอื่น (เช่น healthcare)
- โครงสร้างของสายสนทนาต้องชัดเจนและวัดผลได้
- มี data point ที่ต้องเก็บ หรือข้อมูลที่ต้องสื่อสารอย่างชัดเจน
- วัดผลลัพธ์ได้ง่าย ทำให้ธุรกิจสามารถพิจารณานำ AI voice agent มาใช้ได้โดยไม่ลังเลมาก
- ต้องลดต้นทุนแรงงานได้มากกว่า 50% พร้อมให้ผลลัพธ์ใกล้เคียงมนุษย์
- จะนำไปใช้ได้ง่ายกว่าในกรณีที่เห็นชัดว่าตำแหน่งงานใดถูกแทนที่ หรือสามารถโยกย้ายบุคลากรได้
- ภายในองค์กรอาจยังมีความสงสัยต่อ AI ดังนั้น ROI ต้องสูงมาก
- การโทรเป็นปัญหาที่ ‘เดิมพันสูง’ สำหรับลูกค้า แต่ฝั่งที่โทรหรือรับสายยังอยู่ในสภาพแวดล้อมที่ยอมรับความล้มเหลวได้
- หลายครั้งเริ่มจากสายโทรกลางคืน·สาย overflow หรือสาย ‘subprime’
- AI เข้าสู่ตลาดได้ง่ายในจุดที่เกณฑ์ประสิทธิภาพไม่สูงมาก
- มีผลต่อการสร้างรายได้โดยตรง (เช่น การจองใหม่ การชำระเงิน) หรือช่วยเพิ่มประสิทธิภาพการโทรในจุดที่มีค่าใช้จ่ายสูง (เช่น drive-through)
- สำหรับการเข้าสู่ตลาด SMB/mid-market ต้องสามารถเชื่อมต่อ VoIP แบบง่ายหรือ self-setup ได้
- ฝั่ง enterprise ยิ่งการเชื่อมต่อเริ่มต้นซับซ้อนมากเท่าไร ก็ยิ่งเป็นอุปสรรคในการเข้าสู่ตลาด แต่หากสร้างได้ดีจะกลายเป็นความได้เปรียบในการแข่งขัน
- หรืออาจเริ่มได้ง่ายด้วยการเชื่อมต่อที่ซับซ้อนต่ำ แล้วค่อยขยายในภายหลัง
- โดยรวมแล้ว ตลาดให้ความสนใจกับโซลูชันที่ทำได้ทั้งอัตราความสำเร็จสูงและประหยัดต้นทุนอย่างมากพร้อมกัน
กรณีศึกษา - การสัมภาษณ์ด้วยเสียง AI
- ในช่วงแรก การนำเสียง AI มาใช้กับการสัมภาษณ์งานซึ่งมีความซับซ้อนและอ่อนไหวสูงอาจดูเหนือความคาดหมาย
- แต่ในอุตสาหกรรม staffing มันแสดงผลลัพธ์ที่ดีมากในการจัดการการสัมภาษณ์ปริมาณมากและทำซ้ำบ่อย
- สามารถดำเนินการสัมภาษณ์ได้รวดเร็วและสม่ำเสมอยิ่งขึ้น โดยไม่ทำลายประสบการณ์ของผู้สมัคร
- AI สามารถทำการสัมภาษณ์ได้ทันทีเมื่อจำเป็น หรือประเมินผู้สมัครได้โดยไม่มีอุปสรรคด้านภาษา/สำเนียง
- โดยเฉพาะในตำแหน่งสายเทคนิค มีเสียงตอบรับว่า AI ประเมินได้แม่นยำกว่าฝ่าย HR ทั่วไป
- ฝั่งบริษัทรับรู้ถึงข้อดีทั้งอัตราการผ่านสัมภาษณ์ที่สูงขึ้น และกระบวนการจับคู่ผู้สมัครที่รวดเร็วขึ้น
1 ความคิดเห็น
ทุกเรื่องเกี่ยวกับ AI Voice Agent ที่ a16z สรุปไว้