- ใช้เฟรมเวิร์ก Agent เพื่อสร้างโปรแกรมเซิร์ฟเวอร์ที่ขับเคลื่อนด้วย AI ซึ่งสามารถมองเห็น ฟัง และพูดได้แบบเรียลไทม์
- เชื่อมต่อกับอุปกรณ์ของผู้ใช้ผ่านเซสชัน LiveKit รองรับการสตรีมข้อความ เสียง ภาพ และวิดีโอ และสตรีมผลลัพธ์ที่โมเดล AI สร้างกลับไปยังผู้ใช้
- ร่วมมือกับ OpenAI เพื่อ提供 MultimodalAgent API
- ครอบ Realtime API ของ OpenAI ไว้อย่างสมบูรณ์ เพื่อซ่อนความซับซ้อนของโปรโตคอล Raw Wire และมอบการส่งผ่าน WebRTC แบบหน่วงต่ำมากระหว่าง GPT-4o กับอุปกรณ์
- เป็นเทคโนโลยีสแตกที่ใช้ในฟีเจอร์ Advanced Voice ของแอป ChatGPT
- ความสามารถที่มีให้
- ปลั๊กอินสำหรับ LLM ยอดนิยม บริการถอดเสียงและแปลงข้อความเป็นเสียง รวมถึงฐานข้อมูล RAG
- มี abstraction ระดับสูงสำหรับสร้าง voice agent หรือ assistant ที่มีการตรวจจับรอบสนทนาอัตโนมัติ การจัดการการขัดจังหวะ การเรียกใช้ฟังก์ชัน และความสามารถด้านการถอดเสียง
- เข้ากันได้กับสแตกโทรศัพท์ของ LiveKit ทำให้ agent สามารถโทรออกหรือรับสายทางโทรศัพท์ได้
- ระบบ load balancing แบบบูรณาการสำหรับจัดการพูลของ agent ด้วยการ dispatch บน edge การมอนิเตอร์ และการสลับระบบเมื่อขัดข้องอย่างโปร่งใส
- การรัน agent ทำงานแบบเดียวกันทั้งบน localhost, self-hosted และสภาพแวดล้อม LiveKit Cloud
1 ความคิดเห็น
LiveKit - โอเพนซอร์สแพลตฟอร์มการสื่อสารแบบเรียลไทม์
ผมเคยแชร์ LiveKit ไว้ครั้งหนึ่งในปี 2021 แต่ดูเหมือนว่าหลังจากขยายด้วยฟีเจอร์ Agents แล้ว ก็ถูกนำไปใช้กับ ChatGPT ด้วยนะครับ.
เดิมทีเป็นผลิตภัณฑ์สำหรับฟังก์ชันประชุมเสียง/วิดีโอแบบเรียลไทม์สำหรับผู้เข้าร่วมตั้งแต่ 10 ถึง 1,000 คน
ตอนนั้นมันได้รับความสนใจพอสมควร เพราะอาจเป็นทางเลือกโอเพนซอร์สแทน Agora ที่ ClubHouse ใช้งานอยู่
แล้วพอลองค้นดู ก็พบว่า Agora เองก็มีฟังก์ชันแบบเดียวกันภายใต้ชื่อ Conversational AI SDK เช่นกัน
https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/