13 คะแนน โดย xguru 2024-10-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ใช้เฟรมเวิร์ก Agent เพื่อสร้างโปรแกรมเซิร์ฟเวอร์ที่ขับเคลื่อนด้วย AI ซึ่งสามารถมองเห็น ฟัง และพูดได้แบบเรียลไทม์
  • เชื่อมต่อกับอุปกรณ์ของผู้ใช้ผ่านเซสชัน LiveKit รองรับการสตรีมข้อความ เสียง ภาพ และวิดีโอ และสตรีมผลลัพธ์ที่โมเดล AI สร้างกลับไปยังผู้ใช้
  • ร่วมมือกับ OpenAI เพื่อ提供 MultimodalAgent API
    • ครอบ Realtime API ของ OpenAI ไว้อย่างสมบูรณ์ เพื่อซ่อนความซับซ้อนของโปรโตคอล Raw Wire และมอบการส่งผ่าน WebRTC แบบหน่วงต่ำมากระหว่าง GPT-4o กับอุปกรณ์
    • เป็นเทคโนโลยีสแตกที่ใช้ในฟีเจอร์ Advanced Voice ของแอป ChatGPT
  • ความสามารถที่มีให้
    • ปลั๊กอินสำหรับ LLM ยอดนิยม บริการถอดเสียงและแปลงข้อความเป็นเสียง รวมถึงฐานข้อมูล RAG
    • มี abstraction ระดับสูงสำหรับสร้าง voice agent หรือ assistant ที่มีการตรวจจับรอบสนทนาอัตโนมัติ การจัดการการขัดจังหวะ การเรียกใช้ฟังก์ชัน และความสามารถด้านการถอดเสียง
    • เข้ากันได้กับสแตกโทรศัพท์ของ LiveKit ทำให้ agent สามารถโทรออกหรือรับสายทางโทรศัพท์ได้
    • ระบบ load balancing แบบบูรณาการสำหรับจัดการพูลของ agent ด้วยการ dispatch บน edge การมอนิเตอร์ และการสลับระบบเมื่อขัดข้องอย่างโปร่งใส
    • การรัน agent ทำงานแบบเดียวกันทั้งบน localhost, self-hosted และสภาพแวดล้อม LiveKit Cloud

1 ความคิดเห็น

 
xguru 2024-10-07

LiveKit - โอเพนซอร์สแพลตฟอร์มการสื่อสารแบบเรียลไทม์

ผมเคยแชร์ LiveKit ไว้ครั้งหนึ่งในปี 2021 แต่ดูเหมือนว่าหลังจากขยายด้วยฟีเจอร์ Agents แล้ว ก็ถูกนำไปใช้กับ ChatGPT ด้วยนะครับ.
เดิมทีเป็นผลิตภัณฑ์สำหรับฟังก์ชันประชุมเสียง/วิดีโอแบบเรียลไทม์สำหรับผู้เข้าร่วมตั้งแต่ 10 ถึง 1,000 คน
ตอนนั้นมันได้รับความสนใจพอสมควร เพราะอาจเป็นทางเลือกโอเพนซอร์สแทน Agora ที่ ClubHouse ใช้งานอยู่
แล้วพอลองค้นดู ก็พบว่า Agora เองก็มีฟังก์ชันแบบเดียวกันภายใต้ชื่อ Conversational AI SDK เช่นกัน

https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/