LiveKit Agents - เฟรมเวิร์กโอเพนซอร์สที่ OpenAI ใช้กับโหมดเสียงขั้นสูงของ ChatGPT

xguru · 2024-10-07T10:56:02+09:00

ใช้เฟรมเวิร์ก Agent เพื่อสร้างโปรแกรมเซิร์ฟเวอร์ที่ขับเคลื่อนด้วย AI ซึ่งสามารถมองเห็น ฟัง และพูดได้แบบเรียลไทม์ เชื่อมต่อกับอุปกรณ์ของผู้ใช้ผ่านเซสชัน LiveKit รองรับการสตรีมข้อความ เสียง ภาพ และวิดีโอ และสตรีมผลลัพธ์ที่โมเดล AI สร้างกลับไปยังผู้ใช้ ร่วมมือกับ OpenAI เพื่อ提供 MultimodalAgent API ครอบ Realtime API ของ OpenAI ไว้อย่างสมบูรณ์ เพื่อซ่อนความซับซ้อนของโปรโตคอล Raw Wire และมอบการส่งผ่าน WebRTC แบบหน่วงต่ำมากระหว่าง GPT-4o กับอุปกรณ์ เป็นเทคโนโลยีสแตกที่ใช้ในฟีเจอร์ Advanced Voice ของแอป ChatGPT ความสามารถที่มีให้ ปลั๊กอินสำหรับ LLM ยอดนิยม บริการถอดเสียงและแปลงข้อความเป็นเสียง รวมถึงฐานข้อมูล RAG มี abstraction ระดับสูงสำหรับสร้าง voice agent หรือ assistant ที่มีการตรวจจับรอบสนทนาอัตโนมัติ การจัดการการขัดจังหวะ การเรียกใช้ฟังก์ชัน และความสามารถด้านการถอดเสียง เข้ากันได้กับสแตกโทรศัพท์ของ LiveKit ทำให้ agent สามารถโทรออกหรือรับสายทางโทรศัพท์ได้ ระบบ load balancing แบบบูรณาการสำหรับจัดการพูลของ agent ด้วยการ dispatch บน edge การมอนิเตอร์ และการสลับระบบเมื่อขัดข้องอย่างโปร่งใส การรัน agent ทำงานแบบเดียวกันทั้งบน localhost, self-hosted และสภาพแวดล้อม LiveKit Cloud

(github.com/livekit)

13 คะแนน โดย xguru 2024-10-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ใช้เฟรมเวิร์ก Agent เพื่อสร้างโปรแกรมเซิร์ฟเวอร์ที่ขับเคลื่อนด้วย AI ซึ่งสามารถมองเห็น ฟัง และพูดได้แบบเรียลไทม์
เชื่อมต่อกับอุปกรณ์ของผู้ใช้ผ่านเซสชัน LiveKit รองรับการสตรีมข้อความ เสียง ภาพ และวิดีโอ และสตรีมผลลัพธ์ที่โมเดล AI สร้างกลับไปยังผู้ใช้
ร่วมมือกับ OpenAI เพื่อ提供 MultimodalAgent API
- ครอบ Realtime API ของ OpenAI ไว้อย่างสมบูรณ์ เพื่อซ่อนความซับซ้อนของโปรโตคอล Raw Wire และมอบการส่งผ่าน WebRTC แบบหน่วงต่ำมากระหว่าง GPT-4o กับอุปกรณ์
- เป็นเทคโนโลยีสแตกที่ใช้ในฟีเจอร์ Advanced Voice ของแอป ChatGPT
ความสามารถที่มีให้
- ปลั๊กอินสำหรับ LLM ยอดนิยม บริการถอดเสียงและแปลงข้อความเป็นเสียง รวมถึงฐานข้อมูล RAG
- มี abstraction ระดับสูงสำหรับสร้าง voice agent หรือ assistant ที่มีการตรวจจับรอบสนทนาอัตโนมัติ การจัดการการขัดจังหวะ การเรียกใช้ฟังก์ชัน และความสามารถด้านการถอดเสียง
- เข้ากันได้กับสแตกโทรศัพท์ของ LiveKit ทำให้ agent สามารถโทรออกหรือรับสายทางโทรศัพท์ได้
- ระบบ load balancing แบบบูรณาการสำหรับจัดการพูลของ agent ด้วยการ dispatch บน edge การมอนิเตอร์ และการสลับระบบเมื่อขัดข้องอย่างโปร่งใส
- การรัน agent ทำงานแบบเดียวกันทั้งบน localhost, self-hosted และสภาพแวดล้อม LiveKit Cloud

1 ความคิดเห็น

xguru 2024-10-07

LiveKit - โอเพนซอร์สแพลตฟอร์มการสื่อสารแบบเรียลไทม์

ผมเคยแชร์ LiveKit ไว้ครั้งหนึ่งในปี 2021 แต่ดูเหมือนว่าหลังจากขยายด้วยฟีเจอร์ Agents แล้ว ก็ถูกนำไปใช้กับ ChatGPT ด้วยนะครับ.
เดิมทีเป็นผลิตภัณฑ์สำหรับฟังก์ชันประชุมเสียง/วิดีโอแบบเรียลไทม์สำหรับผู้เข้าร่วมตั้งแต่ 10 ถึง 1,000 คน
ตอนนั้นมันได้รับความสนใจพอสมควร เพราะอาจเป็นทางเลือกโอเพนซอร์สแทน Agora ที่ ClubHouse ใช้งานอยู่
แล้วพอลองค้นดู ก็พบว่า Agora เองก็มีฟังก์ชันแบบเดียวกันภายใต้ชื่อ Conversational AI SDK เช่นกัน

https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/

LiveKit Agents - เฟรมเวิร์กโอเพนซอร์สที่ OpenAI ใช้กับโหมดเสียงขั้นสูงของ ChatGPT

บทความที่เกี่ยวข้อง

1 ความคิดเห็น