คอมโพเนนต์ React ควบคุมด้วยเสียงบนพื้นฐาน OpenAI Realtime API
(github.com/openai)- คอมโพเนนต์ควบคุมด้วยเสียงสำหรับ React/เบราว์เซอร์ ที่สร้างอยู่บน Realtime API
- สามารถสั่งตั้งแต่การกรอกฟอร์มด้วยเสียงไปจนถึงการทำงานหลากหลายรูปแบบ และสร้างวิดเจ็ตที่ตอบสนองต่อคำสั่งเหล่านั้นได้
- มีแพตเทิร์น tool-constrained UI สำหรับจำกัดให้แอสซิสแทนต์ ทำได้เฉพาะการทำงานที่แอปอนุญาตเท่านั้น
- การเชื่อมต่อเซสชัน การประมวลผลเสียง การรันเครื่องมือ และการประกอบทรานสคริปต์ ถูก คอนโทรลเลอร์ตัวเดียวจัดการแบบรวมศูนย์ ทำให้นักพัฒนาไม่จำเป็นต้องจัดการ WebRTC หรือโปรโตคอล Realtime โดยตรง
- เมื่อนำไปติดกับแอปเดิม แอปจะยังคงเป็น แหล่งข้อมูลสถานะเพียงหนึ่งเดียว (source of truth) และเลเยอร์เสียงจะมีหน้าที่เพียงเรียกใช้แฮนด์เลอร์ของแอปที่ถูกจำกัดไว้
- เป็นแพ็กเกจแบบ opinionated ที่ ออกแบบมาเฉพาะสำหรับ UI flow บนเบราว์เซอร์ ไม่ใช่เฟรมเวิร์ก orchestration แบบอเนกประสงค์ และหากต้องการรันไทม์ที่ไม่ใช่ React หรือ orchestration สำหรับเอเจนต์ แนะนำให้ใช้ Raw Realtime หรือ
openai-agents-js - สำหรับการผสานเข้ากับแอปเดิม มี คู่มือ 9 ขั้นตอน ตั้งแต่การพร็อกซีเอนด์พอยต์
/session→ สร้าง voice adapter wrapper → ลงทะเบียนเครื่องมือ → ยกคอนโทรลเลอร์ขึ้นระดับบน → เมานต์วิดเจ็ต - โดยค่าเริ่มต้นคอนโทรลเลอร์ใช้
server_vadและในเซสชันแบบ tool-only จะตั้งค่าinterruptResponse: falseเพื่อไม่ให้การเรียกใช้เครื่องมือที่กำลังทำงานถูกยกเลิกด้วยเสียงใหม่ - ในเดโมแอปสามารถดูสถานการณ์การผสานรวมหลากหลายแบบได้ เช่น การสลับธีม ฟอร์มหลายขั้นตอน โฟลว์หมากรุกที่ใช้สถานะร่วมกัน และการทดลอง wake-word
- ไลเซนส์ Apache-2.0
ยังไม่มีความคิดเห็น