• คอมโพเนนต์ควบคุมด้วยเสียงสำหรับ React/เบราว์เซอร์ ที่สร้างอยู่บน Realtime API
  • สามารถสั่งตั้งแต่การกรอกฟอร์มด้วยเสียงไปจนถึงการทำงานหลากหลายรูปแบบ และสร้างวิดเจ็ตที่ตอบสนองต่อคำสั่งเหล่านั้นได้
  • มีแพตเทิร์น tool-constrained UI สำหรับจำกัดให้แอสซิสแทนต์ ทำได้เฉพาะการทำงานที่แอปอนุญาตเท่านั้น
  • การเชื่อมต่อเซสชัน การประมวลผลเสียง การรันเครื่องมือ และการประกอบทรานสคริปต์ ถูก คอนโทรลเลอร์ตัวเดียวจัดการแบบรวมศูนย์ ทำให้นักพัฒนาไม่จำเป็นต้องจัดการ WebRTC หรือโปรโตคอล Realtime โดยตรง
  • เมื่อนำไปติดกับแอปเดิม แอปจะยังคงเป็น แหล่งข้อมูลสถานะเพียงหนึ่งเดียว (source of truth) และเลเยอร์เสียงจะมีหน้าที่เพียงเรียกใช้แฮนด์เลอร์ของแอปที่ถูกจำกัดไว้
  • เป็นแพ็กเกจแบบ opinionated ที่ ออกแบบมาเฉพาะสำหรับ UI flow บนเบราว์เซอร์ ไม่ใช่เฟรมเวิร์ก orchestration แบบอเนกประสงค์ และหากต้องการรันไทม์ที่ไม่ใช่ React หรือ orchestration สำหรับเอเจนต์ แนะนำให้ใช้ Raw Realtime หรือ openai-agents-js
  • สำหรับการผสานเข้ากับแอปเดิม มี คู่มือ 9 ขั้นตอน ตั้งแต่การพร็อกซีเอนด์พอยต์ /session → สร้าง voice adapter wrapper → ลงทะเบียนเครื่องมือ → ยกคอนโทรลเลอร์ขึ้นระดับบน → เมานต์วิดเจ็ต
  • โดยค่าเริ่มต้นคอนโทรลเลอร์ใช้ server_vad และในเซสชันแบบ tool-only จะตั้งค่า interruptResponse: false เพื่อไม่ให้การเรียกใช้เครื่องมือที่กำลังทำงานถูกยกเลิกด้วยเสียงใหม่
  • ในเดโมแอปสามารถดูสถานการณ์การผสานรวมหลากหลายแบบได้ เช่น การสลับธีม ฟอร์มหลายขั้นตอน โฟลว์หมากรุกที่ใช้สถานะร่วมกัน และการทดลอง wake-word
  • ไลเซนส์ Apache-2.0

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น