คอมโพเนนต์ React ควบคุมด้วยเสียงบนพื้นฐาน OpenAI Realtime API

(github.com/openai)

5 คะแนน โดย xguru 1 일 전 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

คอมโพเนนต์ควบคุมด้วยเสียงสำหรับ React/เบราว์เซอร์ ที่สร้างอยู่บน Realtime API
สามารถสั่งตั้งแต่การกรอกฟอร์มด้วยเสียงไปจนถึงการทำงานหลากหลายรูปแบบ และสร้างวิดเจ็ตที่ตอบสนองต่อคำสั่งเหล่านั้นได้
มีแพตเทิร์น tool-constrained UI สำหรับจำกัดให้แอสซิสแทนต์ ทำได้เฉพาะการทำงานที่แอปอนุญาตเท่านั้น
การเชื่อมต่อเซสชัน การประมวลผลเสียง การรันเครื่องมือ และการประกอบทรานสคริปต์ ถูก คอนโทรลเลอร์ตัวเดียวจัดการแบบรวมศูนย์ ทำให้นักพัฒนาไม่จำเป็นต้องจัดการ WebRTC หรือโปรโตคอล Realtime โดยตรง
เมื่อนำไปติดกับแอปเดิม แอปจะยังคงเป็น แหล่งข้อมูลสถานะเพียงหนึ่งเดียว (source of truth) และเลเยอร์เสียงจะมีหน้าที่เพียงเรียกใช้แฮนด์เลอร์ของแอปที่ถูกจำกัดไว้
เป็นแพ็กเกจแบบ opinionated ที่ ออกแบบมาเฉพาะสำหรับ UI flow บนเบราว์เซอร์ ไม่ใช่เฟรมเวิร์ก orchestration แบบอเนกประสงค์ และหากต้องการรันไทม์ที่ไม่ใช่ React หรือ orchestration สำหรับเอเจนต์ แนะนำให้ใช้ Raw Realtime หรือ openai-agents-js
สำหรับการผสานเข้ากับแอปเดิม มี คู่มือ 9 ขั้นตอน ตั้งแต่การพร็อกซีเอนด์พอยต์ /session → สร้าง voice adapter wrapper → ลงทะเบียนเครื่องมือ → ยกคอนโทรลเลอร์ขึ้นระดับบน → เมานต์วิดเจ็ต
โดยค่าเริ่มต้นคอนโทรลเลอร์ใช้ server_vad และในเซสชันแบบ tool-only จะตั้งค่า interruptResponse: false เพื่อไม่ให้การเรียกใช้เครื่องมือที่กำลังทำงานถูกยกเลิกด้วยเสียงใหม่
ในเดโมแอปสามารถดูสถานการณ์การผสานรวมหลากหลายแบบได้ เช่น การสลับธีม ฟอร์มหลายขั้นตอน โฟลว์หมากรุกที่ใช้สถานะร่วมกัน และการทดลอง wake-word
ไลเซนส์ Apache-2.0

คอมโพเนนต์ React ควบคุมด้วยเสียงบนพื้นฐาน OpenAI Realtime API

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น