- เปิดตัวโมเดลเสียงใหม่ 3 รุ่นสำหรับ Realtime API ที่มาพร้อมความสามารถด้านการให้เหตุผล การแปล และการถอดเสียง ช่วยให้นักพัฒนาสร้าง แอปพลิเคชันเสียง ที่เป็นธรรมชาติและฉลาดยิ่งขึ้นได้
- GPT-Realtime-2 เป็นโมเดลเสียงรุ่นแรกที่มาพร้อมความสามารถด้านการให้เหตุผลระดับ GPT-5 สามารถเรียกใช้เครื่องมือและจัดการการขัดจังหวะ พร้อมสนทนาต่อได้อย่างเป็นธรรมชาติ
- GPT-Realtime-Translate คือ โมเดลแปลสด ที่แปลแบบเรียลไทม์จากภาษาขาเข้ากว่า 70 ภาษา ไปยังภาษาขาออก 13 ภาษา
- GPT-Realtime-Whisper คือ โมเดลถอดเสียงสตรีมมิง ที่แปลงคำพูดเป็นข้อความพร้อมกับที่ผู้พูดกำลังพูด เหมาะสำหรับคำบรรยาย การจดบันทึกการประชุม และงานสนับสนุนลูกค้า
- นับเป็นจุดเปลี่ยนที่เสียงพัฒนาเกินกว่ารูปแบบเรียก-ตอบธรรมดา ไปสู่การเป็นอินเทอร์เฟซที่ทำ การให้เหตุผล การแปล การถอดเสียง และการเรียกใช้เครื่องมือ ได้พร้อมกัน
ภาพรวมของโมเดลเสียงแบบเรียลไทม์ใหม่ 3 รุ่น
- OpenAI เพิ่มโมเดล 3 รุ่นเข้าสู่ API เพื่อช่วยให้นักพัฒนาสร้างประสบการณ์เสียงที่เป็นธรรมชาติมากขึ้น ตอบสนองอย่างชาญฉลาด และ ลงมือทำงานได้แบบเรียลไทม์
- GPT-Realtime-2: โมเดลเสียงรุ่นแรกที่มีความสามารถด้านการให้เหตุผลระดับ GPT-5 สามารถรับมือกับคำขอที่ยากและพาบทสนทนาดำเนินต่ออย่างเป็นธรรมชาติ
- GPT-Realtime-Translate: ทำ การแปลเสียงแบบเรียลไทม์ จากภาษาขาเข้ากว่า 70 ภาษา ไปยังภาษาขาออก 13 ภาษา โดยตามจังหวะการพูดของผู้พูด
- GPT-Realtime-Whisper: ให้บริการ ถอดเสียงพูดเป็นข้อความแบบไลฟ์สตรีมมิง ขณะผู้พูดกำลังพูด
แนวโน้มที่เสียงกำลังกลายเป็นอินเทอร์เฟซของซอฟต์แวร์
- เสียงกำลังกลายเป็นหนึ่งใน วิธีใช้ซอฟต์แวร์ที่เป็นธรรมชาติที่สุด เช่น ขอความช่วยเหลือระหว่างขับรถ เปลี่ยนแผนการเดินทางที่สนามบิน รับการสนับสนุนในภาษาที่ต้องการ หรือทำงานต่อโดยไม่ต้องพิมพ์
- ผลิตภัณฑ์เสียงที่ใช้งานได้ดีต้องการมากกว่าแค่การโต้ตอบที่รวดเร็วหรือเสียงที่เป็นธรรมชาติ แต่ต้องเข้าใจความหมาย ติดตามบริบท ฟื้นตัวเมื่อคำขอเปลี่ยน ใช้เครื่องมือระหว่างบทสนทนา และตอบด้วยโทนที่เหมาะสม
- โมเดลที่เปิดตัวครั้งนี้เปลี่ยนเสียงแบบเรียลไทม์จากการเรียก-ตอบธรรมดา ไปเป็น อินเทอร์เฟซเสียงที่ฟัง ให้เหตุผล แปล ถอดเสียง และลงมือทำได้
3 รูปแบบใหม่ของ Voice AI
- Voice-to-Action: ผู้ใช้พูดความต้องการ แล้วระบบจะให้เหตุผลและใช้เครื่องมือเพื่อทำงานให้เสร็จ
- กรณีของ Zillow: กำลังสร้างผู้ช่วยที่สามารถฟัง ให้เหตุผล และลงมือทำตามคำขออย่าง “ช่วยหาบ้านที่อยู่ในช่วง BuyAbility ของฉัน เลี่ยงถนนที่พลุกพล่าน และจองทัวร์วันเสาร์ให้หน่อย”
- Systems-to-Voice: ซอฟต์แวร์แปลงบริบทให้เป็นคำแนะนำเสียงแบบเรียลไทม์
- กรณีแอปท่องเที่ยว: ให้ คำแนะนำเสียงเชิงรุก เช่น “เที่ยวบินขาเข้าล่าช้า แต่ยังต่อเครื่องได้ เราพบเกตใหม่แล้ว กำลังแนะนำเส้นทางสั้นที่สุดไปยังเทอร์มินัล และกระเป๋าจะถูกส่งต่อได้ตามปกติ”
- Voice-to-Voice: AI ช่วย เชื่อมบทสนทนาแบบเรียลไทม์ ข้ามภาษา งาน และบริบทที่เปลี่ยนแปลงตลอดเวลา
- กรณีของ Deutsche Telekom: กำลังสร้างประสบการณ์สนับสนุนด้วยเสียงที่เมื่อลูกค้าพูดในภาษาที่ถนัด โมเดลจะแปลแบบเรียลไทม์
- รูปแบบเหล่านี้ยังสามารถผสานรวมกันได้ โดย Priceline กำลังผลักดันอนาคตที่ผู้ใช้จัดการการเดินทางทั้งหมดด้วยเสียง ตั้งแต่ค้นหาเที่ยวบินและโรงแรม เปลี่ยนการจอง อัปเดตเวลารอของ TSA ไปจนถึงแปลบทสนทนาในพื้นที่
GPT-Realtime-2: โมเดลเสียงเรียลไทม์ที่ให้เหตุผลและลงมือทำได้
- ถูกปรับแต่งสำหรับการโต้ตอบด้วยเสียงแบบเรียลไทม์ โดยสามารถให้เหตุผล เรียกใช้เครื่องมือ จัดการการแก้ไขหรือการขัดจังหวะ และตอบสนองตามสถานการณ์ได้พร้อมกัน
- Preambles: ใช้วลีสั้น ๆ เช่น “ขอตรวจสอบก่อนนะ” หรือ “รอสักครู่” เพื่อบอกผู้ใช้ว่าเอเจนต์กำลังประมวลผลคำขอ
- การเรียกใช้เครื่องมือแบบขนานและความโปร่งใสของเครื่องมือ: สามารถเรียกใช้หลายเครื่องมือพร้อมกัน พร้อมใช้วลีอย่าง “กำลังตรวจสอบปฏิทิน” หรือ “กำลังค้นหาอยู่ตอนนี้” เพื่อ คงความรู้สึกตอบสนองทันที
- พฤติกรรมการฟื้นตัวที่ดีขึ้น: แทนที่จะล้มเหลวเงียบ ๆ หรือหยุดบทสนทนา สามารถ กู้สถานการณ์อย่างเป็นธรรมชาติ ด้วยวลีอย่าง “ตอนนี้ยังดำเนินการให้ได้ยาก”
- หน้าต่างบริบทที่ขยายขึ้น: เพิ่มจาก 32K เป็น 128K เพื่อรองรับเซสชันที่ยาวขึ้นและเวิร์กโฟลว์ที่ซับซ้อนกว่าเดิม
- ความเข้าใจโดเมนที่ดีขึ้น: รักษาศัพท์เฉพาะ ชื่อเฉพาะ และคำศัพท์ทางการแพทย์ที่สำคัญในงานโปรดักชันได้ดีขึ้น
- ควบคุมโทนและการถ่ายทอดได้: ปรับโทนได้ตามสถานการณ์ เช่น สุขุมเมื่อแก้ปัญหา เห็นอกเห็นใจเมื่อผู้ใช้ไม่พอใจ หรือสดใสเมื่อยืนยันความสำเร็จ
- ปรับระดับความพยายามในการให้เหตุผลได้: มี 5 ระดับคือ minimal, low, medium, high, xhigh โดยค่าเริ่มต้นคือ low เพื่อให้การโต้ตอบง่าย ๆ มีความหน่วงต่ำ และคำขอซับซ้อนใช้การให้เหตุผลที่ลึกขึ้นได้อย่างสมดุล
เบนช์มาร์กประสิทธิภาพของ GPT-Realtime-2
- GPT-Realtime-2 (high) ทำคะแนนบน Big Bench Audio สูงกว่า GPT-Realtime-1.5 15.2% ตามเกณฑ์ความฉลาดด้านเสียง
- GPT-Realtime-2 (xhigh) ทำคะแนนบน Audio MultiChallenge สูงกว่า GPT-Realtime-1.5 13.8% ตามเกณฑ์การทำตามคำสั่ง โดยมีการพัฒนาในด้านการให้เหตุผล การจัดการบริบท และการควบคุม
- Josh Weisberg, SVP ของ Zillow ระบุว่า หลังปรับแต่งพรอมป์ต์บนเบนช์มาร์กเชิงปฏิปักษ์ที่ยากที่สุด อัตราความสำเร็จของการโทรเพิ่มขึ้น 26 จุด (95% เทียบกับ 69%) อีกทั้งยังแข็งแกร่งขึ้นในด้านการปฏิบัติตามกฎ Fair Housing และ การผสานความสามารถของเอเจนต์กับความเข้มของการ์ดเรล เหมาะกับระบบเสียงโปรดักชันของ Zillow
GPT-Realtime-Translate: การแปลเสียงหลายภาษาแบบเรียลไทม์
- สามารถสร้างประสบการณ์เสียงหลายภาษาที่ผู้เข้าร่วมแต่ละคนพูดในภาษาที่ตนต้องการ ฟังบทสนทนาที่แปลแบบเรียลไทม์ และ อ่านข้อความถอดเสียงแบบเรียลไทม์ ได้
- รองรับ ภาษาขาเข้ากว่า 70 ภาษา และภาษาขาออก 13 ภาษา เหมาะกับงานสนับสนุนลูกค้า การขายข้ามพรมแดน การศึกษา อีเวนต์ สื่อ และแพลตฟอร์มครีเอเตอร์ระดับโลก
- ต้องสามารถรักษาความหมายให้ครบถ้วนตามจังหวะการพูดของผู้พูด พร้อมรองรับการพูดอย่างเป็นธรรมชาติ การสลับบริบท สำเนียงท้องถิ่น และภาษาที่เฉพาะทางในแต่ละโดเมน
- Deutsche Telekom กำลังทดสอบการใช้งานกับการโต้ตอบด้วยเสียงหลายภาษา โดย ความหน่วงต่ำและความลื่นไหลที่ดีขึ้น ทำให้บทสนทนาข้ามภาษาดูเป็นธรรมชาติมากขึ้น
- กรณีของ Vimeo: GPT-Realtime-Translate สามารถ แปลแบบเรียลไทม์ ระหว่างเล่นวิดีโอฝึกอบรมผลิตภัณฑ์ ทำให้ลูกค้าทั่วโลกฟังอัปเดตในภาษาที่ต้องการได้โดยไม่ต้องผลิตเวอร์ชันแยก
- Prateek Sachan, CTO ของ BolnaAI ระบุว่า ในการประเมินภาษาฮินดี ทมิฬ และเตลูกู อัตราความผิดพลาดของคำ (WER) ต่ำกว่าโมเดลอื่น 12.5% ลดอัตราการ fallback มีอัตราการทำงานสำเร็จสูง และมีความหน่วงที่ยังรักษาบทสนทนาให้เป็นธรรมชาติได้
GPT-Realtime-Whisper: การถอดเสียงสตรีมมิงหน่วงต่ำ
- โมเดลถอดเสียงสตรีมมิงใหม่สำหรับ การแปลงเสียงเป็นข้อความที่มีความหน่วงต่ำ โดยถอดเสียงจากออดิโอพร้อมกับที่ผู้พูดกำลังพูด
- เหมาะกับคำบรรยายแบบเรียลไทม์ บันทึกการประชุมที่สร้างระหว่างบทสนทนา เอเจนต์เสียงที่ต้องเข้าใจผู้ใช้อย่างต่อเนื่อง และเวิร์กโฟลว์ติดตามผลที่รวดเร็วสำหรับ การโต้ตอบด้วยเสียงความถี่สูง เช่น ฝ่ายสนับสนุนลูกค้า เฮลท์แคร์ งานขาย และการสรรหาบุคลากร
- ช่วยนำข้อมูลเสียงแบบเรียลไทม์ไปใช้ใน เวิร์กโฟลว์ธุรกิจ ได้ทันที เช่น สร้างคำบรรยายสำหรับการประชุม ห้องเรียน การออกอากาศ และอีเวนต์ หรือสร้างโน้ตและสรุประหว่างที่บทสนทนาดำเนินอยู่
ความปลอดภัยและนโยบาย
- ใช้ มาตรการป้องกันหลายชั้นและมาตรการบรรเทา กับ Realtime API เพื่อป้องกันการใช้งานในทางที่ผิด
- มีการใช้งาน active classifiers กับเซสชันต่าง ๆ และอาจหยุดบทสนทนาได้หากตรวจพบการละเมิดแนวทางเกี่ยวกับเนื้อหาที่เป็นอันตราย
- นักพัฒนาสามารถใช้ Agents SDK เพื่อเพิ่มการ์ดเรลด้านความปลอดภัยของตนเองได้
- ตามนโยบายการใช้งาน ห้ามนำเอาต์พุตไปใช้ซ้ำหรือเผยแพร่เพื่อวัตถุประสงค์ที่เป็นอันตราย เช่น สแปมหรือการหลอกลวง
- ต้องแจ้งให้ผู้ใช้ปลายทางทราบอย่างชัดเจนว่ากำลังโต้ตอบกับ AI อยู่ (ยกเว้นในกรณีที่เห็นได้ชัดจากบริบท)
- รองรับ EU data residency อย่างสมบูรณ์ และอยู่ภายใต้ข้อผูกพันด้านความเป็นส่วนตัวระดับองค์กร
ราคาและการเปิดให้ใช้งาน
- ทั้ง GPT-Realtime-2, GPT-Realtime-Translate และ GPT-Realtime-Whisper พร้อมใช้งานผ่าน Realtime API
- GPT-Realtime-2: โทเคนออดิโอขาเข้า 1 ล้านโทเคน ราคา $32 (โทเคนขาเข้าที่แคชไว้ $0.40) และโทเคนออดิโอขาออก 1 ล้านโทเคน ราคา $64
- GPT-Realtime-Translate: $0.034 ต่อนาที
- GPT-Realtime-Whisper: $0.017 ต่อนาที
- สามารถทดสอบโมเดลเสียงแบบเรียลไทม์ใหม่ได้ใน Playground และเพิ่ม GPT-Realtime-2 เข้าในแอปเดิมหรือเริ่มโปรเจกต์ใหม่ผ่าน Codex
ยังไม่มีความคิดเห็น