OpenAI เปิดตัวซีรีส์ GPT-Realtime-2 ที่มีความสามารถด้านการให้เหตุผลระดับ GPT-5

(openai.com)

9 คะแนน โดย GN⁺ 2026-05-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เปิดตัวโมเดลเสียงใหม่ 3 รุ่นสำหรับ Realtime API ที่มาพร้อมความสามารถด้านการให้เหตุผล การแปล และการถอดเสียง ช่วยให้นักพัฒนาสร้าง แอปพลิเคชันเสียง ที่เป็นธรรมชาติและฉลาดยิ่งขึ้นได้
GPT-Realtime-2 เป็นโมเดลเสียงรุ่นแรกที่มาพร้อมความสามารถด้านการให้เหตุผลระดับ GPT-5 สามารถเรียกใช้เครื่องมือและจัดการการขัดจังหวะ พร้อมสนทนาต่อได้อย่างเป็นธรรมชาติ
GPT-Realtime-Translate คือ โมเดลแปลสด ที่แปลแบบเรียลไทม์จากภาษาขาเข้ากว่า 70 ภาษา ไปยังภาษาขาออก 13 ภาษา
GPT-Realtime-Whisper คือ โมเดลถอดเสียงสตรีมมิง ที่แปลงคำพูดเป็นข้อความพร้อมกับที่ผู้พูดกำลังพูด เหมาะสำหรับคำบรรยาย การจดบันทึกการประชุม และงานสนับสนุนลูกค้า
นับเป็นจุดเปลี่ยนที่เสียงพัฒนาเกินกว่ารูปแบบเรียก-ตอบธรรมดา ไปสู่การเป็นอินเทอร์เฟซที่ทำ การให้เหตุผล การแปล การถอดเสียง และการเรียกใช้เครื่องมือ ได้พร้อมกัน

ภาพรวมของโมเดลเสียงแบบเรียลไทม์ใหม่ 3 รุ่น

OpenAI เพิ่มโมเดล 3 รุ่นเข้าสู่ API เพื่อช่วยให้นักพัฒนาสร้างประสบการณ์เสียงที่เป็นธรรมชาติมากขึ้น ตอบสนองอย่างชาญฉลาด และ ลงมือทำงานได้แบบเรียลไทม์
GPT-Realtime-2: โมเดลเสียงรุ่นแรกที่มีความสามารถด้านการให้เหตุผลระดับ GPT-5 สามารถรับมือกับคำขอที่ยากและพาบทสนทนาดำเนินต่ออย่างเป็นธรรมชาติ
GPT-Realtime-Translate: ทำ การแปลเสียงแบบเรียลไทม์ จากภาษาขาเข้ากว่า 70 ภาษา ไปยังภาษาขาออก 13 ภาษา โดยตามจังหวะการพูดของผู้พูด
GPT-Realtime-Whisper: ให้บริการ ถอดเสียงพูดเป็นข้อความแบบไลฟ์สตรีมมิง ขณะผู้พูดกำลังพูด

แนวโน้มที่เสียงกำลังกลายเป็นอินเทอร์เฟซของซอฟต์แวร์

เสียงกำลังกลายเป็นหนึ่งใน วิธีใช้ซอฟต์แวร์ที่เป็นธรรมชาติที่สุด เช่น ขอความช่วยเหลือระหว่างขับรถ เปลี่ยนแผนการเดินทางที่สนามบิน รับการสนับสนุนในภาษาที่ต้องการ หรือทำงานต่อโดยไม่ต้องพิมพ์
ผลิตภัณฑ์เสียงที่ใช้งานได้ดีต้องการมากกว่าแค่การโต้ตอบที่รวดเร็วหรือเสียงที่เป็นธรรมชาติ แต่ต้องเข้าใจความหมาย ติดตามบริบท ฟื้นตัวเมื่อคำขอเปลี่ยน ใช้เครื่องมือระหว่างบทสนทนา และตอบด้วยโทนที่เหมาะสม
โมเดลที่เปิดตัวครั้งนี้เปลี่ยนเสียงแบบเรียลไทม์จากการเรียก-ตอบธรรมดา ไปเป็น อินเทอร์เฟซเสียงที่ฟัง ให้เหตุผล แปล ถอดเสียง และลงมือทำได้

3 รูปแบบใหม่ของ Voice AI

Voice-to-Action: ผู้ใช้พูดความต้องการ แล้วระบบจะให้เหตุผลและใช้เครื่องมือเพื่อทำงานให้เสร็จ
- กรณีของ Zillow: กำลังสร้างผู้ช่วยที่สามารถฟัง ให้เหตุผล และลงมือทำตามคำขออย่าง “ช่วยหาบ้านที่อยู่ในช่วง BuyAbility ของฉัน เลี่ยงถนนที่พลุกพล่าน และจองทัวร์วันเสาร์ให้หน่อย”
โฆษณา
Systems-to-Voice: ซอฟต์แวร์แปลงบริบทให้เป็นคำแนะนำเสียงแบบเรียลไทม์
- กรณีแอปท่องเที่ยว: ให้ คำแนะนำเสียงเชิงรุก เช่น “เที่ยวบินขาเข้าล่าช้า แต่ยังต่อเครื่องได้ เราพบเกตใหม่แล้ว กำลังแนะนำเส้นทางสั้นที่สุดไปยังเทอร์มินัล และกระเป๋าจะถูกส่งต่อได้ตามปกติ”
Voice-to-Voice: AI ช่วย เชื่อมบทสนทนาแบบเรียลไทม์ ข้ามภาษา งาน และบริบทที่เปลี่ยนแปลงตลอดเวลา
- กรณีของ Deutsche Telekom: กำลังสร้างประสบการณ์สนับสนุนด้วยเสียงที่เมื่อลูกค้าพูดในภาษาที่ถนัด โมเดลจะแปลแบบเรียลไทม์
รูปแบบเหล่านี้ยังสามารถผสานรวมกันได้ โดย Priceline กำลังผลักดันอนาคตที่ผู้ใช้จัดการการเดินทางทั้งหมดด้วยเสียง ตั้งแต่ค้นหาเที่ยวบินและโรงแรม เปลี่ยนการจอง อัปเดตเวลารอของ TSA ไปจนถึงแปลบทสนทนาในพื้นที่

GPT-Realtime-2: โมเดลเสียงเรียลไทม์ที่ให้เหตุผลและลงมือทำได้

ถูกปรับแต่งสำหรับการโต้ตอบด้วยเสียงแบบเรียลไทม์ โดยสามารถให้เหตุผล เรียกใช้เครื่องมือ จัดการการแก้ไขหรือการขัดจังหวะ และตอบสนองตามสถานการณ์ได้พร้อมกัน
Preambles: ใช้วลีสั้น ๆ เช่น “ขอตรวจสอบก่อนนะ” หรือ “รอสักครู่” เพื่อบอกผู้ใช้ว่าเอเจนต์กำลังประมวลผลคำขอ
การเรียกใช้เครื่องมือแบบขนานและความโปร่งใสของเครื่องมือ: สามารถเรียกใช้หลายเครื่องมือพร้อมกัน พร้อมใช้วลีอย่าง “กำลังตรวจสอบปฏิทิน” หรือ “กำลังค้นหาอยู่ตอนนี้” เพื่อ คงความรู้สึกตอบสนองทันที
พฤติกรรมการฟื้นตัวที่ดีขึ้น: แทนที่จะล้มเหลวเงียบ ๆ หรือหยุดบทสนทนา สามารถ กู้สถานการณ์อย่างเป็นธรรมชาติ ด้วยวลีอย่าง “ตอนนี้ยังดำเนินการให้ได้ยาก”
หน้าต่างบริบทที่ขยายขึ้น: เพิ่มจาก 32K เป็น 128K เพื่อรองรับเซสชันที่ยาวขึ้นและเวิร์กโฟลว์ที่ซับซ้อนกว่าเดิม
ความเข้าใจโดเมนที่ดีขึ้น: รักษาศัพท์เฉพาะ ชื่อเฉพาะ และคำศัพท์ทางการแพทย์ที่สำคัญในงานโปรดักชันได้ดีขึ้น
ควบคุมโทนและการถ่ายทอดได้: ปรับโทนได้ตามสถานการณ์ เช่น สุขุมเมื่อแก้ปัญหา เห็นอกเห็นใจเมื่อผู้ใช้ไม่พอใจ หรือสดใสเมื่อยืนยันความสำเร็จ
ปรับระดับความพยายามในการให้เหตุผลได้: มี 5 ระดับคือ minimal, low, medium, high, xhigh โดยค่าเริ่มต้นคือ low เพื่อให้การโต้ตอบง่าย ๆ มีความหน่วงต่ำ และคำขอซับซ้อนใช้การให้เหตุผลที่ลึกขึ้นได้อย่างสมดุล

เบนช์มาร์กประสิทธิภาพของ GPT-Realtime-2

GPT-Realtime-2 (high) ทำคะแนนบน Big Bench Audio สูงกว่า GPT-Realtime-1.5 15.2% ตามเกณฑ์ความฉลาดด้านเสียง
GPT-Realtime-2 (xhigh) ทำคะแนนบน Audio MultiChallenge สูงกว่า GPT-Realtime-1.5 13.8% ตามเกณฑ์การทำตามคำสั่ง โดยมีการพัฒนาในด้านการให้เหตุผล การจัดการบริบท และการควบคุม
Josh Weisberg, SVP ของ Zillow ระบุว่า หลังปรับแต่งพรอมป์ต์บนเบนช์มาร์กเชิงปฏิปักษ์ที่ยากที่สุด อัตราความสำเร็จของการโทรเพิ่มขึ้น 26 จุด (95% เทียบกับ 69%) อีกทั้งยังแข็งแกร่งขึ้นในด้านการปฏิบัติตามกฎ Fair Housing และ การผสานความสามารถของเอเจนต์กับความเข้มของการ์ดเรล เหมาะกับระบบเสียงโปรดักชันของ Zillow

GPT-Realtime-Translate: การแปลเสียงหลายภาษาแบบเรียลไทม์

สามารถสร้างประสบการณ์เสียงหลายภาษาที่ผู้เข้าร่วมแต่ละคนพูดในภาษาที่ตนต้องการ ฟังบทสนทนาที่แปลแบบเรียลไทม์ และ อ่านข้อความถอดเสียงแบบเรียลไทม์ ได้
รองรับ ภาษาขาเข้ากว่า 70 ภาษา และภาษาขาออก 13 ภาษา เหมาะกับงานสนับสนุนลูกค้า การขายข้ามพรมแดน การศึกษา อีเวนต์ สื่อ และแพลตฟอร์มครีเอเตอร์ระดับโลก
ต้องสามารถรักษาความหมายให้ครบถ้วนตามจังหวะการพูดของผู้พูด พร้อมรองรับการพูดอย่างเป็นธรรมชาติ การสลับบริบท สำเนียงท้องถิ่น และภาษาที่เฉพาะทางในแต่ละโดเมน
Deutsche Telekom กำลังทดสอบการใช้งานกับการโต้ตอบด้วยเสียงหลายภาษา โดย ความหน่วงต่ำและความลื่นไหลที่ดีขึ้น ทำให้บทสนทนาข้ามภาษาดูเป็นธรรมชาติมากขึ้น
กรณีของ Vimeo: GPT-Realtime-Translate สามารถ แปลแบบเรียลไทม์ ระหว่างเล่นวิดีโอฝึกอบรมผลิตภัณฑ์ ทำให้ลูกค้าทั่วโลกฟังอัปเดตในภาษาที่ต้องการได้โดยไม่ต้องผลิตเวอร์ชันแยก
Prateek Sachan, CTO ของ BolnaAI ระบุว่า ในการประเมินภาษาฮินดี ทมิฬ และเตลูกู อัตราความผิดพลาดของคำ (WER) ต่ำกว่าโมเดลอื่น 12.5% ลดอัตราการ fallback มีอัตราการทำงานสำเร็จสูง และมีความหน่วงที่ยังรักษาบทสนทนาให้เป็นธรรมชาติได้

GPT-Realtime-Whisper: การถอดเสียงสตรีมมิงหน่วงต่ำ

โมเดลถอดเสียงสตรีมมิงใหม่สำหรับ การแปลงเสียงเป็นข้อความที่มีความหน่วงต่ำ โดยถอดเสียงจากออดิโอพร้อมกับที่ผู้พูดกำลังพูด
เหมาะกับคำบรรยายแบบเรียลไทม์ บันทึกการประชุมที่สร้างระหว่างบทสนทนา เอเจนต์เสียงที่ต้องเข้าใจผู้ใช้อย่างต่อเนื่อง และเวิร์กโฟลว์ติดตามผลที่รวดเร็วสำหรับ การโต้ตอบด้วยเสียงความถี่สูง เช่น ฝ่ายสนับสนุนลูกค้า เฮลท์แคร์ งานขาย และการสรรหาบุคลากร
ช่วยนำข้อมูลเสียงแบบเรียลไทม์ไปใช้ใน เวิร์กโฟลว์ธุรกิจ ได้ทันที เช่น สร้างคำบรรยายสำหรับการประชุม ห้องเรียน การออกอากาศ และอีเวนต์ หรือสร้างโน้ตและสรุประหว่างที่บทสนทนาดำเนินอยู่

ความปลอดภัยและนโยบาย

ใช้ มาตรการป้องกันหลายชั้นและมาตรการบรรเทา กับ Realtime API เพื่อป้องกันการใช้งานในทางที่ผิด
มีการใช้งาน active classifiers กับเซสชันต่าง ๆ และอาจหยุดบทสนทนาได้หากตรวจพบการละเมิดแนวทางเกี่ยวกับเนื้อหาที่เป็นอันตราย
นักพัฒนาสามารถใช้ Agents SDK เพื่อเพิ่มการ์ดเรลด้านความปลอดภัยของตนเองได้
ตามนโยบายการใช้งาน ห้ามนำเอาต์พุตไปใช้ซ้ำหรือเผยแพร่เพื่อวัตถุประสงค์ที่เป็นอันตราย เช่น สแปมหรือการหลอกลวง
ต้องแจ้งให้ผู้ใช้ปลายทางทราบอย่างชัดเจนว่ากำลังโต้ตอบกับ AI อยู่ (ยกเว้นในกรณีที่เห็นได้ชัดจากบริบท)
รองรับ EU data residency อย่างสมบูรณ์ และอยู่ภายใต้ข้อผูกพันด้านความเป็นส่วนตัวระดับองค์กร

ราคาและการเปิดให้ใช้งาน

ทั้ง GPT-Realtime-2, GPT-Realtime-Translate และ GPT-Realtime-Whisper พร้อมใช้งานผ่าน Realtime API
GPT-Realtime-2: โทเคนออดิโอขาเข้า 1 ล้านโทเคน ราคา $32 (โทเคนขาเข้าที่แคชไว้ $0.40) และโทเคนออดิโอขาออก 1 ล้านโทเคน ราคา $64
GPT-Realtime-Translate: $0.034 ต่อนาที
GPT-Realtime-Whisper: $0.017 ต่อนาที
สามารถทดสอบโมเดลเสียงแบบเรียลไทม์ใหม่ได้ใน Playground และเพิ่ม GPT-Realtime-2 เข้าในแอปเดิมหรือเริ่มโปรเจกต์ใหม่ผ่าน Codex

1 ความคิดเห็น

kleinstein 29 일 전

GPT-Realtime-Translate จะรองรับภาษาเกาหลีไหม?

OpenAI เปิดตัวซีรีส์ GPT-Realtime-2 ที่มีความสามารถด้านการให้เหตุผลระดับ GPT-5

ภาพรวมของโมเดลเสียงแบบเรียลไทม์ใหม่ 3 รุ่น

แนวโน้มที่เสียงกำลังกลายเป็นอินเทอร์เฟซของซอฟต์แวร์

3 รูปแบบใหม่ของ Voice AI

GPT-Realtime-2: โมเดลเสียงเรียลไทม์ที่ให้เหตุผลและลงมือทำได้

เบนช์มาร์กประสิทธิภาพของ GPT-Realtime-2

GPT-Realtime-Translate: การแปลเสียงหลายภาษาแบบเรียลไทม์

GPT-Realtime-Whisper: การถอดเสียงสตรีมมิงหน่วงต่ำ

ความปลอดภัยและนโยบาย

ราคาและการเปิดให้ใช้งาน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น