- โมเดลเสียงแบบโต้ตอบที่ทรงความสามารถที่สุด สามารถพูดด้วยเสียงหรือสำเนียงแบบใดก็ได้ในกว่า 30 ภาษา ด้วยความเร็วและความแม่นยำระดับแนวหน้าของอุตสาหกรรม
- พร้อมเปิดตัวเสียง AI สำหรับการสนทนาใหม่มากกว่า 50 เสียง ครอบคลุมหลายภาษา
- เมื่อต้องสร้างแอปพลิเคชันแบบเรียลไทม์ด้วย TTS ความหน่วง ความน่าเชื่อถือ คุณภาพเสียง และความเป็นธรรมชาติของเสียง เป็นปัจจัยที่สำคัญมาก
Play 3.0 mini เป็นโมเดลเสียงสำหรับการสนทนาที่เร็วที่สุดเท่าที่เคยมีมาในตอนนี้
- 3.0 mini ทำเวลาได้ที่ความหน่วงเฉลี่ย 189 มิลลิวินาทีสำหรับ TTFB ทำให้เป็นโมเดล AI Text to Speech ที่เร็วที่สุด
- รองรับการสตรีมข้อความขาเข้าจาก LLM และการสตรีมเสียงขาออก และสามารถใช้งานได้ผ่าน HTTP REST API, WebSocket API หรือ SDK
- 3.0 mini ยังมีประสิทธิภาพมากกว่า Play 2.0 และมีความเร็วในการอนุมานเพิ่มขึ้น 28%
Play 3.0 mini รองรับทุกเสียงในกว่า 30 ภาษา
- ตอนนี้ Play 3.0 mini รองรับมากกว่า 30 ภาษาโดยค่าเริ่มต้น พร้อมตัวเลือกเสียงชายและหญิงหลายแบบ
- เสียงภาษาอังกฤษ ญี่ปุ่น ฮินดี อาหรับ สเปน อิตาลี เยอรมัน ฝรั่งเศส และโปรตุเกส พร้อมใช้งานสำหรับ use case ระดับโปรดักชันแล้ว และใช้งานได้ผ่าน API และ Playground
- นอกจากนี้ยังสามารถทดสอบภาษาแอฟริคานส์ บัลแกเรีย โครเอเชีย เช็ก ฮิบรู ฮังการี อินโดนีเซีย มาเลย์ แมนดาริน โปแลนด์ เซอร์เบีย สวีเดน ตากาล็อก ไทย ตุรกี ยูเครน อูรดู และโคซา ได้อีกด้วย
Play 3.0 mini มีความแม่นยำมากขึ้น
- เป้าหมายของ Play 3.0 mini คือการสร้างโมเดล TTS ที่ดีที่สุดสำหรับ AI เชิงสนทนา
- เพื่อให้บรรลุเป้าหมายนี้ โมเดลต้องเหนือกว่าโมเดลของคู่แข่งทั้งในด้านความหน่วงและความแม่นยำ พร้อมทั้งสร้างเสียงด้วยโทนสนทนาที่เป็นธรรมชาติที่สุด
- LLM สามารถเกิดอาการหลอนข้อมูลได้ และ Voice LLM ก็ไม่ต่างกัน อาการหลอนของ Voice LLM อาจอยู่ในรูปแบบของการเพิ่มหรือตกหล่นคำหรือตัวเลขในเสียงขาออก ซึ่งไม่ได้อยู่ในข้อความอินพุต
Play 3.0 mini อ่านตัวอักษรและตัวเลขที่ผสมกันได้เป็นธรรมชาติมากขึ้น
- เราฝึกโมเดลให้สามารถอ่านตัวเลขและอักษรย่อได้เหมือนมนุษย์
- โมเดลจะปรับจังหวะและอ่านอักขระที่เป็นตัวอักษรและตัวเลขทั้งหมดให้ช้าลง
- ตัวอย่างเช่น หมายเลขโทรศัพท์จะถูกอ่านด้วยจังหวะที่เป็นธรรมชาติมากขึ้น เช่นเดียวกับอักษรย่อและคำย่อทั้งหมด
- สิ่งนี้ทำให้ประสบการณ์การสนทนาโดยรวมเป็นธรรมชาติมากขึ้น
Play 3.0 mini มอบความคล้ายเสียงที่ดีที่สุดสำหรับการโคลนเสียง
- เมื่อต้องโคลนเสียง บ่อยครั้งที่แค่เสียงใกล้เคียงยังไม่เพียงพอ
- การโคลนเสียงของ Play 3.0 ทำผลงานระดับ state-of-the-art ในการโคลนเสียง โดยถ่ายทอดสำเนียง โทนเสียง และการลงน้ำหนักเสียงของต้นฉบับได้อย่างแม่นยำ
- จากการทำเบนช์มาร์กด้วยโมเดล embedding แบบโอเพนซอร์สยอดนิยม พบว่ามีความเหนือกว่าคู่แข่งอย่างชัดเจนในด้านความคล้ายคลึงกับเสียงต้นฉบับ
- ลองโคลนเสียงของคุณเองที่ play.ai และพูดคุยกับตัวเองเพื่อทดสอบได้โดยตรง
รองรับ WebSocket API
- ตอนนี้ API ของ 3.0 mini รองรับ WebSocket แล้ว จึงช่วยลดโอเวอร์เฮดจากการเปิดและปิดการเชื่อมต่อ HTTP ได้อย่างมาก และทำให้สามารถเปิดใช้การสตรีมข้อความขาเข้าจาก LLM หรือแหล่งข้อมูลอื่นได้ง่ายขึ้น
Play 3.0 mini เป็นโมเดลที่คุ้มค่า
- เรายินดีที่จะประกาศปรับลดราคา สำหรับสตาร์ตอัปและกลุ่มเติบโตที่มีปริมาณการใช้งานสูง และยังได้เปิดตัว Pro tier ใหม่ราคา 49 ดอลลาร์ต่อเดือน สำหรับธุรกิจที่มีความต้องการในระดับพอประมาณ
- ดูตารางราคาใหม่ได้ที่นี่
- เราตั้งตารอที่จะได้เห็นว่าคุณจะสร้างอะไรกับเรา! หากคุณมีความต้องการเฉพาะแบบปริมาณมาก โปรดติดต่อทีมขาย
ความเห็นของ GN+
- ความพยายามของ Play.ht ในการพัฒนาโมเดลเสียงที่น่าเชื่อถือที่สุดสำหรับ AI เชิงสนทนานั้นน่าประทับใจมาก ด้วยความเหนือกว่าคู่แข่งทั้งด้านความหน่วงและความแม่นยำ และความสามารถในการสร้างเสียงสนทนาที่เป็นธรรมชาติที่สุด โมเดลนี้จึงมีแนวโน้มจะเป็นผู้นำในอุตสาหกรรม
- การรองรับมากกว่า 30 ภาษาและมีตัวเลือกเสียงที่หลากหลาย เป็นก้าวสำคัญในการเข้าถึงผู้ใช้และ use case ที่มากขึ้น ซึ่งจะช่วยผลักดันการยอมรับ Voice AI ในวงกว้าง
- อย่างไรก็ตาม เมื่อนำเทคโนโลยีนี้มาใช้ จำเป็นต้องคำนึงถึงประเด็นด้านจริยธรรมด้วย ตัวอย่างเช่น การโคลนเสียงของบุคคลโดยไม่ได้รับความยินยอมอาจก่อให้เกิดปัญหาความเป็นส่วนตัว นอกจากนี้ยังมีความเป็นไปได้ที่เทคโนโลยีนี้จะถูกนำไปใช้ในทางที่ผิดเพื่อเผยแพร่ข้อมูลเท็จ
- โครงการ Voice AI อื่นที่น่าสนใจและมีความสามารถคล้ายกัน ได้แก่ Tacotron ของ Google และ WaveNet ของ DeepMind ซึ่งโมเดลเหล่านี้ก็ให้ความสำคัญกับการรองรับหลายภาษาและการสร้างเสียงที่เป็นธรรมชาติเช่นกัน
- โดยสรุปแล้ว Play 3.0 mini ได้กำหนดมาตรฐานใหม่ให้กับเทคโนโลยีเสียงใน AI เชิงสนทนา นักพัฒนาจะสามารถใช้ TTS ที่รวดเร็ว แม่นยำ และเป็นธรรมชาติสำหรับแอปพลิเคชันแบบเรียลไทม์ที่หลากหลายได้ อย่างไรก็ตาม ควรมีมาตรการป้องกันที่เข้มแข็งและแนวทางจริยธรรมที่ชัดเจนเพื่อป้องกันการใช้งานเทคโนโลยีนี้ในทางที่ผิด
4 ความคิดเห็น
ว่าแต่พอเข้าไปดูใน Playground ก็เห็นว่ามีภาษาเกาหลีอีกแล้วนะ?
โอ้ รองรับหลายภาษาขนาดนี้ แต่กลับไม่มีภาษาเกาหลีซะงั้น เศร้า
น่าเสียดายที่ดูเหมือนว่ายังไม่รองรับภาษาเกาหลีนะ ฮือ
ความคิดเห็นจาก Hacker News