เปิดตัว Play 3.0 Mini - โมเดล Text-To-Speech หลายภาษาที่มีน้ำหนักเบาและคุ้มค่า

(play.ht)

23 คะแนน โดย GN⁺ 2024-11-03 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลเสียงแบบโต้ตอบที่ทรงความสามารถที่สุด สามารถพูดด้วยเสียงหรือสำเนียงแบบใดก็ได้ในกว่า 30 ภาษา ด้วยความเร็วและความแม่นยำระดับแนวหน้าของอุตสาหกรรม
- พร้อมเปิดตัวเสียง AI สำหรับการสนทนาใหม่มากกว่า 50 เสียง ครอบคลุมหลายภาษา
เมื่อต้องสร้างแอปพลิเคชันแบบเรียลไทม์ด้วย TTS ความหน่วง ความน่าเชื่อถือ คุณภาพเสียง และความเป็นธรรมชาติของเสียง เป็นปัจจัยที่สำคัญมาก

Play 3.0 mini เป็นโมเดลเสียงสำหรับการสนทนาที่เร็วที่สุดเท่าที่เคยมีมาในตอนนี้

3.0 mini ทำเวลาได้ที่ความหน่วงเฉลี่ย 189 มิลลิวินาทีสำหรับ TTFB ทำให้เป็นโมเดล AI Text to Speech ที่เร็วที่สุด
รองรับการสตรีมข้อความขาเข้าจาก LLM และการสตรีมเสียงขาออก และสามารถใช้งานได้ผ่าน HTTP REST API, WebSocket API หรือ SDK
3.0 mini ยังมีประสิทธิภาพมากกว่า Play 2.0 และมีความเร็วในการอนุมานเพิ่มขึ้น 28%

Play 3.0 mini รองรับทุกเสียงในกว่า 30 ภาษา

ตอนนี้ Play 3.0 mini รองรับมากกว่า 30 ภาษาโดยค่าเริ่มต้น พร้อมตัวเลือกเสียงชายและหญิงหลายแบบ
เสียงภาษาอังกฤษ ญี่ปุ่น ฮินดี อาหรับ สเปน อิตาลี เยอรมัน ฝรั่งเศส และโปรตุเกส พร้อมใช้งานสำหรับ use case ระดับโปรดักชันแล้ว และใช้งานได้ผ่าน API และ Playground
นอกจากนี้ยังสามารถทดสอบภาษาแอฟริคานส์ บัลแกเรีย โครเอเชีย เช็ก ฮิบรู ฮังการี อินโดนีเซีย มาเลย์ แมนดาริน โปแลนด์ เซอร์เบีย สวีเดน ตากาล็อก ไทย ตุรกี ยูเครน อูรดู และโคซา ได้อีกด้วย

Play 3.0 mini มีความแม่นยำมากขึ้น

เป้าหมายของ Play 3.0 mini คือการสร้างโมเดล TTS ที่ดีที่สุดสำหรับ AI เชิงสนทนา
เพื่อให้บรรลุเป้าหมายนี้ โมเดลต้องเหนือกว่าโมเดลของคู่แข่งทั้งในด้านความหน่วงและความแม่นยำ พร้อมทั้งสร้างเสียงด้วยโทนสนทนาที่เป็นธรรมชาติที่สุด
LLM สามารถเกิดอาการหลอนข้อมูลได้ และ Voice LLM ก็ไม่ต่างกัน อาการหลอนของ Voice LLM อาจอยู่ในรูปแบบของการเพิ่มหรือตกหล่นคำหรือตัวเลขในเสียงขาออก ซึ่งไม่ได้อยู่ในข้อความอินพุต

Play 3.0 mini อ่านตัวอักษรและตัวเลขที่ผสมกันได้เป็นธรรมชาติมากขึ้น

เราฝึกโมเดลให้สามารถอ่านตัวเลขและอักษรย่อได้เหมือนมนุษย์
โมเดลจะปรับจังหวะและอ่านอักขระที่เป็นตัวอักษรและตัวเลขทั้งหมดให้ช้าลง
ตัวอย่างเช่น หมายเลขโทรศัพท์จะถูกอ่านด้วยจังหวะที่เป็นธรรมชาติมากขึ้น เช่นเดียวกับอักษรย่อและคำย่อทั้งหมด
สิ่งนี้ทำให้ประสบการณ์การสนทนาโดยรวมเป็นธรรมชาติมากขึ้น

Play 3.0 mini มอบความคล้ายเสียงที่ดีที่สุดสำหรับการโคลนเสียง

เมื่อต้องโคลนเสียง บ่อยครั้งที่แค่เสียงใกล้เคียงยังไม่เพียงพอ
การโคลนเสียงของ Play 3.0 ทำผลงานระดับ state-of-the-art ในการโคลนเสียง โดยถ่ายทอดสำเนียง โทนเสียง และการลงน้ำหนักเสียงของต้นฉบับได้อย่างแม่นยำ
จากการทำเบนช์มาร์กด้วยโมเดล embedding แบบโอเพนซอร์สยอดนิยม พบว่ามีความเหนือกว่าคู่แข่งอย่างชัดเจนในด้านความคล้ายคลึงกับเสียงต้นฉบับ
ลองโคลนเสียงของคุณเองที่ play.ai และพูดคุยกับตัวเองเพื่อทดสอบได้โดยตรง

รองรับ WebSocket API

ตอนนี้ API ของ 3.0 mini รองรับ WebSocket แล้ว จึงช่วยลดโอเวอร์เฮดจากการเปิดและปิดการเชื่อมต่อ HTTP ได้อย่างมาก และทำให้สามารถเปิดใช้การสตรีมข้อความขาเข้าจาก LLM หรือแหล่งข้อมูลอื่นได้ง่ายขึ้น

Play 3.0 mini เป็นโมเดลที่คุ้มค่า

เรายินดีที่จะประกาศปรับลดราคา สำหรับสตาร์ตอัปและกลุ่มเติบโตที่มีปริมาณการใช้งานสูง และยังได้เปิดตัว Pro tier ใหม่ราคา 49 ดอลลาร์ต่อเดือน สำหรับธุรกิจที่มีความต้องการในระดับพอประมาณ
ดูตารางราคาใหม่ได้ที่นี่
เราตั้งตารอที่จะได้เห็นว่าคุณจะสร้างอะไรกับเรา! หากคุณมีความต้องการเฉพาะแบบปริมาณมาก โปรดติดต่อทีมขาย

ความเห็นของ GN+

ความพยายามของ Play.ht ในการพัฒนาโมเดลเสียงที่น่าเชื่อถือที่สุดสำหรับ AI เชิงสนทนานั้นน่าประทับใจมาก ด้วยความเหนือกว่าคู่แข่งทั้งด้านความหน่วงและความแม่นยำ และความสามารถในการสร้างเสียงสนทนาที่เป็นธรรมชาติที่สุด โมเดลนี้จึงมีแนวโน้มจะเป็นผู้นำในอุตสาหกรรม
การรองรับมากกว่า 30 ภาษาและมีตัวเลือกเสียงที่หลากหลาย เป็นก้าวสำคัญในการเข้าถึงผู้ใช้และ use case ที่มากขึ้น ซึ่งจะช่วยผลักดันการยอมรับ Voice AI ในวงกว้าง
อย่างไรก็ตาม เมื่อนำเทคโนโลยีนี้มาใช้ จำเป็นต้องคำนึงถึงประเด็นด้านจริยธรรมด้วย ตัวอย่างเช่น การโคลนเสียงของบุคคลโดยไม่ได้รับความยินยอมอาจก่อให้เกิดปัญหาความเป็นส่วนตัว นอกจากนี้ยังมีความเป็นไปได้ที่เทคโนโลยีนี้จะถูกนำไปใช้ในทางที่ผิดเพื่อเผยแพร่ข้อมูลเท็จ
โครงการ Voice AI อื่นที่น่าสนใจและมีความสามารถคล้ายกัน ได้แก่ Tacotron ของ Google และ WaveNet ของ DeepMind ซึ่งโมเดลเหล่านี้ก็ให้ความสำคัญกับการรองรับหลายภาษาและการสร้างเสียงที่เป็นธรรมชาติเช่นกัน
โดยสรุปแล้ว Play 3.0 mini ได้กำหนดมาตรฐานใหม่ให้กับเทคโนโลยีเสียงใน AI เชิงสนทนา นักพัฒนาจะสามารถใช้ TTS ที่รวดเร็ว แม่นยำ และเป็นธรรมชาติสำหรับแอปพลิเคชันแบบเรียลไทม์ที่หลากหลายได้ อย่างไรก็ตาม ควรมีมาตรการป้องกันที่เข้มแข็งและแนวทางจริยธรรมที่ชัดเจนเพื่อป้องกันการใช้งานเทคโนโลยีนี้ในทางที่ผิด

4 ความคิดเห็น

dane1 2024-11-04

ว่าแต่พอเข้าไปดูใน Playground ก็เห็นว่ามีภาษาเกาหลีอีกแล้วนะ?

dane1 2024-11-04

โอ้ รองรับหลายภาษาขนาดนี้ แต่กลับไม่มีภาษาเกาหลีซะงั้น เศร้า

hmmhmmhm 2024-11-03

น่าเสียดายที่ดูเหมือนว่ายังไม่รองรับภาษาเกาหลีนะ ฮือ

GN⁺ 2024-11-03

ความคิดเห็นจาก Hacker News

โมเดล TTS โอเพนซอร์สที่เพิ่งเปิดตัวเมื่อไม่นานมานี้มีความสามารถด้านการโคลนเสียงที่ยอดเยี่ยม สามารถรันได้บน NVIDIA GPU ที่มี VRAM 10G
การทดสอบสดบน Firefox ใช้งานไม่ได้ แต่พอเปลี่ยนไปใช้ Chrome ก็ทำงานได้อย่างรวดเร็ว ภายใน 30 วินาทีก็สามารถโคลนเสียงของตัวเองและสนทนาได้แล้ว ละเอียดสมจริงพอที่จะหลอกคนส่วนใหญ่ได้
โมเดลนี้มีค่าใช้จ่ายสูงกว่า TTS API ของ Cartesia และ OpenAI โดยทั่วไปแล้ว TTS API มักดำเนินงานด้วยมาร์จินที่สูงกว่า LLM
สำหรับภาษาที่ไม่ใช่อังกฤษ ความสามารถด้านการถอดเสียงไม่ได้มีประโยชน์มากนัก หากถอดเสียงได้แม่นยำ การแปลและการตอบกลับด้วยเสียงจะเร็วมาก แต่ถ้าถอดเสียงได้ไม่ดี ก็แทบใช้การไม่ได้
ได้เขียน API client สำหรับ Go และ Rust ไว้ช่วงฤดูร้อน ตอนนั้นที่ทำงานใช้ Play แต่มีเพียง Python และ Node SDK เท่านั้น
การสนทนาแบบหน่วงต่ำกับเสียงที่คล้ายเสียงของตัวเองอาจให้ความรู้สึกไม่สบายใจอยู่บ้าง แต่ก็เป็นประสบการณ์ที่ชวนให้ขบคิดมาก
เสียงที่ถูกโคลนฟังดูคล้ายมาก แต่ในการทดสอบแบบปกปิด ทั้ง 5 คนกลับไม่สามารถระบุได้ว่าเป็นเสียงของเจ้าตัวเอง ทำให้สงสัยว่ามีอคติบางอย่างเวลาได้ยินเสียงของตัวเองหรือไม่
โมเดลของ OpenAI ทำผลงานได้ไม่ดีกับการออกเสียงตัวเลข รู้สึกตกใจที่ในปี 2024 ยังมี TTS โมเดลที่ออกเสียงตัวเลขได้ไม่ถูกต้องออกมา เชื่อว่า TTS โมเดลใหม่อย่างน้อยควรผ่านการตรวจสอบตัวเลขถึง 100,000