23 คะแนน โดย GN⁺ 2024-11-03 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลเสียงแบบโต้ตอบที่ทรงความสามารถที่สุด สามารถพูดด้วยเสียงหรือสำเนียงแบบใดก็ได้ในกว่า 30 ภาษา ด้วยความเร็วและความแม่นยำระดับแนวหน้าของอุตสาหกรรม
    • พร้อมเปิดตัวเสียง AI สำหรับการสนทนาใหม่มากกว่า 50 เสียง ครอบคลุมหลายภาษา
  • เมื่อต้องสร้างแอปพลิเคชันแบบเรียลไทม์ด้วย TTS ความหน่วง ความน่าเชื่อถือ คุณภาพเสียง และความเป็นธรรมชาติของเสียง เป็นปัจจัยที่สำคัญมาก

Play 3.0 mini เป็นโมเดลเสียงสำหรับการสนทนาที่เร็วที่สุดเท่าที่เคยมีมาในตอนนี้

  • 3.0 mini ทำเวลาได้ที่ความหน่วงเฉลี่ย 189 มิลลิวินาทีสำหรับ TTFB ทำให้เป็นโมเดล AI Text to Speech ที่เร็วที่สุด
  • รองรับการสตรีมข้อความขาเข้าจาก LLM และการสตรีมเสียงขาออก และสามารถใช้งานได้ผ่าน HTTP REST API, WebSocket API หรือ SDK
  • 3.0 mini ยังมีประสิทธิภาพมากกว่า Play 2.0 และมีความเร็วในการอนุมานเพิ่มขึ้น 28%

Play 3.0 mini รองรับทุกเสียงในกว่า 30 ภาษา

  • ตอนนี้ Play 3.0 mini รองรับมากกว่า 30 ภาษาโดยค่าเริ่มต้น พร้อมตัวเลือกเสียงชายและหญิงหลายแบบ
  • เสียงภาษาอังกฤษ ญี่ปุ่น ฮินดี อาหรับ สเปน อิตาลี เยอรมัน ฝรั่งเศส และโปรตุเกส พร้อมใช้งานสำหรับ use case ระดับโปรดักชันแล้ว และใช้งานได้ผ่าน API และ Playground
  • นอกจากนี้ยังสามารถทดสอบภาษาแอฟริคานส์ บัลแกเรีย โครเอเชีย เช็ก ฮิบรู ฮังการี อินโดนีเซีย มาเลย์ แมนดาริน โปแลนด์ เซอร์เบีย สวีเดน ตากาล็อก ไทย ตุรกี ยูเครน อูรดู และโคซา ได้อีกด้วย

Play 3.0 mini มีความแม่นยำมากขึ้น

  • เป้าหมายของ Play 3.0 mini คือการสร้างโมเดล TTS ที่ดีที่สุดสำหรับ AI เชิงสนทนา
  • เพื่อให้บรรลุเป้าหมายนี้ โมเดลต้องเหนือกว่าโมเดลของคู่แข่งทั้งในด้านความหน่วงและความแม่นยำ พร้อมทั้งสร้างเสียงด้วยโทนสนทนาที่เป็นธรรมชาติที่สุด
  • LLM สามารถเกิดอาการหลอนข้อมูลได้ และ Voice LLM ก็ไม่ต่างกัน อาการหลอนของ Voice LLM อาจอยู่ในรูปแบบของการเพิ่มหรือตกหล่นคำหรือตัวเลขในเสียงขาออก ซึ่งไม่ได้อยู่ในข้อความอินพุต

Play 3.0 mini อ่านตัวอักษรและตัวเลขที่ผสมกันได้เป็นธรรมชาติมากขึ้น

  • เราฝึกโมเดลให้สามารถอ่านตัวเลขและอักษรย่อได้เหมือนมนุษย์
  • โมเดลจะปรับจังหวะและอ่านอักขระที่เป็นตัวอักษรและตัวเลขทั้งหมดให้ช้าลง
  • ตัวอย่างเช่น หมายเลขโทรศัพท์จะถูกอ่านด้วยจังหวะที่เป็นธรรมชาติมากขึ้น เช่นเดียวกับอักษรย่อและคำย่อทั้งหมด
  • สิ่งนี้ทำให้ประสบการณ์การสนทนาโดยรวมเป็นธรรมชาติมากขึ้น

Play 3.0 mini มอบความคล้ายเสียงที่ดีที่สุดสำหรับการโคลนเสียง

  • เมื่อต้องโคลนเสียง บ่อยครั้งที่แค่เสียงใกล้เคียงยังไม่เพียงพอ
  • การโคลนเสียงของ Play 3.0 ทำผลงานระดับ state-of-the-art ในการโคลนเสียง โดยถ่ายทอดสำเนียง โทนเสียง และการลงน้ำหนักเสียงของต้นฉบับได้อย่างแม่นยำ
  • จากการทำเบนช์มาร์กด้วยโมเดล embedding แบบโอเพนซอร์สยอดนิยม พบว่ามีความเหนือกว่าคู่แข่งอย่างชัดเจนในด้านความคล้ายคลึงกับเสียงต้นฉบับ
  • ลองโคลนเสียงของคุณเองที่ play.ai และพูดคุยกับตัวเองเพื่อทดสอบได้โดยตรง

รองรับ WebSocket API

  • ตอนนี้ API ของ 3.0 mini รองรับ WebSocket แล้ว จึงช่วยลดโอเวอร์เฮดจากการเปิดและปิดการเชื่อมต่อ HTTP ได้อย่างมาก และทำให้สามารถเปิดใช้การสตรีมข้อความขาเข้าจาก LLM หรือแหล่งข้อมูลอื่นได้ง่ายขึ้น

Play 3.0 mini เป็นโมเดลที่คุ้มค่า

  • เรายินดีที่จะประกาศปรับลดราคา สำหรับสตาร์ตอัปและกลุ่มเติบโตที่มีปริมาณการใช้งานสูง และยังได้เปิดตัว Pro tier ใหม่ราคา 49 ดอลลาร์ต่อเดือน สำหรับธุรกิจที่มีความต้องการในระดับพอประมาณ
  • ดูตารางราคาใหม่ได้ที่นี่
  • เราตั้งตารอที่จะได้เห็นว่าคุณจะสร้างอะไรกับเรา! หากคุณมีความต้องการเฉพาะแบบปริมาณมาก โปรดติดต่อทีมขาย

ความเห็นของ GN+

  • ความพยายามของ Play.ht ในการพัฒนาโมเดลเสียงที่น่าเชื่อถือที่สุดสำหรับ AI เชิงสนทนานั้นน่าประทับใจมาก ด้วยความเหนือกว่าคู่แข่งทั้งด้านความหน่วงและความแม่นยำ และความสามารถในการสร้างเสียงสนทนาที่เป็นธรรมชาติที่สุด โมเดลนี้จึงมีแนวโน้มจะเป็นผู้นำในอุตสาหกรรม
  • การรองรับมากกว่า 30 ภาษาและมีตัวเลือกเสียงที่หลากหลาย เป็นก้าวสำคัญในการเข้าถึงผู้ใช้และ use case ที่มากขึ้น ซึ่งจะช่วยผลักดันการยอมรับ Voice AI ในวงกว้าง
  • อย่างไรก็ตาม เมื่อนำเทคโนโลยีนี้มาใช้ จำเป็นต้องคำนึงถึงประเด็นด้านจริยธรรมด้วย ตัวอย่างเช่น การโคลนเสียงของบุคคลโดยไม่ได้รับความยินยอมอาจก่อให้เกิดปัญหาความเป็นส่วนตัว นอกจากนี้ยังมีความเป็นไปได้ที่เทคโนโลยีนี้จะถูกนำไปใช้ในทางที่ผิดเพื่อเผยแพร่ข้อมูลเท็จ
  • โครงการ Voice AI อื่นที่น่าสนใจและมีความสามารถคล้ายกัน ได้แก่ Tacotron ของ Google และ WaveNet ของ DeepMind ซึ่งโมเดลเหล่านี้ก็ให้ความสำคัญกับการรองรับหลายภาษาและการสร้างเสียงที่เป็นธรรมชาติเช่นกัน
  • โดยสรุปแล้ว Play 3.0 mini ได้กำหนดมาตรฐานใหม่ให้กับเทคโนโลยีเสียงใน AI เชิงสนทนา นักพัฒนาจะสามารถใช้ TTS ที่รวดเร็ว แม่นยำ และเป็นธรรมชาติสำหรับแอปพลิเคชันแบบเรียลไทม์ที่หลากหลายได้ อย่างไรก็ตาม ควรมีมาตรการป้องกันที่เข้มแข็งและแนวทางจริยธรรมที่ชัดเจนเพื่อป้องกันการใช้งานเทคโนโลยีนี้ในทางที่ผิด

4 ความคิดเห็น

 
dane1 2024-11-04

ว่าแต่พอเข้าไปดูใน Playground ก็เห็นว่ามีภาษาเกาหลีอีกแล้วนะ?

 
dane1 2024-11-04

โอ้ รองรับหลายภาษาขนาดนี้ แต่กลับไม่มีภาษาเกาหลีซะงั้น เศร้า

 
hmmhmmhm 2024-11-03

น่าเสียดายที่ดูเหมือนว่ายังไม่รองรับภาษาเกาหลีนะ ฮือ

 
GN⁺ 2024-11-03

ความคิดเห็นจาก Hacker News

  • โมเดล TTS โอเพนซอร์สที่เพิ่งเปิดตัวเมื่อไม่นานมานี้มีความสามารถด้านการโคลนเสียงที่ยอดเยี่ยม สามารถรันได้บน NVIDIA GPU ที่มี VRAM 10G
  • การทดสอบสดบน Firefox ใช้งานไม่ได้ แต่พอเปลี่ยนไปใช้ Chrome ก็ทำงานได้อย่างรวดเร็ว ภายใน 30 วินาทีก็สามารถโคลนเสียงของตัวเองและสนทนาได้แล้ว ละเอียดสมจริงพอที่จะหลอกคนส่วนใหญ่ได้
  • โมเดลนี้มีค่าใช้จ่ายสูงกว่า TTS API ของ Cartesia และ OpenAI โดยทั่วไปแล้ว TTS API มักดำเนินงานด้วยมาร์จินที่สูงกว่า LLM
  • สำหรับภาษาที่ไม่ใช่อังกฤษ ความสามารถด้านการถอดเสียงไม่ได้มีประโยชน์มากนัก หากถอดเสียงได้แม่นยำ การแปลและการตอบกลับด้วยเสียงจะเร็วมาก แต่ถ้าถอดเสียงได้ไม่ดี ก็แทบใช้การไม่ได้
  • ได้เขียน API client สำหรับ Go และ Rust ไว้ช่วงฤดูร้อน ตอนนั้นที่ทำงานใช้ Play แต่มีเพียง Python และ Node SDK เท่านั้น
  • การสนทนาแบบหน่วงต่ำกับเสียงที่คล้ายเสียงของตัวเองอาจให้ความรู้สึกไม่สบายใจอยู่บ้าง แต่ก็เป็นประสบการณ์ที่ชวนให้ขบคิดมาก
  • เสียงที่ถูกโคลนฟังดูคล้ายมาก แต่ในการทดสอบแบบปกปิด ทั้ง 5 คนกลับไม่สามารถระบุได้ว่าเป็นเสียงของเจ้าตัวเอง ทำให้สงสัยว่ามีอคติบางอย่างเวลาได้ยินเสียงของตัวเองหรือไม่
  • โมเดลของ OpenAI ทำผลงานได้ไม่ดีกับการออกเสียงตัวเลข รู้สึกตกใจที่ในปี 2024 ยังมี TTS โมเดลที่ออกเสียงตัวเลขได้ไม่ถูกต้องออกมา เชื่อว่า TTS โมเดลใหม่อย่างน้อยควรผ่านการตรวจสอบตัวเลขถึง 100,000