โมเดลเสียงของ OpenAI

(openai.fm)

13 คะแนน โดย GN⁺ 2025-03-21 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

เดโมแบบอินเทอร์แอกทีฟที่ให้นักพัฒนาลองใช้โมเดลแปลงข้อความเป็นเสียงพูดรุ่นใหม่ของ OpenAI API ได้
สามารถระบุเอฟเฟกต์เสียง โทน ความเร็ว อารมณ์ การออกเสียง การเว้นจังหวะ ฯลฯ ได้อย่างละเอียดผ่านพรอมป์ต์

เดโม

เลือกเสียง: Alloy, Ash, Ballad, Coral, Echo และอื่น ๆ รวม 11 แบบ
เลือก Vibe ได้หลากหลาย: Sincere, Friendly, Noir Detective, Robot, Auctioneer ฯลฯ

ตัวอย่าง: Sincere

Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
Emotions: Calm reassurance, empathy, and gratitude.  
Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
Pauses: Before and after the apology to give space for processing the apology.

ตัวอย่าง: Medieval Knight

เอฟเฟกต์เสียง: ทุ้ม ลักษณะสั่งการ และดราม่าเล็กน้อย สะท้อนความยิ่งใหญ่ของเรื่องเล่าภาษาอังกฤษโบราณ  
โทน: สูงศักดิ์ กล้าหาญ และเป็นทางการ จับแก่นของอัศวินยุคกลางและการผจญภัยแบบมหากาพย์  
อารมณ์: ผสานความตื่นเต้น ความคาดหวัง ความลึกลับ และความเคร่งขรึมของโชคชะตากับหน้าที่  
การออกเสียง: ชัดเจน รอบคอบ และมีจังหวะที่ค่อนข้างเป็นทางการ โดยเน้นคำอย่าง "hast", "thou", "doth" อย่างช้า ๆ เพื่อสะท้อนรูปแบบการออกเสียงภาษาอังกฤษโบราณ  
การเว้นจังหวะ: เว้นหลังวลีภาษาอังกฤษโบราณอย่าง "Lo!", "Hark!" และเว้นระหว่างวลีอย่าง "Choose thy path" เพื่อเน้นความสำคัญของการตัดสินใจ และเปิดโอกาสให้ผู้ฟังซึมซับความจริงจังของภารกิจ

2 ความคิดเห็น

GN⁺ 2025-03-21

ความเห็นจาก Hacker News

ราคาของโมเดลเหล่านี้ถูกกว่า ElevenLabs อย่างมาก
- สำหรับโมเดล "gpt-4o-mini-tts" ค่าเสียงอยู่ที่ $0.015 ต่อนาที ซึ่งถูกกว่า ElevenLabs 85%
- แผน "Business" ของ ElevenLabs ราคา $1100 ต่อเดือน ให้ TTS 11,000 นาที คิดค่าบริการ 10 เซนต์ต่อนาที
- OpenAI สามารถให้บริการ TTS 11,000 นาทีได้ในราคา $165
- ขอให้ช่วยตรวจสอบว่าคำนวณถูกต้องหรือไม่
Jeff จาก OpenAI แจ้งว่าได้เปิดตัวโมเดลเสียงใหม่แล้ว
- เปิดตัวโมเดลรู้จำเสียง 2 รุ่นและโมเดล TTS ใหม่
- รองรับ Agents SDK ที่ช่วยให้เปลี่ยน text agent เป็น voice agent ได้ง่าย
- หากมีคำถามก็แจ้งมาได้
มีการกล่าวถึงปัญหาความน่าเชื่อถือของโมเดลแปลงข้อความเป็นเสียงและแปลงเสียงเป็นข้อความ
- ยังไม่แน่ใจว่าจะเป็นปัญหามากแค่ไหนในงานใช้งานจริง
- มีลิงก์ไปยังบันทึกที่เกี่ยวข้อง
มีคำถามว่าจะได้ "speech marks" พร้อมกับเสียงที่สร้างขึ้นมาได้อย่างไร
- อธิบาย "speech marks" ที่ใช้ในบริการ Polly TTS ของ AWS
- มีประโยชน์สำหรับการเน้นข้อความและการทำลิปซิงก์
ความก้าวหน้าล่าสุดของโมเดลแปลงข้อความเป็นเสียงและเสียงเป็นข้อความขนาดใหญ่
- กล่าวถึงความต้องการโซลูชันแปลงข้อความเป็นเสียงแบบออฟไลน์และหลายภาษา
- คิดว่า Tortoise TTS มักบิดเบือนคำอยู่บ่อยครั้ง
- Acapela SDK เป็นโซลูชันปลั๊กอินสำหรับแอปเดสก์ท็อปเพียงตัวเดียว
- หวังว่าโมเดลใหม่ที่อิงโครงข่ายประสาทจะทำงานได้อย่างมีประสิทธิภาพบนคอมพิวเตอร์ทั่วไป
สามารถสร้างน้ำเสียงและบุคลิกที่หลากหลายได้ตามข้อความที่ใส่ในช่อง "vibe"
- ระดับของฉันทลักษณ์และน้ำเสียงที่ชาญฉลาดน่าทึ่งมาก
- พัฒนาไปไกลจนเหมือนต้องการแค่คนดังมาอัดหนังสือเสียงเท่านั้น
- มีตัวอย่างเสียงสนุก ๆ หลากหลายแบบ
ปฏิกิริยาเมื่อป้อน Navy Seal copypasta
- การควบคุมความปลอดภัยทำงานต่างกันไปตามคำสั่ง "vibe"
- แบบคนขับแท็กซี่นิวยอร์กซิตีทำงานได้ไม่มีปัญหาและสนุกดี
รู้สึกว่าเสียงของโมเดลใหม่มีอาการสั่นเล็กน้อย จึงด้อยกว่า Siri
เครื่องมือทางการของ OpenAI เชื่อมโยงกับการประกาศโมเดลใหม่
คำพูดสำคัญจากประกาศอย่างเป็นทางการ
- นักพัฒนาสามารถกำหนดได้ไม่เพียงแค่ว่าโมเดลจะพูดอะไร แต่ยังรวมถึงจะพูดอย่างไรด้วย
- "vibes" คือคำสั่งใน UI
- โมเดลใหม่รองรับความแตกต่างเล็กน้อยได้ดียิ่งขึ้น
- ค่าใช้จ่ายเอาต์พุตเสียงของ gpt-4o-mini-tts อยู่ที่ $0.015 ต่อนาที ซึ่งใช้งานได้จริง
- มีแผนจะทดสอบเพิ่มเติมอีก

sylee999 2025-03-21

ภาษาเกาหลีก็ใช้งานได้อย่างสมบูรณ์แบบเหมือนกันนะครับ

โมเดลเสียงของ OpenAI

เดโม

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความเห็นจาก Hacker News