13 คะแนน โดย GN⁺ 2025-03-21 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • เดโมแบบอินเทอร์แอกทีฟที่ให้นักพัฒนาลองใช้โมเดลแปลงข้อความเป็นเสียงพูดรุ่นใหม่ของ OpenAI API ได้
  • สามารถระบุเอฟเฟกต์เสียง โทน ความเร็ว อารมณ์ การออกเสียง การเว้นจังหวะ ฯลฯ ได้อย่างละเอียดผ่านพรอมป์ต์

เดโม

  • เลือกเสียง: Alloy, Ash, Ballad, Coral, Echo และอื่น ๆ รวม 11 แบบ
  • เลือก Vibe ได้หลากหลาย: Sincere, Friendly, Noir Detective, Robot, Auctioneer ฯลฯ
  • ตัวอย่าง: Sincere
    Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
    Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
    Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
    Emotions: Calm reassurance, empathy, and gratitude.  
    Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
    Pauses: Before and after the apology to give space for processing the apology.  
    
  • ตัวอย่าง: Medieval Knight
    เอฟเฟกต์เสียง: ทุ้ม ลักษณะสั่งการ และดราม่าเล็กน้อย สะท้อนความยิ่งใหญ่ของเรื่องเล่าภาษาอังกฤษโบราณ  
    โทน: สูงศักดิ์ กล้าหาญ และเป็นทางการ จับแก่นของอัศวินยุคกลางและการผจญภัยแบบมหากาพย์  
    อารมณ์: ผสานความตื่นเต้น ความคาดหวัง ความลึกลับ และความเคร่งขรึมของโชคชะตากับหน้าที่  
    การออกเสียง: ชัดเจน รอบคอบ และมีจังหวะที่ค่อนข้างเป็นทางการ โดยเน้นคำอย่าง "hast", "thou", "doth" อย่างช้า ๆ เพื่อสะท้อนรูปแบบการออกเสียงภาษาอังกฤษโบราณ  
    การเว้นจังหวะ: เว้นหลังวลีภาษาอังกฤษโบราณอย่าง "Lo!", "Hark!" และเว้นระหว่างวลีอย่าง "Choose thy path" เพื่อเน้นความสำคัญของการตัดสินใจ และเปิดโอกาสให้ผู้ฟังซึมซับความจริงจังของภารกิจ  
    

2 ความคิดเห็น

 
GN⁺ 2025-03-21
ความเห็นจาก Hacker News
  • ราคาของโมเดลเหล่านี้ถูกกว่า ElevenLabs อย่างมาก

    • สำหรับโมเดล "gpt-4o-mini-tts" ค่าเสียงอยู่ที่ $0.015 ต่อนาที ซึ่งถูกกว่า ElevenLabs 85%
    • แผน "Business" ของ ElevenLabs ราคา $1100 ต่อเดือน ให้ TTS 11,000 นาที คิดค่าบริการ 10 เซนต์ต่อนาที
    • OpenAI สามารถให้บริการ TTS 11,000 นาทีได้ในราคา $165
    • ขอให้ช่วยตรวจสอบว่าคำนวณถูกต้องหรือไม่
  • Jeff จาก OpenAI แจ้งว่าได้เปิดตัวโมเดลเสียงใหม่แล้ว

    • เปิดตัวโมเดลรู้จำเสียง 2 รุ่นและโมเดล TTS ใหม่
    • รองรับ Agents SDK ที่ช่วยให้เปลี่ยน text agent เป็น voice agent ได้ง่าย
    • หากมีคำถามก็แจ้งมาได้
  • มีการกล่าวถึงปัญหาความน่าเชื่อถือของโมเดลแปลงข้อความเป็นเสียงและแปลงเสียงเป็นข้อความ

    • ยังไม่แน่ใจว่าจะเป็นปัญหามากแค่ไหนในงานใช้งานจริง
    • มีลิงก์ไปยังบันทึกที่เกี่ยวข้อง
  • มีคำถามว่าจะได้ "speech marks" พร้อมกับเสียงที่สร้างขึ้นมาได้อย่างไร

    • อธิบาย "speech marks" ที่ใช้ในบริการ Polly TTS ของ AWS
    • มีประโยชน์สำหรับการเน้นข้อความและการทำลิปซิงก์
  • ความก้าวหน้าล่าสุดของโมเดลแปลงข้อความเป็นเสียงและเสียงเป็นข้อความขนาดใหญ่

    • กล่าวถึงความต้องการโซลูชันแปลงข้อความเป็นเสียงแบบออฟไลน์และหลายภาษา
    • คิดว่า Tortoise TTS มักบิดเบือนคำอยู่บ่อยครั้ง
    • Acapela SDK เป็นโซลูชันปลั๊กอินสำหรับแอปเดสก์ท็อปเพียงตัวเดียว
    • หวังว่าโมเดลใหม่ที่อิงโครงข่ายประสาทจะทำงานได้อย่างมีประสิทธิภาพบนคอมพิวเตอร์ทั่วไป
  • สามารถสร้างน้ำเสียงและบุคลิกที่หลากหลายได้ตามข้อความที่ใส่ในช่อง "vibe"

    • ระดับของฉันทลักษณ์และน้ำเสียงที่ชาญฉลาดน่าทึ่งมาก
    • พัฒนาไปไกลจนเหมือนต้องการแค่คนดังมาอัดหนังสือเสียงเท่านั้น
    • มีตัวอย่างเสียงสนุก ๆ หลากหลายแบบ
  • ปฏิกิริยาเมื่อป้อน Navy Seal copypasta

    • การควบคุมความปลอดภัยทำงานต่างกันไปตามคำสั่ง "vibe"
    • แบบคนขับแท็กซี่นิวยอร์กซิตีทำงานได้ไม่มีปัญหาและสนุกดี
  • รู้สึกว่าเสียงของโมเดลใหม่มีอาการสั่นเล็กน้อย จึงด้อยกว่า Siri

  • เครื่องมือทางการของ OpenAI เชื่อมโยงกับการประกาศโมเดลใหม่

  • คำพูดสำคัญจากประกาศอย่างเป็นทางการ

    • นักพัฒนาสามารถกำหนดได้ไม่เพียงแค่ว่าโมเดลจะพูดอะไร แต่ยังรวมถึงจะพูดอย่างไรด้วย
    • "vibes" คือคำสั่งใน UI
    • โมเดลใหม่รองรับความแตกต่างเล็กน้อยได้ดียิ่งขึ้น
    • ค่าใช้จ่ายเอาต์พุตเสียงของ gpt-4o-mini-tts อยู่ที่ $0.015 ต่อนาที ซึ่งใช้งานได้จริง
    • มีแผนจะทดสอบเพิ่มเติมอีก
 
sylee999 2025-03-21

ภาษาเกาหลีก็ใช้งานได้อย่างสมบูรณ์แบบเหมือนกันนะครับ