• Google เปิดตัว โมเดลแปลงข้อความเป็นเสียงพูด รุ่นใหม่ ที่มีความเป็นธรรมชาติและพลังการแสดงออกดีกว่ารุ่นก่อน พร้อมสนับสนุนการสร้างแอปพลิเคชันเสียง AI สำหรับนักพัฒนา องค์กร และผู้ใช้ทั่วไป
  • ฟีเจอร์ Audio Tags ที่เพิ่มเข้ามาใหม่ ช่วยให้สามารถแทรกคำสั่งภาษาธรรมชาติเข้าไปในข้อความได้โดยตรง เพื่อควบคุมสไตล์เสียง ความเร็ว และวิธีการถ่ายทอดได้อย่างละเอียด
  • ทำคะแนน Elo 1,211 บนกระดานจัดอันดับ Artificial Analysis TTS และได้รับการประเมินว่าเป็นการผสานกันอย่างลงตัวระหว่างการสร้างเสียงคุณภาพสูงกับต้นทุนต่ำ
  • รองรับ มากกว่า 70 ภาษา และมีความสามารถสนทนาแบบหลายผู้พูดในตัว
  • เสียงที่สร้างทั้งหมดจะมี ลายน้ำ SynthID ทำให้ตรวจจับคอนเทนต์ที่สร้างโดย AI ได้อย่างน่าเชื่อถือ และช่วยป้องกันข้อมูลเท็จ

การเปิดตัวและช่องทางการให้บริการ

  • Gemini 3.1 Flash TTS เป็นโมเดลแปลงข้อความเป็นเสียงพูดรุ่นล่าสุด ที่มาพร้อม ความสามารถในการควบคุม การแสดงออก และคุณภาพ ที่ดีขึ้น
  • ขณะนี้เปิดให้ทดลองใช้งานในรูปแบบพรีวิวผ่านช่องทางต่อไปนี้:
    • สำหรับนักพัฒนา: Gemini API และ Google AI Studio
    • สำหรับองค์กร: Vertex AI
    • สำหรับผู้ใช้ Workspace: Google Vids

คุณภาพเสียงและการควบคุมที่ดีขึ้น

  • คุณภาพเสียงโดยรวมได้รับการปรับปรุง ทำให้เป็น โมเดลที่เป็นธรรมชาติและแสดงอารมณ์ได้ดีที่สุดเท่าที่มีมา
  • บนกระดานจัดอันดับ Artificial Analysis TTS ทำคะแนน Elo 1,211 จากการประเมินความชอบของมนุษย์แบบ blind test หลายพันครั้ง
  • Artificial Analysis จัดให้ Gemini 3.1 Flash TTS อยู่ใน "most attractive quadrant" ในฐานะ การผสานกันอย่างลงตัวระหว่างการสร้างเสียงคุณภาพสูงกับต้นทุนต่ำ
  • โดดเด่นด้วย การสนทนาแบบหลายผู้พูดในตัว, การรองรับมากกว่า 70 ภาษา และความสามารถในการควบคุมงานสร้างสรรค์อย่างละเอียดด้วยภาษาธรรมชาติ

เพิ่มพลังการแสดงออกด้วย Audio Tags

  • เพิ่มฟีเจอร์ Audio Tags ใหม่ เพื่อควบคุมสไตล์เสียง ความเร็ว และวิธีการถ่ายทอดได้อย่างเป็นธรรมชาติและเข้าใจง่าย
  • ปรับแต่งผลลัพธ์เสียง AI ได้อย่างละเอียดด้วยการ แทรกคำสั่งภาษาธรรมชาติโดยตรง ลงในข้อความอินพุต
  • องค์กรสามารถใช้ Audio Tags ภายใน Vertex AI เพื่อสร้างแอปพลิเคชันระดับองค์กรยุคถัดไปได้
  • ใน Google AI Studio มีคอนโทรลที่ปรับแต่งได้ซึ่งเปรียบเสมือนการพานักพัฒนาไปนั่งบน "เก้าอี้ผู้กำกับ (director's chair)":
    • Scene direction: กำหนดสภาพแวดล้อมและตั้งคำสั่งบทพูดอย่างเฉพาะเจาะจง เพื่อสร้างบริบทของโลกให้ตัวละครตอบสนองอย่างเป็นธรรมชาติตลอดหลายเทิร์น
    • Speaker-level specificity: คัดเลือกตัวละครด้วย Audio Profile เฉพาะตัว ปรับความเร็ว โทน และน้ำเสียงด้วย Director's Notes และสลับการแสดงอารมณ์ระหว่างประโยคได้ด้วยแท็กแบบอินไลน์
    • Seamless export: สามารถ ส่งออกพารามิเตอร์ที่ตั้งค่าเสร็จแล้วเป็นโค้ด Gemini API เพื่อคงเอกลักษณ์เสียงอย่างสม่ำเสมอในหลายโปรเจกต์และหลายแพลตฟอร์ม
  • ด้วยการตั้งค่าเหล่านี้ นักพัฒนาจึงสามารถสร้างตัวละครที่น่าจดจำและ ประสบการณ์เสียงที่ชวนดื่มด่ำ ได้

รองรับการใช้งานในระดับโลก

  • ให้เสียงคุณภาพสูงและการควบคุมอย่างแม่นยำใน มากกว่า 70 ภาษา
  • สร้าง ประสบการณ์เสียงที่แปลเป็นท้องถิ่น ได้ผ่านการควบคุมสไตล์ ความเร็ว และน้ำเสียงขั้นสูงสำหรับตลาดสำคัญ
  • นักพัฒนาและองค์กรที่ได้ทดสอบในช่วงแรกให้คะแนนสูงกับ ความสามารถในการควบคุมและการแสดงออก ที่โดดเด่นของ 3.1 Flash TTS
    • มีเสียงตอบรับว่า Audio Tags มอบ ความแม่นยำในการสร้างสรรค์ ในอีกระดับ และเปลี่ยนข้อความธรรมดาให้กลายเป็นการแสดงเสียงร้องคุณภาพสูง

ลายน้ำ SynthID

  • เสียงทั้งหมดที่ Gemini 3.1 Flash TTS สร้างขึ้นจะถูกฝัง ลายน้ำ SynthID
  • ลายน้ำที่ไม่สามารถรับรู้ได้ด้วยประสาทสัมผัสจะถูกฝังลงในเอาต์พุตเสียงโดยตรง ทำให้ ตรวจจับคอนเทนต์ที่สร้างโดย AI ได้อย่างน่าเชื่อถือ
  • ทำหน้าที่เป็นกลไกความปลอดภัยเพื่อ ป้องกันข้อมูลเท็จ พร้อมมีรายละเอียดด้านความปลอดภัยและความรับผิดชอบเพิ่มเติมใน model card

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น