Gemini 3.1 Flash TTS - โมเดลเสียง AI ยุคถัดไปที่ควบคุมสไตล์เสียงด้วยภาษาธรรมชาติ

(blog.google)

3 คะแนน โดย GN⁺ 2026-04-16 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

Google เปิดตัว โมเดลแปลงข้อความเป็นเสียงพูด รุ่นใหม่ ที่มีความเป็นธรรมชาติและพลังการแสดงออกดีกว่ารุ่นก่อน พร้อมสนับสนุนการสร้างแอปพลิเคชันเสียง AI สำหรับนักพัฒนา องค์กร และผู้ใช้ทั่วไป
ฟีเจอร์ Audio Tags ที่เพิ่มเข้ามาใหม่ ช่วยให้สามารถแทรกคำสั่งภาษาธรรมชาติเข้าไปในข้อความได้โดยตรง เพื่อควบคุมสไตล์เสียง ความเร็ว และวิธีการถ่ายทอดได้อย่างละเอียด
ทำคะแนน Elo 1,211 บนกระดานจัดอันดับ Artificial Analysis TTS และได้รับการประเมินว่าเป็นการผสานกันอย่างลงตัวระหว่างการสร้างเสียงคุณภาพสูงกับต้นทุนต่ำ
รองรับ มากกว่า 70 ภาษา และมีความสามารถสนทนาแบบหลายผู้พูดในตัว
เสียงที่สร้างทั้งหมดจะมี ลายน้ำ SynthID ทำให้ตรวจจับคอนเทนต์ที่สร้างโดย AI ได้อย่างน่าเชื่อถือ และช่วยป้องกันข้อมูลเท็จ

การเปิดตัวและช่องทางการให้บริการ

Gemini 3.1 Flash TTS เป็นโมเดลแปลงข้อความเป็นเสียงพูดรุ่นล่าสุด ที่มาพร้อม ความสามารถในการควบคุม การแสดงออก และคุณภาพ ที่ดีขึ้น
ขณะนี้เปิดให้ทดลองใช้งานในรูปแบบพรีวิวผ่านช่องทางต่อไปนี้:
- สำหรับนักพัฒนา: Gemini API และ Google AI Studio
- สำหรับองค์กร: Vertex AI
- สำหรับผู้ใช้ Workspace: Google Vids

คุณภาพเสียงและการควบคุมที่ดีขึ้น

คุณภาพเสียงโดยรวมได้รับการปรับปรุง ทำให้เป็น โมเดลที่เป็นธรรมชาติและแสดงอารมณ์ได้ดีที่สุดเท่าที่มีมา
บนกระดานจัดอันดับ Artificial Analysis TTS ทำคะแนน Elo 1,211 จากการประเมินความชอบของมนุษย์แบบ blind test หลายพันครั้ง
Artificial Analysis จัดให้ Gemini 3.1 Flash TTS อยู่ใน "most attractive quadrant" ในฐานะ การผสานกันอย่างลงตัวระหว่างการสร้างเสียงคุณภาพสูงกับต้นทุนต่ำ
โดดเด่นด้วย การสนทนาแบบหลายผู้พูดในตัว, การรองรับมากกว่า 70 ภาษา และความสามารถในการควบคุมงานสร้างสรรค์อย่างละเอียดด้วยภาษาธรรมชาติ

เพิ่มพลังการแสดงออกด้วย Audio Tags

เพิ่มฟีเจอร์ Audio Tags ใหม่ เพื่อควบคุมสไตล์เสียง ความเร็ว และวิธีการถ่ายทอดได้อย่างเป็นธรรมชาติและเข้าใจง่าย
ปรับแต่งผลลัพธ์เสียง AI ได้อย่างละเอียดด้วยการ แทรกคำสั่งภาษาธรรมชาติโดยตรง ลงในข้อความอินพุต
องค์กรสามารถใช้ Audio Tags ภายใน Vertex AI เพื่อสร้างแอปพลิเคชันระดับองค์กรยุคถัดไปได้
ใน Google AI Studio มีคอนโทรลที่ปรับแต่งได้ซึ่งเปรียบเสมือนการพานักพัฒนาไปนั่งบน "เก้าอี้ผู้กำกับ (director's chair)":
- Scene direction: กำหนดสภาพแวดล้อมและตั้งคำสั่งบทพูดอย่างเฉพาะเจาะจง เพื่อสร้างบริบทของโลกให้ตัวละครตอบสนองอย่างเป็นธรรมชาติตลอดหลายเทิร์น
- Speaker-level specificity: คัดเลือกตัวละครด้วย Audio Profile เฉพาะตัว ปรับความเร็ว โทน และน้ำเสียงด้วย Director's Notes และสลับการแสดงอารมณ์ระหว่างประโยคได้ด้วยแท็กแบบอินไลน์
- Seamless export: สามารถ ส่งออกพารามิเตอร์ที่ตั้งค่าเสร็จแล้วเป็นโค้ด Gemini API เพื่อคงเอกลักษณ์เสียงอย่างสม่ำเสมอในหลายโปรเจกต์และหลายแพลตฟอร์ม
ด้วยการตั้งค่าเหล่านี้ นักพัฒนาจึงสามารถสร้างตัวละครที่น่าจดจำและ ประสบการณ์เสียงที่ชวนดื่มด่ำ ได้

รองรับการใช้งานในระดับโลก

ให้เสียงคุณภาพสูงและการควบคุมอย่างแม่นยำใน มากกว่า 70 ภาษา
สร้าง ประสบการณ์เสียงที่แปลเป็นท้องถิ่น ได้ผ่านการควบคุมสไตล์ ความเร็ว และน้ำเสียงขั้นสูงสำหรับตลาดสำคัญ
นักพัฒนาและองค์กรที่ได้ทดสอบในช่วงแรกให้คะแนนสูงกับ ความสามารถในการควบคุมและการแสดงออก ที่โดดเด่นของ 3.1 Flash TTS
- มีเสียงตอบรับว่า Audio Tags มอบ ความแม่นยำในการสร้างสรรค์ ในอีกระดับ และเปลี่ยนข้อความธรรมดาให้กลายเป็นการแสดงเสียงร้องคุณภาพสูง

ลายน้ำ SynthID

เสียงทั้งหมดที่ Gemini 3.1 Flash TTS สร้างขึ้นจะถูกฝัง ลายน้ำ SynthID
ลายน้ำที่ไม่สามารถรับรู้ได้ด้วยประสาทสัมผัสจะถูกฝังลงในเอาต์พุตเสียงโดยตรง ทำให้ ตรวจจับคอนเทนต์ที่สร้างโดย AI ได้อย่างน่าเชื่อถือ
ทำหน้าที่เป็นกลไกความปลอดภัยเพื่อ ป้องกันข้อมูลเท็จ พร้อมมีรายละเอียดด้านความปลอดภัยและความรับผิดชอบเพิ่มเติมใน model card

Gemini 3.1 Flash TTS - โมเดลเสียง AI ยุคถัดไปที่ควบคุมสไตล์เสียงด้วยภาษาธรรมชาติ

การเปิดตัวและช่องทางการให้บริการ

คุณภาพเสียงและการควบคุมที่ดีขึ้น

เพิ่มพลังการแสดงออกด้วย Audio Tags

รองรับการใช้งานในระดับโลก

ลายน้ำ SynthID

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น