- Google เปิดตัว โมเดลแปลงข้อความเป็นเสียงพูด รุ่นใหม่ ที่มีความเป็นธรรมชาติและพลังการแสดงออกดีกว่ารุ่นก่อน พร้อมสนับสนุนการสร้างแอปพลิเคชันเสียง AI สำหรับนักพัฒนา องค์กร และผู้ใช้ทั่วไป
- ฟีเจอร์ Audio Tags ที่เพิ่มเข้ามาใหม่ ช่วยให้สามารถแทรกคำสั่งภาษาธรรมชาติเข้าไปในข้อความได้โดยตรง เพื่อควบคุมสไตล์เสียง ความเร็ว และวิธีการถ่ายทอดได้อย่างละเอียด
- ทำคะแนน Elo 1,211 บนกระดานจัดอันดับ Artificial Analysis TTS และได้รับการประเมินว่าเป็นการผสานกันอย่างลงตัวระหว่างการสร้างเสียงคุณภาพสูงกับต้นทุนต่ำ
- รองรับ มากกว่า 70 ภาษา และมีความสามารถสนทนาแบบหลายผู้พูดในตัว
- เสียงที่สร้างทั้งหมดจะมี ลายน้ำ SynthID ทำให้ตรวจจับคอนเทนต์ที่สร้างโดย AI ได้อย่างน่าเชื่อถือ และช่วยป้องกันข้อมูลเท็จ
การเปิดตัวและช่องทางการให้บริการ
- Gemini 3.1 Flash TTS เป็นโมเดลแปลงข้อความเป็นเสียงพูดรุ่นล่าสุด ที่มาพร้อม ความสามารถในการควบคุม การแสดงออก และคุณภาพ ที่ดีขึ้น
- ขณะนี้เปิดให้ทดลองใช้งานในรูปแบบพรีวิวผ่านช่องทางต่อไปนี้:
- สำหรับนักพัฒนา: Gemini API และ Google AI Studio
- สำหรับองค์กร: Vertex AI
- สำหรับผู้ใช้ Workspace: Google Vids
คุณภาพเสียงและการควบคุมที่ดีขึ้น
- คุณภาพเสียงโดยรวมได้รับการปรับปรุง ทำให้เป็น โมเดลที่เป็นธรรมชาติและแสดงอารมณ์ได้ดีที่สุดเท่าที่มีมา
- บนกระดานจัดอันดับ Artificial Analysis TTS ทำคะแนน Elo 1,211 จากการประเมินความชอบของมนุษย์แบบ blind test หลายพันครั้ง
- Artificial Analysis จัดให้ Gemini 3.1 Flash TTS อยู่ใน "most attractive quadrant" ในฐานะ การผสานกันอย่างลงตัวระหว่างการสร้างเสียงคุณภาพสูงกับต้นทุนต่ำ
- โดดเด่นด้วย การสนทนาแบบหลายผู้พูดในตัว, การรองรับมากกว่า 70 ภาษา และความสามารถในการควบคุมงานสร้างสรรค์อย่างละเอียดด้วยภาษาธรรมชาติ
เพิ่มพลังการแสดงออกด้วย Audio Tags
- เพิ่มฟีเจอร์ Audio Tags ใหม่ เพื่อควบคุมสไตล์เสียง ความเร็ว และวิธีการถ่ายทอดได้อย่างเป็นธรรมชาติและเข้าใจง่าย
- ปรับแต่งผลลัพธ์เสียง AI ได้อย่างละเอียดด้วยการ แทรกคำสั่งภาษาธรรมชาติโดยตรง ลงในข้อความอินพุต
- องค์กรสามารถใช้ Audio Tags ภายใน Vertex AI เพื่อสร้างแอปพลิเคชันระดับองค์กรยุคถัดไปได้
- ใน Google AI Studio มีคอนโทรลที่ปรับแต่งได้ซึ่งเปรียบเสมือนการพานักพัฒนาไปนั่งบน "เก้าอี้ผู้กำกับ (director's chair)":
- Scene direction: กำหนดสภาพแวดล้อมและตั้งคำสั่งบทพูดอย่างเฉพาะเจาะจง เพื่อสร้างบริบทของโลกให้ตัวละครตอบสนองอย่างเป็นธรรมชาติตลอดหลายเทิร์น
- Speaker-level specificity: คัดเลือกตัวละครด้วย Audio Profile เฉพาะตัว ปรับความเร็ว โทน และน้ำเสียงด้วย Director's Notes และสลับการแสดงอารมณ์ระหว่างประโยคได้ด้วยแท็กแบบอินไลน์
- Seamless export: สามารถ ส่งออกพารามิเตอร์ที่ตั้งค่าเสร็จแล้วเป็นโค้ด Gemini API เพื่อคงเอกลักษณ์เสียงอย่างสม่ำเสมอในหลายโปรเจกต์และหลายแพลตฟอร์ม
- ด้วยการตั้งค่าเหล่านี้ นักพัฒนาจึงสามารถสร้างตัวละครที่น่าจดจำและ ประสบการณ์เสียงที่ชวนดื่มด่ำ ได้
รองรับการใช้งานในระดับโลก
- ให้เสียงคุณภาพสูงและการควบคุมอย่างแม่นยำใน มากกว่า 70 ภาษา
- สร้าง ประสบการณ์เสียงที่แปลเป็นท้องถิ่น ได้ผ่านการควบคุมสไตล์ ความเร็ว และน้ำเสียงขั้นสูงสำหรับตลาดสำคัญ
- นักพัฒนาและองค์กรที่ได้ทดสอบในช่วงแรกให้คะแนนสูงกับ ความสามารถในการควบคุมและการแสดงออก ที่โดดเด่นของ 3.1 Flash TTS
- มีเสียงตอบรับว่า Audio Tags มอบ ความแม่นยำในการสร้างสรรค์ ในอีกระดับ และเปลี่ยนข้อความธรรมดาให้กลายเป็นการแสดงเสียงร้องคุณภาพสูง
ลายน้ำ SynthID
- เสียงทั้งหมดที่ Gemini 3.1 Flash TTS สร้างขึ้นจะถูกฝัง ลายน้ำ SynthID
- ลายน้ำที่ไม่สามารถรับรู้ได้ด้วยประสาทสัมผัสจะถูกฝังลงในเอาต์พุตเสียงโดยตรง ทำให้ ตรวจจับคอนเทนต์ที่สร้างโดย AI ได้อย่างน่าเชื่อถือ
- ทำหน้าที่เป็นกลไกความปลอดภัยเพื่อ ป้องกันข้อมูลเท็จ พร้อมมีรายละเอียดด้านความปลอดภัยและความรับผิดชอบเพิ่มเติมใน model card
ยังไม่มีความคิดเห็น