- Qwen3-TTS คือ ซีรีส์โมเดลสร้างเสียงหลายภาษา ที่รองรับการโคลนเสียง การออกแบบเสียง การสร้างเสียงมนุษย์คุณภาพสูงมาก และการควบคุมด้วยภาษาธรรมชาติ
- รองรับ 10 ภาษาหลักและภาษาถิ่นหลากหลายรูปแบบ เช่น จีน อังกฤษ ญี่ปุ่น เกาหลี และมีให้เลือก 2 ขนาดโมเดลคือ 1.7B และ 0.6B
- ใช้เอนโค้ดเดอร์ Qwen3-TTS-Tokenizer-12Hz ที่พัฒนาขึ้นเองเพื่อบีบอัดสัญญาณเสียงได้อย่างมีประสิทธิภาพ พร้อมคงข้อมูลที่ไม่ใช่ภาษาและสภาพแวดล้อมทางเสียงไว้ครบถ้วน
- ด้วยสถาปัตยกรรมสตรีมมิงแบบ Dual-Track จึงสามารถส่งออกแพ็กเก็ตเสียงแรกได้ทันทีหลังป้อนตัวอักษร 1 ตัว และทำสังเคราะห์แบบเรียลไทม์ได้ที่ ค่าหน่วง 97ms
- การเปิดซอร์สโอเพนซอร์สทำให้ นักพัฒนาและองค์กรสามารถนำเทคโนโลยีสร้างเสียงคุณภาพสูงไปใช้ได้โดยตรง
ภาพรวมของ Qwen3-TTS
- Qwen3-TTS เป็น ซีรีส์โมเดลสร้างเสียงประสิทธิภาพสูง ที่พัฒนาโดย Qwen โดยรวมความสามารถด้านการออกแบบเสียง การโคลนเสียง การสร้างเสียง และการควบคุมเสียงไว้ในชุดเดียว
- สามารถควบคุมโทนเสียง อารมณ์ และน้ำเสียงขึ้นลงได้ด้วยคำสั่งภาษาธรรมชาติ
- เข้าถึงได้ผ่าน Qwen API และ GitHub
- สร้างบนพื้นฐานของเอนโค้ดเดอร์มัลติโค้ดบุ๊ก Qwen3-TTS-Tokenizer-12Hz เพื่อให้กู้คืนเสียงได้รวดเร็ว มีความเที่ยงตรงสูง และบีบอัดได้อย่างมีประสิทธิภาพ
- รองรับการส่งออกเสียงแบบเรียลไทม์ระดับตัวอักษรด้วย Dual-Track สตรีมมิงสองทิศทาง
โครงสร้างโมเดล
- โมเดลมีให้เลือก 2 ขนาดคือ 1.7B และ 0.6B
- 1.7B: ให้ประสิทธิภาพสูงสุดและความสามารถในการควบคุมอย่างละเอียด
- 0.6B: สมดุลระหว่างประสิทธิภาพและความคุ้มค่า
- ทั้งสองโมเดลรองรับ ภาษาจีน อังกฤษ ญี่ปุ่น เกาหลี เยอรมัน ฝรั่งเศส รัสเซีย โปรตุเกส สเปน และอิตาลี
- สามารถทำ การโคลนเสียงอย่างรวดเร็วด้วยอินพุตเสียง 3 วินาที และนำไปใช้กับการปรับจูนละเอียด (FT) ได้
คุณลักษณะทางเทคนิคหลัก
- ความสามารถในการถ่ายทอดเสียงประสิทธิภาพสูง
- Qwen3-TTS-Tokenizer-12Hz ใช้สำหรับการสร้างแบบจำลองเชิงความหมายระดับสูงและการบีบอัดสัญญาณเสียง
- คงข้อมูลที่ไม่ใช่ภาษาและเสียงแวดล้อมไว้ได้ พร้อมรองรับการกู้คืนความเร็วสูงด้วยโครงสร้าง non-DiT แบบน้ำหนักเบา
- สถาปัตยกรรมมัลติโค้ดบุ๊กแบบ end-to-end
- กำจัดปัญหาคอขวดของข้อมูลและการสะสมข้อผิดพลาดที่พบในแนวทาง LM+DiT แบบเดิม
- เพิ่มความอเนกประสงค์ของโมเดล ประสิทธิภาพการสร้าง และเพดานสมรรถนะ
- การสังเคราะห์สตรีมมิงค่าหน่วงต่ำมาก
- โครงสร้างไฮบริดแบบ Dual-Track รองรับทั้งแบบสตรีมมิงและไม่สตรีมมิงพร้อมกัน
- ส่งออกเสียงครั้งแรกหลังป้อนตัวอักษร 1 ตัว และทำได้ที่ ค่าหน่วง 97ms
- ความเข้าใจข้อความอัจฉริยะและการควบคุมเสียง
- ควบคุมคุณลักษณะหลายมิติ เช่น โทนเสียง อารมณ์ และจังหวะทำนองเสียง ได้ด้วยคำสั่งภาษาธรรมชาติ
- ปรับโทนและจังหวะโดยอัตโนมัติตามความหมายของข้อความ
การประเมินประสิทธิภาพของโมเดล
- การออกแบบเสียง: บนเบนช์มาร์ก InstructTTS-Eval ทำคะแนนด้านการทำตามคำสั่งและการแสดงออกได้สูงกว่า MiniMax-Voice-Design
- การควบคุมเสียง: ในการทำให้ทั่วไปข้ามหลายภาษาสำหรับผู้พูดคนเดียว ทำได้ที่ WER 2.34% และคะแนนควบคุมสไตล์ 75.4%
- แม้สังเคราะห์ต่อเนื่อง 10 นาที ก็ยังรักษา WER ภาษาจีนที่ 2.36% และภาษาอังกฤษที่ 2.81%
- การโคลนเสียง: บน Seed-tts-eval มีความเสถียรมากกว่า MiniMax, SeedTTS
- ค่าเฉลี่ย 10 ภาษาอยู่ที่ WER 1.835%, ความคล้ายผู้พูด 0.789 และมีประสิทธิภาพสูงกว่า CosyVoice3
ประสิทธิภาพของ Tokenizer
- ทำสถิติ SOTA บนชุด LibriSpeech test-clean
- PESQ: wideband 3.21, narrowband 3.68
- STOI: 0.96, UTMOS: 4.16
- ความคล้ายของผู้พูด 0.95 จึง คงข้อมูลตัวตนของเสียงผู้พูดได้แทบไม่สูญเสีย
การออกแบบเสียงและตัวอย่าง
- สามารถ สร้างโทนเสียงแบบกำหนดเอง จากคำอธิบายภาษาธรรมชาติ
- ควบคุมคุณลักษณะละเอียด เช่น เพศ อายุ อารมณ์ และน้ำเสียงขึ้นลง
- ตัวอย่าง: เสียงผู้ชายเชิงสั่งการ เสียงผู้หญิงที่มีอารมณ์ หรือโทนเสียงตามช่วงอายุ
- ฟีเจอร์ Timbre Reuse ช่วยให้บันทึกและนำโทนเสียงที่สร้างไว้กลับมาใช้ซ้ำได้
- นำไปใช้กับบทสนทนาหลายผู้พูดหรือการบรรยายแบบยาวได้
CustomVoice และการควบคุมโทนเสียง
- แม้หลังการปรับจูนละเอียดรายผู้พูด ก็ยัง รักษาโทนเสียงเป้าหมายและพูดได้หลายภาษา
- รองรับทั้งการควบคุมคุณลักษณะเดี่ยวและหลายคุณลักษณะพร้อมกัน
- ตัวอย่าง: ความเศร้า ความโกรธ การกระซิบ การพูดช้า เป็นต้น สำหรับการควบคุมอารมณ์อย่างละเอียด
- มี ชุดโทนเสียงสาธารณะ 9 แบบ ให้ใช้งาน
- ครอบคลุมภาษาจีน อังกฤษ ญี่ปุ่น เกาหลี และภาษาถิ่น
- เช่น 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) เป็นต้น
Voice Clone และการโคลนข้ามภาษา
- ทำ การโคลนเสียงความเร็วสูง ได้ด้วยอินพุตเสียง 3 วินาที
- ไม่เพียงโคลนเสียงภาษาจีนและอังกฤษ แต่ยังรองรับ การโคลนข้ามภาษา
- ตัวอย่าง: สามารถพูดได้หลายภาษา เช่น ญี่ปุ่นและเกาหลี
- มี ความทนทานต่อสัญญาณรบกวนในข้อความ
- ออกเสียงได้ถูกต้องแม้ประโยคจะมีสัญลักษณ์ซับซ้อน พินอิน หรืออักขระพิเศษ
การกู้คืนเสียงด้วย Tokenizer
- สามารถกู้คืนองค์ประกอบเสียงได้หลากหลาย เช่น ภาษาถิ่น การร้องเพลง เสียงที่ไม่ใช่คำพูด และเสียงพื้นหลัง
- พิสูจน์คุณภาพการสร้างกลับที่มีความเที่ยงตรงสูงเมื่อเทียบกับต้นฉบับ
3 ความคิดเห็น
โอ้ รันบนโน้ตบุ๊กได้ด้วยนะ
ช่วงนี้ผมเองก็ใช้โมเดลที่อิงกับ Qwen บนเครื่องโลคัลค่อนข้างเยอะเหมือนกันครับ
ตอนแรกก็คิดว่าเพราะเป็นโมเดลของ Alibaba แค่นั้นเอง แต่ก็น่าทึ่งที่พวกเขาปรับปรุงอย่างต่อเนื่องและขยายต่อไปเรื่อย ๆ
ความเห็นจาก Hacker News
ลองรันบน macOS ด้วย mlx-audio แล้ว ทำได้เพราะ ทวีต ของ Prince Canuma
สคริปต์ที่ใช้ดูได้ที่นี่
ถ้ารันด้วย
uvจะดาวน์โหลดโมเดลขนาด 4.5GB ตอนเริ่มต้น ตัวอย่างคำสั่งมีดังนี้uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wavถ้าอยากลองทำ voice cloning เอง สามารถทำได้ใน Hugging Face เดโม
ไปที่แท็บ "Voice Clone" วางข้อความตัวอย่าง อัดเสียงตัวเองผ่านไมโครโฟน แล้วป้อนข้อความอื่นเข้าไป ระบบก็จะสร้างเวอร์ชันที่อ่านด้วยเสียงของตัวเองได้
ตัวอย่างเสียงที่ฉันสร้างแชร์ไว้ที่นี่
เป็นโมเดลที่น่าสนใจ ลองรันโมเดล 0.6B บน GPU 1080 แล้ว ในระดับข้อความ 200 ตัวอักษรสามารถสร้างได้โดยไม่ OOM ฉันพยายามทำ ออดิโอบุ๊กเต้าเต๋อจิง แต่ผลลัพธ์ออกมาไม่เหมือนกันสักครั้ง เหมือน วงล้อเวทมนตร์ บางช่วงชัดเจน บางช่วงหัวเราะหรือคราง อารมณ์แกว่งไปมา Ryan เป็นผู้พูดที่เสถียรที่สุด ส่วน Eric ฟังเหมือนสำเนียงจีนที่พูดเกินจริง ถ้าอารมณ์คงที่กว่านี้ มันคงเป็น TTS ที่ดีที่สุดเท่าที่เคยใช้มา
อยากขอทีม Qwen หน่อย — ช่วยออกโมเดลที่เหนือกว่าความสามารถด้านโค้ดของ Opus 4.5 ให้ที ฉันชอบโมเดลนะ แต่ไม่ชอบ ผู้นำที่ปิดกั้น และความแบ่งขั้วทางการเมืองของบริษัทนั้น
นานแล้วที่ไม่เห็นเทคโนโลยีแบบนี้ พัฒนาได้ชวนขนลุก ขนาดนี้ ฉันใช้ AI TTS มาตั้งแต่ปี 2018 แต่โมเดลนี้เป็นครั้งแรกที่ทำให้รู้สึกว่าสามารถ บูรณะละครวิทยุเก่า ได้จริง ตัวอย่างเช่น น่าจะฟื้นบทพูดบางส่วนที่หายไปเพราะเทปเสียได้จากบริบท อาจถึงขั้นช่วยคืนชีพเสียงบันทึกหลายสิบชั่วโมงของนักแสดงอย่าง Bob Bailey ได้
มีใครลองรันบน Mac บ้างไหม คู่มือติดตั้งดูเหมือนตั้งต้นจาก NVIDIA GPU (CUDA, FlashAttention) เลยไม่แน่ใจว่าจะทำงานบนแบ็กเอนด์ PyTorch Metal/MPS ได้ไหม
--no-flash-attnฉันก็ทำแบบนั้นบน Windowsตัวอย่าง Age Control อันสุดท้ายตั้งเป็น “สำเนียงอเมริกัน” แต่สำหรับหูฉันมันฟังเหมือน คนออสเตรเลียพยายามเลียนแบบสำเนียงอเมริกัน
ดูเหมาะกับการทำออดิโอบุ๊กมาก AI TTS ที่มีอยู่ยังขาด ความเป็นธรรมชาติ อยู่
วงการนักพากย์ ตอนนี้เริ่มสุกงอมแล้ว เดโมบางอันให้ เสียงที่สมบูรณ์กว่า นักพากย์อินดี้เสียอีก
ฉันกังวลว่าสักวัน คุณยายของฉันจะโดนหลอกด้วยสิ่งนี้