เปิดซอร์สโอเพนซอร์สตระกูล Qwen3-TTS: รองรับการออกแบบเสียง โคลนเสียง และการสร้างเสียง

(qwen.ai)

31 คะแนน โดย GN⁺ 2026-01-23 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

Qwen3-TTS คือ ซีรีส์โมเดลสร้างเสียงหลายภาษา ที่รองรับการโคลนเสียง การออกแบบเสียง การสร้างเสียงมนุษย์คุณภาพสูงมาก และการควบคุมด้วยภาษาธรรมชาติ
รองรับ 10 ภาษาหลักและภาษาถิ่นหลากหลายรูปแบบ เช่น จีน อังกฤษ ญี่ปุ่น เกาหลี และมีให้เลือก 2 ขนาดโมเดลคือ 1.7B และ 0.6B
ใช้เอนโค้ดเดอร์ Qwen3-TTS-Tokenizer-12Hz ที่พัฒนาขึ้นเองเพื่อบีบอัดสัญญาณเสียงได้อย่างมีประสิทธิภาพ พร้อมคงข้อมูลที่ไม่ใช่ภาษาและสภาพแวดล้อมทางเสียงไว้ครบถ้วน
ด้วยสถาปัตยกรรมสตรีมมิงแบบ Dual-Track จึงสามารถส่งออกแพ็กเก็ตเสียงแรกได้ทันทีหลังป้อนตัวอักษร 1 ตัว และทำสังเคราะห์แบบเรียลไทม์ได้ที่ ค่าหน่วง 97ms
การเปิดซอร์สโอเพนซอร์สทำให้ นักพัฒนาและองค์กรสามารถนำเทคโนโลยีสร้างเสียงคุณภาพสูงไปใช้ได้โดยตรง

ภาพรวมของ Qwen3-TTS

Qwen3-TTS เป็น ซีรีส์โมเดลสร้างเสียงประสิทธิภาพสูง ที่พัฒนาโดย Qwen โดยรวมความสามารถด้านการออกแบบเสียง การโคลนเสียง การสร้างเสียง และการควบคุมเสียงไว้ในชุดเดียว
- สามารถควบคุมโทนเสียง อารมณ์ และน้ำเสียงขึ้นลงได้ด้วยคำสั่งภาษาธรรมชาติ
- เข้าถึงได้ผ่าน Qwen API และ GitHub
สร้างบนพื้นฐานของเอนโค้ดเดอร์มัลติโค้ดบุ๊ก Qwen3-TTS-Tokenizer-12Hz เพื่อให้กู้คืนเสียงได้รวดเร็ว มีความเที่ยงตรงสูง และบีบอัดได้อย่างมีประสิทธิภาพ
รองรับการส่งออกเสียงแบบเรียลไทม์ระดับตัวอักษรด้วย Dual-Track สตรีมมิงสองทิศทาง

โครงสร้างโมเดล

โมเดลมีให้เลือก 2 ขนาดคือ 1.7B และ 0.6B
- 1.7B: ให้ประสิทธิภาพสูงสุดและความสามารถในการควบคุมอย่างละเอียด
- 0.6B: สมดุลระหว่างประสิทธิภาพและความคุ้มค่า
ทั้งสองโมเดลรองรับ ภาษาจีน อังกฤษ ญี่ปุ่น เกาหลี เยอรมัน ฝรั่งเศส รัสเซีย โปรตุเกส สเปน และอิตาลี
สามารถทำ การโคลนเสียงอย่างรวดเร็วด้วยอินพุตเสียง 3 วินาที และนำไปใช้กับการปรับจูนละเอียด (FT) ได้

คุณลักษณะทางเทคนิคหลัก

ความสามารถในการถ่ายทอดเสียงประสิทธิภาพสูง
- Qwen3-TTS-Tokenizer-12Hz ใช้สำหรับการสร้างแบบจำลองเชิงความหมายระดับสูงและการบีบอัดสัญญาณเสียง
- คงข้อมูลที่ไม่ใช่ภาษาและเสียงแวดล้อมไว้ได้ พร้อมรองรับการกู้คืนความเร็วสูงด้วยโครงสร้าง non-DiT แบบน้ำหนักเบา
สถาปัตยกรรมมัลติโค้ดบุ๊กแบบ end-to-end
- กำจัดปัญหาคอขวดของข้อมูลและการสะสมข้อผิดพลาดที่พบในแนวทาง LM+DiT แบบเดิม
- เพิ่มความอเนกประสงค์ของโมเดล ประสิทธิภาพการสร้าง และเพดานสมรรถนะ
การสังเคราะห์สตรีมมิงค่าหน่วงต่ำมาก
- โครงสร้างไฮบริดแบบ Dual-Track รองรับทั้งแบบสตรีมมิงและไม่สตรีมมิงพร้อมกัน
- ส่งออกเสียงครั้งแรกหลังป้อนตัวอักษร 1 ตัว และทำได้ที่ ค่าหน่วง 97ms
ความเข้าใจข้อความอัจฉริยะและการควบคุมเสียง
- ควบคุมคุณลักษณะหลายมิติ เช่น โทนเสียง อารมณ์ และจังหวะทำนองเสียง ได้ด้วยคำสั่งภาษาธรรมชาติ
- ปรับโทนและจังหวะโดยอัตโนมัติตามความหมายของข้อความ

การประเมินประสิทธิภาพของโมเดล

การออกแบบเสียง: บนเบนช์มาร์ก InstructTTS-Eval ทำคะแนนด้านการทำตามคำสั่งและการแสดงออกได้สูงกว่า MiniMax-Voice-Design
การควบคุมเสียง: ในการทำให้ทั่วไปข้ามหลายภาษาสำหรับผู้พูดคนเดียว ทำได้ที่ WER 2.34% และคะแนนควบคุมสไตล์ 75.4%
- แม้สังเคราะห์ต่อเนื่อง 10 นาที ก็ยังรักษา WER ภาษาจีนที่ 2.36% และภาษาอังกฤษที่ 2.81%
การโคลนเสียง: บน Seed-tts-eval มีความเสถียรมากกว่า MiniMax, SeedTTS
- ค่าเฉลี่ย 10 ภาษาอยู่ที่ WER 1.835%, ความคล้ายผู้พูด 0.789 และมีประสิทธิภาพสูงกว่า CosyVoice3

ประสิทธิภาพของ Tokenizer

ทำสถิติ SOTA บนชุด LibriSpeech test-clean
- PESQ: wideband 3.21, narrowband 3.68
- STOI: 0.96, UTMOS: 4.16
- ความคล้ายของผู้พูด 0.95 จึง คงข้อมูลตัวตนของเสียงผู้พูดได้แทบไม่สูญเสีย

การออกแบบเสียงและตัวอย่าง

สามารถ สร้างโทนเสียงแบบกำหนดเอง จากคำอธิบายภาษาธรรมชาติ
- ควบคุมคุณลักษณะละเอียด เช่น เพศ อายุ อารมณ์ และน้ำเสียงขึ้นลง
- ตัวอย่าง: เสียงผู้ชายเชิงสั่งการ เสียงผู้หญิงที่มีอารมณ์ หรือโทนเสียงตามช่วงอายุ
ฟีเจอร์ Timbre Reuse ช่วยให้บันทึกและนำโทนเสียงที่สร้างไว้กลับมาใช้ซ้ำได้
- นำไปใช้กับบทสนทนาหลายผู้พูดหรือการบรรยายแบบยาวได้

CustomVoice และการควบคุมโทนเสียง

แม้หลังการปรับจูนละเอียดรายผู้พูด ก็ยัง รักษาโทนเสียงเป้าหมายและพูดได้หลายภาษา
รองรับทั้งการควบคุมคุณลักษณะเดี่ยวและหลายคุณลักษณะพร้อมกัน
- ตัวอย่าง: ความเศร้า ความโกรธ การกระซิบ การพูดช้า เป็นต้น สำหรับการควบคุมอารมณ์อย่างละเอียด
มี ชุดโทนเสียงสาธารณะ 9 แบบ ให้ใช้งาน
- ครอบคลุมภาษาจีน อังกฤษ ญี่ปุ่น เกาหลี และภาษาถิ่น
- เช่น 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) เป็นต้น

Voice Clone และการโคลนข้ามภาษา

ทำ การโคลนเสียงความเร็วสูง ได้ด้วยอินพุตเสียง 3 วินาที
- ไม่เพียงโคลนเสียงภาษาจีนและอังกฤษ แต่ยังรองรับ การโคลนข้ามภาษา
- ตัวอย่าง: สามารถพูดได้หลายภาษา เช่น ญี่ปุ่นและเกาหลี
มี ความทนทานต่อสัญญาณรบกวนในข้อความ
- ออกเสียงได้ถูกต้องแม้ประโยคจะมีสัญลักษณ์ซับซ้อน พินอิน หรืออักขระพิเศษ

การกู้คืนเสียงด้วย Tokenizer

สามารถกู้คืนองค์ประกอบเสียงได้หลากหลาย เช่น ภาษาถิ่น การร้องเพลง เสียงที่ไม่ใช่คำพูด และเสียงพื้นหลัง
พิสูจน์คุณภาพการสร้างกลับที่มีความเที่ยงตรงสูงเมื่อเทียบกับต้นฉบับ

3 ความคิดเห็น

sudosudo 2026-01-24

โอ้ รันบนโน้ตบุ๊กได้ด้วยนะ

xguru 2026-01-23

ช่วงนี้ผมเองก็ใช้โมเดลที่อิงกับ Qwen บนเครื่องโลคัลค่อนข้างเยอะเหมือนกันครับ
ตอนแรกก็คิดว่าเพราะเป็นโมเดลของ Alibaba แค่นั้นเอง แต่ก็น่าทึ่งที่พวกเขาปรับปรุงอย่างต่อเนื่องและขยายต่อไปเรื่อย ๆ

GN⁺ 2026-01-23

ความเห็นจาก Hacker News

ลองรันบน macOS ด้วย mlx-audio แล้ว ทำได้เพราะ ทวีต ของ Prince Canuma
สคริปต์ที่ใช้ดูได้ที่นี่
ถ้ารันด้วย uv จะดาวน์โหลดโมเดลขนาด 4.5GB ตอนเริ่มต้น ตัวอย่างคำสั่งมีดังนี้
uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav
- เจ๋งมาก เป็นชัยชนะอีกครั้งของ uv
ถ้าอยากลองทำ voice cloning เอง สามารถทำได้ใน Hugging Face เดโม
ไปที่แท็บ "Voice Clone" วางข้อความตัวอย่าง อัดเสียงตัวเองผ่านไมโครโฟน แล้วป้อนข้อความอื่นเข้าไป ระบบก็จะสร้างเวอร์ชันที่อ่านด้วยเสียงของตัวเองได้
ตัวอย่างเสียงที่ฉันสร้างแชร์ไว้ที่นี่
- พูดตรง ๆ ว่า น่ากลัวนิด ๆ ถ้าเอาไปรวมกับ z-image-turbo ตอนนี้คงต้องตั้งสมมติฐานไว้ก่อนว่าสิ่งใดก็ตามบนหน้าจออาจเป็นของปลอมทั้งหมด เราเข้าสู่ยุคที่เชื่ออะไรไม่ได้หากไม่มี การยืนยันด้วยวิทยาการเข้ารหัส
- เดโมบน HF โหลดหนักเกิน แต่บนเครื่องตัวเองทำงานดี โมเดล 1.7B จับ โทนเสียง ของผู้พูดได้ดี แต่ยังขาด ความหลากหลายของน้ำเสียง เลยฟังดูเรียบ ๆ น่าจะเป็นเพราะเดโมไม่ได้เปิดให้ใช้ ฟีเจอร์ควบคุมการแสดงอารมณ์ ถึงอย่างนั้นก็จัดการ สัญญาณรบกวน ได้ดีกว่า 0.6B มาก แม้จะช้าประมาณ 0.3x บน GPU 5090 โดยไม่มี FlashAttention แต่คุณภาพก็น่าประทับใจ
- เทคโนโลยีน่าทึ่งมาก เสียงที่ถูกโคลนของฉัน ฟังเหมือนฉันจริง ๆ ดูจะมีทั้งการใช้งานที่ดีและไม่ดีมากมาย — ตั้งแต่ให้คุณยายผู้ล่วงลับอ่านนิทานให้หลานฟัง ไปจนถึงการโกงหรือการทำพอดแคสต์อัตโนมัติ
- แค่จากไฟล์ที่โพสต์ไว้ยังตัดสิน ประสิทธิภาพการโคลน ได้ยาก ต้องมีตัวอย่างเสียงต้นฉบับมาด้วย
- ลองเล่นแล้วสนุกดี ถ้าอัดเสียงตัวเองไว้สักไม่กี่นาที วันหนึ่งฉันอาจทำ ออดิโอบุ๊กที่ฉันอ่านให้ตัวเองฟัง ได้
เป็นโมเดลที่น่าสนใจ ลองรันโมเดล 0.6B บน GPU 1080 แล้ว ในระดับข้อความ 200 ตัวอักษรสามารถสร้างได้โดยไม่ OOM ฉันพยายามทำ ออดิโอบุ๊กเต้าเต๋อจิง แต่ผลลัพธ์ออกมาไม่เหมือนกันสักครั้ง เหมือน วงล้อเวทมนตร์ บางช่วงชัดเจน บางช่วงหัวเราะหรือคราง อารมณ์แกว่งไปมา Ryan เป็นผู้พูดที่เสถียรที่สุด ส่วน Eric ฟังเหมือนสำเนียงจีนที่พูดเกินจริง ถ้าอารมณ์คงที่กว่านี้ มันคงเป็น TTS ที่ดีที่สุดเท่าที่เคยใช้มา
- ได้ลองกำหนดอารมณ์เองหรือยัง ถ้าปล่อยว่างไว้อาจตั้งเป็น อารมณ์สุ่ม (rng)
- อยากรู้ RTF (อัตราส่วนเวลาจริง) บน 1080 อยู่ กำลังเช็กว่าโมเดล 0.6B จะอนุมานแบบเรียลไทม์บนอุปกรณ์ edge ได้ไหม
อยากขอทีม Qwen หน่อย — ช่วยออกโมเดลที่เหนือกว่าความสามารถด้านโค้ดของ Opus 4.5 ให้ที ฉันชอบโมเดลนะ แต่ไม่ชอบ ผู้นำที่ปิดกั้น และความแบ่งขั้วทางการเมืองของบริษัทนั้น
- อาจเป็นคอมเมนต์ที่พวกเขารออยู่ก็ได้
- ฉันก็เจอปัญหาเดียวกัน (ฉันเป็นคนเดนมาร์ก) ลองทดสอบด้วย Open Code และ Minimax m2.1 (10 ดอลลาร์ต่อเดือน) แล้วใช้ได้ค่อนข้างดี GLM 4.7 ก็ยอดเยี่ยม รายละเอียดการเปรียบเทียบอยู่ในบทความนี้ ไม่จำเป็นต้องส่งเงินให้บริษัทที่คุณไม่ชอบ
- สงสัยว่าคำว่า “แบ่งขั้วทางการเมือง” หมายถึงอะไร
- ฉันได้ผลลัพธ์ที่ดีกับ GLM 4.7 กำลังรัน max account สองอันตลอด 24/7 และให้ Claude ช่วยรีวิวโค้ดบางส่วน ถ้ากังวลเรื่องค่าใช้จ่าย GLM 4.7 เป็นตัวเลือกที่ดี
- อยากถามว่าได้ลอง GLM 4.7 ที่เพิ่งออกมาหรือยัง
นานแล้วที่ไม่เห็นเทคโนโลยีแบบนี้ พัฒนาได้ชวนขนลุก ขนาดนี้ ฉันใช้ AI TTS มาตั้งแต่ปี 2018 แต่โมเดลนี้เป็นครั้งแรกที่ทำให้รู้สึกว่าสามารถ บูรณะละครวิทยุเก่า ได้จริง ตัวอย่างเช่น น่าจะฟื้นบทพูดบางส่วนที่หายไปเพราะเทปเสียได้จากบริบท อาจถึงขั้นช่วยคืนชีพเสียงบันทึกหลายสิบชั่วโมงของนักแสดงอย่าง Bob Bailey ได้
- ตัวอย่างที่ฟังดูเหมือน พากย์อนิเมะแนวมิยาซากิ เลย สงสัยว่าเทรนมาจากข้อมูลแบบนั้นหรือเปล่า
- ฉันก็กำลังวางแผนโปรเจกต์ฟื้นฟูตอนวิทยุ “Have Gun - Will Travel” อยู่ ถ้าสามารถกู้ช่วงที่ฟังไม่รู้เรื่องเพราะ เทปเสียหาย หรือ เสียงเอฟเฟกต์รบกวน ได้ก็น่าทึ่งมาก แน่นอนว่า โอกาสในการนำไปใช้ผิดทาง ก็สูงมากด้วย
มีใครลองรันบน Mac บ้างไหม คู่มือติดตั้งดูเหมือนตั้งต้นจาก NVIDIA GPU (CUDA, FlashAttention) เลยไม่แน่ใจว่าจะทำงานบนแบ็กเอนด์ PyTorch Metal/MPS ได้ไหม
- รันได้โดยไม่ใช้ FlashAttention ด้วยออปชัน --no-flash-attn ฉันก็ทำแบบนั้นบน Windows
- แนะนำให้ใช้ modal เพื่อเช่าสภาพแวดล้อม Metal
- ตอนนี้ยังไม่ได้เพราะมี dependency กับ FlashAttention หวังว่าจะมีใครช่วย พอร์ตลง Metal
ตัวอย่าง Age Control อันสุดท้ายตั้งเป็น “สำเนียงอเมริกัน” แต่สำหรับหูฉันมันฟังเหมือน คนออสเตรเลียพยายามเลียนแบบสำเนียงอเมริกัน
ดูเหมาะกับการทำออดิโอบุ๊กมาก AI TTS ที่มีอยู่ยังขาด ความเป็นธรรมชาติ อยู่
วงการนักพากย์ ตอนนี้เริ่มสุกงอมแล้ว เดโมบางอันให้ เสียงที่สมบูรณ์กว่า นักพากย์อินดี้เสียอีก
ฉันกังวลว่าสักวัน คุณยายของฉันจะโดนหลอกด้วยสิ่งนี้
- จนถึงตอนนี้มันดูเหมือนเป็น กรณีใช้งานหลัก เลย
- แต่คุณยายยุคนี้เป็นคนรุ่น QVC กับหมอดูทางโทรศัพท์ บางทีตอนนี้อาจไม่หลงกลเรื่องแบบนี้ง่าย ๆ แล้ว