31 คะแนน โดย GN⁺ 2026-01-23 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • Qwen3-TTS คือ ซีรีส์โมเดลสร้างเสียงหลายภาษา ที่รองรับการโคลนเสียง การออกแบบเสียง การสร้างเสียงมนุษย์คุณภาพสูงมาก และการควบคุมด้วยภาษาธรรมชาติ
  • รองรับ 10 ภาษาหลักและภาษาถิ่นหลากหลายรูปแบบ เช่น จีน อังกฤษ ญี่ปุ่น เกาหลี และมีให้เลือก 2 ขนาดโมเดลคือ 1.7B และ 0.6B
  • ใช้เอนโค้ดเดอร์ Qwen3-TTS-Tokenizer-12Hz ที่พัฒนาขึ้นเองเพื่อบีบอัดสัญญาณเสียงได้อย่างมีประสิทธิภาพ พร้อมคงข้อมูลที่ไม่ใช่ภาษาและสภาพแวดล้อมทางเสียงไว้ครบถ้วน
  • ด้วยสถาปัตยกรรมสตรีมมิงแบบ Dual-Track จึงสามารถส่งออกแพ็กเก็ตเสียงแรกได้ทันทีหลังป้อนตัวอักษร 1 ตัว และทำสังเคราะห์แบบเรียลไทม์ได้ที่ ค่าหน่วง 97ms
  • การเปิดซอร์สโอเพนซอร์สทำให้ นักพัฒนาและองค์กรสามารถนำเทคโนโลยีสร้างเสียงคุณภาพสูงไปใช้ได้โดยตรง

ภาพรวมของ Qwen3-TTS

  • Qwen3-TTS เป็น ซีรีส์โมเดลสร้างเสียงประสิทธิภาพสูง ที่พัฒนาโดย Qwen โดยรวมความสามารถด้านการออกแบบเสียง การโคลนเสียง การสร้างเสียง และการควบคุมเสียงไว้ในชุดเดียว
    • สามารถควบคุมโทนเสียง อารมณ์ และน้ำเสียงขึ้นลงได้ด้วยคำสั่งภาษาธรรมชาติ
    • เข้าถึงได้ผ่าน Qwen API และ GitHub
  • สร้างบนพื้นฐานของเอนโค้ดเดอร์มัลติโค้ดบุ๊ก Qwen3-TTS-Tokenizer-12Hz เพื่อให้กู้คืนเสียงได้รวดเร็ว มีความเที่ยงตรงสูง และบีบอัดได้อย่างมีประสิทธิภาพ
  • รองรับการส่งออกเสียงแบบเรียลไทม์ระดับตัวอักษรด้วย Dual-Track สตรีมมิงสองทิศทาง

โครงสร้างโมเดล

  • โมเดลมีให้เลือก 2 ขนาดคือ 1.7B และ 0.6B
    • 1.7B: ให้ประสิทธิภาพสูงสุดและความสามารถในการควบคุมอย่างละเอียด
    • 0.6B: สมดุลระหว่างประสิทธิภาพและความคุ้มค่า
  • ทั้งสองโมเดลรองรับ ภาษาจีน อังกฤษ ญี่ปุ่น เกาหลี เยอรมัน ฝรั่งเศส รัสเซีย โปรตุเกส สเปน และอิตาลี
  • สามารถทำ การโคลนเสียงอย่างรวดเร็วด้วยอินพุตเสียง 3 วินาที และนำไปใช้กับการปรับจูนละเอียด (FT) ได้

คุณลักษณะทางเทคนิคหลัก

  • ความสามารถในการถ่ายทอดเสียงประสิทธิภาพสูง
    • Qwen3-TTS-Tokenizer-12Hz ใช้สำหรับการสร้างแบบจำลองเชิงความหมายระดับสูงและการบีบอัดสัญญาณเสียง
    • คงข้อมูลที่ไม่ใช่ภาษาและเสียงแวดล้อมไว้ได้ พร้อมรองรับการกู้คืนความเร็วสูงด้วยโครงสร้าง non-DiT แบบน้ำหนักเบา
  • สถาปัตยกรรมมัลติโค้ดบุ๊กแบบ end-to-end
    • กำจัดปัญหาคอขวดของข้อมูลและการสะสมข้อผิดพลาดที่พบในแนวทาง LM+DiT แบบเดิม
    • เพิ่มความอเนกประสงค์ของโมเดล ประสิทธิภาพการสร้าง และเพดานสมรรถนะ
  • การสังเคราะห์สตรีมมิงค่าหน่วงต่ำมาก
    • โครงสร้างไฮบริดแบบ Dual-Track รองรับทั้งแบบสตรีมมิงและไม่สตรีมมิงพร้อมกัน
    • ส่งออกเสียงครั้งแรกหลังป้อนตัวอักษร 1 ตัว และทำได้ที่ ค่าหน่วง 97ms
  • ความเข้าใจข้อความอัจฉริยะและการควบคุมเสียง
    • ควบคุมคุณลักษณะหลายมิติ เช่น โทนเสียง อารมณ์ และจังหวะทำนองเสียง ได้ด้วยคำสั่งภาษาธรรมชาติ
    • ปรับโทนและจังหวะโดยอัตโนมัติตามความหมายของข้อความ

การประเมินประสิทธิภาพของโมเดล

  • การออกแบบเสียง: บนเบนช์มาร์ก InstructTTS-Eval ทำคะแนนด้านการทำตามคำสั่งและการแสดงออกได้สูงกว่า MiniMax-Voice-Design
  • การควบคุมเสียง: ในการทำให้ทั่วไปข้ามหลายภาษาสำหรับผู้พูดคนเดียว ทำได้ที่ WER 2.34% และคะแนนควบคุมสไตล์ 75.4%
    • แม้สังเคราะห์ต่อเนื่อง 10 นาที ก็ยังรักษา WER ภาษาจีนที่ 2.36% และภาษาอังกฤษที่ 2.81%
  • การโคลนเสียง: บน Seed-tts-eval มีความเสถียรมากกว่า MiniMax, SeedTTS
    • ค่าเฉลี่ย 10 ภาษาอยู่ที่ WER 1.835%, ความคล้ายผู้พูด 0.789 และมีประสิทธิภาพสูงกว่า CosyVoice3

ประสิทธิภาพของ Tokenizer

  • ทำสถิติ SOTA บนชุด LibriSpeech test-clean
    • PESQ: wideband 3.21, narrowband 3.68
    • STOI: 0.96, UTMOS: 4.16
    • ความคล้ายของผู้พูด 0.95 จึง คงข้อมูลตัวตนของเสียงผู้พูดได้แทบไม่สูญเสีย

การออกแบบเสียงและตัวอย่าง

  • สามารถ สร้างโทนเสียงแบบกำหนดเอง จากคำอธิบายภาษาธรรมชาติ
    • ควบคุมคุณลักษณะละเอียด เช่น เพศ อายุ อารมณ์ และน้ำเสียงขึ้นลง
    • ตัวอย่าง: เสียงผู้ชายเชิงสั่งการ เสียงผู้หญิงที่มีอารมณ์ หรือโทนเสียงตามช่วงอายุ
  • ฟีเจอร์ Timbre Reuse ช่วยให้บันทึกและนำโทนเสียงที่สร้างไว้กลับมาใช้ซ้ำได้
    • นำไปใช้กับบทสนทนาหลายผู้พูดหรือการบรรยายแบบยาวได้

CustomVoice และการควบคุมโทนเสียง

  • แม้หลังการปรับจูนละเอียดรายผู้พูด ก็ยัง รักษาโทนเสียงเป้าหมายและพูดได้หลายภาษา
  • รองรับทั้งการควบคุมคุณลักษณะเดี่ยวและหลายคุณลักษณะพร้อมกัน
    • ตัวอย่าง: ความเศร้า ความโกรธ การกระซิบ การพูดช้า เป็นต้น สำหรับการควบคุมอารมณ์อย่างละเอียด
  • มี ชุดโทนเสียงสาธารณะ 9 แบบ ให้ใช้งาน
    • ครอบคลุมภาษาจีน อังกฤษ ญี่ปุ่น เกาหลี และภาษาถิ่น
    • เช่น 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) เป็นต้น

Voice Clone และการโคลนข้ามภาษา

  • ทำ การโคลนเสียงความเร็วสูง ได้ด้วยอินพุตเสียง 3 วินาที
    • ไม่เพียงโคลนเสียงภาษาจีนและอังกฤษ แต่ยังรองรับ การโคลนข้ามภาษา
    • ตัวอย่าง: สามารถพูดได้หลายภาษา เช่น ญี่ปุ่นและเกาหลี
  • มี ความทนทานต่อสัญญาณรบกวนในข้อความ
    • ออกเสียงได้ถูกต้องแม้ประโยคจะมีสัญลักษณ์ซับซ้อน พินอิน หรืออักขระพิเศษ

การกู้คืนเสียงด้วย Tokenizer

  • สามารถกู้คืนองค์ประกอบเสียงได้หลากหลาย เช่น ภาษาถิ่น การร้องเพลง เสียงที่ไม่ใช่คำพูด และเสียงพื้นหลัง
  • พิสูจน์คุณภาพการสร้างกลับที่มีความเที่ยงตรงสูงเมื่อเทียบกับต้นฉบับ

3 ความคิดเห็น

 
sudosudo 2026-01-24

โอ้ รันบนโน้ตบุ๊กได้ด้วยนะ

 
xguru 2026-01-23

ช่วงนี้ผมเองก็ใช้โมเดลที่อิงกับ Qwen บนเครื่องโลคัลค่อนข้างเยอะเหมือนกันครับ
ตอนแรกก็คิดว่าเพราะเป็นโมเดลของ Alibaba แค่นั้นเอง แต่ก็น่าทึ่งที่พวกเขาปรับปรุงอย่างต่อเนื่องและขยายต่อไปเรื่อย ๆ

 
GN⁺ 2026-01-23
ความเห็นจาก Hacker News
  • ลองรันบน macOS ด้วย mlx-audio แล้ว ทำได้เพราะ ทวีต ของ Prince Canuma
    สคริปต์ที่ใช้ดูได้ที่นี่
    ถ้ารันด้วย uv จะดาวน์โหลดโมเดลขนาด 4.5GB ตอนเริ่มต้น ตัวอย่างคำสั่งมีดังนี้
    uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav

    • เจ๋งมาก เป็นชัยชนะอีกครั้งของ uv
  • ถ้าอยากลองทำ voice cloning เอง สามารถทำได้ใน Hugging Face เดโม
    ไปที่แท็บ "Voice Clone" วางข้อความตัวอย่าง อัดเสียงตัวเองผ่านไมโครโฟน แล้วป้อนข้อความอื่นเข้าไป ระบบก็จะสร้างเวอร์ชันที่อ่านด้วยเสียงของตัวเองได้
    ตัวอย่างเสียงที่ฉันสร้างแชร์ไว้ที่นี่

    • พูดตรง ๆ ว่า น่ากลัวนิด ๆ ถ้าเอาไปรวมกับ z-image-turbo ตอนนี้คงต้องตั้งสมมติฐานไว้ก่อนว่าสิ่งใดก็ตามบนหน้าจออาจเป็นของปลอมทั้งหมด เราเข้าสู่ยุคที่เชื่ออะไรไม่ได้หากไม่มี การยืนยันด้วยวิทยาการเข้ารหัส
    • เดโมบน HF โหลดหนักเกิน แต่บนเครื่องตัวเองทำงานดี โมเดล 1.7B จับ โทนเสียง ของผู้พูดได้ดี แต่ยังขาด ความหลากหลายของน้ำเสียง เลยฟังดูเรียบ ๆ น่าจะเป็นเพราะเดโมไม่ได้เปิดให้ใช้ ฟีเจอร์ควบคุมการแสดงอารมณ์ ถึงอย่างนั้นก็จัดการ สัญญาณรบกวน ได้ดีกว่า 0.6B มาก แม้จะช้าประมาณ 0.3x บน GPU 5090 โดยไม่มี FlashAttention แต่คุณภาพก็น่าประทับใจ
    • เทคโนโลยีน่าทึ่งมาก เสียงที่ถูกโคลนของฉัน ฟังเหมือนฉันจริง ๆ ดูจะมีทั้งการใช้งานที่ดีและไม่ดีมากมาย — ตั้งแต่ให้คุณยายผู้ล่วงลับอ่านนิทานให้หลานฟัง ไปจนถึงการโกงหรือการทำพอดแคสต์อัตโนมัติ
    • แค่จากไฟล์ที่โพสต์ไว้ยังตัดสิน ประสิทธิภาพการโคลน ได้ยาก ต้องมีตัวอย่างเสียงต้นฉบับมาด้วย
    • ลองเล่นแล้วสนุกดี ถ้าอัดเสียงตัวเองไว้สักไม่กี่นาที วันหนึ่งฉันอาจทำ ออดิโอบุ๊กที่ฉันอ่านให้ตัวเองฟัง ได้
  • เป็นโมเดลที่น่าสนใจ ลองรันโมเดล 0.6B บน GPU 1080 แล้ว ในระดับข้อความ 200 ตัวอักษรสามารถสร้างได้โดยไม่ OOM ฉันพยายามทำ ออดิโอบุ๊กเต้าเต๋อจิง แต่ผลลัพธ์ออกมาไม่เหมือนกันสักครั้ง เหมือน วงล้อเวทมนตร์ บางช่วงชัดเจน บางช่วงหัวเราะหรือคราง อารมณ์แกว่งไปมา Ryan เป็นผู้พูดที่เสถียรที่สุด ส่วน Eric ฟังเหมือนสำเนียงจีนที่พูดเกินจริง ถ้าอารมณ์คงที่กว่านี้ มันคงเป็น TTS ที่ดีที่สุดเท่าที่เคยใช้มา

    • ได้ลองกำหนดอารมณ์เองหรือยัง ถ้าปล่อยว่างไว้อาจตั้งเป็น อารมณ์สุ่ม (rng)
    • อยากรู้ RTF (อัตราส่วนเวลาจริง) บน 1080 อยู่ กำลังเช็กว่าโมเดล 0.6B จะอนุมานแบบเรียลไทม์บนอุปกรณ์ edge ได้ไหม
  • อยากขอทีม Qwen หน่อย — ช่วยออกโมเดลที่เหนือกว่าความสามารถด้านโค้ดของ Opus 4.5 ให้ที ฉันชอบโมเดลนะ แต่ไม่ชอบ ผู้นำที่ปิดกั้น และความแบ่งขั้วทางการเมืองของบริษัทนั้น

    • อาจเป็นคอมเมนต์ที่พวกเขารออยู่ก็ได้
    • ฉันก็เจอปัญหาเดียวกัน (ฉันเป็นคนเดนมาร์ก) ลองทดสอบด้วย Open Code และ Minimax m2.1 (10 ดอลลาร์ต่อเดือน) แล้วใช้ได้ค่อนข้างดี GLM 4.7 ก็ยอดเยี่ยม รายละเอียดการเปรียบเทียบอยู่ในบทความนี้ ไม่จำเป็นต้องส่งเงินให้บริษัทที่คุณไม่ชอบ
    • สงสัยว่าคำว่า “แบ่งขั้วทางการเมือง” หมายถึงอะไร
    • ฉันได้ผลลัพธ์ที่ดีกับ GLM 4.7 กำลังรัน max account สองอันตลอด 24/7 และให้ Claude ช่วยรีวิวโค้ดบางส่วน ถ้ากังวลเรื่องค่าใช้จ่าย GLM 4.7 เป็นตัวเลือกที่ดี
    • อยากถามว่าได้ลอง GLM 4.7 ที่เพิ่งออกมาหรือยัง
  • นานแล้วที่ไม่เห็นเทคโนโลยีแบบนี้ พัฒนาได้ชวนขนลุก ขนาดนี้ ฉันใช้ AI TTS มาตั้งแต่ปี 2018 แต่โมเดลนี้เป็นครั้งแรกที่ทำให้รู้สึกว่าสามารถ บูรณะละครวิทยุเก่า ได้จริง ตัวอย่างเช่น น่าจะฟื้นบทพูดบางส่วนที่หายไปเพราะเทปเสียได้จากบริบท อาจถึงขั้นช่วยคืนชีพเสียงบันทึกหลายสิบชั่วโมงของนักแสดงอย่าง Bob Bailey ได้

    • ตัวอย่างที่ฟังดูเหมือน พากย์อนิเมะแนวมิยาซากิ เลย สงสัยว่าเทรนมาจากข้อมูลแบบนั้นหรือเปล่า
    • ฉันก็กำลังวางแผนโปรเจกต์ฟื้นฟูตอนวิทยุ “Have Gun - Will Travel” อยู่ ถ้าสามารถกู้ช่วงที่ฟังไม่รู้เรื่องเพราะ เทปเสียหาย หรือ เสียงเอฟเฟกต์รบกวน ได้ก็น่าทึ่งมาก แน่นอนว่า โอกาสในการนำไปใช้ผิดทาง ก็สูงมากด้วย
  • มีใครลองรันบน Mac บ้างไหม คู่มือติดตั้งดูเหมือนตั้งต้นจาก NVIDIA GPU (CUDA, FlashAttention) เลยไม่แน่ใจว่าจะทำงานบนแบ็กเอนด์ PyTorch Metal/MPS ได้ไหม

    • รันได้โดยไม่ใช้ FlashAttention ด้วยออปชัน --no-flash-attn ฉันก็ทำแบบนั้นบน Windows
    • แนะนำให้ใช้ modal เพื่อเช่าสภาพแวดล้อม Metal
    • ตอนนี้ยังไม่ได้เพราะมี dependency กับ FlashAttention หวังว่าจะมีใครช่วย พอร์ตลง Metal
  • ตัวอย่าง Age Control อันสุดท้ายตั้งเป็น “สำเนียงอเมริกัน” แต่สำหรับหูฉันมันฟังเหมือน คนออสเตรเลียพยายามเลียนแบบสำเนียงอเมริกัน

  • ดูเหมาะกับการทำออดิโอบุ๊กมาก AI TTS ที่มีอยู่ยังขาด ความเป็นธรรมชาติ อยู่

  • วงการนักพากย์ ตอนนี้เริ่มสุกงอมแล้ว เดโมบางอันให้ เสียงที่สมบูรณ์กว่า นักพากย์อินดี้เสียอีก

  • ฉันกังวลว่าสักวัน คุณยายของฉันจะโดนหลอกด้วยสิ่งนี้

    • จนถึงตอนนี้มันดูเหมือนเป็น กรณีใช้งานหลัก เลย
    • แต่คุณยายยุคนี้เป็นคนรุ่น QVC กับหมอดูทางโทรศัพท์ บางทีตอนนี้อาจไม่หลงกลเรื่องแบบนี้ง่าย ๆ แล้ว