Chatterbox TTS - โมเดลแปลงข้อความเป็นเสียงแบบโอเพนซอร์ส

(github.com/resemble-ai)

3 คะแนน โดย GN⁺ 2025-06-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Chatterbox คือชุดโมเดลแปลงข้อความเป็นเสียงแบบโอเพนซอร์สรุ่นล่าสุดที่ Resemble AI เปิดเผย รองรับการโคลนเสียงและการสร้างเสียงหลายภาษา
Chatterbox Multilingual V3 รุ่นล่าสุดคงขนาดโมเดลไว้ที่ 0.5B พร้อมตั้งเป้าปรับปรุงความคล้ายคลึงของผู้พูด ลดอาการหลอน และให้เสียงสนทนาหลายภาษาที่เป็นธรรมชาติมากขึ้น
Chatterbox-Turbo เป็นโมเดล 350M สำหรับเอเจนต์เสียงภาษาอังกฤษแบบหน่วงต่ำ โดยลดการสร้างของ speech-token-to-mel decoder จาก 10 ขั้นตอนเหลือ 1 ขั้นตอน และรองรับ paralinguistic tag เช่น [laugh], [cough]
โครงสร้างโมเดลแบ่งเป็น Turbo, Multilingual V3, Single Language Pack และ Chatterbox รุ่นเดิม โดยโมเดลหลายภาษารองรับ 23 ภาษา รวมถึงภาษาเกาหลี และ Single Language Pack มีการ fine-tuning เฉพาะ 6 แบบ
ไฟล์เสียงทั้งหมดที่สร้างขึ้นมี PerTh watermark ของ Resemble AI และระบุว่ายังคงตรวจจับได้แม่นยำเกือบ 100% แม้หลังการบีบอัด MP3 การตัดต่อเสียง และการปรับแต่งทั่วไป

ภาพรวม Chatterbox TTS

Chatterbox คือชุดโมเดลแปลงข้อความเป็นเสียงแบบโอเพนซอร์สของ Resemble AI
มีตัวอย่างเดโม, Hugging Face Space, การประเมิน Podonos และลิงก์ Discord ให้พร้อมกัน

รีลีสล่าสุด: Chatterbox Multilingual V3

Chatterbox Multilingual V3 คือโมเดล TTS หลายภาษาอเนกประสงค์รุ่นล่าสุดในตระกูล Chatterbox
V3 ปรับปรุงสิ่งต่อไปนี้โดยยังคง ขนาดโมเดล 0.5B เท่าเดิม
- ความคล้ายคลึงของผู้พูด
- การลดอาการหลอน
- เสียงสนทนาที่เป็นธรรมชาติมากขึ้นในหลายภาษา
เช่นเดียวกับ V2 โมเดลนี้ตั้งเป้าครอบคลุมภาษากว้างขวาง แต่ถูกออกแบบให้สร้างเสียงที่เสถียรและถ่ายทอดอารมณ์ได้ดีกว่า
เป็นโมเดลหลายภาษาที่แนะนำสำหรับผู้ใช้ที่ต้องการโมเดลโคลนเสียงหนึ่งตัวซึ่งทำงานได้ในหลายภาษา

Single Language Pack

Single Language Pack คือชุดโมเดล fine-tuning เฉพาะสำหรับภาษาที่มีลำดับความสำคัญ
ใช้เมื่อต้องการพฤติกรรมเฉพาะภาษาที่แข็งแรงกว่าโมเดลหลายภาษาอเนกประสงค์ การควบคุมคุณภาพที่เข้มงวดกว่า และการสร้างเสียงที่รับรู้สำเนียงถิ่น
โมเดลเฉพาะที่มีให้มี 6 แบบ
- Chinese / Demo
- Latam Spanish / Demo
- Brazilian Portuguese / Demo
- Spain Spanish / Demo
- Portugal Portuguese / Demo
- Hindi / Demo

Chatterbox-Turbo

Chatterbox-Turbo เป็นโมเดลที่มีประสิทธิภาพที่สุดสำหรับเอเจนต์เสียงภาษาอังกฤษแบบหน่วงต่ำ
ใช้สถาปัตยกรรมที่ทำให้เรียบง่ายขนาด 350M พารามิเตอร์ และถูกออกแบบให้สร้างเสียงคุณภาพสูงด้วยการคำนวณและ VRAM น้อยกว่ารุ่นก่อนหน้า
ทำ distillation ส่วนคอขวดอย่าง speech-token-to-mel decoder เพื่อลดขั้นตอนการสร้างจาก 10 ขั้นตอนเหลือ 1 ขั้นตอน
Turbo รองรับ paralinguistic tag เช่น [cough], [laugh], [chuckle] เป็นค่าเริ่มต้น ช่วยเพิ่มการแสดงออกที่สมจริง
การใช้งานหลักคือเอเจนต์เสียงแบบหน่วงต่ำ แต่ระบุว่าเหมาะกับงานบรรยายและเวิร์กโฟลว์สร้างสรรค์ด้วย
บริการ TTS เชิงพาณิชย์ให้ประสิทธิภาพหน่วงต่ำมากต่ำกว่า 200ms และแนะนำว่าเหมาะกับการใช้งาน production สำหรับเอเจนต์ แอปพลิเคชัน และสื่ออินเทอร์แอคทีฟ

โครงสร้างโมเดล

โมเดล	ขนาด	ภาษา	ฟีเจอร์หลัก	เหมาะกับการใช้งาน
Chatterbox-Turbo	350M	English	paralinguistic tag, การคำนวณ·VRAM ต่ำ	เอเจนต์เสียง zero-shot, production
Chatterbox-Multilingual V3	500M	23+	ปรับปรุงความคล้ายคลึงของผู้พูด, ลดอาการหลอน, เสียงหลายภาษาที่เป็นธรรมชาติ	แอปทั่วโลก, localization, การโคลนเสียงข้ามภาษา
Single Language Pack	อย่างละ 500M	fine-tuning เฉพาะ 6 แบบ	การควบคุมคุณภาพตามภาษา·ภูมิภาค	แอปที่ให้ความสำคัญกับภาษาและไวต่อสำเนียงถิ่น
Chatterbox	500M	English	การปรับ CFG และ exaggeration	TTS zero-shot ทั่วไปที่มีการควบคุมเชิงสร้างสรรค์

การติดตั้งและการรัน

ติดตั้งแพ็กเกจด้วย pip install chatterbox-tts

รองรับการติดตั้งจากซอร์สด้วย

git clone https://github.com/resemble-ai/chatterbox.git
cd chatterbox
pip install -e .

สภาพแวดล้อมพัฒนา·ทดสอบคือ Python 3.11 และ Debian 11 โดยเวอร์ชัน dependency ถูกตรึงไว้ใน pyproject.toml
ในโหมดติดตั้งจากซอร์ส สามารถแก้ไขโค้ดหรือ dependency ได้

วิธีใช้งาน

Chatterbox-Turbo โหลดโมเดลด้วย ChatterboxTurboTTS.from_pretrained(device="cuda") และส่งพาธคลิปอ้างอิงผ่าน audio_prompt_path เพื่อโคลนเสียง
ตัวอย่าง Turbo สร้างประโยคที่มี paralinguistic tag เช่น [chuckle]
โมเดลภาษาอังกฤษทั่วไปใช้ ChatterboxTTS ส่วนโมเดลหลายภาษาใช้ ChatterboxMultilingualTTS
โหลด Multilingual V3 ด้วย ChatterboxMultilingualTTS.from_pretrained(device=device, t3_model="v3")
- หากต้องการใช้ checkpoint V2 แบบ legacy ให้ละ t3_model หรือส่ง "v2"
หากต้องการสังเคราะห์ด้วยเสียงอื่น ให้ระบุไฟล์เสียงอ้างอิงใน audio_prompt_path
ตัวอย่างเพิ่มเติมอยู่ใน example_tts.py และ example_vc.py

ภาษาที่รองรับ

โมเดล Chatterbox Multilingual อเนกประสงค์รองรับ 23 ภาษา ดังนี้
- Arabic ar
- Danish da
- German de
- Greek el
- English en
- Spanish es
- Finnish fi
- French fr
- Hebrew he
- Hindi hi
- Italian it
- Japanese ja
- Korean ko
- Malay ms
- Dutch nl
- Norwegian no
- Polish pl
- Portuguese pt
- Russian ru
- Swedish sv
- Swahili sw
- Turkish tr
- Chinese zh

เคล็ดลับการปรับแต่ง Chatterbox รุ่นเดิม

คลิปอ้างอิง ควรตรงกับแท็กภาษาที่ระบุ
- มิฉะนั้น เอาต์พุตการถ่ายโอนภาษาอาจรับสำเนียงของภาษาจากคลิปอ้างอิงมาด้วย
- เพื่อลดปัญหานี้ ให้ตั้ง cfg_weight เป็น 0
ค่าเริ่มต้นคือ exaggeration=0.5, cfg_weight=0.5 และทำงานได้ดีในพรอมป์ต์และภาษาส่วนใหญ่
หากผู้พูดอ้างอิงพูดเร็ว การลด cfg_weight ลงเหลือประมาณ 0.3 อาจช่วยควบคุมความเร็วได้
สำหรับเสียงที่มีการแสดงออกหรือดราม่า ให้ลองใช้ cfg_weight ต่ำและ exaggeration ตั้งแต่ 0.7 ขึ้นไป
- exaggeration ที่สูงมีแนวโน้มทำให้ความเร็วการพูดเร็วขึ้น
- การลด cfg_weight ช่วยชดเชยให้ความเร็วช้าลงและระมัดระวังมากขึ้น

PerTh watermark ในตัว

ไฟล์เสียงทั้งหมดที่สร้างด้วย Chatterbox จะมี watermark Perth ของ Resemble AI
watermark นี้เป็น watermark แบบ neural ที่ตรวจจับไม่ได้ อิงตาม Perceptual Threshold
ระบุว่ายังคงอยู่หลังการบีบอัด MP3 การตัดต่อเสียง และการปรับแต่งทั่วไป พร้อมรักษาความแม่นยำในการตรวจจับได้เกือบ 100%
การสกัด watermark ทำด้วย perth.PerthImplicitWatermarker() และ get_watermark()
- ผลลัพธ์จะแสดงเป็นไม่มี watermark 0.0 หรือมี watermark 1.0

การประเมิน

Chatterbox Turbo ได้รับการประเมินด้วย Podonos ซึ่งเป็นแพลตฟอร์มประเมินเสียงเชิงอัตวิสัยที่ทำซ้ำได้
ระบบ TTS คู่แข่งเป็นกลุ่มเปรียบเทียบ และจุดเน้นของการประเมินคือความชอบโดยรวม ความเป็นธรรมชาติ และการถ่ายทอดอารมณ์
มีรายงานการประเมินสาธารณะให้ดู
การประเมินทั้งหมดทำภายใต้เงื่อนไขเดียวกัน และเปิดให้เข้าถึงสาธารณะผ่าน Podonos

หมายเหตุอื่นนอกจากไลเซนส์

README ระบุว่า “อย่าใช้โมเดลนี้ทำเรื่องไม่ดี”
ระบุว่าพรอมป์ต์นำมาจากข้อมูลที่เข้าถึงได้อย่างอิสระบนอินเทอร์เน็ต

1 ความคิดเห็น

GN⁺ 2025-06-12

ความคิดเห็นจาก Hacker News

ดูเดโมได้ที่นี่: https://resemble-ai.github.io/chatterbox_demopage/
ถ้าไม่ใช่ตัวอย่างที่คัดมาอย่างดีเกินไป ก็ถือเป็นรีลีสที่ค่อนข้างดี ผมพูดเรื่องเดิมทุกครั้ง แต่พอลองทดลองเองแล้ว คอขวดของ AI เสียงไม่ได้อยู่ที่ การสังเคราะห์เสียง แต่อยู่ที่ คุณภาพการถอดเสียง มากกว่า ไม่รู้ว่าช่วงหลังเปลี่ยนไปหรือยัง
- ดูเหมือนว่าจะมี ข้อจำกัด 40 วินาที ที่ไม่มีใครพูดถึง ถ้าเสียงยาวเกิน 40 วินาทีจะถูกตัดออก
- จากประสบการณ์ช่วงหลัง LLM อ่านได้ค่อนข้างดีแม้จะมี ข้อผิดพลาดในการถอดเสียง ปนอยู่
  ยังไม่ได้ลองให้ทรานสคริปต์ทางเลือกหรือคะแนนความเชื่อมั่นกับ LLM ไปพร้อมกัน แต่ดูมีแนวโน้มสูงว่าจะใช้ประโยชน์จากสิ่งนั้นได้ดีด้วย
- ถ้ามีการผสานกับฟรอนต์เอนด์ที่แสดงรายการ คำพ้องรูปต่างเสียง/ต่างความหมาย ที่พบในข้อความให้ผู้ใช้ดูและให้ยืนยันทีละรายการก็น่าจะดี
  ควรมีฟังก์ชันเทียบกับรายการวลีที่พบบ่อยด้วย การที่ LLM ออกเสียง “live feed” หรือ “live here” ผิดนั้นแก้ตัวได้ยาก
- เห็นด้วย ผมเคยใช้ Speechmatics แล้วการถอดเสียงทำได้ค่อนข้างดี
- ถ้าใช้เฉพาะภาษาอังกฤษและไม่ใช่เชิงพาณิชย์ Parakeet แทบไม่มีที่ติเลย
  https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2
  ผมใช้กับแชตสดและการสร้างซับไตเติล และบน 3090 ประมวลผลรายการทีวีหนึ่งตอนได้ในไม่ถึง 1 นาที ส่วน Whisper สำหรับผมมีอาการ hallucination เยอะเกินไป และมีประโยชน์กว่าเมื่อใช้เป็นตัวจำแนกประเภท
ลองรันฟรีได้ที่นี่: https://huggingface.co/spaces/ResembleAI/Chatterbox
- น่าเสียดายที่ไม่ได้เปิดโค้ดสำหรับการเทรนหรือการ fine-tuning ดังนั้นจึงไม่เหมือนความหมายของคำว่า “เปิด” ในกรณีของ Flux หรือ Stable Diffusion
  ถ้าต้องการโมเดลที่ “เปิด” มากกว่านี้ ในแง่การโคลนเสียงแบบสุ่ม MaskGCT, MegaTTS3 ฟังดูดีกว่า และในแง่การแปลงเสียง Seed-VC, MegaTTS3 ฟังดูดีกว่า อย่างไรก็ตาม มีเพียง Seed-VC เท่านั้นที่มีโค้ดเทรน/fine-tuning ถ้ายังไงก็ต้องใช้โมเดลที่ fine-tune ไม่ได้ และต้องการการโคลนแบบสุ่มที่เข้ากับเสียงของตัวเองมากกว่า ใช้ฝั่งนี้แทน Chatterbox จะดีกว่า โดยเฉพาะ MegaTTS3 ของ ByteDance นั้นแข็งแกร่งมาก นักวิจัยของ ByteDance นำหน้าทีมวิจัย TTS ส่วนใหญ่ไปไกลมาก ยกเว้น ElevenLabs และยังมีทั้งเงินทุน นักวิจัยระดับปริญญาเอก และข้อมูลเทรนมากกว่ามาก
- เอามาเล่นสนุกดี
  แต่สำเนียงออสเตรเลียของผมถูกทำให้เป็นอังกฤษมาก ๆ แถมเหมือนสำเนียง RP หรู ๆ ด้วย ฟังดูเป็นธรรมชาติมากก็จริง แต่ไม่สามารถจำลองสำเนียงของผมได้ ถึงอย่างนั้น ถ้าไม่ได้พยายามเลียนแบบใครจริง ๆ ก็ชัดเจนอย่างน่าทึ่งและเหมาะกับ งาน TTS ส่วนใหญ่
- การใช้ตัวอย่างของ นักพากย์มืออาชีพ Jennifer English เป็นไฟล์เสียงอ้างอิงเริ่มต้นในเครื่องมือของ Hugging Face นี่โจ่งแจ้งเกินไป
- ในมุมความเป็นส่วนตัว อยากรู้ว่ามันทำงานอย่างไร สามารถนำตัวอย่างเสียงบันทึกไปใช้เทรนได้หรือไม่?
Chatterbox ยอดเยี่ยมมาก
ผมทำ API wrapper ที่ช่วยให้ติดตั้งง่ายขึ้น และรองรับ Docker ด้วย: https://github.com/travisvn/chatterbox-tts-api/
จากประสบการณ์ของผม นี่เป็นตัวเลือก โคลนเสียง ที่ใช้ในเครื่องได้ดีที่สุดอย่างชัดเจน
- ผมลองใช้ wrapper แล้ว ทั้ง Chatterbox TTS และ API wrapper น่าประทับใจจริง ๆ
  ขออภัยถ้าคำถามต่อไปนี้เป็นระดับพื้นฐาน ผมหาคำสั่ง CLI ง่าย ๆ สำหรับระบุไฟล์ข้อความในเครื่องแทนการใช้ออบเจ็กต์ input แบบอินไลน์อยู่ แต่หาไม่เจอ ถ้ามีคำใบ้จะขอบคุณมาก
- ผมพยายามราวหนึ่งชั่วโมงเพื่อรันบน RTX 50 ซีรีส์แต่ไม่สำเร็จ และใช้ PyTorch 2.7 ก็ไม่ได้
  ดูเหมือนจะทำมาโดยอิงกับ 2.6
  "chatterbox-tts 0.1.2 requires torch==2.6.0, but you have torch 2.7.0+cu128 which is incompatible. chatterbox-tts 0.1.2 requires torchaudio==2.6.0, but you have torchaudio 2.7.0+cu128 which is incompatible."
- ใช้บนพีซีที่ไม่มี GPU ได้ไหม?
ระบุว่าไฟล์เสียงทั้งหมดที่ Chatterbox สร้างขึ้นจะมี วอเตอร์มาร์ก Perth ของ Resemble AI อยู่ด้วย
ว่ากันว่าเป็นวอเตอร์มาร์กแบบโครงข่ายประสาทที่มนุษย์รับรู้ไม่ได้ ทนต่อการบีบอัด MP3 การตัดต่อเสียง และการดัดแปลงทั่วไป และยังคงความแม่นยำในการตรวจจับไว้ได้เกือบ 100% แต่ถ้าผมไม่ได้เข้าใจผิด แค่คอมเมนต์การเรียก apply_watermark ใน tts.py ก็ปิดวอเตอร์มาร์กได้ง่าย ๆ ไม่ใช่หรือ? https://github.com/resemble-ai/chatterbox/blob/master/src/ch...
ผมเคยคิดว่าแก่นสำคัญของวอเตอร์มาร์กแบบนี้คือมันควรถูกฝังไว้ใน weight ของโมเดลอย่างใดอย่างหนึ่ง จนแยกออกได้ไม่ง่าย ถ้าจะปล่อยโมเดลโอเพนซอร์สแล้วใส่วอเตอร์มาร์กเป็นขั้นตอน post-processing แยกต่างหาก ก็ไม่เข้าใจว่าตั้งแต่แรกใส่วอเตอร์มาร์กไปทำไม
- อาจเป็น ท่าทีเพื่อปัดความรับผิดชอบ อย่างหนึ่ง คล้ายกับที่ Stable Diffusion รุ่นก่อน ๆ เคยมีตัวกรองเนื้อหา
  หรืออาจมีจุดประสงค์เพื่อป้องกันไม่ให้ข้อมูลแปลก ๆ หลุดปนเข้าไปโดยไม่ตั้งใจในแง่ของข้อมูลฝึกสอนก็ได้
- ใน parser ยังมี flag สำหรับปิดโดยตรงคือ --no-watermark ด้วย ผมนึกว่าใส่มาเพื่อให้ผู้ใช้ปลายทางที่เอาไปใช้ในผลิตภัณฑ์ที่ใหญ่กว่าใช้เป็น “ฟีเจอร์”
- บริษัทที่ไม่ใช่ OpenAI, Google, ElevenLabs ถ้าไม่โอเพนซอร์สแบบรุกหนัก ก็แทบจะไม่มีความหมายไปโดยสิ้นเชิง
  ผู้นำในตลาด TTS นั้นชัดเจนและปักหลักลึกแล้ว ดังนั้นบริษัทอย่าง Resemble, Play(HT) จึงต้องให้ weight และปรับเข้าหานักพัฒนาอย่างจริงจัง [1] ส่วนการทำวอเตอร์มาร์กคือกลไกปัดความรับผิดชอบต่อเรื่องนั้น ถ้าไม่มีวอเตอร์มาร์ก ความกังวลเรื่องการนำไปใช้ในทางที่ผิดจะถูกหยิบมาพูดอย่างหนัก โดยมีสื่อสายต่อต้าน AI อย่าง 404Media เป็นศูนย์กลาง [2]
  [1] นี่คือวิธีที่ถูกต้อง ต้องให้ซอร์สโค้ดและ weight พร้อมทั้งมี API ของตัวเองและบริการ fine-tuning ด้วย เพื่อไม่ให้นักพัฒนาต้องยุ่งยาก แบบนั้นจึงจะดึงส่วนแบ่งตลาดบางส่วนกลับมาได้
  [2] https://www.404media.co/wikipedia-pauses-ai-generated-summar...
อาจเป็นคำถามโง่ ๆ แต่ ฮาร์ดแวร์ขั้นต่ำ ที่รันได้ต้องประมาณไหน?
- ผมตั้งใจจะมาบอกว่ามันรันบน CPU เก่า ๆ เป็นอย่างไร แต่ปล้ำอยู่ราว 30 นาทีก็ยังรันไม่ได้เลย
  เผื่อจะมีประโยชน์ ขอจดปัญหาไว้: ใช้ Python 3.13 ไม่ได้ แต่ถ้าสร้าง virtual environment 3.12 ด้วย uv ก็แก้ได้ มีข้อความว่าไม่มี numpy 1.26.4 ทั้งที่จริง ๆ มีอยู่ และ uv pip กำลังค้นหาเฉพาะใน repository ของ PyTorch ต้องใส่ flag --index-strategy เพื่อให้ตรวจ repository อื่นด้วย เวอร์ชัน pip install chatterbox-tts มีบั๊กในโหมด CPU-only จึงต้อง clone Git repository และ main เวอร์ชันล่าสุดต้องใช้ protobuf-compiler บน Debian สุดท้ายเจอ CMake error ที่ตีความยาก แต่ดูเหมือนจะบ่นว่าไม่มี Python development headers ผมจะทำ inference ไม่ได้จะคอมไพล์ Python ทำไมถึงต้องใช้ก็ไม่รู้
  รู้ว่าบ่นไปก็ไม่สร้างสรรค์ แต่แทบทุกครั้งที่รันโปรเจกต์ Python ของคนอื่นก็เจอประสบการณ์แบบนี้ เจอปัญหาหนึ่งแล้วถอย เจออีกปัญหาแล้วถอย ผ่านไปชั่วโมงหนึ่งก็ยังรันไม่ได้อยู่ดี
- ตาม GitHub issue นี้ ต้องใช้ VRAM 6~7GB: https://github.com/resemble-ai/chatterbox/issues/44
  ถ้าโมเดลดี ก็น่าจะมีใครสักคนหาวิธี optimize ให้รันด้วยทรัพยากรน้อยกว่านี้ได้
  แก้ไข: ลองรันบน Nvidia 2060 รุ่นเก่าแล้ว และดูเหมือนการใช้ VRAM สูงสุดจะอยู่ราว 5GB
- ดูจากหน้า issue แล้ว ตอนนี้เหมือนยัง optimize ได้ไม่ดีนัก[1]
  ในสภาพค่าเริ่มต้น ถ้าจะให้รันได้เร็วพอสมควร ดูเหมือนต้องใช้ฮาร์ดแวร์ผู้บริโภคที่ค่อนข้างแรง แต่ก็น่าจะยังมีช่องให้ปรับปรุงอีกมาก และผมไม่ใช่ผู้เชี่ยวชาญ
  [1]: https://github.com/resemble-ai/chatterbox/issues/127
- ไม่ใช่คำถามโง่ ๆ แต่เป็นคำถามที่ดีที่สุดเลย
  ต่อให้รันได้ฟรี แต่ถ้าเช่าใช้ถูกกว่า การรันเองก็หมดความหมาย
- ผมก็เข้ามาเพื่อจะถามเรื่องนี้เหมือนกัน อยากรู้ว่าต้องใช้ GPU ราคาสี่หลักไหม หรือรันได้บน ThinkPad อายุ 12 ปี หรืออยู่ตรงกลางระหว่างนั้น
ฟีเจอร์ ขยายอารมณ์ให้เด่นขึ้น น่าสนใจ แต่ยังไม่เห็นอะไรที่อเนกประสงค์และ “ปั้น” เสียงได้ง่ายเท่า ElevenLabs ที่สร้างเสียงจากแค่คำอธิบายเสียงที่ต้องการ
SparkTTS มีพารามิเตอร์เพิ่มเติมบางอย่าง และถ้าดู placeholder ในโค้ดโปรเจกต์ GitHub ก็เห็นความเป็นไปได้ว่าโมเดลอาจถูกพัฒนาให้ควบคุมอารมณ์ได้ละเอียดขึ้น ตอนนี้ผมก็เคยประสบความสำเร็จอยู่บ้างด้วยการใส่ cue ในข้อความเพื่อชี้นำจังหวะและโทนอย่างแรง แล้วเอาผลลัพธ์นั้นกลับเข้าไปแปลงเสียงอีกทีเพื่อให้เข้าใกล้ผลที่ต้องการ แต่มันเป็นกระบวนการที่ยุ่งยากกว่า ElevenLabs มาก
กับสำเนียงที่พบได้บ่อยมาก ๆ ทำได้ยอดเยี่ยม แต่สำเนียงอื่น ๆ ที่ก็พบได้ค่อนข้างบ่อย กลับอาจถูกตรึงไปเป็นสำเนียงอื่นได้ง่าย
เช่น ไฟล์อัดเสียงสกอตแลนด์บางไฟล์ออกมาเป็นสำเนียงออสเตรเลีย และสำเนียงยอร์กเชียร์ที่ค่อนข้างอ่อนก็เป็นแบบเดียวกัน
- เรื่องนี้ดูจะบอกอะไรเกี่ยวกับ สำเนียงสกอตแลนด์ มากกว่าตัวโมเดลนะ
- น่าสนใจที่ สำเนียงออสเตรเลีย ของผมกลับถูกเปลี่ยนให้ฟังเหมือน RP อังกฤษมาก ๆ จู่ ๆ ก็ดูผู้ดีสุด ๆ
- ผมเป็นสำเนียง RP อังกฤษ แล้วให้มันฟังสำเนียงยอร์กเชียร์กับสำเนียงสกอตแลนด์ตามลำดับ
- เหมือนนักแสดงมืออาชีพเลย
สิ่งพวกนี้ดีพอที่จะอ่านหนังสือให้ฟังได้อย่างน่าเชื่อถือแล้วหรือยัง? หรือพอพูดไปได้ไม่กี่ย่อหน้า ความสม่ำเสมอของเสียง ก็พังลง?
- ระบบ TTS ส่วนใหญ่แบบนี้มีแนวโน้มจะพังเมื่อข้อความยาวขึ้น
  สำหรับงานเขียนยาว ๆ ควรแบ่งสร้างเป็นแบตช์ระดับย่อหน้า แล้วค่อยนำมาต่อกันในตอนท้าย นอกจากนี้ ถ้าไฟล์ WAV ตัวอย่างแบบ one-shot ไม่สะอาดมากพอ Chatterbox ก็เคยสร้างเสียงฟิ้วที่ดูเหมือนเสียงหยาบคายแบบสุ่มที่ท้ายเสียงที่สร้างออกมา ถ้ากำลังอัด Dante's Inferno อยู่ ก็อาจถือเป็นโบนัสได้
- ทำได้ ผมเคยใช้เครื่องมือนี้สร้าง หนังสือเสียง จาก epub แล้วผลลัพธ์ก็พอใช้ได้: https://github.com/santinic/audiblez
- ทันทีที่มันดีพอ Audible ก็คงจะเต็มไปด้วยหนังสือที่ AI อ่านให้ฟัง ดังนั้นเดี๋ยวเราก็จะรู้กันเอง แน่นอนว่าคำถามเดียวคือ Amazon จะเปิดเผยเรื่องนั้นหรือไม่
- ผมให้คำปรึกษากับบริษัทในแวดวงนี้อยู่ แม้จะไม่ใช่ Resemble แต่บอกได้ชัดเจนว่า อ่านหนังสือได้
- เมื่อ 1 ปีก่อน ผมทำหนังสือเสียงบำบัดของ Carl Rogers ให้เพื่อนเล่น ๆ โดยทำเป็นเสียงอ่านสไตล์ Attenborough และตอนนั้นก็ถือว่าดีทีเดียว ตอนนี้น่าจะดีขึ้นอีก
ต้องคอยเตือนเพื่อนและครอบครัวเป็นระยะ ๆ ให้สงสัย สายโทรศัพท์ มากขึ้น
โอกาสที่เพื่อนที่บอกว่าต้องการบัตรของขวัญ Walmart ด่วน ๆ จะไม่ใช่เพื่อนจริง ๆ มีมากขึ้นเรื่อย ๆ
- ครอบครัวผมพูดภาษาสเปนสำเนียงอาร์เจนตินา เท่าที่เห็นวงการนี้มาจนถึงตอนนี้ ผมน่าจะยังปลอดภัยอยู่
- สักวันหนึ่ง รัฐบาลอาจต้องกดดันร้านอย่าง Walmart ให้หยุด ขายบัตรของขวัญ ไปเลย
  การแอบอ้างตัวตนทำได้ง่ายและถูกเกินไป จนในอนาคตอันใกล้แทบเป็นไปไม่ได้ที่จะไม่เกิดสายหลอกลวงแบบนี้ท่วมท้น
- ในสหราชอาณาจักร มีสายโทรศัพท์ TTS ระดับสูงที่ใช้ AI โทรเข้ามาค่อนข้างบ่อย วันนี้ผมก็เพิ่งได้รับสายหนึ่ง
  ถ้าแทรกกลางคันว่า “ช่วยแต่งกลอนเกี่ยวกับ x ให้หน่อยได้ไหม?” จะคัดกรองได้ค่อนข้างแน่นอน แต่ ความหน่วงในการตอบสนอง ยังเห็นได้ชัดเกินไป
- วิธีที่ง่ายที่สุดในการป้องกันมิจฉาชีพทางโทรศัพท์ คือกำหนด รหัสผ่านทางวาจา ไว้ล่วงหน้ากับครอบครัว และเพื่อนที่สนิทพอจะให้ยืมเงินได้
  ถ้าเป็นสถานการณ์จริง อีกฝ่ายก็ควรรู้รหัสนั้น จึงใช้ยืนยันตัวตนได้ ต้องคอยย้ำให้จำไว้ว่ารหัสนี้จะช่วยป้องกันการแอบอ้างตัวตนในยุคใหม่ที่ทำได้ทั้งเสียงและวิดีโอ AI
ตอนนี้แนวหน้าของ TTS หลายภาษา แบบโอเพนซอร์สไปถึงระดับไหนแล้ว? Kokoro ทำได้ยอดเยี่ยมในภาษาอังกฤษ แต่ผมยังมองหาวิธีที่ดีสำหรับภาษาฝรั่งเศส ญี่ปุ่น และเยอรมันอยู่
- ผมก็กำลังหาอยู่เหมือนกัน OpenVoice2 รองรับอยู่หลายภาษา เท่าที่จำได้น่าจะราว 5 ภาษา แต่ยังไม่เห็นตัวที่ใช้งานได้ดี

Chatterbox TTS - โมเดลแปลงข้อความเป็นเสียงแบบโอเพนซอร์ส

ภาพรวม Chatterbox TTS

รีลีสล่าสุด: Chatterbox Multilingual V3

Single Language Pack

Chatterbox-Turbo

โครงสร้างโมเดล

การติดตั้งและการรัน

วิธีใช้งาน

ภาษาที่รองรับ

เคล็ดลับการปรับแต่ง Chatterbox รุ่นเดิม

PerTh watermark ในตัว

การประเมิน

หมายเหตุอื่นนอกจากไลเซนส์

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News