- รวมความสามารถโคลนเสียง, แปลงข้อความเป็นเสียง, อ่านเอกสารออกเสียง และสร้างหนังสือเสียงไว้ในที่เดียว
- ใช้ การเร่งความเร็ว Metal บนพื้นฐาน MLX เพื่อให้ได้ประสิทธิภาพแบบเนทีฟบน macOS (รองรับ Windows ในอนาคต)
- รวมเอนจิน Qwen3-TTS และ Chatterbox ที่สามารถ โคลนเสียงได้จากตัวอย่างเพียง 3 วินาที
- รองรับการโคลนเสียงหลายภาษา (23 ภาษา รวมภาษาเกาหลี) และการแสดงอารมณ์
- รวมโมเดลสังเคราะห์เสียงรุ่นใหม่อย่าง Kokoro TTS, Supertonic-2 และ CosyVoice3 ONNX
- ฟีเจอร์ ตัวอ่านเอกสารออกเสียง: รองรับการอ่านไฟล์ PDF, DOCX, EPUB, Markdown และ TXT แบบแยกเป็นประโยค
- ตัวสร้างหนังสือเสียง: แปลงทั้งเอกสารเป็นรูปแบบ WAV/MP3/M4B พร้อมการจัดการคิวรายบท ติดตามความคืบหน้า และนำพรีเซ็ตเสียงกลับมาใช้ซ้ำได้
- ทำงานเป็น Agentic Voice Cloning Server และรองรับการประมวลผลแบบขนานผ่าน การออร์เคสเตรตคิวงานขั้นสูง
- มีทั้ง UI, API และ CLI จึงเชื่อมต่อกับระบบอัตโนมัติภายในเครื่องและการทำงานร่วมกับภายนอกได้ พร้อมมี MCP server ในตัว
- มี ไลบรารีเสียงที่ใช้ร่วมกันได้ ทำให้สามารถนำเสียงที่อัปโหลดไปใช้ซ้ำกับทุกเอนจินได้
- มี ตัวจัดการโมเดล ในตัว: ดาวน์โหลดโมเดลจาก HuggingFace และตรวจสอบสถานะได้
- รองรับ การเชื่อมต่อ Multi-LLM (Claude, OpenAI, Ollama เป็นต้น)
- เป็นโค้ดเบสขนาดประมาณ 18,600 บรรทัด ประกอบด้วย FastAPI backend และ Flutter desktop UI
- Python backend ประมาณ 8,500 บรรทัด, Dart UI ประมาณ 10,100 บรรทัด
- มี ไบนารีสำหรับ macOS โดยเฉพาะ ส่วน Windows/Linux รองรับเพียงความเข้ากันได้ระดับโค้ดเท่านั้น (จะมีการบิลด์ในอนาคต)
- เปิดเผยซอร์สโค้ดภายใต้ Business Source License 1.1 (BSL-1.1) โดยไบนารีใช้ไลเซนส์สำหรับการแจกจ่ายแยกต่างหาก
2 ความคิดเห็น
นี่คือเวอร์ชัน GUI ของ mlx-audio ใช่ไหม? คุณภาพดีมากจริง ๆ ครับ
ลองใช้แล้ว โคตรเจ๋งจริงๆ