42 คะแนน โดย xguru 2026-03-19 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • รวมความสามารถโคลนเสียง, แปลงข้อความเป็นเสียง, อ่านเอกสารออกเสียง และสร้างหนังสือเสียงไว้ในที่เดียว
  • ใช้ การเร่งความเร็ว Metal บนพื้นฐาน MLX เพื่อให้ได้ประสิทธิภาพแบบเนทีฟบน macOS (รองรับ Windows ในอนาคต)
  • รวมเอนจิน Qwen3-TTS และ Chatterbox ที่สามารถ โคลนเสียงได้จากตัวอย่างเพียง 3 วินาที
    • รองรับการโคลนเสียงหลายภาษา (23 ภาษา รวมภาษาเกาหลี) และการแสดงอารมณ์
  • รวมโมเดลสังเคราะห์เสียงรุ่นใหม่อย่าง Kokoro TTS, Supertonic-2 และ CosyVoice3 ONNX
  • ฟีเจอร์ ตัวอ่านเอกสารออกเสียง: รองรับการอ่านไฟล์ PDF, DOCX, EPUB, Markdown และ TXT แบบแยกเป็นประโยค
  • ตัวสร้างหนังสือเสียง: แปลงทั้งเอกสารเป็นรูปแบบ WAV/MP3/M4B พร้อมการจัดการคิวรายบท ติดตามความคืบหน้า และนำพรีเซ็ตเสียงกลับมาใช้ซ้ำได้
  • ทำงานเป็น Agentic Voice Cloning Server และรองรับการประมวลผลแบบขนานผ่าน การออร์เคสเตรตคิวงานขั้นสูง
  • มีทั้ง UI, API และ CLI จึงเชื่อมต่อกับระบบอัตโนมัติภายในเครื่องและการทำงานร่วมกับภายนอกได้ พร้อมมี MCP server ในตัว
  • มี ไลบรารีเสียงที่ใช้ร่วมกันได้ ทำให้สามารถนำเสียงที่อัปโหลดไปใช้ซ้ำกับทุกเอนจินได้
  • มี ตัวจัดการโมเดล ในตัว: ดาวน์โหลดโมเดลจาก HuggingFace และตรวจสอบสถานะได้
  • รองรับ การเชื่อมต่อ Multi-LLM (Claude, OpenAI, Ollama เป็นต้น)
  • เป็นโค้ดเบสขนาดประมาณ 18,600 บรรทัด ประกอบด้วย FastAPI backend และ Flutter desktop UI
    • Python backend ประมาณ 8,500 บรรทัด, Dart UI ประมาณ 10,100 บรรทัด
  • มี ไบนารีสำหรับ macOS โดยเฉพาะ ส่วน Windows/Linux รองรับเพียงความเข้ากันได้ระดับโค้ดเท่านั้น (จะมีการบิลด์ในอนาคต)
  • เปิดเผยซอร์สโค้ดภายใต้ Business Source License 1.1 (BSL-1.1) โดยไบนารีใช้ไลเซนส์สำหรับการแจกจ่ายแยกต่างหาก

2 ความคิดเห็น

 
neocode24 2026-03-19

นี่คือเวอร์ชัน GUI ของ mlx-audio ใช่ไหม? คุณภาพดีมากจริง ๆ ครับ

 
jhk0530 2026-03-19

ลองใช้แล้ว โคตรเจ๋งจริงๆ