MimikaStudio - โอเพนซอร์สโคลนเสียงและ TTS สำหรับ Mac

xguru · 2026-03-19T09:31:02+09:00

รวมความสามารถโคลนเสียง, แปลงข้อความเป็นเสียง, อ่านเอกสารออกเสียง และสร้างหนังสือเสียงไว้ในที่เดียว ใช้ การเร่งความเร็ว Metal บนพื้นฐาน MLX เพื่อให้ได้ประสิทธิภาพแบบเนทีฟบน macOS (รองรับ Windows ในอนาคต) รวมเอนจิน Qwen3-TTS และ Chatterbox ที่สามารถ โคลนเสียงได้จากตัวอย่างเพียง 3 วินาที รองรับการโคลนเสียงหลายภาษา (23 ภาษา รวมภาษาเกาหลี) และการแสดงอารมณ์ รวมโมเดลสังเคราะห์เสียงรุ่นใหม่อย่าง Kokoro TTS, Supertonic-2 และ CosyVoice3 ONNX ฟีเจอร์ ตัวอ่านเอกสารออกเสียง: รองรับการอ่านไฟล์ PDF, DOCX, EPUB, Markdown และ TXT แบบแยกเป็นประโยค ตัวสร้างหนังสือเสียง: แปลงทั้งเอกสารเป็นรูปแบบ WAV/MP3/M4B พร้อมการจัดการคิวรายบท ติดตามความคืบหน้า และนำพรีเซ็ตเสียงกลับมาใช้ซ้ำได้ ทำงานเป็น Agentic Voice Cloning Server และรองรับการประมวลผลแบบขนานผ่าน การออร์เคสเตรตคิวงานขั้นสูง มีทั้ง UI, API และ CLI จึงเชื่อมต่อกับระบบอัตโนมัติภายในเครื่องและการทำงานร่วมกับภายนอกได้ พร้อมมี MCP server ในตัว มี ไลบรารีเสียงที่ใช้ร่วมกันได้ ทำให้สามารถนำเสียงที่อัปโหลดไปใช้ซ้ำกับทุกเอนจินได้ มี ตัวจัดการโมเดล ในตัว: ดาวน์โหลดโมเดลจาก HuggingFace และตรวจสอบสถานะได้ รองรับ การเชื่อมต่อ Multi-LLM (Claude, OpenAI, Ollama เป็นต้น) เป็นโค้ดเบสขนาดประมาณ 18,600 บรรทัด ประกอบด้วย FastAPI backend และ Flutter desktop UI Python backend ประมาณ 8,500 บรรทัด, Dart UI ประมาณ 10,100 บรรทัด มี ไบนารีสำหรับ macOS โดยเฉพาะ ส่วน Windows/Linux รองรับเพียงความเข้ากันได้ระดับโค้ดเท่านั้น (จะมีการบิลด์ในอนาคต) เปิดเผยซอร์สโค้ดภายใต้ Business Source License 1.1 (BSL-1.1) โดยไบนารีใช้ไลเซนส์สำหรับการแจกจ่ายแยกต่างหาก

(github.com/BoltzmannEntropy)

42 คะแนน โดย xguru 2026-03-19 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

รวมความสามารถโคลนเสียง, แปลงข้อความเป็นเสียง, อ่านเอกสารออกเสียง และสร้างหนังสือเสียงไว้ในที่เดียว
ใช้ การเร่งความเร็ว Metal บนพื้นฐาน MLX เพื่อให้ได้ประสิทธิภาพแบบเนทีฟบน macOS (รองรับ Windows ในอนาคต)
รวมเอนจิน Qwen3-TTS และ Chatterbox ที่สามารถ โคลนเสียงได้จากตัวอย่างเพียง 3 วินาที
- รองรับการโคลนเสียงหลายภาษา (23 ภาษา รวมภาษาเกาหลี) และการแสดงอารมณ์
รวมโมเดลสังเคราะห์เสียงรุ่นใหม่อย่าง Kokoro TTS, Supertonic-2 และ CosyVoice3 ONNX
ฟีเจอร์ ตัวอ่านเอกสารออกเสียง: รองรับการอ่านไฟล์ PDF, DOCX, EPUB, Markdown และ TXT แบบแยกเป็นประโยค
ตัวสร้างหนังสือเสียง: แปลงทั้งเอกสารเป็นรูปแบบ WAV/MP3/M4B พร้อมการจัดการคิวรายบท ติดตามความคืบหน้า และนำพรีเซ็ตเสียงกลับมาใช้ซ้ำได้
ทำงานเป็น Agentic Voice Cloning Server และรองรับการประมวลผลแบบขนานผ่าน การออร์เคสเตรตคิวงานขั้นสูง
มีทั้ง UI, API และ CLI จึงเชื่อมต่อกับระบบอัตโนมัติภายในเครื่องและการทำงานร่วมกับภายนอกได้ พร้อมมี MCP server ในตัว
มี ไลบรารีเสียงที่ใช้ร่วมกันได้ ทำให้สามารถนำเสียงที่อัปโหลดไปใช้ซ้ำกับทุกเอนจินได้
มี ตัวจัดการโมเดล ในตัว: ดาวน์โหลดโมเดลจาก HuggingFace และตรวจสอบสถานะได้
รองรับ การเชื่อมต่อ Multi-LLM (Claude, OpenAI, Ollama เป็นต้น)
เป็นโค้ดเบสขนาดประมาณ 18,600 บรรทัด ประกอบด้วย FastAPI backend และ Flutter desktop UI
- Python backend ประมาณ 8,500 บรรทัด, Dart UI ประมาณ 10,100 บรรทัด
มี ไบนารีสำหรับ macOS โดยเฉพาะ ส่วน Windows/Linux รองรับเพียงความเข้ากันได้ระดับโค้ดเท่านั้น (จะมีการบิลด์ในอนาคต)
เปิดเผยซอร์สโค้ดภายใต้ Business Source License 1.1 (BSL-1.1) โดยไบนารีใช้ไลเซนส์สำหรับการแจกจ่ายแยกต่างหาก

2 ความคิดเห็น

neocode24 2026-03-19

นี่คือเวอร์ชัน GUI ของ mlx-audio ใช่ไหม? คุณภาพดีมากจริง ๆ ครับ

jhk0530 2026-03-19

ลองใช้แล้ว โคตรเจ๋งจริงๆ

MimikaStudio - โอเพนซอร์สโคลนเสียงและ TTS สำหรับ Mac

บทความที่เกี่ยวข้อง

2 ความคิดเห็น