ผมลองใช้ทั้ง Whisper ของ OpenAI และ Clova ของ NCP แล้ว แต่รู้สึกว่าการแยกผู้พูดหลายคนในภาษาเกาหลีนั้นยากกว่าที่คิดมากครับ
มีทั้งโมเดลแบบโลคัลหรือคลาวด์ รวมถึงโมเดลเชิงพาณิชย์ ที่เคยลองใช้แล้วพอจะแนะนำกันได้บ้างไหมครับ?
กระบวนการที่คาดไว้คือ
- เก็บรวบรวมคอนเทนต์ > แยกเสียง (Music, Effect, Voice) > วิเคราะห์รูปคลื่นเสียง > แยกผู้พูดหลายคนในไฟล์เสียง > ทำ STT โดยอิงตามผู้พูดหลายคน > สร้างสคริปต์โดยอิงข้อมูลไทม์โค้ด ตามลำดับนี้ครับ
ดูจากผลลัพธ์แล้วก็น่าจะต่อยอดไปจนถึงงานพากย์/ทำซับได้ด้วยครับ
เกณฑ์ที่ผมใช้ดูมีดังนี้ครับ
- ผลลัพธ์ของการแยกเสียงออกมาเป็นอย่างไร?
- สามารถจำแนกได้ไหมว่าเสียงเดียวกันเป็นบุคคลคนเดิมจากข้อมูลเสียง?
รบกวนทุกท่านช่วยแชร์ความเห็นด้วยครับ!
5 ความคิดเห็น
จากที่ผม/ฉันได้ลองมาหลายอย่างช่วงหลัง ถ้าเป็นการแยกผู้พูดหลายคน Cloava ทำได้ดีครับ/ค่ะ
ถ้ารับคุณภาพระดับพอเหมาะได้ ตัว Return Zero ที่แนะนำไว้ข้างบนก็ใช้ได้เหมือนกันครับ/ค่ะ
ถึงคุณภาพของ STT จะด้อยลงไปนิดหน่อย แต่ถ้าส่งผลลัพธ์ต่อให้ LLM ที่ประสิทธิภาพดี ก็ยังให้ผลที่น่าพอใจได้ในระดับหนึ่ง
ในกรณีของผม/ฉัน การระบุผู้พูดไม่ได้สำคัญมาก เลยเลือกใช้ Gemini
แต่ละโซลูชันมีข้อดีข้อเสียต่างกัน สุดท้ายจึงแนะนำให้คุณลองสุ่มข้อมูลที่อยากแก้ปัญหามาสักหลายตัวอย่างแล้วค่อยเลือกครับ/ค่ะ
https://developers.rtzr.ai/docs/stt-file/diarization/
แม้จะใช้เฉพาะการแยกแยะผู้พูดหลายคนอย่างเดียวไม่ได้ แต่มีการให้บริการผ่าน API โดยผูกมากับ STT (OpenAI หรือ Clova ก็คล้ายกัน)
ดูเหมือนว่า Daglo จะทำการแยกผู้พูดได้ดีนะครับ
โอ้! อย่างนั้นเหรอครับ?! นี่เป็นแพลตฟอร์มหรือเปล่าครับ? ผมกำลังมองหารูปแบบที่ทำงานด้วย local LLM หรือแบบ API-based อยู่ครับ!
ใช่ น่าเสียดายที่ Daglo ยังไม่ได้ให้บริการ local LLM!
แม้จะเป็นแบบมีค่าใช้จ่าย แต่ก็ดูเหมือนว่าจะมี API ให้ด้วยครับ (https://developers.daglo.ai/guide/)