2 คะแนน โดย somang04 12 일 전 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

ผมลองใช้ทั้ง Whisper ของ OpenAI และ Clova ของ NCP แล้ว แต่รู้สึกว่าการแยกผู้พูดหลายคนในภาษาเกาหลีนั้นยากกว่าที่คิดมากครับ
มีทั้งโมเดลแบบโลคัลหรือคลาวด์ รวมถึงโมเดลเชิงพาณิชย์ ที่เคยลองใช้แล้วพอจะแนะนำกันได้บ้างไหมครับ?

กระบวนการที่คาดไว้คือ

  1. เก็บรวบรวมคอนเทนต์ > แยกเสียง (Music, Effect, Voice) > วิเคราะห์รูปคลื่นเสียง > แยกผู้พูดหลายคนในไฟล์เสียง > ทำ STT โดยอิงตามผู้พูดหลายคน > สร้างสคริปต์โดยอิงข้อมูลไทม์โค้ด ตามลำดับนี้ครับ

ดูจากผลลัพธ์แล้วก็น่าจะต่อยอดไปจนถึงงานพากย์/ทำซับได้ด้วยครับ

เกณฑ์ที่ผมใช้ดูมีดังนี้ครับ

  • ผลลัพธ์ของการแยกเสียงออกมาเป็นอย่างไร?
  • สามารถจำแนกได้ไหมว่าเสียงเดียวกันเป็นบุคคลคนเดิมจากข้อมูลเสียง?

รบกวนทุกท่านช่วยแชร์ความเห็นด้วยครับ!

5 ความคิดเห็น

 
sungwoo 5 일 전

จากที่ผม/ฉันได้ลองมาหลายอย่างช่วงหลัง ถ้าเป็นการแยกผู้พูดหลายคน Cloava ทำได้ดีครับ/ค่ะ
ถ้ารับคุณภาพระดับพอเหมาะได้ ตัว Return Zero ที่แนะนำไว้ข้างบนก็ใช้ได้เหมือนกันครับ/ค่ะ
ถึงคุณภาพของ STT จะด้อยลงไปนิดหน่อย แต่ถ้าส่งผลลัพธ์ต่อให้ LLM ที่ประสิทธิภาพดี ก็ยังให้ผลที่น่าพอใจได้ในระดับหนึ่ง

ในกรณีของผม/ฉัน การระบุผู้พูดไม่ได้สำคัญมาก เลยเลือกใช้ Gemini
แต่ละโซลูชันมีข้อดีข้อเสียต่างกัน สุดท้ายจึงแนะนำให้คุณลองสุ่มข้อมูลที่อยากแก้ปัญหามาสักหลายตัวอย่างแล้วค่อยเลือกครับ/ค่ะ

 
arthurk 6 일 전

https://developers.rtzr.ai/docs/stt-file/diarization/
แม้จะใช้เฉพาะการแยกแยะผู้พูดหลายคนอย่างเดียวไม่ได้ แต่มีการให้บริการผ่าน API โดยผูกมากับ STT (OpenAI หรือ Clova ก็คล้ายกัน)

 
yunsub2 12 일 전

ดูเหมือนว่า Daglo จะทำการแยกผู้พูดได้ดีนะครับ

 
somang04 12 일 전

โอ้! อย่างนั้นเหรอครับ?! นี่เป็นแพลตฟอร์มหรือเปล่าครับ? ผมกำลังมองหารูปแบบที่ทำงานด้วย local LLM หรือแบบ API-based อยู่ครับ!

 
yunsub2 11 일 전

ใช่ น่าเสียดายที่ Daglo ยังไม่ได้ให้บริการ local LLM!
แม้จะเป็นแบบมีค่าใช้จ่าย แต่ก็ดูเหมือนว่าจะมี API ให้ด้วยครับ (https://developers.daglo.ai/guide/)