ไม่แน่ใจว่าโพสต์นี้เข้ากับ ASK GN ไหมนะครับ..! แต่ดูแล้วก็น่าจะไม่ใช่ข่าวหรือ Show เลยเอามาโพสต์ที่นี่ครับ
ตอนนี้กำลังลองทำตามความเห็นที่ทุกท่านเคยให้ไว้ก่อนหน้านี้อยู่ครับ
บังเอิญว่าเพื่อนที่ทำงานสายธุรกิจด้วยกันก็มีไอเดียคล้ายกัน เลยมีคนนอกสายพัฒนาสองคนกำลังลุยทำ MVP กันแบบงม ๆ อยู่ครับ
(ทั้ง Claude Code 5X และค่าใช้จ่าย API ตอนนี้ควักเงินตัวเองทั้งหมดครับ.. ส่วนเพื่อนสายธุรกิจก็สนับสนุนด้วยเหล้าและอาหารครับ.. ฮ่าๆ)
พอทำโดยอิงจากคอนเทนต์อย่างซีรีส์/วาไรตี้/ภาพยนตร์ โมเดลที่ใช้ได้ก็มีข้อจำกัดพอสมควรครับ
เลยลองหาไปเรื่อย ๆ จนตอนนี้ใช้ Whisper(Open AI API), Pyannote และ Assembly AI อยู่ครับ
ตอนนี้ช่วงใช้ฟรีของ pyannote หมดแล้วและต้องจ่ายเงิน แต่เพราะไม่ได้คิดตามการใช้งานและเป็นแบบสมัครสมาชิก ($19/month) เลยขอผ่านไปก่อน
ตอนนี้เลยกำลังทดสอบกับ Deepgram Nova-3 อยู่ครับ (สมัครสมาชิกแล้วให้ $200)
แต่ก็อย่างที่คิดครับ... พอไม่ใช้ pyannote การแยกผู้พูดก็ค่อนข้างยาก เลยใช้ replicate.com กับ meronym/speaker-diarization สำหรับแยกผู้พูดอยู่ครับ
ดูจากผลลัพธ์สุดท้ายแล้ว ก็ยังพอแยกผู้พูดได้ประมาณหนึ่งครับ
มีแผนจะเอาไปเทียบกับ Clova แล้วจะมาแชร์ผลการเปรียบเทียบให้ด้วยครับ!
จากตรงนี้สิ่งที่กำลังกังวลต่อคือ
- ตอนนี้การแยกผู้พูดทำบนพื้นฐานของเสียง ถ้าเพิ่มฟีเจอร์รู้จำใบหน้าเข้าไป จะช่วยให้แม่นยำขึ้นไหม?
- เมทาดาทาที่จำเป็นสำหรับการรู้จำใบหน้าควรเก็บรวบรวมอย่างไร?
- ถ้าทำโดยอิงจากคอนเทนต์อย่างซีรีส์/ภาพยนตร์/วาไรตี้ ควรไปเอาเมทาจากที่ไหนดี? (Naver, Namuwiki ฯลฯ)
- การเก็บเมทาดาทาจะช่วยให้คุณภาพดีขึ้นคุ้มกับต้นทุนและเวลาที่ใช้ไหม?
ถ้ามีรุ่นพี่ท่านไหนเคยกังวลหรือทำเรื่องแนวนี้มาก่อน รบกวนช่วยแนะนำกันเยอะ ๆ เลยนะครับ...!!!
ยังไม่มีความคิดเห็น