ไม่แน่ใจว่าโพสต์นี้เข้ากับ ASK GN ไหมนะครับ..! แต่ดูแล้วก็น่าจะไม่ใช่ข่าวหรือ Show เลยเอามาโพสต์ที่นี่ครับ

ตอนนี้กำลังลองทำตามความเห็นที่ทุกท่านเคยให้ไว้ก่อนหน้านี้อยู่ครับ
บังเอิญว่าเพื่อนที่ทำงานสายธุรกิจด้วยกันก็มีไอเดียคล้ายกัน เลยมีคนนอกสายพัฒนาสองคนกำลังลุยทำ MVP กันแบบงม ๆ อยู่ครับ
(ทั้ง Claude Code 5X และค่าใช้จ่าย API ตอนนี้ควักเงินตัวเองทั้งหมดครับ.. ส่วนเพื่อนสายธุรกิจก็สนับสนุนด้วยเหล้าและอาหารครับ.. ฮ่าๆ)

พอทำโดยอิงจากคอนเทนต์อย่างซีรีส์/วาไรตี้/ภาพยนตร์ โมเดลที่ใช้ได้ก็มีข้อจำกัดพอสมควรครับ
เลยลองหาไปเรื่อย ๆ จนตอนนี้ใช้ Whisper(Open AI API), Pyannote และ Assembly AI อยู่ครับ

ตอนนี้ช่วงใช้ฟรีของ pyannote หมดแล้วและต้องจ่ายเงิน แต่เพราะไม่ได้คิดตามการใช้งานและเป็นแบบสมัครสมาชิก ($19/month) เลยขอผ่านไปก่อน
ตอนนี้เลยกำลังทดสอบกับ Deepgram Nova-3 อยู่ครับ (สมัครสมาชิกแล้วให้ $200)

แต่ก็อย่างที่คิดครับ... พอไม่ใช้ pyannote การแยกผู้พูดก็ค่อนข้างยาก เลยใช้ replicate.com กับ meronym/speaker-diarization สำหรับแยกผู้พูดอยู่ครับ

ดูจากผลลัพธ์สุดท้ายแล้ว ก็ยังพอแยกผู้พูดได้ประมาณหนึ่งครับ
มีแผนจะเอาไปเทียบกับ Clova แล้วจะมาแชร์ผลการเปรียบเทียบให้ด้วยครับ!

จากตรงนี้สิ่งที่กำลังกังวลต่อคือ

  1. ตอนนี้การแยกผู้พูดทำบนพื้นฐานของเสียง ถ้าเพิ่มฟีเจอร์รู้จำใบหน้าเข้าไป จะช่วยให้แม่นยำขึ้นไหม?
  2. เมทาดาทาที่จำเป็นสำหรับการรู้จำใบหน้าควรเก็บรวบรวมอย่างไร?
  3. ถ้าทำโดยอิงจากคอนเทนต์อย่างซีรีส์/ภาพยนตร์/วาไรตี้ ควรไปเอาเมทาจากที่ไหนดี? (Naver, Namuwiki ฯลฯ)
  4. การเก็บเมทาดาทาจะช่วยให้คุณภาพดีขึ้นคุ้มกับต้นทุนและเวลาที่ใช้ไหม?

ถ้ามีรุ่นพี่ท่านไหนเคยกังวลหรือทำเรื่องแนวนี้มาก่อน รบกวนช่วยแนะนำกันเยอะ ๆ เลยนะครับ...!!!

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น