ก่อนหน้านี้ผมเคยโพสต์ถามเรื่อง multi-speaker ภาษาเกาหลีไว้ครับ! อัปเดตความคืบหน้าต่อจากนั้น!

3 คะแนน โดย somang04 2026-05-28 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

ไม่แน่ใจว่าโพสต์นี้เข้ากับ ASK GN ไหมนะครับ..! แต่ดูแล้วก็น่าจะไม่ใช่ข่าวหรือ Show เลยเอามาโพสต์ที่นี่ครับ

ตอนนี้กำลังลองทำตามความเห็นที่ทุกท่านเคยให้ไว้ก่อนหน้านี้อยู่ครับ
บังเอิญว่าเพื่อนที่ทำงานสายธุรกิจด้วยกันก็มีไอเดียคล้ายกัน เลยมีคนนอกสายพัฒนาสองคนกำลังลุยทำ MVP กันแบบงม ๆ อยู่ครับ
(ทั้ง Claude Code 5X และค่าใช้จ่าย API ตอนนี้ควักเงินตัวเองทั้งหมดครับ.. ส่วนเพื่อนสายธุรกิจก็สนับสนุนด้วยเหล้าและอาหารครับ.. ฮ่าๆ)

พอทำโดยอิงจากคอนเทนต์อย่างซีรีส์/วาไรตี้/ภาพยนตร์ โมเดลที่ใช้ได้ก็มีข้อจำกัดพอสมควรครับ
เลยลองหาไปเรื่อย ๆ จนตอนนี้ใช้ Whisper(Open AI API), Pyannote และ Assembly AI อยู่ครับ

ตอนนี้ช่วงใช้ฟรีของ pyannote หมดแล้วและต้องจ่ายเงิน แต่เพราะไม่ได้คิดตามการใช้งานและเป็นแบบสมัครสมาชิก ($19/month) เลยขอผ่านไปก่อน
ตอนนี้เลยกำลังทดสอบกับ Deepgram Nova-3 อยู่ครับ (สมัครสมาชิกแล้วให้ $200)

แต่ก็อย่างที่คิดครับ... พอไม่ใช้ pyannote การแยกผู้พูดก็ค่อนข้างยาก เลยใช้ replicate.com กับ meronym/speaker-diarization สำหรับแยกผู้พูดอยู่ครับ

ดูจากผลลัพธ์สุดท้ายแล้ว ก็ยังพอแยกผู้พูดได้ประมาณหนึ่งครับ
มีแผนจะเอาไปเทียบกับ Clova แล้วจะมาแชร์ผลการเปรียบเทียบให้ด้วยครับ!

จากตรงนี้สิ่งที่กำลังกังวลต่อคือ

ตอนนี้การแยกผู้พูดทำบนพื้นฐานของเสียง ถ้าเพิ่มฟีเจอร์รู้จำใบหน้าเข้าไป จะช่วยให้แม่นยำขึ้นไหม?
เมทาดาทาที่จำเป็นสำหรับการรู้จำใบหน้าควรเก็บรวบรวมอย่างไร?
ถ้าทำโดยอิงจากคอนเทนต์อย่างซีรีส์/ภาพยนตร์/วาไรตี้ ควรไปเอาเมทาจากที่ไหนดี? (Naver, Namuwiki ฯลฯ)
การเก็บเมทาดาทาจะช่วยให้คุณภาพดีขึ้นคุ้มกับต้นทุนและเวลาที่ใช้ไหม?

ถ้ามีรุ่นพี่ท่านไหนเคยกังวลหรือทำเรื่องแนวนี้มาก่อน รบกวนช่วยแนะนำกันเยอะ ๆ เลยนะครับ...!!!

5 ความคิดเห็น

boradi 2026-05-29

ผมเคยทำวิจัยเกี่ยวกับการแยกผู้พูดมาก่อน เลยขอเล่าจากเท่าที่ผมทราบนะครับ

ใช่ครับ มันจะละเอียดขึ้นได้ แต่ในทางเทคนิคก็น่าจะมีความยากพอสมควร เพราะต้องจับคู่ได้ถึงระดับการเปลี่ยนรูปปากกับการซิงก์เสียงเลยครับ มีโอเพนซอร์ซที่เกี่ยวข้องอยู่มาก เช่น TalkNet-ASD, 3D-Speaker-Toolkit ลองนำไปอ้างอิงดูก็ได้ครับ นอกจากนี้ช่วงหลังยังมีงานวิจัยอย่าง SpeakerLM ที่ผสานกับ LLM แล้วป้อนทั้งภาพและวิดีโอเป็น input เพื่อให้สามารถแยกผู้พูดและสร้างซับไตเติลได้พร้อมกันด้วย
ข้อนี้ผมยังไม่ค่อยทราบบริบทธุรกิจที่เจ้าของโพสต์กำลังทำ เลยขอพูดตามข้อมูลที่เขียนไว้เท่านั้นนะครับ ใบหน้าที่ปรากฏในคอนเทนต์อย่างละคร ภาพยนตร์ หรือวาไรตี้ แม้จะเป็นคนคนเดียวกัน แต่ก็อาจถูกดึงออกมาต่างกันมากตามการแต่งหน้าและสถานการณ์ ดังนั้นจึงต้องแยกใบหน้าของตัวละครที่ออกมาในแต่ละคอนเทนต์ให้ครบ แล้วทำ Clustering ตามใบหน้า เพื่อจับคู่แบบ 1:1 กับรายชื่อนักแสดงของคอนเทนต์นั้น งานนี้แม้จะทำได้ด้วยโมเดลมัลติโหมดัล แต่ถ้าต้องการความแม่นยำก็จำเป็นต้องมีคนช่วยทำ labeling จึงใช้ทั้งต้นทุนและเวลามาก นี่ก็เป็นเหตุผลว่าทำไมถึงต้องจ้างคนมาช่วยทำงานด้วยครับ อ้างอิงเพิ่มเติมคือ แม้ในกรณีที่มีแต่เสียงอย่างเดียว หากแยกข้อมูลเสียงนี้ออกมาไว้ล่วงหน้าแล้วให้คนช่วย label เพื่อทำ embedding คุณภาพการแยกผู้พูดก็จะดีขึ้นมาก
ฐานข้อมูลของคอนเทนต์ประเภทนี้มี API ที่เกี่ยวข้องอยู่มาก เช่น tmdb, imdb, kmdb ดังนั้นไม่ว่าจะฟรีหรือเสียเงิน ใคร ๆ ก็พอดึงมาใช้ได้ในระดับหนึ่งครับ แต่การนำมาจัดทำเป็นฐานข้อมูลเองก็ยังจำเป็นต้องทำอยู่ดี และถ้าจะใช้การครอลิงก็ถือเป็นอีกวิธีหนึ่งได้เหมือนกัน
ผมไม่แน่ใจว่าคุณกำลังจะทำอะไร แต่สิ่งที่ผมพูดไว้ข้างบน ฟังดูเหมือนง่าย ทว่าในทางปฏิบัติเป็นงานที่ต้องใช้ทั้งเวลาและต้นทุนมาก หากต้องการเพิ่มความแม่นยำจริง ๆ งานวิจัยที่ผมเคยทำเองก็ยืดเยื้อไปนานพอสมควรด้วยหลายเหตุผล การทำความแม่นยำให้ได้ 80~90% นั้นง่าย แต่ก็เป็นสิ่งที่ใคร ๆ ก็ทำได้ ดังนั้นการเติมรายละเอียดใน 10% ที่เหลือนี่แหละครับ คือแก่นของการทำเป็นธุรกิจและคุณค่าหลัก หากถามว่า "คุณภาพจะดีขึ้นไหม" ก็ต้องตอบว่าดีขึ้นแน่นอนครับ แต่ถ้าถามว่า "คุ้มขึ้นไหมเมื่อเทียบกับต้นทุนและเวลา" อันนั้นผมก็ไม่แน่ใจ เพราะอย่างที่บอก มันเป็นการปรับดีขึ้นราว 10% เท่านั้น

อย่างไรก็ดี การที่คนที่ไม่ใช่นักพัฒนามาลองท้าทายเรื่องแบบนี้ก็เป็นเรื่องที่น่าทึ่งและเท่มากครับ ขอให้ไปได้สวยนะครับ

somang04 29 일 전

ขอบคุณมากครับ!! อย่างที่คิดไว้เลยว่าเรื่องอัตโนมัติก็มีขีดจำกัดอยู่ และการแท็กกับแมปปิงก็คงต้องให้คนลงมือทำเองจริง ๆ..

คงต้องหาทาสหมายเลข 1 มาเพิ่มอีกคนแล้ว.. ได้ความช่วยเหลือเยอะมากจริง ๆ ครับ!!

ขอบคุณมากครับ!!

hmmhmmhm 29 일 전

diarization ก็ดีนะ แต่มีบางส่วนที่ยังน่าเสียดายอยู่ เลยรู้สึกว่าถ้าจะลงลึกกับโมเดลที่เปิดเผยอยู่มากกว่านี้ ก็คงต้องเข้าไปอยู่ในสายรีเสิร์ชแบบในคอมเมนต์ด้านล่างเลยครับ

somang04 29 일 전

กำลังลองผิดลองถูกแบบไม่ค่อยรู้อะไรอยู่ครับ.. ฮ่าๆ พอไม่รู้ก็เลยได้แต่ลองทำไปก่อน
อย่างที่ท่านด้านล่างบอกไว้ ยังไงก็ต้องใช้แรงคนอยู่ดี เลยกำลังหาตัว "ทาสหมายเลข 1" อยู่ครับ.. ฮ่าๆ

hmmhmmhm 29 일 전

โอ้... น่านับถือจริง ๆ ที่คุณกล้าท้าทายแบบนี้... ผมเองก็ได้รับพลังบวกไปด้วยครับ!! สู้ ๆ!!!

ก่อนหน้านี้ผมเคยโพสต์ถามเรื่อง multi-speaker ภาษาเกาหลีไว้ครับ! อัปเดตความคืบหน้าต่อจากนั้น!

บทความที่เกี่ยวข้อง

5 ความคิดเห็น