- FFmpeg เวอร์ชัน 8.0 ได้เพิ่มการรองรับ โมเดลรู้จำเสียงพูด Whisper อย่างเป็นทางการ
- Whisper เป็นโมเดลรู้จำเสียงพูดแบบโอเพนซอร์สที่พัฒนาโดย OpenAI และใช้สำหรับการแปลงเสียงเป็นข้อความอัตโนมัติในหลายภาษา
- การเพิ่มความสามารถนี้ช่วยเพิ่มโอกาสในการทำเวิร์กโฟลว์ แปลงเสียงเป็นข้อความ แบบอัตโนมัติได้โดยตรงในงาน ประมวลผลวิดีโอและเสียง
- ช่วยเสริม ความสามารถในการใช้งานและประสิทธิภาพของ FFmpeg อย่างมากสำหรับนักพัฒนาและงานด้านมีเดียอัตโนมัติ
- เมื่อมีฟีเจอร์รู้จำเสียงพูดสมัยใหม่ในตัว ก็ช่วยลดภาระจากการต้องใช้เครื่องมือภายนอกเพิ่มเติมหรือกระบวนการผสานระบบที่ซับซ้อน
ภาพรวมการรองรับ Whisper ใน FFmpeg 8.0
- FFmpeg 8.0 เพิ่มการรองรับ โมเดลรู้จำเสียงพูด Whisper ทำให้สามารถแปลงข้อมูลเสียงเป็นข้อความอัตโนมัติได้ในหลายภาษา
- Whisper ใช้ อัลกอริทึมที่อาศัยดีปเลิร์นนิง ซึ่งสร้างโดย OpenAI เพื่อมอบความแม่นยำสูงในการแปลงเสียงเป็นข้อความ
- ผู้ใช้ FFmpeg เดิมสามารถสร้างซับไตเติลหรือดึงเนื้อหาคำพูดออกจากไฟล์วิดีโอและเสียงได้สะดวกยิ่งขึ้นผ่าน ฟีเจอร์รองรับ Whisper ที่ฝังมาในตัว โดยไม่ต้องผ่านเครื่องมือภายนอก
ประโยชน์หลักของการรวม Whisper
- การรวม Whisper เข้ามาทำให้สามารถสร้างเวิร์กโฟลว์ รู้จำเสียงพูด ที่มีประสิทธิภาพและขยายต่อได้ง่ายใน ไปป์ไลน์ประมวลผลและอัตโนมัติของมีเดีย ที่อิงกับ FFmpeg
- เมื่อมีอัลกอริทึมรู้จำเสียงพูดในตัว นักพัฒนาจึงได้ข้อดีคือสามารถรับ ผลลัพธ์การแปลงเสียงเป็นข้อความได้ด้วยคำสั่งง่าย ๆ โดยไม่ต้องแบกรับภาระจากการเชื่อมต่อเพิ่มเติมที่ซับซ้อนหรือการเขียนสคริปต์แยกต่างหาก
ความสำคัญในเชิงอุตสาหกรรมของการผสาน FFmpeg กับ Whisper
- ในงานหลากหลายด้าน เช่น การจัดการสินทรัพย์มีเดียจำนวนมหาศาล, การสร้างซับไตเติล, การเก็บถาวรข้อมูลวิดีโอ ฯลฯ การผสาน FFmpeg + Whisper มีจุดแข็งในการทำให้เกิดทั้งความคุ้มค่าด้านต้นทุนและระบบอัตโนมัติไปพร้อมกัน
- เดิมทีต้องเชื่อมเครื่องมือรู้จำเสียงพูดโอเพนซอร์สแยกต่างหากเข้ากับ FFmpeg แต่ตอนนี้สามารถ ประมวลผลได้โดยตรงในตัว FFmpeg ทำให้คาดหวังได้ทั้งความเรียบง่ายของเวิร์กโฟลว์และความเร็วในการประมวลผลที่ดีขึ้น
รายละเอียดทางเทคนิค
- มีการเพิ่มออดิโอฟิลเตอร์สำหรับทำ Automatic Speech Recognition (ASR) ได้โดยตรงภายใน FFmpeg โดยอิงจากไลบรารี Whisper.cpp
- เปิดใช้งานได้ด้วยออปชัน
--enable-whisper และต้องระบุพาธของโมเดล (model)
- ออปชันหลัก: การตั้งค่าภาษา(language), การใช้ GPU(use_gpu), ขนาดคิว(queue), รูปแบบเอาต์พุต(format: text/srt/json), การตั้งค่าโมเดล VAD(การตรวจจับกิจกรรมเสียง) และค่า threshold เป็นต้น
- หากตั้งค่า queue ให้เล็ก จะได้ความเป็นเรียลไทม์สูงขึ้น แต่ความแม่นยำลดลงและภาระ CPU เพิ่มขึ้น; หากตั้งค่าใหญ่ขึ้น ความแม่นยำจะสูงขึ้นแต่มีความหน่วงมากขึ้น
- สามารถใช้ตัวเลือก destination เพื่อบันทึกผลลัพธ์ไปยังไฟล์, URL หรือเมทาดาทาได้ และยังรองรับ AVIO protocol
- มีตัวอย่างสถานการณ์การใช้งาน เช่น การสร้างซับไตเติล SRT, การส่งแบบ HTTP ในรูปแบบ JSON, การถอดเสียงจากไมโครโฟนแบบเรียลไทม์ (ใช้ VAD)
ยังไม่มีความคิดเห็น