• FFmpeg เวอร์ชัน 8.0 ได้เพิ่มการรองรับ โมเดลรู้จำเสียงพูด Whisper อย่างเป็นทางการ
  • Whisper เป็นโมเดลรู้จำเสียงพูดแบบโอเพนซอร์สที่พัฒนาโดย OpenAI และใช้สำหรับการแปลงเสียงเป็นข้อความอัตโนมัติในหลายภาษา
  • การเพิ่มความสามารถนี้ช่วยเพิ่มโอกาสในการทำเวิร์กโฟลว์ แปลงเสียงเป็นข้อความ แบบอัตโนมัติได้โดยตรงในงาน ประมวลผลวิดีโอและเสียง
  • ช่วยเสริม ความสามารถในการใช้งานและประสิทธิภาพของ FFmpeg อย่างมากสำหรับนักพัฒนาและงานด้านมีเดียอัตโนมัติ
  • เมื่อมีฟีเจอร์รู้จำเสียงพูดสมัยใหม่ในตัว ก็ช่วยลดภาระจากการต้องใช้เครื่องมือภายนอกเพิ่มเติมหรือกระบวนการผสานระบบที่ซับซ้อน

ภาพรวมการรองรับ Whisper ใน FFmpeg 8.0

  • FFmpeg 8.0 เพิ่มการรองรับ โมเดลรู้จำเสียงพูด Whisper ทำให้สามารถแปลงข้อมูลเสียงเป็นข้อความอัตโนมัติได้ในหลายภาษา
  • Whisper ใช้ อัลกอริทึมที่อาศัยดีปเลิร์นนิง ซึ่งสร้างโดย OpenAI เพื่อมอบความแม่นยำสูงในการแปลงเสียงเป็นข้อความ
  • ผู้ใช้ FFmpeg เดิมสามารถสร้างซับไตเติลหรือดึงเนื้อหาคำพูดออกจากไฟล์วิดีโอและเสียงได้สะดวกยิ่งขึ้นผ่าน ฟีเจอร์รองรับ Whisper ที่ฝังมาในตัว โดยไม่ต้องผ่านเครื่องมือภายนอก

ประโยชน์หลักของการรวม Whisper

  • การรวม Whisper เข้ามาทำให้สามารถสร้างเวิร์กโฟลว์ รู้จำเสียงพูด ที่มีประสิทธิภาพและขยายต่อได้ง่ายใน ไปป์ไลน์ประมวลผลและอัตโนมัติของมีเดีย ที่อิงกับ FFmpeg
  • เมื่อมีอัลกอริทึมรู้จำเสียงพูดในตัว นักพัฒนาจึงได้ข้อดีคือสามารถรับ ผลลัพธ์การแปลงเสียงเป็นข้อความได้ด้วยคำสั่งง่าย ๆ โดยไม่ต้องแบกรับภาระจากการเชื่อมต่อเพิ่มเติมที่ซับซ้อนหรือการเขียนสคริปต์แยกต่างหาก

ความสำคัญในเชิงอุตสาหกรรมของการผสาน FFmpeg กับ Whisper

  • ในงานหลากหลายด้าน เช่น การจัดการสินทรัพย์มีเดียจำนวนมหาศาล, การสร้างซับไตเติล, การเก็บถาวรข้อมูลวิดีโอ ฯลฯ การผสาน FFmpeg + Whisper มีจุดแข็งในการทำให้เกิดทั้งความคุ้มค่าด้านต้นทุนและระบบอัตโนมัติไปพร้อมกัน
  • เดิมทีต้องเชื่อมเครื่องมือรู้จำเสียงพูดโอเพนซอร์สแยกต่างหากเข้ากับ FFmpeg แต่ตอนนี้สามารถ ประมวลผลได้โดยตรงในตัว FFmpeg ทำให้คาดหวังได้ทั้งความเรียบง่ายของเวิร์กโฟลว์และความเร็วในการประมวลผลที่ดีขึ้น

รายละเอียดทางเทคนิค

  • มีการเพิ่มออดิโอฟิลเตอร์สำหรับทำ Automatic Speech Recognition (ASR) ได้โดยตรงภายใน FFmpeg โดยอิงจากไลบรารี Whisper.cpp
  • เปิดใช้งานได้ด้วยออปชัน --enable-whisper และต้องระบุพาธของโมเดล (model)
  • ออปชันหลัก: การตั้งค่าภาษา(language), การใช้ GPU(use_gpu), ขนาดคิว(queue), รูปแบบเอาต์พุต(format: text/srt/json), การตั้งค่าโมเดล VAD(การตรวจจับกิจกรรมเสียง) และค่า threshold เป็นต้น
    • หากตั้งค่า queue ให้เล็ก จะได้ความเป็นเรียลไทม์สูงขึ้น แต่ความแม่นยำลดลงและภาระ CPU เพิ่มขึ้น; หากตั้งค่าใหญ่ขึ้น ความแม่นยำจะสูงขึ้นแต่มีความหน่วงมากขึ้น
    • สามารถใช้ตัวเลือก destination เพื่อบันทึกผลลัพธ์ไปยังไฟล์, URL หรือเมทาดาทาได้ และยังรองรับ AVIO protocol
  • มีตัวอย่างสถานการณ์การใช้งาน เช่น การสร้างซับไตเติล SRT, การส่งแบบ HTTP ในรูปแบบ JSON, การถอดเสียงจากไมโครโฟนแบบเรียลไทม์ (ใช้ VAD)
    • ตัวอย่างการสร้างไฟล์ซับไตเติล SRT
      ffmpeg -i input.mp4 -vn \  
      -af "whisper=model=../whisper.cpp/models/ggml-base.en.bin:language=en:queue=3:destination=output.srt:format=srt" \  
      -f null -  
      

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น