FFmpeg 8.0 เพิ่มการรองรับ Whisper

(code.ffmpeg.org)

31 คะแนน โดย GN⁺ 2025-08-14 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

FFmpeg เวอร์ชัน 8.0 ได้เพิ่มการรองรับ โมเดลรู้จำเสียงพูด Whisper อย่างเป็นทางการ
Whisper เป็นโมเดลรู้จำเสียงพูดแบบโอเพนซอร์สที่พัฒนาโดย OpenAI และใช้สำหรับการแปลงเสียงเป็นข้อความอัตโนมัติในหลายภาษา
การเพิ่มความสามารถนี้ช่วยเพิ่มโอกาสในการทำเวิร์กโฟลว์ แปลงเสียงเป็นข้อความ แบบอัตโนมัติได้โดยตรงในงาน ประมวลผลวิดีโอและเสียง
ช่วยเสริม ความสามารถในการใช้งานและประสิทธิภาพของ FFmpeg อย่างมากสำหรับนักพัฒนาและงานด้านมีเดียอัตโนมัติ
เมื่อมีฟีเจอร์รู้จำเสียงพูดสมัยใหม่ในตัว ก็ช่วยลดภาระจากการต้องใช้เครื่องมือภายนอกเพิ่มเติมหรือกระบวนการผสานระบบที่ซับซ้อน

ภาพรวมการรองรับ Whisper ใน FFmpeg 8.0

FFmpeg 8.0 เพิ่มการรองรับ โมเดลรู้จำเสียงพูด Whisper ทำให้สามารถแปลงข้อมูลเสียงเป็นข้อความอัตโนมัติได้ในหลายภาษา
Whisper ใช้ อัลกอริทึมที่อาศัยดีปเลิร์นนิง ซึ่งสร้างโดย OpenAI เพื่อมอบความแม่นยำสูงในการแปลงเสียงเป็นข้อความ
ผู้ใช้ FFmpeg เดิมสามารถสร้างซับไตเติลหรือดึงเนื้อหาคำพูดออกจากไฟล์วิดีโอและเสียงได้สะดวกยิ่งขึ้นผ่าน ฟีเจอร์รองรับ Whisper ที่ฝังมาในตัว โดยไม่ต้องผ่านเครื่องมือภายนอก

ประโยชน์หลักของการรวม Whisper

การรวม Whisper เข้ามาทำให้สามารถสร้างเวิร์กโฟลว์ รู้จำเสียงพูด ที่มีประสิทธิภาพและขยายต่อได้ง่ายใน ไปป์ไลน์ประมวลผลและอัตโนมัติของมีเดีย ที่อิงกับ FFmpeg
เมื่อมีอัลกอริทึมรู้จำเสียงพูดในตัว นักพัฒนาจึงได้ข้อดีคือสามารถรับ ผลลัพธ์การแปลงเสียงเป็นข้อความได้ด้วยคำสั่งง่าย ๆ โดยไม่ต้องแบกรับภาระจากการเชื่อมต่อเพิ่มเติมที่ซับซ้อนหรือการเขียนสคริปต์แยกต่างหาก

ความสำคัญในเชิงอุตสาหกรรมของการผสาน FFmpeg กับ Whisper

ในงานหลากหลายด้าน เช่น การจัดการสินทรัพย์มีเดียจำนวนมหาศาล, การสร้างซับไตเติล, การเก็บถาวรข้อมูลวิดีโอ ฯลฯ การผสาน FFmpeg + Whisper มีจุดแข็งในการทำให้เกิดทั้งความคุ้มค่าด้านต้นทุนและระบบอัตโนมัติไปพร้อมกัน
เดิมทีต้องเชื่อมเครื่องมือรู้จำเสียงพูดโอเพนซอร์สแยกต่างหากเข้ากับ FFmpeg แต่ตอนนี้สามารถ ประมวลผลได้โดยตรงในตัว FFmpeg ทำให้คาดหวังได้ทั้งความเรียบง่ายของเวิร์กโฟลว์และความเร็วในการประมวลผลที่ดีขึ้น

รายละเอียดทางเทคนิค

มีการเพิ่มออดิโอฟิลเตอร์สำหรับทำ Automatic Speech Recognition (ASR) ได้โดยตรงภายใน FFmpeg โดยอิงจากไลบรารี Whisper.cpp
เปิดใช้งานได้ด้วยออปชัน --enable-whisper และต้องระบุพาธของโมเดล (model)
ออปชันหลัก: การตั้งค่าภาษา(language), การใช้ GPU(use_gpu), ขนาดคิว(queue), รูปแบบเอาต์พุต(format: text/srt/json), การตั้งค่าโมเดล VAD(การตรวจจับกิจกรรมเสียง) และค่า threshold เป็นต้น
- หากตั้งค่า queue ให้เล็ก จะได้ความเป็นเรียลไทม์สูงขึ้น แต่ความแม่นยำลดลงและภาระ CPU เพิ่มขึ้น; หากตั้งค่าใหญ่ขึ้น ความแม่นยำจะสูงขึ้นแต่มีความหน่วงมากขึ้น
- สามารถใช้ตัวเลือก destination เพื่อบันทึกผลลัพธ์ไปยังไฟล์, URL หรือเมทาดาทาได้ และยังรองรับ AVIO protocol
มีตัวอย่างสถานการณ์การใช้งาน เช่น การสร้างซับไตเติล SRT, การส่งแบบ HTTP ในรูปแบบ JSON, การถอดเสียงจากไมโครโฟนแบบเรียลไทม์ (ใช้ VAD)
- ตัวอย่างการสร้างไฟล์ซับไตเติล SRT
```
ffmpeg -i input.mp4 -vn \  
-af &quot;whisper=model=../whisper.cpp/models/ggml-base.en.bin:language=en:queue=3:destination=output.srt:format=srt&quot; \  
-f null -  
```

FFmpeg 8.0 เพิ่มการรองรับ Whisper

ภาพรวมการรองรับ Whisper ใน FFmpeg 8.0

ประโยชน์หลักของการรวม Whisper

ความสำคัญในเชิงอุตสาหกรรมของการผสาน FFmpeg กับ Whisper

รายละเอียดทางเทคนิค

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น