- โมเดลแปลงเสียงเป็นข้อความรุ่นถัดไป ที่มาพร้อมความสามารถด้าน การรู้จำเสียงพูดแบบเรียลไทม์ ที่มีความหน่วงต่ำมากและ การแยกผู้พูด ที่มีความแม่นยำสูง
- ประกอบด้วย 2 โมเดล ได้แก่ Voxtral Mini Transcribe V2 สำหรับการประมวลผลแบบแบตช์ และ Voxtral Realtime สำหรับงานแบบเรียลไทม์
- โมเดล Realtime ประมวลผลเสียงแบบสตรีมมิงด้วย ความหน่วงต่ำกว่า 200ms และเผยแพร่เป็น โอเพนเวตภายใต้ Apache 2.0
- Mini Transcribe V2 รองรับ 13 ภาษา รวมภาษาเกาหลี พร้อมฟีเจอร์ระดับองค์กรอย่าง การประทับเวลาในระดับคำ, context biasing, และ การแยกผู้พูด
- ทั้งสองโมเดลรองรับ การปรับใช้ที่สอดคล้องกับ GDPR และ HIPAA และช่วยยกระดับ ความแม่นยำ ความเร็ว และความคุ้มค่าด้านต้นทุน ของแอปพลิเคชันที่ใช้เสียงอย่างมาก
ภาพรวมของ Voxtral Transcribe 2
- Voxtral Transcribe 2 ประกอบด้วย 2 โมเดลที่โดดเด่นด้าน คุณภาพการรู้จำเสียงพูดล่าสุด, การแยกผู้พูด (diarization) ที่แม่นยำ และ การประมวลผลความหน่วงต่ำมาก
- Voxtral Mini Transcribe V2: สำหรับการถอดเสียงแบบแบตช์
- Voxtral Realtime: สำหรับงานแบบเรียลไทม์
- โมเดล Realtime เปิดเผยภายใต้ ไลเซนส์ Apache 2.0 จึงสามารถนำไปปรับใช้ในสภาพแวดล้อม edge ได้
- สามารถทดสอบการถอดเสียงได้ทันทีผ่าน Audio Playground ใน Mistral Studio
สรุปความสามารถหลัก
- Voxtral Mini Transcribe V2: รองรับ 13 ภาษา, การแยกผู้พูด, context biasing, และการประทับเวลาในระดับคำ
- Voxtral Realtime: ถอดเสียงแบบเรียลไทม์ได้ด้วยความหน่วงต่ำกว่า 200ms เหมาะกับ voice agent และงานเรียลไทม์
- ประสิทธิภาพ: ให้ความแม่นยำระดับสูงในต้นทุนที่ต่ำที่สุดระดับอุตสาหกรรม
- โอเพนเวต: โมเดล Realtime เปิดเผยภายใต้ Apache 2.0 ทำให้รองรับการปรับใช้ที่เน้นความเป็นส่วนตัว
Voxtral Realtime
- เป็นโมเดลที่ออกแบบมาสำหรับงานที่ ความหน่วง (latency) มีความสำคัญ โดยไม่ประมวลผลเสียงเป็นชังก์ แต่ใช้ สถาปัตยกรรมแบบสตรีมมิง เพื่อถอดเสียงแบบเรียลไทม์
- ตั้งค่าความหน่วงได้ ต่ำกว่า 200ms, ที่ 2.4 วินาทีของความหน่วงจะให้ความแม่นยำเท่ากับโมเดลแบบแบตช์, และที่ 480ms ยังคงมีอัตราความผิดพลาดเพียง 1~2%
- รองรับ 13 ภาษา (อังกฤษ, จีน, ฮินดี, สเปน, อาหรับ, ฝรั่งเศส, โปรตุเกส, รัสเซีย, เยอรมัน, ญี่ปุ่น, เกาหลี, อิตาลี, ดัตช์)
- ด้วยขนาด 4B พารามิเตอร์ จึงทำงานได้อย่างมีประสิทธิภาพแม้บนอุปกรณ์ edge พร้อม ความปลอดภัยและความเป็นส่วนตัว
- เวตของโมเดลเปิดเผยบน Hugging Face Hub
Voxtral Mini Transcribe V2
- คุณภาพการถอดเสียงและการแยกผู้พูด ดีขึ้นอย่างมากในหลายภาษาและหลายโดเมน
- ตามเกณฑ์วัด FLEURS benchmark มี อัตราความผิดพลาดของคำประมาณ 4% และให้ ความคุ้มค่าต่อประสิทธิภาพ ระดับสูงสุดที่ต้นทุน $0.003/นาที
- มีความแม่นยำสูงกว่า GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova และเร็วกว่า ElevenLabs Scribe v2 3 เท่า โดยมีต้นทุนเพียง 1/5
ฟีเจอร์ระดับองค์กร
- การแยกผู้พูด (Speaker diarization) : แยกผู้พูดและระบุจุดเริ่ม/สิ้นสุดของการพูด เหมาะกับการประชุม, บทสัมภาษณ์, และสายสนทนาหลายฝ่าย
- Context biasing : กำหนดคำหรือวลีได้สูงสุด 100 รายการ ช่วยเพิ่มความแม่นยำในการรู้จำชื่อเฉพาะและคำศัพท์เฉพาะทาง (ปรับแต่งสำหรับภาษาอังกฤษ ส่วนภาษาอื่นยังอยู่ในระดับทดลอง)
- การประทับเวลาในระดับคำ: ใช้สำหรับสร้างซับไตเติล, ค้นหาเสียง, และจัดแนวคอนเทนต์
- การรองรับภาษาที่ขยายขึ้น: รองรับ 13 ภาษา และให้ประสิทธิภาพเหนือกว่าโมเดลคู่แข่งแม้ในภาษาที่ไม่ใช่อังกฤษ
- ความทนทานต่อสัญญาณรบกวน: ยังคงรักษาความแม่นยำได้ในสภาพแวดล้อมที่มีเสียงรบกวน เช่น โรงงานและคอลเซ็นเตอร์
- การประมวลผลเสียงระยะยาว: รองรับไฟล์บันทึกเสียงยาวสูงสุด 3 ชั่วโมงในคำขอเดียว
Audio Playground
- สามารถทดสอบ Voxtral Transcribe 2 ได้โดยตรงใน Mistral Studio
- อัปโหลดไฟล์เสียงได้สูงสุด 10 ไฟล์ และรองรับการตั้งค่าการแยกผู้พูด, หน่วยของ timestamp, และ context biasing
- ฟอร์แมตที่รองรับ: .mp3, .wav, .m4a, .flac, .ogg ขนาดสูงสุดไฟล์ละ 1GB
กรณีใช้งานที่หลากหลาย
- Meeting intelligence: ถอดเสียงการประชุมหลายภาษาและแยกผู้พูด เพื่อวิเคราะห์ข้อมูลการประชุมขนาดใหญ่ได้
- Voice agent และผู้ช่วยเสมือน: สร้างอินเทอร์เฟซการสนทนาที่เป็นธรรมชาติด้วยความหน่วงต่ำกว่า 200ms
- ระบบอัตโนมัติสำหรับ contact center: ถอดเสียงการสนทนาแบบเรียลไทม์เพื่อรองรับการวิเคราะห์อารมณ์, การแนะนำคำตอบ, และการกรอก CRM อัตโนมัติ
- สื่อและการออกอากาศ: สร้างซับไตเติลหลายภาษาแบบเรียลไทม์ พร้อมเสริมความสามารถในการรู้จำชื่อเฉพาะและคำศัพท์เฉพาะทาง
- การปฏิบัติตามข้อกำหนดและการจัดทำเอกสาร: รองรับ audit trail จาก timestamp แยกตามผู้พูด
- ทั้งสองโมเดลรองรับ การปรับใช้ที่สอดคล้องกับ GDPR และ HIPAA และสามารถใช้งานได้อย่างปลอดภัยในสภาพแวดล้อม on-premises หรือ private cloud
การใช้งานและราคา
- Voxtral Mini Transcribe V2: ใช้งานผ่าน API ในราคา $0.003/นาที และใช้งานได้ใน Mistral Studio หรือ Le Chat
- Voxtral Realtime: ใช้งานผ่าน API ในราคา $0.006/นาที พร้อมเปิดเผยโอเพนเวตบน Hugging Face
- สามารถดูข้อมูลเพิ่มเติมได้จากเอกสาร audio และ transcription ของ Mistral
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
เดโม นี้น่าประทับใจมาก
ถึงจะแสดงว่าไม่มีไมโครโฟน แต่พอกดปุ่มอัดเสียง เบราว์เซอร์ก็ขอสิทธิ์แล้วใช้งานได้ทันที
ต่อให้พูดเร็วและสลับ ศัพท์เทคนิคเฉพาะทาง ก็ถอดเสียงได้แม่นยำ แม้แต่การสะกด WebAssembly ก็ยังเป๊ะ
แถมยังเป็น open weights อีก ต้องขอบคุณมากจริงๆ
ฉันลองพูดสองภาษาพร้อมกัน มันก็ยังรู้จำได้ถูกต้อง น่าทึ่งจริงๆ
การรู้จำภาษาอังกฤษค่อนข้างดี แต่พอพูดภาษาโปแลนด์กลับถูกตีความเป็นภาษารัสเซียหรือยูเครน
ถ้าเป็นบริษัทจากยุโรป ก็น่าจะรองรับภาษาหลักของยุโรปได้ดีกว่านี้
ฉันลองพูดสลับอังกฤษกับโปแลนด์ ผลลัพธ์ก็ออกมาปนกันไปหมด
มันรองรับ 13 ภาษา เลยสงสัยว่าถ้ามีหลายภาษาที่มีรากคำคล้ายกัน จำนวน พารามิเตอร์ หรือปริมาณข้อมูลฝึกจะต้องเปลี่ยนไปอย่างไร
ตัวเลข อัตราคำผิดพลาด 4% บน FLEURS และราคา $0.003 ต่อนาที น่าประทับใจมาก
Amazon Transcribe อยู่ที่ $0.024 ต่อนาที ต่างกันมาก
เช่น Whisper API ของ fal.ai คิด “$0.00125 ต่อวินาทีของ compute” แต่ประมวลผลได้เร็วกว่าเวลาจริง 10–25 เท่า เลยถูกกว่ามาก
โมเดลนี้เป็นโมเดลหลายภาษาที่เข้าใจ 14 ภาษา
แต่ในกรณีใช้งานส่วนใหญ่ เราต้องการแค่ภาษาเดียว ดังนั้นภาษาอื่นๆ อาจเพิ่มแค่ latency
ต่อไปอาจมีแนวโน้มลดส่วนที่ไม่จำเป็นออกจากโมเดลอเนกประสงค์แบบนี้
ดูงานวิจัยที่เกี่ยวข้องได้ที่นี่
เช่น “voila”, “el camino real”
เพียงแต่ภายในน่าจะใช้ สถาปัตยกรรมแบบอิง LLM ที่คล้ายกัน
ประสิทธิภาพแข่งกับ Deepgram nova-3 ได้ และในกรณีส่วนใหญ่ดีกว่า Assembly หรือ ElevenLabs
ในการทดสอบภายใน ประเมินด้วยชุดข้อมูลคอล 8kHz ที่มีสำเนียงอังกฤษหนักๆ แล้วได้ระดับแทบจะเป็น SOTA
แต่ การกระจายของ latency ยังไม่นิ่งนัก ถ้ารันแบบโลคัลก็น่าจะดีขึ้น
อยากรู้ว่าต้องใช้ ทรัพยากรฮาร์ดแวร์ แค่ไหน
ต้องใช้ NVIDIA GPU ระดับสูงหลายตัวหรือเปล่า หรือรันออฟไลน์บนอุปกรณ์กินไฟต่ำอย่าง ESP32 ได้ด้วย ยังไม่มีระบุไว้
อยากรู้ว่ามันดีกว่า Nvidia Parakeet V3 หรือไม่ เพราะตอนนี้โมเดลนั้นยังเป็นตัวที่ดีที่สุดสำหรับงานโลคัลของฉัน
ดูลิงก์โมเดล, พอร์ต inference, และเวอร์ชัน GGUF
ตอนแรกฉันนึกว่ามีฟีเจอร์ diarization แถมมาให้เลย แต่เวอร์ชันเรียลไทม์ไม่มี
Voxtral-Mini-4B-Realtime-2602 เป็นโมเดลขนาดประมาณ 9GB
ฉันลองเดโมแล้ว การรู้จำภาษาอังกฤษยอดเยี่ยมมาก และตรวจจับการสลับภาษาได้แบบเรียลไทม์
แต่ ภาษายูเครน กลับไม่ถูกจับเลย และถูกถอดเป็นภาษารัสเซียตลอด
โมเดล STT ตัวอื่นจัดการภาษายูเครนได้ดี จึงน่าเสียดายที่ตัวนี้ดูเหมือนจะมีข้อมูลฝึกภาษารัสเซียเยอะกว่าอย่างเดียว
โมเดลนี้ก็ดี แต่เวอร์ชันก่อนหน้านี้ยังไม่ได้ดีกว่า Parakeet
จำเป็นต้องมีการเปรียบเทียบอย่างเป็นกลางกับโมเดลใหม่ๆ อย่าง Qwen3-ASR
ตอนนี้ benchmark ที่ถูกคัดเลือกมาเฉพาะส่วนที่ดี จากบริษัทต่างๆ เชื่อถือได้ยากแล้ว
สำหรับงานของฉันตอนนี้ Parakeet v3 ยังเร็วและคุ้มค่าที่สุด
แต่อยากรู้ว่าบนมือถือใช้แอปอะไรกัน