เปิดตัวโมเดล Voxtral Transcribe 2

(mistral.ai)

13 คะแนน โดย GN⁺ 2026-02-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลแปลงเสียงเป็นข้อความรุ่นถัดไป ที่มาพร้อมความสามารถด้าน การรู้จำเสียงพูดแบบเรียลไทม์ ที่มีความหน่วงต่ำมากและ การแยกผู้พูด ที่มีความแม่นยำสูง
ประกอบด้วย 2 โมเดล ได้แก่ Voxtral Mini Transcribe V2 สำหรับการประมวลผลแบบแบตช์ และ Voxtral Realtime สำหรับงานแบบเรียลไทม์
โมเดล Realtime ประมวลผลเสียงแบบสตรีมมิงด้วย ความหน่วงต่ำกว่า 200ms และเผยแพร่เป็น โอเพนเวตภายใต้ Apache 2.0
Mini Transcribe V2 รองรับ 13 ภาษา รวมภาษาเกาหลี พร้อมฟีเจอร์ระดับองค์กรอย่าง การประทับเวลาในระดับคำ, context biasing, และ การแยกผู้พูด
ทั้งสองโมเดลรองรับ การปรับใช้ที่สอดคล้องกับ GDPR และ HIPAA และช่วยยกระดับ ความแม่นยำ ความเร็ว และความคุ้มค่าด้านต้นทุน ของแอปพลิเคชันที่ใช้เสียงอย่างมาก

ภาพรวมของ Voxtral Transcribe 2

Voxtral Transcribe 2 ประกอบด้วย 2 โมเดลที่โดดเด่นด้าน คุณภาพการรู้จำเสียงพูดล่าสุด, การแยกผู้พูด (diarization) ที่แม่นยำ และ การประมวลผลความหน่วงต่ำมาก
- Voxtral Mini Transcribe V2: สำหรับการถอดเสียงแบบแบตช์
- Voxtral Realtime: สำหรับงานแบบเรียลไทม์
โมเดล Realtime เปิดเผยภายใต้ ไลเซนส์ Apache 2.0 จึงสามารถนำไปปรับใช้ในสภาพแวดล้อม edge ได้
สามารถทดสอบการถอดเสียงได้ทันทีผ่าน Audio Playground ใน Mistral Studio

สรุปความสามารถหลัก

Voxtral Mini Transcribe V2: รองรับ 13 ภาษา, การแยกผู้พูด, context biasing, และการประทับเวลาในระดับคำ
Voxtral Realtime: ถอดเสียงแบบเรียลไทม์ได้ด้วยความหน่วงต่ำกว่า 200ms เหมาะกับ voice agent และงานเรียลไทม์
ประสิทธิภาพ: ให้ความแม่นยำระดับสูงในต้นทุนที่ต่ำที่สุดระดับอุตสาหกรรม
โอเพนเวต: โมเดล Realtime เปิดเผยภายใต้ Apache 2.0 ทำให้รองรับการปรับใช้ที่เน้นความเป็นส่วนตัว

Voxtral Realtime

เป็นโมเดลที่ออกแบบมาสำหรับงานที่ ความหน่วง (latency) มีความสำคัญ โดยไม่ประมวลผลเสียงเป็นชังก์ แต่ใช้ สถาปัตยกรรมแบบสตรีมมิง เพื่อถอดเสียงแบบเรียลไทม์
ตั้งค่าความหน่วงได้ ต่ำกว่า 200ms, ที่ 2.4 วินาทีของความหน่วงจะให้ความแม่นยำเท่ากับโมเดลแบบแบตช์, และที่ 480ms ยังคงมีอัตราความผิดพลาดเพียง 1~2%
รองรับ 13 ภาษา (อังกฤษ, จีน, ฮินดี, สเปน, อาหรับ, ฝรั่งเศส, โปรตุเกส, รัสเซีย, เยอรมัน, ญี่ปุ่น, เกาหลี, อิตาลี, ดัตช์)
ด้วยขนาด 4B พารามิเตอร์ จึงทำงานได้อย่างมีประสิทธิภาพแม้บนอุปกรณ์ edge พร้อม ความปลอดภัยและความเป็นส่วนตัว
เวตของโมเดลเปิดเผยบน Hugging Face Hub

Voxtral Mini Transcribe V2

คุณภาพการถอดเสียงและการแยกผู้พูด ดีขึ้นอย่างมากในหลายภาษาและหลายโดเมน
ตามเกณฑ์วัด FLEURS benchmark มี อัตราความผิดพลาดของคำประมาณ 4% และให้ ความคุ้มค่าต่อประสิทธิภาพ ระดับสูงสุดที่ต้นทุน $0.003/นาที
มีความแม่นยำสูงกว่า GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova และเร็วกว่า ElevenLabs Scribe v2 3 เท่า โดยมีต้นทุนเพียง 1/5

ฟีเจอร์ระดับองค์กร

การแยกผู้พูด (Speaker diarization) : แยกผู้พูดและระบุจุดเริ่ม/สิ้นสุดของการพูด เหมาะกับการประชุม, บทสัมภาษณ์, และสายสนทนาหลายฝ่าย
Context biasing : กำหนดคำหรือวลีได้สูงสุด 100 รายการ ช่วยเพิ่มความแม่นยำในการรู้จำชื่อเฉพาะและคำศัพท์เฉพาะทาง (ปรับแต่งสำหรับภาษาอังกฤษ ส่วนภาษาอื่นยังอยู่ในระดับทดลอง)
การประทับเวลาในระดับคำ: ใช้สำหรับสร้างซับไตเติล, ค้นหาเสียง, และจัดแนวคอนเทนต์
การรองรับภาษาที่ขยายขึ้น: รองรับ 13 ภาษา และให้ประสิทธิภาพเหนือกว่าโมเดลคู่แข่งแม้ในภาษาที่ไม่ใช่อังกฤษ
ความทนทานต่อสัญญาณรบกวน: ยังคงรักษาความแม่นยำได้ในสภาพแวดล้อมที่มีเสียงรบกวน เช่น โรงงานและคอลเซ็นเตอร์
การประมวลผลเสียงระยะยาว: รองรับไฟล์บันทึกเสียงยาวสูงสุด 3 ชั่วโมงในคำขอเดียว

Audio Playground

สามารถทดสอบ Voxtral Transcribe 2 ได้โดยตรงใน Mistral Studio
อัปโหลดไฟล์เสียงได้สูงสุด 10 ไฟล์ และรองรับการตั้งค่าการแยกผู้พูด, หน่วยของ timestamp, และ context biasing
ฟอร์แมตที่รองรับ: .mp3, .wav, .m4a, .flac, .ogg ขนาดสูงสุดไฟล์ละ 1GB

กรณีใช้งานที่หลากหลาย

Meeting intelligence: ถอดเสียงการประชุมหลายภาษาและแยกผู้พูด เพื่อวิเคราะห์ข้อมูลการประชุมขนาดใหญ่ได้
Voice agent และผู้ช่วยเสมือน: สร้างอินเทอร์เฟซการสนทนาที่เป็นธรรมชาติด้วยความหน่วงต่ำกว่า 200ms
ระบบอัตโนมัติสำหรับ contact center: ถอดเสียงการสนทนาแบบเรียลไทม์เพื่อรองรับการวิเคราะห์อารมณ์, การแนะนำคำตอบ, และการกรอก CRM อัตโนมัติ
สื่อและการออกอากาศ: สร้างซับไตเติลหลายภาษาแบบเรียลไทม์ พร้อมเสริมความสามารถในการรู้จำชื่อเฉพาะและคำศัพท์เฉพาะทาง
การปฏิบัติตามข้อกำหนดและการจัดทำเอกสาร: รองรับ audit trail จาก timestamp แยกตามผู้พูด

ทั้งสองโมเดลรองรับ การปรับใช้ที่สอดคล้องกับ GDPR และ HIPAA และสามารถใช้งานได้อย่างปลอดภัยในสภาพแวดล้อม on-premises หรือ private cloud

การใช้งานและราคา

Voxtral Mini Transcribe V2: ใช้งานผ่าน API ในราคา $0.003/นาที และใช้งานได้ใน Mistral Studio หรือ Le Chat
Voxtral Realtime: ใช้งานผ่าน API ในราคา $0.006/นาที พร้อมเปิดเผยโอเพนเวตบน Hugging Face
สามารถดูข้อมูลเพิ่มเติมได้จากเอกสาร audio และ transcription ของ Mistral

1 ความคิดเห็น

GN⁺ 2026-02-05

ความคิดเห็นจาก Hacker News

เดโม นี้น่าประทับใจมาก
ถึงจะแสดงว่าไม่มีไมโครโฟน แต่พอกดปุ่มอัดเสียง เบราว์เซอร์ก็ขอสิทธิ์แล้วใช้งานได้ทันที
ต่อให้พูดเร็วและสลับ ศัพท์เทคนิคเฉพาะทาง ก็ถอดเสียงได้แม่นยำ แม้แต่การสะกด WebAssembly ก็ยังเป๊ะ
- ช่วง 3 ปีที่ผ่านมา ฉันลองใช้ โมเดลเสียง มาแทบทุกตัวแล้ว และตัวนี้ถือว่าดีที่สุดที่เคยเห็นมาอย่างชัดเจน
  แถมยังเป็น open weights อีก ต้องขอบคุณมากจริงๆ
- ขอบคุณสำหรับลิงก์ playground ปกติของ Mistral อัปโหลดได้แต่ไฟล์ เลยจับความเร็วกับความแม่นยำได้ยาก แต่ลิงก์นี้แสดงประสิทธิภาพแบบเรียลไทม์ได้ชัดเจนมาก
  ฉันลองพูดสองภาษาพร้อมกัน มันก็ยังรู้จำได้ถูกต้อง น่าทึ่งจริงๆ
- ในเครื่องฉันมันไม่ทำงาน ทั้ง Firefox และ Chromium ขึ้นคลื่นเสียง แต่แสดงแค่ “Awaiting audio input”
- ลิงก์ API นี้ ขึ้นข้อผิดพลาด 404 และมี error สีแดงแสดงอยู่มุมขวาบนของ UI
- เร็วมากจนถอด ท่อนแร็ปเร็วของ Eminem แบบเรียลไทม์ได้เลย
การรู้จำภาษาอังกฤษค่อนข้างดี แต่พอพูดภาษาโปแลนด์กลับถูกตีความเป็นภาษารัสเซียหรือยูเครน
ถ้าเป็นบริษัทจากยุโรป ก็น่าจะรองรับภาษาหลักของยุโรปได้ดีกว่านี้
ฉันลองพูดสลับอังกฤษกับโปแลนด์ ผลลัพธ์ก็ออกมาปนกันไปหมด
- ระบุไว้ชัดเจนว่าโมเดลนี้ไม่รองรับภาษาโปแลนด์ แต่รองรับ ภาษารัสเซีย
  มันรองรับ 13 ภาษา เลยสงสัยว่าถ้ามีหลายภาษาที่มีรากคำคล้ายกัน จำนวน พารามิเตอร์ หรือปริมาณข้อมูลฝึกจะต้องเปลี่ยนไปอย่างไร
- แนะนำให้ทดสอบเฉพาะภาษาที่อยู่ในรายการภาษาที่รองรับ
- น่าเสียดายที่มันทำงานได้ดีเฉพาะบางภาษา อย่างเป็นทางการคือรองรับอย่างแข็งแรงเพียง 13 ภาษาเท่านั้น
- ถ้าผสมภาษาโปแลนด์กับยูเครน ผลลัพธ์จะออกมาเป็นภาษารัสเซีย พูดแต่ยูเครนอย่างเดียวก็ยังถูกถอดเป็นรัสเซียตลอด น่าผิดหวังมาก
- ในเชิงโครงสร้างเสียง ภาษาโปแลนด์ จะเขียนด้วย อักษรซีริลลิก ได้เป็นธรรมชาติกว่า แต่ด้วยเหตุผลทางประวัติศาสตร์จึงไม่ได้เป็นแบบนั้น จุดนี้อาจทำให้ AI สับสนได้
ตัวเลข อัตราคำผิดพลาด 4% บน FLEURS และราคา $0.003 ต่อนาที น่าประทับใจมาก
Amazon Transcribe อยู่ที่ $0.024 ต่อนาที ต่างกันมาก
- แต่ก็สงสัยว่าราคานี้คิดต่อนาทีของเสียง หรือ ต่อนาทีของ compute
  เช่น Whisper API ของ fal.ai คิด “$0.00125 ต่อวินาทีของ compute” แต่ประมวลผลได้เร็วกว่าเวลาจริง 10–25 เท่า เลยถูกกว่ามาก
โมเดลนี้เป็นโมเดลหลายภาษาที่เข้าใจ 14 ภาษา
แต่ในกรณีใช้งานส่วนใหญ่ เราต้องการแค่ภาษาเดียว ดังนั้นภาษาอื่นๆ อาจเพิ่มแค่ latency
ต่อไปอาจมีแนวโน้มลดส่วนที่ไม่จำเป็นออกจากโมเดลอเนกประสงค์แบบนี้
ดูงานวิจัยที่เกี่ยวข้องได้ที่นี่
- แต่เพราะมีคำยืมข้ามภาษาจำนวนมาก โมเดลหลายภาษา อาจช่วยได้มากกว่า
  เช่น “voila”, “el camino real”
- โมเดลนี้ดูเหมือนพิสูจน์ได้ทั้งเรื่องประสิทธิภาพและความแม่นยำพร้อมกัน
- บริการ STT เดิมอย่าง Azure, Google, Amazon ต้องระบุภาษา แต่คุณภาพก็ยังสูงอยู่
  เพียงแต่ภายในน่าจะใช้ สถาปัตยกรรมแบบอิง LLM ที่คล้ายกัน
- คนเราไม่ได้ใช้แค่ภาษาเดียว code-switching เป็นเรื่องธรรมชาติ โมเดลภาษาเดียวจึงมีข้อจำกัด
- ตลกดีที่คอมเมนต์ข้างบนบอกว่าควรลดจำนวนภาษา แต่คอมเมนต์อื่นๆ กลับบ่นว่าภาษายังน้อยเกินไป
ประสิทธิภาพแข่งกับ Deepgram nova-3 ได้ และในกรณีส่วนใหญ่ดีกว่า Assembly หรือ ElevenLabs
ในการทดสอบภายใน ประเมินด้วยชุดข้อมูลคอล 8kHz ที่มีสำเนียงอังกฤษหนักๆ แล้วได้ระดับแทบจะเป็น SOTA
แต่ การกระจายของ latency ยังไม่นิ่งนัก ถ้ารันแบบโลคัลก็น่าจะดีขึ้น
อยากรู้ว่าต้องใช้ ทรัพยากรฮาร์ดแวร์ แค่ไหน
ต้องใช้ NVIDIA GPU ระดับสูงหลายตัวหรือเปล่า หรือรันออฟไลน์บนอุปกรณ์กินไฟต่ำอย่าง ESP32 ได้ด้วย ยังไม่มีระบุไว้
อยากรู้ว่ามันดีกว่า Nvidia Parakeet V3 หรือไม่ เพราะตอนนี้โมเดลนั้นยังเป็นตัวที่ดีที่สุดสำหรับงานโลคัลของฉัน
- ฉันพอร์ต Nemotron ASR มาใช้เองและค่อนข้างพอใจ
  ดูลิงก์โมเดล, พอร์ต inference, และเวอร์ชัน GGUF
- ฉันลองใช้ Parakeet V3 แบบโลคัลแล้ว จากความรู้สึก โมเดลนี้ช้ากว่านิดหน่อยแต่ ความแม่นยำ สูงกว่า
- ฉันชอบ Parakeet v3 แต่บางครั้งมันมีปัญหาหลุดทั้งประโยคไปเลย
- Parakeet มีขนาด 0.6B จึงรันบน edge device ได้ ส่วน Voxtral ขนาด 4B เลยดูยากที่จะรันแบบเรียลไทม์บน Orin หรือ Hailo
- ฉันก็มาที่นี่เพื่อถามคำถามเดียวกันเลย!
ตอนแรกฉันนึกว่ามีฟีเจอร์ diarization แถมมาให้เลย แต่เวอร์ชันเรียลไทม์ไม่มี
Voxtral-Mini-4B-Realtime-2602 เป็นโมเดลขนาดประมาณ 9GB
- การแยกผู้พูดมีอยู่เฉพาะในเวอร์ชัน Voxtral Mini Transcribe V2 เท่านั้น
ฉันลองเดโมแล้ว การรู้จำภาษาอังกฤษยอดเยี่ยมมาก และตรวจจับการสลับภาษาได้แบบเรียลไทม์
แต่ ภาษายูเครน กลับไม่ถูกจับเลย และถูกถอดเป็นภาษารัสเซียตลอด
โมเดล STT ตัวอื่นจัดการภาษายูเครนได้ดี จึงน่าเสียดายที่ตัวนี้ดูเหมือนจะมีข้อมูลฝึกภาษารัสเซียเยอะกว่าอย่างเดียว
- เพราะโมเดลรองรับเฉพาะภาษารัสเซีย จึงแมปเสียงภาษายูเครนที่ป้อนเข้ามาไปเป็นคำภาษารัสเซียที่ใกล้เคียงที่สุด
โมเดลนี้ก็ดี แต่เวอร์ชันก่อนหน้านี้ยังไม่ได้ดีกว่า Parakeet
จำเป็นต้องมีการเปรียบเทียบอย่างเป็นกลางกับโมเดลใหม่ๆ อย่าง Qwen3-ASR
ตอนนี้ benchmark ที่ถูกคัดเลือกมาเฉพาะส่วนที่ดี จากบริษัทต่างๆ เชื่อถือได้ยากแล้ว
สำหรับงานของฉันตอนนี้ Parakeet v3 ยังเร็วและคุ้มค่าที่สุด
- มี Open ASR Leaderboard แต่ไม่ได้อัปเดตมาแล้วครึ่งปี
- ฉันก็ชอบ Parakeet เลยใช้ผ่านแอป Handy บน Mac
  แต่อยากรู้ว่าบนมือถือใช้แอปอะไรกัน

เปิดตัวโมเดล Voxtral Transcribe 2

ภาพรวมของ Voxtral Transcribe 2

สรุปความสามารถหลัก

Voxtral Realtime

Voxtral Mini Transcribe V2

ฟีเจอร์ระดับองค์กร

Audio Playground

กรณีใช้งานที่หลากหลาย

การใช้งานและราคา

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News