13 คะแนน โดย GN⁺ 2026-02-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลแปลงเสียงเป็นข้อความรุ่นถัดไป ที่มาพร้อมความสามารถด้าน การรู้จำเสียงพูดแบบเรียลไทม์ ที่มีความหน่วงต่ำมากและ การแยกผู้พูด ที่มีความแม่นยำสูง
  • ประกอบด้วย 2 โมเดล ได้แก่ Voxtral Mini Transcribe V2 สำหรับการประมวลผลแบบแบตช์ และ Voxtral Realtime สำหรับงานแบบเรียลไทม์
  • โมเดล Realtime ประมวลผลเสียงแบบสตรีมมิงด้วย ความหน่วงต่ำกว่า 200ms และเผยแพร่เป็น โอเพนเวตภายใต้ Apache 2.0
  • Mini Transcribe V2 รองรับ 13 ภาษา รวมภาษาเกาหลี พร้อมฟีเจอร์ระดับองค์กรอย่าง การประทับเวลาในระดับคำ, context biasing, และ การแยกผู้พูด
  • ทั้งสองโมเดลรองรับ การปรับใช้ที่สอดคล้องกับ GDPR และ HIPAA และช่วยยกระดับ ความแม่นยำ ความเร็ว และความคุ้มค่าด้านต้นทุน ของแอปพลิเคชันที่ใช้เสียงอย่างมาก

ภาพรวมของ Voxtral Transcribe 2

  • Voxtral Transcribe 2 ประกอบด้วย 2 โมเดลที่โดดเด่นด้าน คุณภาพการรู้จำเสียงพูดล่าสุด, การแยกผู้พูด (diarization) ที่แม่นยำ และ การประมวลผลความหน่วงต่ำมาก
    • Voxtral Mini Transcribe V2: สำหรับการถอดเสียงแบบแบตช์
    • Voxtral Realtime: สำหรับงานแบบเรียลไทม์
  • โมเดล Realtime เปิดเผยภายใต้ ไลเซนส์ Apache 2.0 จึงสามารถนำไปปรับใช้ในสภาพแวดล้อม edge ได้
  • สามารถทดสอบการถอดเสียงได้ทันทีผ่าน Audio Playground ใน Mistral Studio

สรุปความสามารถหลัก

  • Voxtral Mini Transcribe V2: รองรับ 13 ภาษา, การแยกผู้พูด, context biasing, และการประทับเวลาในระดับคำ
  • Voxtral Realtime: ถอดเสียงแบบเรียลไทม์ได้ด้วยความหน่วงต่ำกว่า 200ms เหมาะกับ voice agent และงานเรียลไทม์
  • ประสิทธิภาพ: ให้ความแม่นยำระดับสูงในต้นทุนที่ต่ำที่สุดระดับอุตสาหกรรม
  • โอเพนเวต: โมเดล Realtime เปิดเผยภายใต้ Apache 2.0 ทำให้รองรับการปรับใช้ที่เน้นความเป็นส่วนตัว

Voxtral Realtime

  • เป็นโมเดลที่ออกแบบมาสำหรับงานที่ ความหน่วง (latency) มีความสำคัญ โดยไม่ประมวลผลเสียงเป็นชังก์ แต่ใช้ สถาปัตยกรรมแบบสตรีมมิง เพื่อถอดเสียงแบบเรียลไทม์
  • ตั้งค่าความหน่วงได้ ต่ำกว่า 200ms, ที่ 2.4 วินาทีของความหน่วงจะให้ความแม่นยำเท่ากับโมเดลแบบแบตช์, และที่ 480ms ยังคงมีอัตราความผิดพลาดเพียง 1~2%
  • รองรับ 13 ภาษา (อังกฤษ, จีน, ฮินดี, สเปน, อาหรับ, ฝรั่งเศส, โปรตุเกส, รัสเซีย, เยอรมัน, ญี่ปุ่น, เกาหลี, อิตาลี, ดัตช์)
  • ด้วยขนาด 4B พารามิเตอร์ จึงทำงานได้อย่างมีประสิทธิภาพแม้บนอุปกรณ์ edge พร้อม ความปลอดภัยและความเป็นส่วนตัว
  • เวตของโมเดลเปิดเผยบน Hugging Face Hub

Voxtral Mini Transcribe V2

  • คุณภาพการถอดเสียงและการแยกผู้พูด ดีขึ้นอย่างมากในหลายภาษาและหลายโดเมน
  • ตามเกณฑ์วัด FLEURS benchmark มี อัตราความผิดพลาดของคำประมาณ 4% และให้ ความคุ้มค่าต่อประสิทธิภาพ ระดับสูงสุดที่ต้นทุน $0.003/นาที
  • มีความแม่นยำสูงกว่า GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova และเร็วกว่า ElevenLabs Scribe v2 3 เท่า โดยมีต้นทุนเพียง 1/5

ฟีเจอร์ระดับองค์กร

  • การแยกผู้พูด (Speaker diarization) : แยกผู้พูดและระบุจุดเริ่ม/สิ้นสุดของการพูด เหมาะกับการประชุม, บทสัมภาษณ์, และสายสนทนาหลายฝ่าย
  • Context biasing : กำหนดคำหรือวลีได้สูงสุด 100 รายการ ช่วยเพิ่มความแม่นยำในการรู้จำชื่อเฉพาะและคำศัพท์เฉพาะทาง (ปรับแต่งสำหรับภาษาอังกฤษ ส่วนภาษาอื่นยังอยู่ในระดับทดลอง)
  • การประทับเวลาในระดับคำ: ใช้สำหรับสร้างซับไตเติล, ค้นหาเสียง, และจัดแนวคอนเทนต์
  • การรองรับภาษาที่ขยายขึ้น: รองรับ 13 ภาษา และให้ประสิทธิภาพเหนือกว่าโมเดลคู่แข่งแม้ในภาษาที่ไม่ใช่อังกฤษ
  • ความทนทานต่อสัญญาณรบกวน: ยังคงรักษาความแม่นยำได้ในสภาพแวดล้อมที่มีเสียงรบกวน เช่น โรงงานและคอลเซ็นเตอร์
  • การประมวลผลเสียงระยะยาว: รองรับไฟล์บันทึกเสียงยาวสูงสุด 3 ชั่วโมงในคำขอเดียว

Audio Playground

  • สามารถทดสอบ Voxtral Transcribe 2 ได้โดยตรงใน Mistral Studio
  • อัปโหลดไฟล์เสียงได้สูงสุด 10 ไฟล์ และรองรับการตั้งค่าการแยกผู้พูด, หน่วยของ timestamp, และ context biasing
  • ฟอร์แมตที่รองรับ: .mp3, .wav, .m4a, .flac, .ogg ขนาดสูงสุดไฟล์ละ 1GB

กรณีใช้งานที่หลากหลาย

  • Meeting intelligence: ถอดเสียงการประชุมหลายภาษาและแยกผู้พูด เพื่อวิเคราะห์ข้อมูลการประชุมขนาดใหญ่ได้
  • Voice agent และผู้ช่วยเสมือน: สร้างอินเทอร์เฟซการสนทนาที่เป็นธรรมชาติด้วยความหน่วงต่ำกว่า 200ms
  • ระบบอัตโนมัติสำหรับ contact center: ถอดเสียงการสนทนาแบบเรียลไทม์เพื่อรองรับการวิเคราะห์อารมณ์, การแนะนำคำตอบ, และการกรอก CRM อัตโนมัติ
  • สื่อและการออกอากาศ: สร้างซับไตเติลหลายภาษาแบบเรียลไทม์ พร้อมเสริมความสามารถในการรู้จำชื่อเฉพาะและคำศัพท์เฉพาะทาง
  • การปฏิบัติตามข้อกำหนดและการจัดทำเอกสาร: รองรับ audit trail จาก timestamp แยกตามผู้พูด
  • ทั้งสองโมเดลรองรับ การปรับใช้ที่สอดคล้องกับ GDPR และ HIPAA และสามารถใช้งานได้อย่างปลอดภัยในสภาพแวดล้อม on-premises หรือ private cloud

การใช้งานและราคา

  • Voxtral Mini Transcribe V2: ใช้งานผ่าน API ในราคา $0.003/นาที และใช้งานได้ใน Mistral Studio หรือ Le Chat
  • Voxtral Realtime: ใช้งานผ่าน API ในราคา $0.006/นาที พร้อมเปิดเผยโอเพนเวตบน Hugging Face
  • สามารถดูข้อมูลเพิ่มเติมได้จากเอกสาร audio และ transcription ของ Mistral

1 ความคิดเห็น

 
GN⁺ 2026-02-05
ความคิดเห็นจาก Hacker News
  • เดโม นี้น่าประทับใจมาก
    ถึงจะแสดงว่าไม่มีไมโครโฟน แต่พอกดปุ่มอัดเสียง เบราว์เซอร์ก็ขอสิทธิ์แล้วใช้งานได้ทันที
    ต่อให้พูดเร็วและสลับ ศัพท์เทคนิคเฉพาะทาง ก็ถอดเสียงได้แม่นยำ แม้แต่การสะกด WebAssembly ก็ยังเป๊ะ

    • ช่วง 3 ปีที่ผ่านมา ฉันลองใช้ โมเดลเสียง มาแทบทุกตัวแล้ว และตัวนี้ถือว่าดีที่สุดที่เคยเห็นมาอย่างชัดเจน
      แถมยังเป็น open weights อีก ต้องขอบคุณมากจริงๆ
    • ขอบคุณสำหรับลิงก์ playground ปกติของ Mistral อัปโหลดได้แต่ไฟล์ เลยจับความเร็วกับความแม่นยำได้ยาก แต่ลิงก์นี้แสดงประสิทธิภาพแบบเรียลไทม์ได้ชัดเจนมาก
      ฉันลองพูดสองภาษาพร้อมกัน มันก็ยังรู้จำได้ถูกต้อง น่าทึ่งจริงๆ
    • ในเครื่องฉันมันไม่ทำงาน ทั้ง Firefox และ Chromium ขึ้นคลื่นเสียง แต่แสดงแค่ “Awaiting audio input”
    • ลิงก์ API นี้ ขึ้นข้อผิดพลาด 404 และมี error สีแดงแสดงอยู่มุมขวาบนของ UI
    • เร็วมากจนถอด ท่อนแร็ปเร็วของ Eminem แบบเรียลไทม์ได้เลย
  • การรู้จำภาษาอังกฤษค่อนข้างดี แต่พอพูดภาษาโปแลนด์กลับถูกตีความเป็นภาษารัสเซียหรือยูเครน
    ถ้าเป็นบริษัทจากยุโรป ก็น่าจะรองรับภาษาหลักของยุโรปได้ดีกว่านี้
    ฉันลองพูดสลับอังกฤษกับโปแลนด์ ผลลัพธ์ก็ออกมาปนกันไปหมด

    • ระบุไว้ชัดเจนว่าโมเดลนี้ไม่รองรับภาษาโปแลนด์ แต่รองรับ ภาษารัสเซีย
      มันรองรับ 13 ภาษา เลยสงสัยว่าถ้ามีหลายภาษาที่มีรากคำคล้ายกัน จำนวน พารามิเตอร์ หรือปริมาณข้อมูลฝึกจะต้องเปลี่ยนไปอย่างไร
    • แนะนำให้ทดสอบเฉพาะภาษาที่อยู่ในรายการภาษาที่รองรับ
    • น่าเสียดายที่มันทำงานได้ดีเฉพาะบางภาษา อย่างเป็นทางการคือรองรับอย่างแข็งแรงเพียง 13 ภาษาเท่านั้น
    • ถ้าผสมภาษาโปแลนด์กับยูเครน ผลลัพธ์จะออกมาเป็นภาษารัสเซีย พูดแต่ยูเครนอย่างเดียวก็ยังถูกถอดเป็นรัสเซียตลอด น่าผิดหวังมาก
    • ในเชิงโครงสร้างเสียง ภาษาโปแลนด์ จะเขียนด้วย อักษรซีริลลิก ได้เป็นธรรมชาติกว่า แต่ด้วยเหตุผลทางประวัติศาสตร์จึงไม่ได้เป็นแบบนั้น จุดนี้อาจทำให้ AI สับสนได้
  • ตัวเลข อัตราคำผิดพลาด 4% บน FLEURS และราคา $0.003 ต่อนาที น่าประทับใจมาก
    Amazon Transcribe อยู่ที่ $0.024 ต่อนาที ต่างกันมาก

    • แต่ก็สงสัยว่าราคานี้คิดต่อนาทีของเสียง หรือ ต่อนาทีของ compute
      เช่น Whisper API ของ fal.ai คิด “$0.00125 ต่อวินาทีของ compute” แต่ประมวลผลได้เร็วกว่าเวลาจริง 10–25 เท่า เลยถูกกว่ามาก
  • โมเดลนี้เป็นโมเดลหลายภาษาที่เข้าใจ 14 ภาษา
    แต่ในกรณีใช้งานส่วนใหญ่ เราต้องการแค่ภาษาเดียว ดังนั้นภาษาอื่นๆ อาจเพิ่มแค่ latency
    ต่อไปอาจมีแนวโน้มลดส่วนที่ไม่จำเป็นออกจากโมเดลอเนกประสงค์แบบนี้
    ดูงานวิจัยที่เกี่ยวข้องได้ที่นี่

    • แต่เพราะมีคำยืมข้ามภาษาจำนวนมาก โมเดลหลายภาษา อาจช่วยได้มากกว่า
      เช่น “voila”, “el camino real”
    • โมเดลนี้ดูเหมือนพิสูจน์ได้ทั้งเรื่องประสิทธิภาพและความแม่นยำพร้อมกัน
    • บริการ STT เดิมอย่าง Azure, Google, Amazon ต้องระบุภาษา แต่คุณภาพก็ยังสูงอยู่
      เพียงแต่ภายในน่าจะใช้ สถาปัตยกรรมแบบอิง LLM ที่คล้ายกัน
    • คนเราไม่ได้ใช้แค่ภาษาเดียว code-switching เป็นเรื่องธรรมชาติ โมเดลภาษาเดียวจึงมีข้อจำกัด
    • ตลกดีที่คอมเมนต์ข้างบนบอกว่าควรลดจำนวนภาษา แต่คอมเมนต์อื่นๆ กลับบ่นว่าภาษายังน้อยเกินไป
  • ประสิทธิภาพแข่งกับ Deepgram nova-3 ได้ และในกรณีส่วนใหญ่ดีกว่า Assembly หรือ ElevenLabs
    ในการทดสอบภายใน ประเมินด้วยชุดข้อมูลคอล 8kHz ที่มีสำเนียงอังกฤษหนักๆ แล้วได้ระดับแทบจะเป็น SOTA
    แต่ การกระจายของ latency ยังไม่นิ่งนัก ถ้ารันแบบโลคัลก็น่าจะดีขึ้น

  • อยากรู้ว่าต้องใช้ ทรัพยากรฮาร์ดแวร์ แค่ไหน
    ต้องใช้ NVIDIA GPU ระดับสูงหลายตัวหรือเปล่า หรือรันออฟไลน์บนอุปกรณ์กินไฟต่ำอย่าง ESP32 ได้ด้วย ยังไม่มีระบุไว้

  • อยากรู้ว่ามันดีกว่า Nvidia Parakeet V3 หรือไม่ เพราะตอนนี้โมเดลนั้นยังเป็นตัวที่ดีที่สุดสำหรับงานโลคัลของฉัน

    • ฉันพอร์ต Nemotron ASR มาใช้เองและค่อนข้างพอใจ
      ดูลิงก์โมเดล, พอร์ต inference, และเวอร์ชัน GGUF
    • ฉันลองใช้ Parakeet V3 แบบโลคัลแล้ว จากความรู้สึก โมเดลนี้ช้ากว่านิดหน่อยแต่ ความแม่นยำ สูงกว่า
    • ฉันชอบ Parakeet v3 แต่บางครั้งมันมีปัญหาหลุดทั้งประโยคไปเลย
    • Parakeet มีขนาด 0.6B จึงรันบน edge device ได้ ส่วน Voxtral ขนาด 4B เลยดูยากที่จะรันแบบเรียลไทม์บน Orin หรือ Hailo
    • ฉันก็มาที่นี่เพื่อถามคำถามเดียวกันเลย!
  • ตอนแรกฉันนึกว่ามีฟีเจอร์ diarization แถมมาให้เลย แต่เวอร์ชันเรียลไทม์ไม่มี
    Voxtral-Mini-4B-Realtime-2602 เป็นโมเดลขนาดประมาณ 9GB

    • การแยกผู้พูดมีอยู่เฉพาะในเวอร์ชัน Voxtral Mini Transcribe V2 เท่านั้น
  • ฉันลองเดโมแล้ว การรู้จำภาษาอังกฤษยอดเยี่ยมมาก และตรวจจับการสลับภาษาได้แบบเรียลไทม์
    แต่ ภาษายูเครน กลับไม่ถูกจับเลย และถูกถอดเป็นภาษารัสเซียตลอด
    โมเดล STT ตัวอื่นจัดการภาษายูเครนได้ดี จึงน่าเสียดายที่ตัวนี้ดูเหมือนจะมีข้อมูลฝึกภาษารัสเซียเยอะกว่าอย่างเดียว

    • เพราะโมเดลรองรับเฉพาะภาษารัสเซีย จึงแมปเสียงภาษายูเครนที่ป้อนเข้ามาไปเป็นคำภาษารัสเซียที่ใกล้เคียงที่สุด
  • โมเดลนี้ก็ดี แต่เวอร์ชันก่อนหน้านี้ยังไม่ได้ดีกว่า Parakeet
    จำเป็นต้องมีการเปรียบเทียบอย่างเป็นกลางกับโมเดลใหม่ๆ อย่าง Qwen3-ASR
    ตอนนี้ benchmark ที่ถูกคัดเลือกมาเฉพาะส่วนที่ดี จากบริษัทต่างๆ เชื่อถือได้ยากแล้ว
    สำหรับงานของฉันตอนนี้ Parakeet v3 ยังเร็วและคุ้มค่าที่สุด

    • มี Open ASR Leaderboard แต่ไม่ได้อัปเดตมาแล้วครึ่งปี
    • ฉันก็ชอบ Parakeet เลยใช้ผ่านแอป Handy บน Mac
      แต่อยากรู้ว่าบนมือถือใช้แอปอะไรกัน