Cohere Transcribe - โมเดลรู้จำเสียงพูดโอเพนซอร์ส SOTA

(cohere.com)

3 คะแนน โดย GN⁺ 26 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล Automatic Speech Recognition (ASR) รุ่นล่าสุดขนาด 2B (2 พันล้าน) พารามิเตอร์ ที่รองรับ 14 ภาษา เช่น อังกฤษ เกาหลี จีน เป็นต้น
ใช้สถาปัตยกรรม encoder-decoder บนพื้นฐาน Conformer และเผยแพร่ภายใต้ Apache 2.0 license
สำหรับภาษาอังกฤษ มี อัตราคำผิดเฉลี่ย (WER) 5.42% เหนือกว่าโมเดลคู่แข่งหลักอย่าง Whisper Large v3 และครอง อันดับ 1 บน Hugging Face Open ASR Leaderboard
แสดงความแม่นยำและความสม่ำเสมอสูงทั้งในการประเมินสภาพแวดล้อมจริงและการประเมินโดยมนุษย์ พร้อมรักษาประสิทธิภาพที่เสถียรในการถอดเสียงหลายภาษา
ทำได้ทั้ง latency ต่ำและประสิทธิภาพการประมวลผลสูง จึงเหมาะกับผลิตภัณฑ์และเวิร์กโฟลว์แบบเรียลไทม์

ภาพรวมของ Cohere Transcribe

เสียงกำลังกลายเป็น รูปแบบอินพุตหลักของระบบอัตโนมัติงานด้วย AI เช่น บันทึกการประชุม การวิเคราะห์เสียง และการสนับสนุนลูกค้าแบบเรียลไทม์
โมเดลนี้ถูกฝึกใหม่ตั้งแต่ต้นโดยมีเป้าหมายเพื่อลด อัตราคำผิด (WER) ให้ต่ำที่สุด และออกแบบโดยคำนึงถึง การใช้งานในสภาพแวดล้อมบริการจริง ไม่ใช่เพื่อการวิจัยเท่านั้น
สามารถทำ inference ได้อย่างมีประสิทธิภาพทั้งบน GPU และสภาพแวดล้อมโลคัล และยังใช้งานได้ผ่านแพลตฟอร์ม managed inference ของ Cohere ที่ชื่อ Model Vault
ทำสถิติ ความแม่นยำอันดับ 1 บน Open ASR Leaderboard ของ Hugging Face และนำเสนอมาตรฐานใหม่ของประสิทธิภาพการถอดเสียงในสภาพแวดล้อมจริง

สถาปัตยกรรมโมเดล

ชื่อโมเดลคือ cohere-transcribe-03-2026 และใช้ สถาปัตยกรรม encoder-decoder บนพื้นฐาน Conformer
- อินพุตคือ การแปลงคลื่นเสียงเป็น log-Mel spectrogram ส่วนเอาต์พุตคือข้อความที่ถอดเสียงแล้ว
- Conformer encoder ขนาดใหญ่ระดับ 2B (2 พันล้าน) พารามิเตอร์ใช้สำหรับดึง acoustic representation และ Transformer decoder แบบน้ำหนักเบาทำหน้าที่สร้างโทเคน
ฝึกแบบ supervised learning ตั้งแต่ต้นด้วย standard cross-entropy loss
รองรับ 14 ภาษา
- ยุโรป: อังกฤษ ฝรั่งเศส เยอรมัน อิตาลี สเปน โปรตุเกส กรีก ดัตช์ โปแลนด์
- เอเชีย-แปซิฟิก: จีนกลาง ญี่ปุ่น เกาหลี เวียดนาม
- ตะวันออกกลางและแอฟริกาเหนือ: อาหรับ
- เปิดเผยภายใต้ Apache 2.0 license

ประสิทธิภาพของโมเดล

สร้างมาตรฐานล่าสุดด้านความแม่นยำในการรู้จำเสียงภาษาอังกฤษ ด้วยค่า WER เฉลี่ย 5.42% ซึ่งเป็นผลงานสูงสุดในบรรดาโมเดล ASR ทั้งแบบเปิดและปิด
- เหนือกว่าโมเดลคู่แข่งหลักอย่าง Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B
รักษาประสิทธิภาพที่แข็งแกร่งได้ในสภาพแวดล้อมจริงที่หลากหลาย เช่น ผู้พูดหลายคน อะคูสติกในห้องประชุม และสำเนียงที่แตกต่างกัน
ผลลัพธ์ benchmark หลัก
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- ด้วยค่า WER เฉลี่ย 5.42 จึงดีกว่า Zoom Scribe v1(5.47), IBM Granite 4.0(5.52), NVIDIA Canary Qwen 2.5B(5.63)
Hugging Face Open ASR Leaderboard ประเมินด้วยค่า WER ที่ทำให้เป็นมาตรฐานเดียวกันในหลายชุดข้อมูล โดยค่า WER ที่ต่ำกว่าหมายถึงความแม่นยำในการถอดเสียงที่สูงกว่า

ผลการประเมินโดยมนุษย์

ยืนยันได้ว่า มีประสิทธิภาพยอดเยี่ยมเช่นเดียวกันในการประเมินสภาพแวดล้อมจริงนอกเหนือจาก benchmark
- ผู้ประเมินที่มีประสบการณ์ได้ประเมินผลการถอดเสียงจากออดิโอจริงตามเกณฑ์ ความแม่นยำ ความสม่ำเสมอ และการใช้งานได้จริง
- ทั้งการประเมินอัตโนมัติและการประเมินโดยมนุษย์ต่างแสดงผลยอดเยี่ยมอย่างสม่ำเสมอ
ในการประเมินเปรียบเทียบ คุณภาพการถอดเสียงภาษาอังกฤษ ได้รับความนิยมสูงในด้านการรักษาความหมาย การลด hallucination การรู้จำชื่อเฉพาะ และความถูกต้องของรูปแบบ
ใน การประเมินโดยมนุษย์แยกตามภาษาที่รองรับ ก็ทำสัดส่วนความชอบได้เกิน 50% ยืนยันประสิทธิภาพที่เสถียรในสภาพแวดล้อมหลายภาษา

ความเร็วและประสิทธิภาพการประมวลผล

ในสภาพแวดล้อมบริการจริง latency และ throughput คือข้อจำกัดสำคัญ
- ต่อให้ความแม่นยำสูง แต่หากช้าหรือใช้ทรัพยากรมาก ก็ส่งผลโดยตรงต่อประสบการณ์ผู้ใช้และต้นทุน
Cohere Transcribe รักษา ประสิทธิภาพการประมวลผลระดับแนวหน้าของกลุ่มโมเดล 1B+ พารามิเตอร์ พร้อมทำได้ทั้ง WER ต่ำและ RTFx (ตัวคูณการประมวลผลแบบเรียลไทม์) สูง
RTFx เป็นตัวชี้วัดว่าโมเดลประมวลผลอินพุตเสียงได้เร็วกว่าเวลาจริงมากเพียงใด โดย Transcribe ได้ขยายเส้น Pareto frontier ทั้งด้านความแม่นยำและความเร็ว
การประเมินจาก Radical Ventures
- Paige Dickie รองประธานของ Radical Ventures ชื่นชมทั้งความเร็วและคุณภาพของ Transcribe
- ระบุว่า “สามารถถอดเสียงออดิโอความยาวหลายนาทีได้ภายในไม่กี่วินาที และเปิดความเป็นไปได้ใหม่ให้กับผลิตภัณฑ์และเวิร์กโฟลว์แบบเรียลไทม์”
- พร้อมประเมินว่าสามารถให้คุณภาพการถอดเสียงที่ทรงพลังและเชื่อถือได้แม้กับเสียงพูดในชีวิตประจำวัน และประสบการณ์ใช้งานก็ราบรื่น

ทิศทางการพัฒนาต่อไป

Cohere มีแผนผสาน Transcribe เข้ากับ North แพลตฟอร์ม orchestration สำหรับ AI agent
- ในอนาคต Transcribe จะขยายจากโมเดลถอดเสียงอย่างเดียวไปสู่ รากฐานของ voice intelligence สำหรับองค์กร

การใช้งานและการเผยแพร่

สามารถดาวน์โหลดโมเดลได้จาก Hugging Face และรันได้ทั้งในสภาพแวดล้อมโลคัลหรือ edge
สามารถทดลองใช้งานฟรีผ่าน Cohere API แต่มีข้อจำกัดด้านจำนวนคำขอ (rate limit)
- วิธีใช้งานและคู่มือการเชื่อมต่อมีให้ในเอกสารทางการ
หากใช้ Model Vault จะสามารถทำ inference แบบ private cloud ที่มี latency ต่ำ ได้โดยไม่ต้องจัดการโครงสร้างพื้นฐาน
- ใช้รูปแบบค่าบริการอินสแตนซ์รายชั่วโมง และมีส่วนลดสำหรับการใช้งานระยะยาว
- การสอบถามเรื่อง deployment สำหรับองค์กรสามารถติดต่อทีมขายของ Cohere ได้

2 ความคิดเห็น

j2sus91 26 일 전

มันไม่ใช่โอเพนซอร์ส แต่เป็นบริการแบบเสียเงินหรือเปล่าครับ?

GN⁺ 26 일 전

ความคิดเห็นจาก Hacker News

ฉันกังวลว่า ASR (การรู้จำเสียงพูดอัตโนมัติ) สุดท้ายจะกลายเป็นเหมือน OCR หรือเปล่า
ถ้า AI ขนาดใหญ่แบบมัลติโหมดเร็วพอและเข้าใจบริบทได้ลึกพอ ก็ดูเหมือนมันจะดูดกลืนเทคโนโลยีเดิม ๆ ไปหมด
แม้แต่ใน OCR ถ้าตัวอักษรถูกสแกนมาแบบพร่ามัว AI ก็ยังอาจเดาความหมายของเอกสารจากแพตเทิร์นอย่าง “โดยปกติแล้ว ID คำสั่งซื้อจะอยู่ใต้วันที่สั่งซื้อ” ได้
ถ้า ASR เริ่ม ‘เดา’ ตามบริบทแบบนี้ ก็มีความเสี่ยงที่จะบิดเบือนเสียงจริง
- เรื่องนี้มีทั้งข้อดีและข้อเสีย
  ASR ที่ดีสามารถเข้าใจ เสียงที่มีสัญญาณรบกวนปนอยู่ ซึ่งฉันเองยังฟังไม่ออกได้ แต่บางครั้งมันก็แก้มากเกินไปจนเปลี่ยนคำหายากให้กลายเป็นคำธรรมดา
  ใน OCR ก็อาจเกิดข้อมูลที่ดูน่าเชื่อแต่ผิดได้เหมือน กรณี Xerox
  เพราะงั้นฉันเลยใช้ OCR แค่ เพื่อการค้นหา และเก็บไฟล์สแกนต้นฉบับไว้เสมอ
- ตอนนี้โลกความเป็นจริงก็กำลังไปทางนั้นแล้ว
  มัลติโมดัล LLM อย่าง gpt-4o-transcribe เหนือกว่าการรู้จำเสียงพูดแบบเดิมมาก
  คุณสามารถใส่ ศัพท์เฉพาะ หรือ โครงสร้างองค์กร ของบริษัทลงในพรอมป์ต์ได้ ทำให้ประโยคอย่าง “ให้ Kaitlyn ไปรีวิว PR” แยกแยะบุคคลได้อย่างแม่นยำ
  คุณลองใช้ OpenAI API key และ custom prompt ได้ผ่าน เครื่องมือโอเพนซอร์สสำหรับ Mac ที่ฉันทำ
- ไม่เข้าใจว่าทำไมต้องกังวล
  ถ้าเทคโนโลยีพัฒนาไป แล้วบางเทคโนโลยีหายไป สุดท้ายมันก็เป็นการไปในทิศทางที่ดีกว่าไม่ใช่เหรอ?
- ASR เป็นเทคโนโลยีที่พิสูจน์ประโยชน์ได้แล้ว
  หลังจาก Whisper ออกมา โมเดลรู้จำเสียงพูดที่รันในเครื่องก็เพิ่มขึ้นแบบระเบิด
  เช่น: superwhisper.com, carelesswhisper.app, macwhisper.com
- STT (เสียง→ข้อความ) น่าจะยังเหมาะกับ การประมวลผลในเครื่อง ไปอีกพักหนึ่ง
  ถ้าประมวลผลโดยตรงบนอุปกรณ์ที่มีไมโครโฟน ก็ลดแบนด์วิดท์ได้มาก และอาจไม่จำเป็นต้องส่งขึ้นคลาวด์เลย
น่าเสียดายที่โมเดลไม่มี timestamp หรือการแยกผู้พูด (diarization)
เลยสงสัยว่า WhisperX ยังเป็นตัวเลือกที่ดีที่สุดสำหรับจุดประสงค์นั้นอยู่ไหม
- แม้แต่ในบรรดา commercial API ก็แทบไม่มีเจ้าไหนที่รองรับการแยกผู้พูดและ timestamp ระดับคำได้อย่างเสถียร
  Google Chirp มีปัญหาเรื่องช่วงเสียงหาย, hallucination, และ timestamp ไม่ตรงอยู่เยอะ
  AWS ดีกว่านิดหน่อย แต่การซิงก์ระดับคำก็ยังไม่นิ่ง
  Whisper เองก็ hallucination บ่อย ส่วนโมเดลใหม่ของ OpenAI แม่นยำแต่ไม่รองรับ timestamp
  สุดท้ายก็แก้ด้วย post-processing ได้ แต่ก็อยากมี API ที่ใช้ได้แบบเชื่อใจได้เลย
- WhisperX ไม่ใช่โมเดล แต่เป็น แพ็กเกจซอฟต์แวร์ ที่รวม Whisper กับโมเดลอื่น ๆ เข้าด้วยกัน
  น่าจะมีเวอร์ชันที่ผสานกับ Cohere Transcribe ออกมาเร็ว ๆ นี้
- แนะนำ Qwen-ASR
  ด้านล่างของหน้ามีตัวอย่างที่รวม timestamp ไว้ด้วย
- Mistral Voxtral รองรับ timestamp และการแยกผู้พูด และทำผลงานได้ดีในภาษาเยอรมัน
- ยังมี whisper-timestamped ด้วย
  มันใช้ ค่าน้ำหนัก cross-attention ของ Whisper เพื่อจัดแนวด้วย Dynamic Time Warping โดยไม่ต้องใช้โมเดลเพิ่ม
ฉันพอใจกับบริการของ Cohere มาก
เมื่อไม่กี่เดือนก่อนย้ายไปใช้โมเดล clip-style embedding และจนถึงตอนนี้มันมี P50 latency ที่เสถียรที่สุดในบรรดาบริการภายนอกทั้งหมดที่ฉันเคยใช้
- สงสัยว่าคุณภาพโดยรวมเป็นยังไง
  ปกติโมเดลของ Cohere มักมีขนาดเล็กกว่าและประสิทธิภาพต่ำกว่า
โมเดล STT จำนวนมากฝึกด้วย เสียงที่ออกเสียงสมบูรณ์แบบ เท่านั้น เลยอ่อนกับ สำเนียงต่างชาติ
ในฐานะคนที่พูดอังกฤษด้วยสำเนียงฝรั่งเศส ฉันอยากลองทดสอบโมเดลนี้มาก
ตอนนี้ตัวที่ทำงานดีที่สุดในแอปเรียนภาษาของฉัน (Copycat Cafe) คือ Soniox ส่วนโมเดลสาย Whisper กลับมีแนวโน้มจะสร้าง ประโยคหลอน ขึ้นมาเอง
ฉันทดสอบด้วยชุดข้อมูลภายในของเราเอง (เสียงรหัสไปรษณีย์อังกฤษ 250 รายการ) แล้วพบว่ามันค่อนข้างแข่งขันได้
Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics ราว 54%
- มีคนบอกว่า compare-stt.com จัดให้ Gladia ได้อันดับ 1 ในการทดสอบแบบ blind
- การเรนเดอร์ตารางทำได้โดยเว้นบรรทัดเปล่าสองบรรทัดระหว่างแถว
- มาตรฐานของมนุษย์คือ 248/248 หรือเปล่านะ
น่าเสียดายที่โมเดลนี้ไม่รองรับ พจนานุกรมคำแบบกำหนดเอง, word boosting หรือ การเพิ่มพรอมป์ต์
น่าจะเป็นอีกหนึ่ง โมเดล ASR ที่เน้น benchmark
ฉันอัปโหลดคลิปตัดต่อจากสตรีม Twitch ลง YouTube และใช้ Whisper-large-v3 สร้างซับไตเติล
เงื่อนไขของ ASR ที่ดีคือ
1. รองรับ timestamp
2. รู้จำผู้พูดพร้อมกันหลายคน
3. ถอดเสียงได้แม่นยำ
4. มี การแสดงเสียงที่ไม่ใช่คำพูด อย่าง [ไอ], [หัวเราะ]
5. ฉีด บริบท ได้มากกว่า 10,000 คำ
  ด้วย WhisperX ถอดเสียงได้ใน 5 นาที แต่ปัญหาใหญ่ที่สุดก็ยังเป็นการตกหล่นของประโยค
- ข้อ 3 และ 4 สำหรับลูกค้าส่วนใหญ่อาจเป็น ฟีเจอร์ที่ไม่จำเป็น ด้วยซ้ำ
ถ้าบอกว่า “โอเพนซอร์ส” หมายถึงมี ซอร์สโค้ด หรือแค่เปิดเผยน้ำหนักโมเดลกันแน่
- ดาวน์โหลดไฟล์ได้จาก Hugging Face และยังมี เวอร์ชันแปลงเป็น ONNX ด้วย เลยรันบน CPU ได้
- ในหลายกรณี “โอเพนซอร์ส” หมายถึง เปิดเผยน้ำหนักโมเดล
  เพราะการฝึกโมเดลมีต้นทุนสูงมาก ดังนั้นแค่แชร์ผลลัพธ์สุดท้ายก็นับว่ามีประโยชน์มากแล้ว
- น่าจะเป็นคำที่ใช้หมายถึงตัวโมเดลเองมากกว่า
สงสัยว่าโมเดลนี้เป็น SOTA ในกลุ่มขนาดใกล้เคียงกัน หรือเปล่า
อยากรู้ว่าดีกว่า Parakeet ไหม
- ถ้าดู Hugging Face ASR leaderboard
  Parakeet (0.6B) เร็ว แต่ถ้าวัดตาม WER จะอยู่ราว ๆ อันดับ 10
- โมเดลของ Cohere มี 2B พารามิเตอร์ ใหญ่กว่า Parakeet (0.6B, 1.1B) และทำคะแนน benchmark ได้ดีกว่า
เมื่อก่อนฉันเคยใช้ Dragon Dictate แต่ใช้เวลาฝึกนานและผลลัพธ์ก็ไม่ค่อยดี
ไม่นานมานี้ฉันไปออกรายการสัมภาษณ์พอดแคสต์ แล้ว Apple Podcasts ก็สร้าง AI transcription ให้อัตโนมัติ
ข้อผิดพลาดมีไม่เยอะ แต่สิ่งที่น่ารำคาญที่สุดคือ แยกผู้พูดไม่ได้
- สมัยนั้นมีซอฟต์แวร์รู้จำเสียงพูดที่รันได้แม้มีแรมแค่ 64MB
  ตอนเด็ก ๆ ฉันดาวน์โหลดแชร์แวร์แนว TTS/การรู้จำเสียงพูด แบบนั้นเยอะมาก

Cohere Transcribe - โมเดลรู้จำเสียงพูดโอเพนซอร์ส SOTA

ภาพรวมของ Cohere Transcribe

สถาปัตยกรรมโมเดล

รองรับ 14 ภาษา

ประสิทธิภาพของโมเดล

ผลการประเมินโดยมนุษย์

ความเร็วและประสิทธิภาพการประมวลผล

การประเมินจาก Radical Ventures

ทิศทางการพัฒนาต่อไป

การใช้งานและการเผยแพร่

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News