- โมเดล Automatic Speech Recognition (ASR) รุ่นล่าสุดขนาด 2B (2 พันล้าน) พารามิเตอร์ ที่รองรับ 14 ภาษา เช่น อังกฤษ เกาหลี จีน เป็นต้น
- ใช้สถาปัตยกรรม encoder-decoder บนพื้นฐาน Conformer และเผยแพร่ภายใต้ Apache 2.0 license
- สำหรับภาษาอังกฤษ มี อัตราคำผิดเฉลี่ย (WER) 5.42% เหนือกว่าโมเดลคู่แข่งหลักอย่าง Whisper Large v3 และครอง อันดับ 1 บน Hugging Face Open ASR Leaderboard
- แสดงความแม่นยำและความสม่ำเสมอสูงทั้งในการประเมินสภาพแวดล้อมจริงและการประเมินโดยมนุษย์ พร้อมรักษาประสิทธิภาพที่เสถียรในการถอดเสียงหลายภาษา
- ทำได้ทั้ง latency ต่ำและประสิทธิภาพการประมวลผลสูง จึงเหมาะกับผลิตภัณฑ์และเวิร์กโฟลว์แบบเรียลไทม์
ภาพรวมของ Cohere Transcribe
- เสียงกำลังกลายเป็น รูปแบบอินพุตหลักของระบบอัตโนมัติงานด้วย AI เช่น บันทึกการประชุม การวิเคราะห์เสียง และการสนับสนุนลูกค้าแบบเรียลไทม์
- โมเดลนี้ถูกฝึกใหม่ตั้งแต่ต้นโดยมีเป้าหมายเพื่อลด อัตราคำผิด (WER) ให้ต่ำที่สุด และออกแบบโดยคำนึงถึง การใช้งานในสภาพแวดล้อมบริการจริง ไม่ใช่เพื่อการวิจัยเท่านั้น
- สามารถทำ inference ได้อย่างมีประสิทธิภาพทั้งบน GPU และสภาพแวดล้อมโลคัล และยังใช้งานได้ผ่านแพลตฟอร์ม managed inference ของ Cohere ที่ชื่อ Model Vault
- ทำสถิติ ความแม่นยำอันดับ 1 บน Open ASR Leaderboard ของ Hugging Face และนำเสนอมาตรฐานใหม่ของประสิทธิภาพการถอดเสียงในสภาพแวดล้อมจริง
สถาปัตยกรรมโมเดล
- ชื่อโมเดลคือ cohere-transcribe-03-2026 และใช้ สถาปัตยกรรม encoder-decoder บนพื้นฐาน Conformer
- อินพุตคือ การแปลงคลื่นเสียงเป็น log-Mel spectrogram ส่วนเอาต์พุตคือข้อความที่ถอดเสียงแล้ว
- Conformer encoder ขนาดใหญ่ระดับ 2B (2 พันล้าน) พารามิเตอร์ใช้สำหรับดึง acoustic representation และ Transformer decoder แบบน้ำหนักเบาทำหน้าที่สร้างโทเคน
- ฝึกแบบ supervised learning ตั้งแต่ต้นด้วย standard cross-entropy loss
-
รองรับ 14 ภาษา
- ยุโรป: อังกฤษ ฝรั่งเศส เยอรมัน อิตาลี สเปน โปรตุเกส กรีก ดัตช์ โปแลนด์
- เอเชีย-แปซิฟิก: จีนกลาง ญี่ปุ่น เกาหลี เวียดนาม
- ตะวันออกกลางและแอฟริกาเหนือ: อาหรับ
- เปิดเผยภายใต้ Apache 2.0 license
ประสิทธิภาพของโมเดล
- สร้างมาตรฐานล่าสุดด้านความแม่นยำในการรู้จำเสียงภาษาอังกฤษ ด้วยค่า WER เฉลี่ย 5.42% ซึ่งเป็นผลงานสูงสุดในบรรดาโมเดล ASR ทั้งแบบเปิดและปิด
- เหนือกว่าโมเดลคู่แข่งหลักอย่าง Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B
- รักษาประสิทธิภาพที่แข็งแกร่งได้ในสภาพแวดล้อมจริงที่หลากหลาย เช่น ผู้พูดหลายคน อะคูสติกในห้องประชุม และสำเนียงที่แตกต่างกัน
- ผลลัพธ์ benchmark หลัก
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- ด้วยค่า WER เฉลี่ย 5.42 จึงดีกว่า Zoom Scribe v1(5.47), IBM Granite 4.0(5.52), NVIDIA Canary Qwen 2.5B(5.63)
- Hugging Face Open ASR Leaderboard ประเมินด้วยค่า WER ที่ทำให้เป็นมาตรฐานเดียวกันในหลายชุดข้อมูล โดยค่า WER ที่ต่ำกว่าหมายถึงความแม่นยำในการถอดเสียงที่สูงกว่า
ผลการประเมินโดยมนุษย์
- ยืนยันได้ว่า มีประสิทธิภาพยอดเยี่ยมเช่นเดียวกันในการประเมินสภาพแวดล้อมจริงนอกเหนือจาก benchmark
- ผู้ประเมินที่มีประสบการณ์ได้ประเมินผลการถอดเสียงจากออดิโอจริงตามเกณฑ์ ความแม่นยำ ความสม่ำเสมอ และการใช้งานได้จริง
- ทั้งการประเมินอัตโนมัติและการประเมินโดยมนุษย์ต่างแสดงผลยอดเยี่ยมอย่างสม่ำเสมอ
- ในการประเมินเปรียบเทียบ คุณภาพการถอดเสียงภาษาอังกฤษ ได้รับความนิยมสูงในด้านการรักษาความหมาย การลด hallucination การรู้จำชื่อเฉพาะ และความถูกต้องของรูปแบบ
- ใน การประเมินโดยมนุษย์แยกตามภาษาที่รองรับ ก็ทำสัดส่วนความชอบได้เกิน 50% ยืนยันประสิทธิภาพที่เสถียรในสภาพแวดล้อมหลายภาษา
ความเร็วและประสิทธิภาพการประมวลผล
- ในสภาพแวดล้อมบริการจริง latency และ throughput คือข้อจำกัดสำคัญ
- ต่อให้ความแม่นยำสูง แต่หากช้าหรือใช้ทรัพยากรมาก ก็ส่งผลโดยตรงต่อประสบการณ์ผู้ใช้และต้นทุน
- Cohere Transcribe รักษา ประสิทธิภาพการประมวลผลระดับแนวหน้าของกลุ่มโมเดล 1B+ พารามิเตอร์ พร้อมทำได้ทั้ง WER ต่ำและ RTFx (ตัวคูณการประมวลผลแบบเรียลไทม์) สูง
- RTFx เป็นตัวชี้วัดว่าโมเดลประมวลผลอินพุตเสียงได้เร็วกว่าเวลาจริงมากเพียงใด โดย Transcribe ได้ขยายเส้น Pareto frontier ทั้งด้านความแม่นยำและความเร็ว
-
การประเมินจาก Radical Ventures
- Paige Dickie รองประธานของ Radical Ventures ชื่นชมทั้งความเร็วและคุณภาพของ Transcribe
- ระบุว่า “สามารถถอดเสียงออดิโอความยาวหลายนาทีได้ภายในไม่กี่วินาที และเปิดความเป็นไปได้ใหม่ให้กับผลิตภัณฑ์และเวิร์กโฟลว์แบบเรียลไทม์”
- พร้อมประเมินว่าสามารถให้คุณภาพการถอดเสียงที่ทรงพลังและเชื่อถือได้แม้กับเสียงพูดในชีวิตประจำวัน และประสบการณ์ใช้งานก็ราบรื่น
ทิศทางการพัฒนาต่อไป
- Cohere มีแผนผสาน Transcribe เข้ากับ North แพลตฟอร์ม orchestration สำหรับ AI agent
- ในอนาคต Transcribe จะขยายจากโมเดลถอดเสียงอย่างเดียวไปสู่ รากฐานของ voice intelligence สำหรับองค์กร
การใช้งานและการเผยแพร่
- สามารถดาวน์โหลดโมเดลได้จาก Hugging Face และรันได้ทั้งในสภาพแวดล้อมโลคัลหรือ edge
- สามารถทดลองใช้งานฟรีผ่าน Cohere API แต่มีข้อจำกัดด้านจำนวนคำขอ (rate limit)
- วิธีใช้งานและคู่มือการเชื่อมต่อมีให้ในเอกสารทางการ
- หากใช้ Model Vault จะสามารถทำ inference แบบ private cloud ที่มี latency ต่ำ ได้โดยไม่ต้องจัดการโครงสร้างพื้นฐาน
- ใช้รูปแบบค่าบริการอินสแตนซ์รายชั่วโมง และมีส่วนลดสำหรับการใช้งานระยะยาว
- การสอบถามเรื่อง deployment สำหรับองค์กรสามารถติดต่อทีมขายของ Cohere ได้
2 ความคิดเห็น
มันไม่ใช่โอเพนซอร์ส แต่เป็นบริการแบบเสียเงินหรือเปล่าครับ?
ความคิดเห็นจาก Hacker News
ฉันกังวลว่า ASR (การรู้จำเสียงพูดอัตโนมัติ) สุดท้ายจะกลายเป็นเหมือน OCR หรือเปล่า
ถ้า AI ขนาดใหญ่แบบมัลติโหมดเร็วพอและเข้าใจบริบทได้ลึกพอ ก็ดูเหมือนมันจะดูดกลืนเทคโนโลยีเดิม ๆ ไปหมด
แม้แต่ใน OCR ถ้าตัวอักษรถูกสแกนมาแบบพร่ามัว AI ก็ยังอาจเดาความหมายของเอกสารจากแพตเทิร์นอย่าง “โดยปกติแล้ว ID คำสั่งซื้อจะอยู่ใต้วันที่สั่งซื้อ” ได้
ถ้า ASR เริ่ม ‘เดา’ ตามบริบทแบบนี้ ก็มีความเสี่ยงที่จะบิดเบือนเสียงจริง
ASR ที่ดีสามารถเข้าใจ เสียงที่มีสัญญาณรบกวนปนอยู่ ซึ่งฉันเองยังฟังไม่ออกได้ แต่บางครั้งมันก็แก้มากเกินไปจนเปลี่ยนคำหายากให้กลายเป็นคำธรรมดา
ใน OCR ก็อาจเกิดข้อมูลที่ดูน่าเชื่อแต่ผิดได้เหมือน กรณี Xerox
เพราะงั้นฉันเลยใช้ OCR แค่ เพื่อการค้นหา และเก็บไฟล์สแกนต้นฉบับไว้เสมอ
มัลติโมดัล LLM อย่าง gpt-4o-transcribe เหนือกว่าการรู้จำเสียงพูดแบบเดิมมาก
คุณสามารถใส่ ศัพท์เฉพาะ หรือ โครงสร้างองค์กร ของบริษัทลงในพรอมป์ต์ได้ ทำให้ประโยคอย่าง “ให้ Kaitlyn ไปรีวิว PR” แยกแยะบุคคลได้อย่างแม่นยำ
คุณลองใช้ OpenAI API key และ custom prompt ได้ผ่าน เครื่องมือโอเพนซอร์สสำหรับ Mac ที่ฉันทำ
ถ้าเทคโนโลยีพัฒนาไป แล้วบางเทคโนโลยีหายไป สุดท้ายมันก็เป็นการไปในทิศทางที่ดีกว่าไม่ใช่เหรอ?
หลังจาก Whisper ออกมา โมเดลรู้จำเสียงพูดที่รันในเครื่องก็เพิ่มขึ้นแบบระเบิด
เช่น: superwhisper.com, carelesswhisper.app, macwhisper.com
ถ้าประมวลผลโดยตรงบนอุปกรณ์ที่มีไมโครโฟน ก็ลดแบนด์วิดท์ได้มาก และอาจไม่จำเป็นต้องส่งขึ้นคลาวด์เลย
น่าเสียดายที่โมเดลไม่มี timestamp หรือการแยกผู้พูด (diarization)
เลยสงสัยว่า WhisperX ยังเป็นตัวเลือกที่ดีที่สุดสำหรับจุดประสงค์นั้นอยู่ไหม
Google Chirp มีปัญหาเรื่องช่วงเสียงหาย, hallucination, และ timestamp ไม่ตรงอยู่เยอะ
AWS ดีกว่านิดหน่อย แต่การซิงก์ระดับคำก็ยังไม่นิ่ง
Whisper เองก็ hallucination บ่อย ส่วนโมเดลใหม่ของ OpenAI แม่นยำแต่ไม่รองรับ timestamp
สุดท้ายก็แก้ด้วย post-processing ได้ แต่ก็อยากมี API ที่ใช้ได้แบบเชื่อใจได้เลย
น่าจะมีเวอร์ชันที่ผสานกับ Cohere Transcribe ออกมาเร็ว ๆ นี้
ด้านล่างของหน้ามีตัวอย่างที่รวม timestamp ไว้ด้วย
มันใช้ ค่าน้ำหนัก cross-attention ของ Whisper เพื่อจัดแนวด้วย Dynamic Time Warping โดยไม่ต้องใช้โมเดลเพิ่ม
ฉันพอใจกับบริการของ Cohere มาก
เมื่อไม่กี่เดือนก่อนย้ายไปใช้โมเดล clip-style embedding และจนถึงตอนนี้มันมี P50 latency ที่เสถียรที่สุดในบรรดาบริการภายนอกทั้งหมดที่ฉันเคยใช้
ปกติโมเดลของ Cohere มักมีขนาดเล็กกว่าและประสิทธิภาพต่ำกว่า
โมเดล STT จำนวนมากฝึกด้วย เสียงที่ออกเสียงสมบูรณ์แบบ เท่านั้น เลยอ่อนกับ สำเนียงต่างชาติ
ในฐานะคนที่พูดอังกฤษด้วยสำเนียงฝรั่งเศส ฉันอยากลองทดสอบโมเดลนี้มาก
ตอนนี้ตัวที่ทำงานดีที่สุดในแอปเรียนภาษาของฉัน (Copycat Cafe) คือ Soniox ส่วนโมเดลสาย Whisper กลับมีแนวโน้มจะสร้าง ประโยคหลอน ขึ้นมาเอง
ฉันทดสอบด้วยชุดข้อมูลภายในของเราเอง (เสียงรหัสไปรษณีย์อังกฤษ 250 รายการ) แล้วพบว่ามันค่อนข้างแข่งขันได้
Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics ราว 54%
น่าเสียดายที่โมเดลนี้ไม่รองรับ พจนานุกรมคำแบบกำหนดเอง, word boosting หรือ การเพิ่มพรอมป์ต์
น่าจะเป็นอีกหนึ่ง โมเดล ASR ที่เน้น benchmark
ฉันอัปโหลดคลิปตัดต่อจากสตรีม Twitch ลง YouTube และใช้ Whisper-large-v3 สร้างซับไตเติล
เงื่อนไขของ ASR ที่ดีคือ
ด้วย WhisperX ถอดเสียงได้ใน 5 นาที แต่ปัญหาใหญ่ที่สุดก็ยังเป็นการตกหล่นของประโยค
ถ้าบอกว่า “โอเพนซอร์ส” หมายถึงมี ซอร์สโค้ด หรือแค่เปิดเผยน้ำหนักโมเดลกันแน่
เพราะการฝึกโมเดลมีต้นทุนสูงมาก ดังนั้นแค่แชร์ผลลัพธ์สุดท้ายก็นับว่ามีประโยชน์มากแล้ว
สงสัยว่าโมเดลนี้เป็น SOTA ในกลุ่มขนาดใกล้เคียงกัน หรือเปล่า
อยากรู้ว่าดีกว่า Parakeet ไหม
Parakeet (0.6B) เร็ว แต่ถ้าวัดตาม WER จะอยู่ราว ๆ อันดับ 10
เมื่อก่อนฉันเคยใช้ Dragon Dictate แต่ใช้เวลาฝึกนานและผลลัพธ์ก็ไม่ค่อยดี
ไม่นานมานี้ฉันไปออกรายการสัมภาษณ์พอดแคสต์ แล้ว Apple Podcasts ก็สร้าง AI transcription ให้อัตโนมัติ
ข้อผิดพลาดมีไม่เยอะ แต่สิ่งที่น่ารำคาญที่สุดคือ แยกผู้พูดไม่ได้
ตอนเด็ก ๆ ฉันดาวน์โหลดแชร์แวร์แนว TTS/การรู้จำเสียงพูด แบบนั้นเยอะมาก