3 คะแนน โดย GN⁺ 26 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล Automatic Speech Recognition (ASR) รุ่นล่าสุดขนาด 2B (2 พันล้าน) พารามิเตอร์ ที่รองรับ 14 ภาษา เช่น อังกฤษ เกาหลี จีน เป็นต้น
  • ใช้สถาปัตยกรรม encoder-decoder บนพื้นฐาน Conformer และเผยแพร่ภายใต้ Apache 2.0 license
  • สำหรับภาษาอังกฤษ มี อัตราคำผิดเฉลี่ย (WER) 5.42% เหนือกว่าโมเดลคู่แข่งหลักอย่าง Whisper Large v3 และครอง อันดับ 1 บน Hugging Face Open ASR Leaderboard
  • แสดงความแม่นยำและความสม่ำเสมอสูงทั้งในการประเมินสภาพแวดล้อมจริงและการประเมินโดยมนุษย์ พร้อมรักษาประสิทธิภาพที่เสถียรในการถอดเสียงหลายภาษา
  • ทำได้ทั้ง latency ต่ำและประสิทธิภาพการประมวลผลสูง จึงเหมาะกับผลิตภัณฑ์และเวิร์กโฟลว์แบบเรียลไทม์

ภาพรวมของ Cohere Transcribe

  • เสียงกำลังกลายเป็น รูปแบบอินพุตหลักของระบบอัตโนมัติงานด้วย AI เช่น บันทึกการประชุม การวิเคราะห์เสียง และการสนับสนุนลูกค้าแบบเรียลไทม์
  • โมเดลนี้ถูกฝึกใหม่ตั้งแต่ต้นโดยมีเป้าหมายเพื่อลด อัตราคำผิด (WER) ให้ต่ำที่สุด และออกแบบโดยคำนึงถึง การใช้งานในสภาพแวดล้อมบริการจริง ไม่ใช่เพื่อการวิจัยเท่านั้น
  • สามารถทำ inference ได้อย่างมีประสิทธิภาพทั้งบน GPU และสภาพแวดล้อมโลคัล และยังใช้งานได้ผ่านแพลตฟอร์ม managed inference ของ Cohere ที่ชื่อ Model Vault
  • ทำสถิติ ความแม่นยำอันดับ 1 บน Open ASR Leaderboard ของ Hugging Face และนำเสนอมาตรฐานใหม่ของประสิทธิภาพการถอดเสียงในสภาพแวดล้อมจริง

สถาปัตยกรรมโมเดล

  • ชื่อโมเดลคือ cohere-transcribe-03-2026 และใช้ สถาปัตยกรรม encoder-decoder บนพื้นฐาน Conformer
    • อินพุตคือ การแปลงคลื่นเสียงเป็น log-Mel spectrogram ส่วนเอาต์พุตคือข้อความที่ถอดเสียงแล้ว
    • Conformer encoder ขนาดใหญ่ระดับ 2B (2 พันล้าน) พารามิเตอร์ใช้สำหรับดึง acoustic representation และ Transformer decoder แบบน้ำหนักเบาทำหน้าที่สร้างโทเคน
  • ฝึกแบบ supervised learning ตั้งแต่ต้นด้วย standard cross-entropy loss
  • รองรับ 14 ภาษา

    • ยุโรป: อังกฤษ ฝรั่งเศส เยอรมัน อิตาลี สเปน โปรตุเกส กรีก ดัตช์ โปแลนด์
    • เอเชีย-แปซิฟิก: จีนกลาง ญี่ปุ่น เกาหลี เวียดนาม
    • ตะวันออกกลางและแอฟริกาเหนือ: อาหรับ
    • เปิดเผยภายใต้ Apache 2.0 license

ประสิทธิภาพของโมเดล

  • สร้างมาตรฐานล่าสุดด้านความแม่นยำในการรู้จำเสียงภาษาอังกฤษ ด้วยค่า WER เฉลี่ย 5.42% ซึ่งเป็นผลงานสูงสุดในบรรดาโมเดล ASR ทั้งแบบเปิดและปิด
    • เหนือกว่าโมเดลคู่แข่งหลักอย่าง Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B
  • รักษาประสิทธิภาพที่แข็งแกร่งได้ในสภาพแวดล้อมจริงที่หลากหลาย เช่น ผู้พูดหลายคน อะคูสติกในห้องประชุม และสำเนียงที่แตกต่างกัน
  • ผลลัพธ์ benchmark หลัก
    • AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
    • ด้วยค่า WER เฉลี่ย 5.42 จึงดีกว่า Zoom Scribe v1(5.47), IBM Granite 4.0(5.52), NVIDIA Canary Qwen 2.5B(5.63)
  • Hugging Face Open ASR Leaderboard ประเมินด้วยค่า WER ที่ทำให้เป็นมาตรฐานเดียวกันในหลายชุดข้อมูล โดยค่า WER ที่ต่ำกว่าหมายถึงความแม่นยำในการถอดเสียงที่สูงกว่า

ผลการประเมินโดยมนุษย์

  • ยืนยันได้ว่า มีประสิทธิภาพยอดเยี่ยมเช่นเดียวกันในการประเมินสภาพแวดล้อมจริงนอกเหนือจาก benchmark
    • ผู้ประเมินที่มีประสบการณ์ได้ประเมินผลการถอดเสียงจากออดิโอจริงตามเกณฑ์ ความแม่นยำ ความสม่ำเสมอ และการใช้งานได้จริง
    • ทั้งการประเมินอัตโนมัติและการประเมินโดยมนุษย์ต่างแสดงผลยอดเยี่ยมอย่างสม่ำเสมอ
  • ในการประเมินเปรียบเทียบ คุณภาพการถอดเสียงภาษาอังกฤษ ได้รับความนิยมสูงในด้านการรักษาความหมาย การลด hallucination การรู้จำชื่อเฉพาะ และความถูกต้องของรูปแบบ
  • ใน การประเมินโดยมนุษย์แยกตามภาษาที่รองรับ ก็ทำสัดส่วนความชอบได้เกิน 50% ยืนยันประสิทธิภาพที่เสถียรในสภาพแวดล้อมหลายภาษา

ความเร็วและประสิทธิภาพการประมวลผล

  • ในสภาพแวดล้อมบริการจริง latency และ throughput คือข้อจำกัดสำคัญ
    • ต่อให้ความแม่นยำสูง แต่หากช้าหรือใช้ทรัพยากรมาก ก็ส่งผลโดยตรงต่อประสบการณ์ผู้ใช้และต้นทุน
  • Cohere Transcribe รักษา ประสิทธิภาพการประมวลผลระดับแนวหน้าของกลุ่มโมเดล 1B+ พารามิเตอร์ พร้อมทำได้ทั้ง WER ต่ำและ RTFx (ตัวคูณการประมวลผลแบบเรียลไทม์) สูง
  • RTFx เป็นตัวชี้วัดว่าโมเดลประมวลผลอินพุตเสียงได้เร็วกว่าเวลาจริงมากเพียงใด โดย Transcribe ได้ขยายเส้น Pareto frontier ทั้งด้านความแม่นยำและความเร็ว
  • การประเมินจาก Radical Ventures

    • Paige Dickie รองประธานของ Radical Ventures ชื่นชมทั้งความเร็วและคุณภาพของ Transcribe
    • ระบุว่า “สามารถถอดเสียงออดิโอความยาวหลายนาทีได้ภายในไม่กี่วินาที และเปิดความเป็นไปได้ใหม่ให้กับผลิตภัณฑ์และเวิร์กโฟลว์แบบเรียลไทม์”
    • พร้อมประเมินว่าสามารถให้คุณภาพการถอดเสียงที่ทรงพลังและเชื่อถือได้แม้กับเสียงพูดในชีวิตประจำวัน และประสบการณ์ใช้งานก็ราบรื่น

ทิศทางการพัฒนาต่อไป

  • Cohere มีแผนผสาน Transcribe เข้ากับ North แพลตฟอร์ม orchestration สำหรับ AI agent
    • ในอนาคต Transcribe จะขยายจากโมเดลถอดเสียงอย่างเดียวไปสู่ รากฐานของ voice intelligence สำหรับองค์กร

การใช้งานและการเผยแพร่

  • สามารถดาวน์โหลดโมเดลได้จาก Hugging Face และรันได้ทั้งในสภาพแวดล้อมโลคัลหรือ edge
  • สามารถทดลองใช้งานฟรีผ่าน Cohere API แต่มีข้อจำกัดด้านจำนวนคำขอ (rate limit)
    • วิธีใช้งานและคู่มือการเชื่อมต่อมีให้ในเอกสารทางการ
  • หากใช้ Model Vault จะสามารถทำ inference แบบ private cloud ที่มี latency ต่ำ ได้โดยไม่ต้องจัดการโครงสร้างพื้นฐาน
    • ใช้รูปแบบค่าบริการอินสแตนซ์รายชั่วโมง และมีส่วนลดสำหรับการใช้งานระยะยาว
    • การสอบถามเรื่อง deployment สำหรับองค์กรสามารถติดต่อทีมขายของ Cohere ได้

2 ความคิดเห็น

 
j2sus91 26 일 전

มันไม่ใช่โอเพนซอร์ส แต่เป็นบริการแบบเสียเงินหรือเปล่าครับ?

 
GN⁺ 26 일 전
ความคิดเห็นจาก Hacker News
  • ฉันกังวลว่า ASR (การรู้จำเสียงพูดอัตโนมัติ) สุดท้ายจะกลายเป็นเหมือน OCR หรือเปล่า
    ถ้า AI ขนาดใหญ่แบบมัลติโหมดเร็วพอและเข้าใจบริบทได้ลึกพอ ก็ดูเหมือนมันจะดูดกลืนเทคโนโลยีเดิม ๆ ไปหมด
    แม้แต่ใน OCR ถ้าตัวอักษรถูกสแกนมาแบบพร่ามัว AI ก็ยังอาจเดาความหมายของเอกสารจากแพตเทิร์นอย่าง “โดยปกติแล้ว ID คำสั่งซื้อจะอยู่ใต้วันที่สั่งซื้อ” ได้
    ถ้า ASR เริ่ม ‘เดา’ ตามบริบทแบบนี้ ก็มีความเสี่ยงที่จะบิดเบือนเสียงจริง

    • เรื่องนี้มีทั้งข้อดีและข้อเสีย
      ASR ที่ดีสามารถเข้าใจ เสียงที่มีสัญญาณรบกวนปนอยู่ ซึ่งฉันเองยังฟังไม่ออกได้ แต่บางครั้งมันก็แก้มากเกินไปจนเปลี่ยนคำหายากให้กลายเป็นคำธรรมดา
      ใน OCR ก็อาจเกิดข้อมูลที่ดูน่าเชื่อแต่ผิดได้เหมือน กรณี Xerox
      เพราะงั้นฉันเลยใช้ OCR แค่ เพื่อการค้นหา และเก็บไฟล์สแกนต้นฉบับไว้เสมอ
    • ตอนนี้โลกความเป็นจริงก็กำลังไปทางนั้นแล้ว
      มัลติโมดัล LLM อย่าง gpt-4o-transcribe เหนือกว่าการรู้จำเสียงพูดแบบเดิมมาก
      คุณสามารถใส่ ศัพท์เฉพาะ หรือ โครงสร้างองค์กร ของบริษัทลงในพรอมป์ต์ได้ ทำให้ประโยคอย่าง “ให้ Kaitlyn ไปรีวิว PR” แยกแยะบุคคลได้อย่างแม่นยำ
      คุณลองใช้ OpenAI API key และ custom prompt ได้ผ่าน เครื่องมือโอเพนซอร์สสำหรับ Mac ที่ฉันทำ
    • ไม่เข้าใจว่าทำไมต้องกังวล
      ถ้าเทคโนโลยีพัฒนาไป แล้วบางเทคโนโลยีหายไป สุดท้ายมันก็เป็นการไปในทิศทางที่ดีกว่าไม่ใช่เหรอ?
    • ASR เป็นเทคโนโลยีที่พิสูจน์ประโยชน์ได้แล้ว
      หลังจาก Whisper ออกมา โมเดลรู้จำเสียงพูดที่รันในเครื่องก็เพิ่มขึ้นแบบระเบิด
      เช่น: superwhisper.com, carelesswhisper.app, macwhisper.com
    • STT (เสียง→ข้อความ) น่าจะยังเหมาะกับ การประมวลผลในเครื่อง ไปอีกพักหนึ่ง
      ถ้าประมวลผลโดยตรงบนอุปกรณ์ที่มีไมโครโฟน ก็ลดแบนด์วิดท์ได้มาก และอาจไม่จำเป็นต้องส่งขึ้นคลาวด์เลย
  • น่าเสียดายที่โมเดลไม่มี timestamp หรือการแยกผู้พูด (diarization)
    เลยสงสัยว่า WhisperX ยังเป็นตัวเลือกที่ดีที่สุดสำหรับจุดประสงค์นั้นอยู่ไหม

    • แม้แต่ในบรรดา commercial API ก็แทบไม่มีเจ้าไหนที่รองรับการแยกผู้พูดและ timestamp ระดับคำได้อย่างเสถียร
      Google Chirp มีปัญหาเรื่องช่วงเสียงหาย, hallucination, และ timestamp ไม่ตรงอยู่เยอะ
      AWS ดีกว่านิดหน่อย แต่การซิงก์ระดับคำก็ยังไม่นิ่ง
      Whisper เองก็ hallucination บ่อย ส่วนโมเดลใหม่ของ OpenAI แม่นยำแต่ไม่รองรับ timestamp
      สุดท้ายก็แก้ด้วย post-processing ได้ แต่ก็อยากมี API ที่ใช้ได้แบบเชื่อใจได้เลย
    • WhisperX ไม่ใช่โมเดล แต่เป็น แพ็กเกจซอฟต์แวร์ ที่รวม Whisper กับโมเดลอื่น ๆ เข้าด้วยกัน
      น่าจะมีเวอร์ชันที่ผสานกับ Cohere Transcribe ออกมาเร็ว ๆ นี้
    • แนะนำ Qwen-ASR
      ด้านล่างของหน้ามีตัวอย่างที่รวม timestamp ไว้ด้วย
    • Mistral Voxtral รองรับ timestamp และการแยกผู้พูด และทำผลงานได้ดีในภาษาเยอรมัน
    • ยังมี whisper-timestamped ด้วย
      มันใช้ ค่าน้ำหนัก cross-attention ของ Whisper เพื่อจัดแนวด้วย Dynamic Time Warping โดยไม่ต้องใช้โมเดลเพิ่ม
  • ฉันพอใจกับบริการของ Cohere มาก
    เมื่อไม่กี่เดือนก่อนย้ายไปใช้โมเดล clip-style embedding และจนถึงตอนนี้มันมี P50 latency ที่เสถียรที่สุดในบรรดาบริการภายนอกทั้งหมดที่ฉันเคยใช้

    • สงสัยว่าคุณภาพโดยรวมเป็นยังไง
      ปกติโมเดลของ Cohere มักมีขนาดเล็กกว่าและประสิทธิภาพต่ำกว่า
  • โมเดล STT จำนวนมากฝึกด้วย เสียงที่ออกเสียงสมบูรณ์แบบ เท่านั้น เลยอ่อนกับ สำเนียงต่างชาติ
    ในฐานะคนที่พูดอังกฤษด้วยสำเนียงฝรั่งเศส ฉันอยากลองทดสอบโมเดลนี้มาก
    ตอนนี้ตัวที่ทำงานดีที่สุดในแอปเรียนภาษาของฉัน (Copycat Cafe) คือ Soniox ส่วนโมเดลสาย Whisper กลับมีแนวโน้มจะสร้าง ประโยคหลอน ขึ้นมาเอง

  • ฉันทดสอบด้วยชุดข้อมูลภายในของเราเอง (เสียงรหัสไปรษณีย์อังกฤษ 250 รายการ) แล้วพบว่ามันค่อนข้างแข่งขันได้
    Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics ราว 54%

    • มีคนบอกว่า compare-stt.com จัดให้ Gladia ได้อันดับ 1 ในการทดสอบแบบ blind
    • การเรนเดอร์ตารางทำได้โดยเว้นบรรทัดเปล่าสองบรรทัดระหว่างแถว
    • มาตรฐานของมนุษย์คือ 248/248 หรือเปล่านะ
  • น่าเสียดายที่โมเดลนี้ไม่รองรับ พจนานุกรมคำแบบกำหนดเอง, word boosting หรือ การเพิ่มพรอมป์ต์

  • น่าจะเป็นอีกหนึ่ง โมเดล ASR ที่เน้น benchmark
    ฉันอัปโหลดคลิปตัดต่อจากสตรีม Twitch ลง YouTube และใช้ Whisper-large-v3 สร้างซับไตเติล
    เงื่อนไขของ ASR ที่ดีคือ

    1. รองรับ timestamp
    2. รู้จำผู้พูดพร้อมกันหลายคน
    3. ถอดเสียงได้แม่นยำ
    4. มี การแสดงเสียงที่ไม่ใช่คำพูด อย่าง [ไอ], [หัวเราะ]
    5. ฉีด บริบท ได้มากกว่า 10,000 คำ
      ด้วย WhisperX ถอดเสียงได้ใน 5 นาที แต่ปัญหาใหญ่ที่สุดก็ยังเป็นการตกหล่นของประโยค
    • ข้อ 3 และ 4 สำหรับลูกค้าส่วนใหญ่อาจเป็น ฟีเจอร์ที่ไม่จำเป็น ด้วยซ้ำ
  • ถ้าบอกว่า “โอเพนซอร์ส” หมายถึงมี ซอร์สโค้ด หรือแค่เปิดเผยน้ำหนักโมเดลกันแน่

    • ดาวน์โหลดไฟล์ได้จาก Hugging Face และยังมี เวอร์ชันแปลงเป็น ONNX ด้วย เลยรันบน CPU ได้
    • ในหลายกรณี “โอเพนซอร์ส” หมายถึง เปิดเผยน้ำหนักโมเดล
      เพราะการฝึกโมเดลมีต้นทุนสูงมาก ดังนั้นแค่แชร์ผลลัพธ์สุดท้ายก็นับว่ามีประโยชน์มากแล้ว
    • น่าจะเป็นคำที่ใช้หมายถึงตัวโมเดลเองมากกว่า
  • สงสัยว่าโมเดลนี้เป็น SOTA ในกลุ่มขนาดใกล้เคียงกัน หรือเปล่า
    อยากรู้ว่าดีกว่า Parakeet ไหม

    • ถ้าดู Hugging Face ASR leaderboard
      Parakeet (0.6B) เร็ว แต่ถ้าวัดตาม WER จะอยู่ราว ๆ อันดับ 10
    • โมเดลของ Cohere มี 2B พารามิเตอร์ ใหญ่กว่า Parakeet (0.6B, 1.1B) และทำคะแนน benchmark ได้ดีกว่า
  • เมื่อก่อนฉันเคยใช้ Dragon Dictate แต่ใช้เวลาฝึกนานและผลลัพธ์ก็ไม่ค่อยดี
    ไม่นานมานี้ฉันไปออกรายการสัมภาษณ์พอดแคสต์ แล้ว Apple Podcasts ก็สร้าง AI transcription ให้อัตโนมัติ
    ข้อผิดพลาดมีไม่เยอะ แต่สิ่งที่น่ารำคาญที่สุดคือ แยกผู้พูดไม่ได้

    • สมัยนั้นมีซอฟต์แวร์รู้จำเสียงพูดที่รันได้แม้มีแรมแค่ 64MB
      ตอนเด็ก ๆ ฉันดาวน์โหลดแชร์แวร์แนว TTS/การรู้จำเสียงพูด แบบนั้นเยอะมาก