2 คะแนน โดย GN⁺ 2024-08-10 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็น "เว็บแอป" ฟรีที่ช่วยถอดเสียงบทสัมภาษณ์ที่บันทึกไว้ได้อย่างง่ายดาย
  • ฟีเจอร์หลัก
    • ไม่จำเป็นต้องสลับไปมาระหว่างโปรแกรมเล่นวิดีโอกับตัวแก้ไขเอกสาร จัดการได้โดยตรงในเบราว์เซอร์
    • สามารถหยุดชั่วคราว กรอกลับ และกรอเดินหน้าได้โดยไม่ต้องยกมือออกจากคีย์บอร์ด
    • สามารถนำทางในบทถอดเสียงได้อย่างง่ายดายด้วย timestamp แบบโต้ตอบ
    • บันทึกอัตโนมัติลงในที่เก็บข้อมูลของเบราว์เซอร์ทุกวินาที
    • ความเป็นส่วนตัว - ไฟล์เสียงและบทถอดเสียงจะไม่ออกจากคอมพิวเตอร์ของคุณ
    • ส่งออกเป็น Markdown, ข้อความธรรมดา และ Google Docs ได้
    • รองรับไฟล์วิดีโอผ่านโปรแกรมเล่นแบบรวม
    • เป็นโอเพนซอร์สภายใต้สัญญาอนุญาต MIT

สรุปโดย GN⁺

  • oTranscribe เป็นเว็บแอปฟรีที่ช่วยให้กระบวนการถอดเสียงไฟล์บันทึกการสัมภาษณ์ง่ายขึ้น
  • ผู้ใช้สามารถควบคุมเสียงได้โดยไม่ต้องยกมือออกจากคีย์บอร์ด และบทถอดเสียงจะถูกบันทึกอัตโนมัติทุกวินาที
  • แอปนี้ให้ความสำคัญกับความเป็นส่วนตัว โดยไฟล์เสียงและบทถอดเสียงจะไม่ออกจากคอมพิวเตอร์ของผู้ใช้
  • มีฟังก์ชันส่งออกเป็น Markdown, ข้อความธรรมดา และ Google Docs ทำให้นำบทถอดเสียงไปใช้งานต่อได้ในหลายรูปแบบ
  • โครงการอื่นที่มีฟีเจอร์คล้ายกัน ได้แก่ Express Scribe และ TranscribeMe

3 ความคิดเห็น

 
xguru 2024-08-11

หืม? ตอนแรกก็นึกว่าสามารถทำงานในเบราว์เซอร์ได้อย่างไร.. ที่แท้ก็เป็นเครื่องมือสำหรับฟังแล้วถอดคำด้วยตัวเองแบบไม่มี AI นี่เอง ช่วงนี้ Whisper ก็รู้จำภาษาเกาหลีได้ดีอยู่แล้ว เลยไม่ค่อยเห็นเหตุผลว่าทำไมต้องใช้แบบนี้..

 
znjadong 2024-08-14

ในกรณีที่มีผู้พูดหลายคน หรือการออกเสียงไม่ชัดเจน หรือคุณภาพการบันทึกเสียงไม่ดี ก็อาจเป็นเรื่องยากที่จะพึ่งพาความช่วยเหลือจาก AI ได้ และก็มักมีหลายครั้งที่ต้องการคุณภาพที่มากกว่าแค่การทำงานได้ "ดีพอ"

 
GN⁺ 2024-08-10
ความคิดเห็นจาก Hacker News
  • ใช้ Whisper-diarization ของ MahmoudAshraf97 เพื่อถอดความบทสัมภาษณ์

    • สร้างไฟล์โดยแยกคำพูดของผู้พูดหลายคนด้วยหมายเลขผู้พูด
    • สร้างไฟล์ที่มี timestamp ด้วย จึงสามารถนำไปใช้เป็นซับไตเติลได้
  • OTranscribe ไม่ใช่เครื่องมือรู้จำเสียงพูดอัตโนมัติ แต่เป็น UI ที่ช่วยให้การถอดความแบบแมนนวลง่ายขึ้น

  • กำลังมองหาแอปที่ถอดความแบบเรียลไทม์ระดับคำ ทำงานในเครื่อง และใช้โมเดลโอเพนซอร์สสมัยใหม่ได้

    • กำลังใช้ otter.ai อยู่ แต่ต้องเชื่อมต่ออินเทอร์เน็ตและมีปัญหาความล่าช้าในการถอดความ
    • แอปที่อิงกับ Whisper ต้องประมวลผลการบันทึกทั้งหมดทีเดียว
    • เฟรมเวิร์กการรู้จำเสียงพูดของ Apple ยังขาดความสามารถอยู่พอสมควรในตอนนี้
  • น่าแปลกใจที่ไม่มีการผสาน AI

    • แม้ผลลัพธ์จาก AI ก็ยังต้องมีการตรวจทานและ QA เพื่อให้ได้คุณภาพระดับพร้อมตีพิมพ์
    • ยังต้องทำงานอย่างการระบุผู้พูด การแก้นามสกุลที่ไม่คุ้นเคย เป็นต้น
  • oTranscribe ไม่ได้แปลงเสียงเป็นข้อความโดยอัตโนมัติ

    • เป็นเครื่องมือที่ทำให้การถอดความแบบแมนนวลทรมานน้อยลง
  • แนะนำบริการ TurboScribe

    • ถอดความฟรีได้สูงสุดวันละ 3 ไฟล์ (ไฟล์ละ 30 นาที)
    • แผนแบบเสียเงินถอดความได้สูงสุด 10 ชั่วโมงต่อไฟล์
    • รองรับการรู้จำผู้พูด รูปแบบการส่งออกที่หลากหลาย และมีเครื่องมือ AI รวมอยู่ด้วย
  • ทดลองใช้ Gemini-1.5-Pro-Experiment-0801 เพื่อถอดความบทสัมภาษณ์

    • ผลลัพธ์เกือบสมบูรณ์แบบ
    • ประทับใจที่มันใส่เครื่องหมายคำพูดให้กับคำบางคำ
  • กำลังใช้แอป iOS ฟรีของ Aiko

    • ใช้โมเดล Whisper ของ OpenAI
    • ส่งออกได้เป็น SRT, TXT, CSV, JSON และรูปแบบอื่น ๆ
  • กำลังพัฒนาแอปโอเพนซอร์สสำหรับ macOS ที่ใช้ Whisper และ pyannote

    • ใช้งานได้ แต่ช้า
    • กำลังเจอความยากในการแปลง Pyannote ไปเป็น CoreML
    • ยินดีรับผู้ร่วมพัฒนา
  • กำลังพัฒนาเครื่องมือที่มี AI รวมอยู่ด้วย

    • ดาวน์โหลดจาก YouTube, ถอดความด้วย Vosk, แยกผู้พูดด้วย pyannote
    • เก็บข้อความถอดความไว้ในเสิร์ชเอนจิน และต้องทำเว็บแอป
    • หวังว่าจะได้ร่วมมือกัน