• Whispering เป็น เครื่องมือถอดเสียงแบบ local-first ที่เมื่อกดคีย์ลัดแล้วจะทำกระบวนการ แปลงเสียง → ข้อความ และวางลงคลิปบอร์ดได้ทันที
  • ต่างจากเครื่องมือจำนวนมากในปัจจุบันที่เป็น บริการแบบปิดและมีค่าใช้จ่าย Whispering มอบ การประมวลผลข้อมูลที่โปร่งใส และ การเข้าถึงแบบโอเพนซอร์ส
  • ผู้ใช้สามารถเลือกได้ระหว่างแบบ โลคัล (Whisper C++, Speaches เป็นต้น) หรือ คลาวด์ (Groq, OpenAI, ElevenLabs เป็นต้น) และตั้งค่า ฟีเจอร์แปลงด้วย AI ตามต้องการ
  • แอปรองรับ การทำงานที่เบาและเปิดใช้งานได้รวดเร็วด้วยขนาด 22MB พร้อมฟีเจอร์ขั้นสูงอย่างคีย์ลัดแบบกำหนดเอง โหมดตรวจจับเสียงพูด และการจัดรูปแบบข้อความอัตโนมัติ
  • ช่วยให้ได้ทั้งความเป็นเจ้าของข้อมูลและการลดต้นทุนไปพร้อมกัน จึงเป็นโปรเจ็กต์ที่น่าสนใจในฐานะ ทางเลือกแทน SaaS สำหรับการถอดเสียงแบบปิด

ภาพรวมของ Whispering

  • Whispering เป็นแอปถอดเสียงฟรีและโอเพนซอร์ส เมื่อกดคีย์ลัดแล้วพูด ระบบจะแปลงเป็นข้อความและคัดลอกให้อัตโนมัติ
    • โดยปกติข้อมูลส่วนตัวจะถูก เก็บไว้ในเครื่อง และไม่ถูกส่งออกไปภายนอก
    • หากต้องการ สามารถเชื่อมต่อ API ภายนอกอย่าง OpenAI, Groq, ElevenLabs ได้โดยตรง
  • ชู ความโปร่งใส และ การรับประกันความเป็นเจ้าของข้อมูล เป็นคุณค่าหลัก

ฟีเจอร์และคุณสมบัติหลัก

  • รองรับ โหมดตรวจจับกิจกรรมเสียงพูด (Voice Activity Detection, VAD)
    • เมื่อผู้ใช้เริ่มพูดจะเริ่มบันทึกอัตโนมัติ และเมื่อหยุดพูดก็จะหยุดเองอัตโนมัติ
  • ฟีเจอร์ การแปลงด้วย AI (Transformations)
    • ตั้งค่าเวิร์กโฟลว์ AI ได้หลากหลาย เช่น แก้ไวยากรณ์ แปลภาษา สรุป หรือจัดรูปแบบ
    • เลือกผู้ให้บริการ LLM ได้หลายราย เช่น OpenAI, Anthropic, Google Gemini, Groq
  • รองรับ คีย์ลัดแบบกำหนดเอง เพื่อให้ปรับเข้ากับสภาพแวดล้อมการใช้งานของผู้ใช้ได้
  • โครงสร้างต้นทุนต่ำ: ใช้ API key ของตนเองเพื่อชำระเงินให้ผู้ให้บริการโดยตรง
    • ตัวอย่าง: ใช้โมเดลของ Groq มีค่าใช้จ่าย 0.02$/ชั่วโมง → ระดับประมาณ 0.20$/เดือน (ถูกกว่า SaaS แบบดั้งเดิม 100 เท่า)

การติดตั้งและการใช้งาน

  • มีไบนารีสำหรับ macOS, Windows, Linux
    • macOS: แยกเวอร์ชันสำหรับ Apple Silicon/Intel
    • Windows: มีตัวเลือกติดตั้งแบบ MSI/EXE
    • Linux: รองรับ AppImage, DEB, RPM
  • หากไม่สะดวกติดตั้ง ก็มี เวอร์ชันเว็บแอป ให้ใช้ด้วย (แต่ไม่รองรับคีย์ลัดแบบ global)

วิธีประมวลผลข้อมูล

  • ไฟล์บันทึกเสียงและผลการถอดเสียงทั้งหมดจะถูกเก็บใน IndexedDB เพื่อจัดการในเครื่อง
  • หากเลือกใช้บริการถอดเสียงภายนอก จะมีเพียง การเรียกใช้งานโดยตรงผ่าน API key เท่านั้น
    • ไม่มีเซิร์ฟเวอร์กลาง ไม่มีการเก็บรวบรวมข้อมูล
  • ส่วน บริการแปลงข้อความ ก็จะถูกส่งไปยังผู้ให้บริการ LLM ที่ผู้ใช้เลือกเท่านั้น
    • เวิร์กโฟลว์การแปลง พรอมป์ต์ และค่าการตั้งค่าจะถูกเก็บไว้ในเครื่อง

จุดต่างและข้อดี

  • แอปถอดเสียงแบบเดิมมักผ่านเซิร์ฟเวอร์กลางและเก็บค่าบริการ 15~30 ดอลลาร์ต่อเดือน
  • Whispering ใช้ โครงสร้างแบบไร้ตัวกลาง ทำให้เชื่อมต่อกับผู้ให้บริการโดยตรงและลดต้นทุนได้
  • หากเลือกตัวเลือกแบบโลคัล ก็สามารถใช้งานได้ ออฟไลน์เต็มรูปแบบ ฟรี และไม่จำกัด

การพัฒนาและสถาปัตยกรรม

  • สร้างบนพื้นฐาน Svelte 5 + Tauri จึงรองรับทั้งเดสก์ท็อปและเว็บ
    • ขนาดประมาณ 22MB เปิดใช้งานรวดเร็ว และใช้ทรัพยากรน้อย
  • โค้ดเบสแบ่งเป็น เลเยอร์บริการ เลเยอร์คิวรี และเลเยอร์ UI ในรูปแบบ สถาปัตยกรรม 3 ชั้น
    • ใช้โค้ดร่วมกัน 97% ระหว่างเวอร์ชันเว็บและเดสก์ท็อป
  • ส่วนขยายเบราว์เซอร์ (React + shadcn/ui) ถูกพักไว้ชั่วคราว ขณะนี้กำลังทำให้แอปเดสก์ท็อปเสถียรมากขึ้น

การมีส่วนร่วมและชุมชน

  • ทุกคนสามารถตรวจสอบซอร์สโค้ด มีส่วนร่วมเพิ่มฟีเจอร์ หรือเพิ่ม อะแดปเตอร์สำหรับบริการถอดเสียง/AI ใหม่ๆ ได้
  • แนวทางการพัฒนา: รักษาแพตเทิร์น TypeScript/Svelte และการจัดการข้อผิดพลาดบนพื้นฐานไลบรารี WellCrafted
  • มี การรับฟีดแบ็กจากผู้ใช้และการทำงานร่วมกัน ผ่านชุมชน Discord และ GitHub Issues
  • ใช้ สัญญาอนุญาต MIT จึงสามารถ fork, แก้ไข และแจกจ่ายต่อได้อย่างอิสระ

คำตอบหลักใน FAQ

  • รองรับการใช้งานออฟไลน์หรือไม่: รองรับออฟไลน์เต็มรูปแบบด้วยโหมดโลคัลของ Speaches
  • ค่าใช้จ่ายจริง: หากใช้ Groq อยู่ที่ 0.2~3$/เดือน, หากใช้ OpenAI อยู่ที่ 1.8~16.2$/เดือน, แบบโลคัลฟรี
  • ความปลอดภัย/ความเป็นส่วนตัว: ไฟล์บันทึกถูกเก็บไว้ในเครื่อง การส่งออกภายนอกจะส่งเฉพาะไปยัง API ของผู้ให้บริการที่ผู้ใช้เลือกเองโดยตรงเท่านั้น
  • แพลตฟอร์มที่รองรับ: เดสก์ท็อป macOS, Windows, Linux + เว็บเบราว์เซอร์

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น