- Whispering เป็น เครื่องมือถอดเสียงแบบ local-first ที่เมื่อกดคีย์ลัดแล้วจะทำกระบวนการ แปลงเสียง → ข้อความ และวางลงคลิปบอร์ดได้ทันที
- ต่างจากเครื่องมือจำนวนมากในปัจจุบันที่เป็น บริการแบบปิดและมีค่าใช้จ่าย Whispering มอบ การประมวลผลข้อมูลที่โปร่งใส และ การเข้าถึงแบบโอเพนซอร์ส
- ผู้ใช้สามารถเลือกได้ระหว่างแบบ โลคัล (Whisper C++, Speaches เป็นต้น) หรือ คลาวด์ (Groq, OpenAI, ElevenLabs เป็นต้น) และตั้งค่า ฟีเจอร์แปลงด้วย AI ตามต้องการ
- แอปรองรับ การทำงานที่เบาและเปิดใช้งานได้รวดเร็วด้วยขนาด 22MB พร้อมฟีเจอร์ขั้นสูงอย่างคีย์ลัดแบบกำหนดเอง โหมดตรวจจับเสียงพูด และการจัดรูปแบบข้อความอัตโนมัติ
- ช่วยให้ได้ทั้งความเป็นเจ้าของข้อมูลและการลดต้นทุนไปพร้อมกัน จึงเป็นโปรเจ็กต์ที่น่าสนใจในฐานะ ทางเลือกแทน SaaS สำหรับการถอดเสียงแบบปิด
ภาพรวมของ Whispering
- Whispering เป็นแอปถอดเสียงฟรีและโอเพนซอร์ส เมื่อกดคีย์ลัดแล้วพูด ระบบจะแปลงเป็นข้อความและคัดลอกให้อัตโนมัติ
- โดยปกติข้อมูลส่วนตัวจะถูก เก็บไว้ในเครื่อง และไม่ถูกส่งออกไปภายนอก
- หากต้องการ สามารถเชื่อมต่อ API ภายนอกอย่าง OpenAI, Groq, ElevenLabs ได้โดยตรง
- ชู ความโปร่งใส และ การรับประกันความเป็นเจ้าของข้อมูล เป็นคุณค่าหลัก
ฟีเจอร์และคุณสมบัติหลัก
- รองรับ โหมดตรวจจับกิจกรรมเสียงพูด (Voice Activity Detection, VAD)
- เมื่อผู้ใช้เริ่มพูดจะเริ่มบันทึกอัตโนมัติ และเมื่อหยุดพูดก็จะหยุดเองอัตโนมัติ
- ฟีเจอร์ การแปลงด้วย AI (Transformations)
- ตั้งค่าเวิร์กโฟลว์ AI ได้หลากหลาย เช่น แก้ไวยากรณ์ แปลภาษา สรุป หรือจัดรูปแบบ
- เลือกผู้ให้บริการ LLM ได้หลายราย เช่น OpenAI, Anthropic, Google Gemini, Groq
- รองรับ คีย์ลัดแบบกำหนดเอง เพื่อให้ปรับเข้ากับสภาพแวดล้อมการใช้งานของผู้ใช้ได้
- โครงสร้างต้นทุนต่ำ: ใช้ API key ของตนเองเพื่อชำระเงินให้ผู้ให้บริการโดยตรง
- ตัวอย่าง: ใช้โมเดลของ Groq มีค่าใช้จ่าย 0.02$/ชั่วโมง → ระดับประมาณ 0.20$/เดือน (ถูกกว่า SaaS แบบดั้งเดิม 100 เท่า)
การติดตั้งและการใช้งาน
- มีไบนารีสำหรับ macOS, Windows, Linux
- macOS: แยกเวอร์ชันสำหรับ Apple Silicon/Intel
- Windows: มีตัวเลือกติดตั้งแบบ MSI/EXE
- Linux: รองรับ AppImage, DEB, RPM
- หากไม่สะดวกติดตั้ง ก็มี เวอร์ชันเว็บแอป ให้ใช้ด้วย (แต่ไม่รองรับคีย์ลัดแบบ global)
วิธีประมวลผลข้อมูล
- ไฟล์บันทึกเสียงและผลการถอดเสียงทั้งหมดจะถูกเก็บใน IndexedDB เพื่อจัดการในเครื่อง
- หากเลือกใช้บริการถอดเสียงภายนอก จะมีเพียง การเรียกใช้งานโดยตรงผ่าน API key เท่านั้น
- ไม่มีเซิร์ฟเวอร์กลาง ไม่มีการเก็บรวบรวมข้อมูล
- ส่วน บริการแปลงข้อความ ก็จะถูกส่งไปยังผู้ให้บริการ LLM ที่ผู้ใช้เลือกเท่านั้น
- เวิร์กโฟลว์การแปลง พรอมป์ต์ และค่าการตั้งค่าจะถูกเก็บไว้ในเครื่อง
จุดต่างและข้อดี
- แอปถอดเสียงแบบเดิมมักผ่านเซิร์ฟเวอร์กลางและเก็บค่าบริการ 15~30 ดอลลาร์ต่อเดือน
- Whispering ใช้ โครงสร้างแบบไร้ตัวกลาง ทำให้เชื่อมต่อกับผู้ให้บริการโดยตรงและลดต้นทุนได้
- หากเลือกตัวเลือกแบบโลคัล ก็สามารถใช้งานได้ ออฟไลน์เต็มรูปแบบ ฟรี และไม่จำกัด
การพัฒนาและสถาปัตยกรรม
- สร้างบนพื้นฐาน Svelte 5 + Tauri จึงรองรับทั้งเดสก์ท็อปและเว็บ
- ขนาดประมาณ 22MB เปิดใช้งานรวดเร็ว และใช้ทรัพยากรน้อย
- โค้ดเบสแบ่งเป็น เลเยอร์บริการ เลเยอร์คิวรี และเลเยอร์ UI ในรูปแบบ สถาปัตยกรรม 3 ชั้น
- ใช้โค้ดร่วมกัน 97% ระหว่างเวอร์ชันเว็บและเดสก์ท็อป
- ส่วนขยายเบราว์เซอร์ (React + shadcn/ui) ถูกพักไว้ชั่วคราว ขณะนี้กำลังทำให้แอปเดสก์ท็อปเสถียรมากขึ้น
การมีส่วนร่วมและชุมชน
- ทุกคนสามารถตรวจสอบซอร์สโค้ด มีส่วนร่วมเพิ่มฟีเจอร์ หรือเพิ่ม อะแดปเตอร์สำหรับบริการถอดเสียง/AI ใหม่ๆ ได้
- แนวทางการพัฒนา: รักษาแพตเทิร์น TypeScript/Svelte และการจัดการข้อผิดพลาดบนพื้นฐานไลบรารี WellCrafted
- มี การรับฟีดแบ็กจากผู้ใช้และการทำงานร่วมกัน ผ่านชุมชน Discord และ GitHub Issues
- ใช้ สัญญาอนุญาต MIT จึงสามารถ fork, แก้ไข และแจกจ่ายต่อได้อย่างอิสระ
คำตอบหลักใน FAQ
- รองรับการใช้งานออฟไลน์หรือไม่: รองรับออฟไลน์เต็มรูปแบบด้วยโหมดโลคัลของ Speaches
- ค่าใช้จ่ายจริง: หากใช้ Groq อยู่ที่ 0.2~3$/เดือน, หากใช้ OpenAI อยู่ที่ 1.8~16.2$/เดือน, แบบโลคัลฟรี
- ความปลอดภัย/ความเป็นส่วนตัว: ไฟล์บันทึกถูกเก็บไว้ในเครื่อง การส่งออกภายนอกจะส่งเฉพาะไปยัง API ของผู้ให้บริการที่ผู้ใช้เลือกเองโดยตรงเท่านั้น
- แพลตฟอร์มที่รองรับ: เดสก์ท็อป macOS, Windows, Linux + เว็บเบราว์เซอร์
ยังไม่มีความคิดเห็น