Whispering - แอปถอดเสียงโอเพนซอร์ส

(github.com/epicenter-so)

21 คะแนน โดย GN⁺ 2025-08-19 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Whispering เป็น เครื่องมือถอดเสียงแบบ local-first ที่เมื่อกดคีย์ลัดแล้วจะทำกระบวนการ แปลงเสียง → ข้อความ และวางลงคลิปบอร์ดได้ทันที
ต่างจากเครื่องมือจำนวนมากในปัจจุบันที่เป็น บริการแบบปิดและมีค่าใช้จ่าย Whispering มอบ การประมวลผลข้อมูลที่โปร่งใส และ การเข้าถึงแบบโอเพนซอร์ส
ผู้ใช้สามารถเลือกได้ระหว่างแบบ โลคัล (Whisper C++, Speaches เป็นต้น) หรือ คลาวด์ (Groq, OpenAI, ElevenLabs เป็นต้น) และตั้งค่า ฟีเจอร์แปลงด้วย AI ตามต้องการ
แอปรองรับ การทำงานที่เบาและเปิดใช้งานได้รวดเร็วด้วยขนาด 22MB พร้อมฟีเจอร์ขั้นสูงอย่างคีย์ลัดแบบกำหนดเอง โหมดตรวจจับเสียงพูด และการจัดรูปแบบข้อความอัตโนมัติ
ช่วยให้ได้ทั้งความเป็นเจ้าของข้อมูลและการลดต้นทุนไปพร้อมกัน จึงเป็นโปรเจ็กต์ที่น่าสนใจในฐานะ ทางเลือกแทน SaaS สำหรับการถอดเสียงแบบปิด

ภาพรวมของ Whispering

Whispering เป็นแอปถอดเสียงฟรีและโอเพนซอร์ส เมื่อกดคีย์ลัดแล้วพูด ระบบจะแปลงเป็นข้อความและคัดลอกให้อัตโนมัติ
- โดยปกติข้อมูลส่วนตัวจะถูก เก็บไว้ในเครื่อง และไม่ถูกส่งออกไปภายนอก
- หากต้องการ สามารถเชื่อมต่อ API ภายนอกอย่าง OpenAI, Groq, ElevenLabs ได้โดยตรง
ชู ความโปร่งใส และ การรับประกันความเป็นเจ้าของข้อมูล เป็นคุณค่าหลัก

ฟีเจอร์และคุณสมบัติหลัก

รองรับ โหมดตรวจจับกิจกรรมเสียงพูด (Voice Activity Detection, VAD)
- เมื่อผู้ใช้เริ่มพูดจะเริ่มบันทึกอัตโนมัติ และเมื่อหยุดพูดก็จะหยุดเองอัตโนมัติ
ฟีเจอร์ การแปลงด้วย AI (Transformations)
- ตั้งค่าเวิร์กโฟลว์ AI ได้หลากหลาย เช่น แก้ไวยากรณ์ แปลภาษา สรุป หรือจัดรูปแบบ
- เลือกผู้ให้บริการ LLM ได้หลายราย เช่น OpenAI, Anthropic, Google Gemini, Groq
โฆษณา
รองรับ คีย์ลัดแบบกำหนดเอง เพื่อให้ปรับเข้ากับสภาพแวดล้อมการใช้งานของผู้ใช้ได้
โครงสร้างต้นทุนต่ำ: ใช้ API key ของตนเองเพื่อชำระเงินให้ผู้ให้บริการโดยตรง
- ตัวอย่าง: ใช้โมเดลของ Groq มีค่าใช้จ่าย 0.02$/ชั่วโมง → ระดับประมาณ 0.20$/เดือน (ถูกกว่า SaaS แบบดั้งเดิม 100 เท่า)

การติดตั้งและการใช้งาน

มีไบนารีสำหรับ macOS, Windows, Linux
- macOS: แยกเวอร์ชันสำหรับ Apple Silicon/Intel
- Windows: มีตัวเลือกติดตั้งแบบ MSI/EXE
- Linux: รองรับ AppImage, DEB, RPM
หากไม่สะดวกติดตั้ง ก็มี เวอร์ชันเว็บแอป ให้ใช้ด้วย (แต่ไม่รองรับคีย์ลัดแบบ global)

วิธีประมวลผลข้อมูล

ไฟล์บันทึกเสียงและผลการถอดเสียงทั้งหมดจะถูกเก็บใน IndexedDB เพื่อจัดการในเครื่อง
หากเลือกใช้บริการถอดเสียงภายนอก จะมีเพียง การเรียกใช้งานโดยตรงผ่าน API key เท่านั้น
- ไม่มีเซิร์ฟเวอร์กลาง ไม่มีการเก็บรวบรวมข้อมูล
ส่วน บริการแปลงข้อความ ก็จะถูกส่งไปยังผู้ให้บริการ LLM ที่ผู้ใช้เลือกเท่านั้น
- เวิร์กโฟลว์การแปลง พรอมป์ต์ และค่าการตั้งค่าจะถูกเก็บไว้ในเครื่อง

จุดต่างและข้อดี

แอปถอดเสียงแบบเดิมมักผ่านเซิร์ฟเวอร์กลางและเก็บค่าบริการ 15~30 ดอลลาร์ต่อเดือน
Whispering ใช้ โครงสร้างแบบไร้ตัวกลาง ทำให้เชื่อมต่อกับผู้ให้บริการโดยตรงและลดต้นทุนได้
หากเลือกตัวเลือกแบบโลคัล ก็สามารถใช้งานได้ ออฟไลน์เต็มรูปแบบ ฟรี และไม่จำกัด

การพัฒนาและสถาปัตยกรรม

สร้างบนพื้นฐาน Svelte 5 + Tauri จึงรองรับทั้งเดสก์ท็อปและเว็บ
- ขนาดประมาณ 22MB เปิดใช้งานรวดเร็ว และใช้ทรัพยากรน้อย
โฆษณา
โค้ดเบสแบ่งเป็น เลเยอร์บริการ เลเยอร์คิวรี และเลเยอร์ UI ในรูปแบบ สถาปัตยกรรม 3 ชั้น
- ใช้โค้ดร่วมกัน 97% ระหว่างเวอร์ชันเว็บและเดสก์ท็อป
ส่วนขยายเบราว์เซอร์ (React + shadcn/ui) ถูกพักไว้ชั่วคราว ขณะนี้กำลังทำให้แอปเดสก์ท็อปเสถียรมากขึ้น

การมีส่วนร่วมและชุมชน

ทุกคนสามารถตรวจสอบซอร์สโค้ด มีส่วนร่วมเพิ่มฟีเจอร์ หรือเพิ่ม อะแดปเตอร์สำหรับบริการถอดเสียง/AI ใหม่ๆ ได้
แนวทางการพัฒนา: รักษาแพตเทิร์น TypeScript/Svelte และการจัดการข้อผิดพลาดบนพื้นฐานไลบรารี WellCrafted
มี การรับฟีดแบ็กจากผู้ใช้และการทำงานร่วมกัน ผ่านชุมชน Discord และ GitHub Issues
ใช้ สัญญาอนุญาต MIT จึงสามารถ fork, แก้ไข และแจกจ่ายต่อได้อย่างอิสระ

คำตอบหลักใน FAQ

รองรับการใช้งานออฟไลน์หรือไม่: รองรับออฟไลน์เต็มรูปแบบด้วยโหมดโลคัลของ Speaches
ค่าใช้จ่ายจริง: หากใช้ Groq อยู่ที่ 0.2~3$/เดือน, หากใช้ OpenAI อยู่ที่ 1.8~16.2$/เดือน, แบบโลคัลฟรี
ความปลอดภัย/ความเป็นส่วนตัว: ไฟล์บันทึกถูกเก็บไว้ในเครื่อง การส่งออกภายนอกจะส่งเฉพาะไปยัง API ของผู้ให้บริการที่ผู้ใช้เลือกเองโดยตรงเท่านั้น
แพลตฟอร์มที่รองรับ: เดสก์ท็อป macOS, Windows, Linux + เว็บเบราว์เซอร์

2 ความคิดเห็น

wedding 2025-08-21

ผมกำลังทำเว็บเซิร์ฟเวอร์ขนาดเบาสำหรับทำ STT ด้วย Whisper เพื่อให้ใช้งานฟังก์ชันรู้จำเสียงพูดในเครือข่ายปิดอยู่ครับ
แม้จะอธิบายเหมือนว่าทุกอย่างทำงานออฟไลน์ได้ทั้งหมด แต่ถ้านอกเหนือจากฟังก์ชันถอดเสียงแล้ว อย่างพวกการแปลงต่าง ๆ ยังต้องพึ่งคลาวด์ ก็เลยรู้สึกว่าความแตกต่างและข้อดีนั้นมีความหมายอะไรอยู่หรือเปล่า

GN⁺ 2025-08-19

ความคิดเห็นจาก Hacker News

สงสัยว่าสามารถใช้โมเดล Parakeet แบบโลคัลได้ไหม ใช้ MacWhisper อยู่ และพอได้ลอง Parakeet แล้วพบว่ามันเร็วและแม่นยำกว่า Whisper มากสำหรับการถอดเสียงบนอุปกรณ์ เลยประทับใจมาก ใช้ฟีเจอร์ push-to-transcribe ร่วมกับ MacWhisper + Parakeet มานานแล้ว เป็นประสบการณ์ที่เหมือนเวทมนตร์จริง ๆ
- ตอนนี้ยังไม่รองรับ แต่ก็เป็นฟีเจอร์ที่ผมอยากได้มากเหมือนกัน เห็นผลลัพธ์ของ Parakeet บน leaderboard แล้วน่าทึ่งมาก ตอนนี้ตั้งใจจะทำให้การรวม whisper.cpp เสถียรก่อน แล้วค่อยเพิ่มการรองรับ Parakeet ถ้าใครทำคอนเน็กเตอร์มาเป็น PR ก็พร้อม merge ทันที
- Parakeet น่าทึ่งจริง ๆ บน GPU A100 มันทำงานได้เร็วกว่าเรียลไทม์ 3000 เท่า และบน CPU ของโน้ตบุ๊กก็ยังเร็วกว่าเรียลไทม์ 5 เท่า แถมแม่นยำกว่า whisper-large-v3 ด้วย ดูได้จาก huggingface ASR leaderboard แต่เฟรมเวิร์ก NeMo อาจจะค่อนข้างยุ่งยากอยู่บ้าง ที่น่าทึ่งคือมันรันแบบโลคัลบน Mac ได้ด้วย (ผ่าน MacWhisper)
ขอบอกไว้สำหรับคนที่เข้ามาดู repo เช้านี้ ตอนนี้กำลังเตรียมรีลีสที่เพิ่มการรองรับ whisper C++ อยู่ ดูได้ที่ ลิงก์ PR ความคืบหน้า และเมื่อปล่อยตัวนี้ออกมาแล้ว ก็จะรองรับการถอดเสียงแบบโลคัลได้ทรงพลังยิ่งขึ้น เหลือแค่เก็บงานเล็ก ๆ น้อย ๆ อีกไม่กี่จุด
อยากให้มีแอปแบบโลคัลเฟิร์สต์ที่สร้างบนโอเพนซอร์สครบทุกประเภท และแต่ละตัวเชื่อมต่อกันได้ดี แนวคิดของ Epicenter คือเก็บข้อมูลทั้งหมดเป็นข้อความและ SQLite ลงในโฟลเดอร์ เพื่อให้โปร่งใสและเชื่อถือได้ แล้วค่อยวางเครื่องมือแบบโลคัลเฟิร์สต์ที่ทำงานร่วมกันได้ไว้ด้านบน ผมชอบความโปร่งใสแบบนี้มาก แม้จะยังแทบไม่มีประสบการณ์กับ TTS แต่ถ้าจะเริ่มสำรวจด้านนี้ก็คงเริ่มจาก Whispering เพราะ Epicenter กดดาวให้ repo แล้ว และกำลังคิดหาไอเดียแอปที่น่าจะช่วย contrib ได้ด้วย ขอแสดงความยินดีที่ได้เข้า YC และขอบคุณมาก
- ขอบคุณมากจริง ๆ สำหรับการสนับสนุน ฟีดแบ็กแบบนี้มีคุณค่ามาก ดีใจที่ได้คุยกับคนที่เห็นคุณค่าของโอเพนซอร์สและการเป็นเจ้าของข้อมูลของตัวเอง ช่วงเวลาใน YC นี้จะพยายามอย่างเต็มที่เพื่อสนับสนุนนักพัฒนา OSS ให้มากขึ้น หวังว่าจะได้คุยกันต่อเรื่อย ๆ
- คิดว่าตรงนี้น่าจะพูดถึง STT (การรู้จำเสียงพูด) ไม่ใช่ TTS (สังเคราะห์เสียง)
- ถ้าภายหลังอยากได้เวอร์ชันคลาวด์ด้วย ก็ใช้ AgentDB API เพื่ออัปโหลดเฉพาะข้อมูลส่วนนั้น แล้วรันเฉพาะ query บนคลาวด์ได้
ขอบคุณที่แชร์ผลิตภัณฑ์เจ๋ง ๆ นี้ สัปดาห์ก่อนผมเพิ่งพัฒนาแอปคล้ายกันที่ทำงานแบบโลคัลเอง เพราะผลิตภัณฑ์เชิงพาณิชย์ช้าเกินไป มันมีฟังก์ชันกดปุ่มครั้งเดียวเพื่ออัดและถอดเสียงทั้งหมดแล้วส่งเข้าแอป ผมยังทำโหมดที่สองให้พูดเป็นภาษาแม่แล้วแปลเป็นอังกฤษอัตโนมัติด้วย รวมถึงจัดการเรื่องการคงรูปแบบอย่างเครื่องหมายจุลภาคหรืออัญประกาศได้ดีด้วย แปลกใจที่ของพวกนี้ยังไม่มีในแอปป้อนตามคำบอกพื้นฐานของ macOS
- ขอบคุณมากจริง ๆ สำหรับการสนับสนุน ดีใจที่มันช่วยเรื่องการแปลได้เหมือนกัน น่าแปลกที่ฟีเจอร์ป้อนตามคำบอกพื้นฐานของ macOS ยังพัฒนาไปไม่ถึงระดับนี้ และตอนนี้ OSS ก็กำลังเข้ามาเติมช่องว่างนั้น
สงสัยว่ามีฟีเจอร์นี้บน iOS ไหม อยากได้แอปคีย์บอร์ด iOS แบบกำหนดเองที่ครอบ Parakeet หรือ Whisper เอาไว้ จะได้สลับไปใช้คีย์บอร์ดป้อนตามคำบอกแล้วกดปุ่มเพื่อใส่ข้อความที่ถอดเสียงแล้วลงในทุกแอปได้ทันที (รวมถึงแอป third-party) บน macOS มี MacWhisper ที่ยอดเยี่ยมมาก แต่บน iOS ยังไม่มีอะไรที่ให้ประสบการณ์แบบเดียวกัน แม้ฟีเจอร์ป้อนตามคำบอกพื้นฐานของ iOS จะโอเค แต่เรื่องคำศัพท์เทคนิคหรือคำย่อ Whisper cpp ฟังเข้าใจดีกว่ามาก
- superwhisper มีฟีเจอร์นั้น
สนใจฟีเจอร์ป้อนตามคำบอกที่ประมวลผลเสียงแบบโลคัลอยู่เหมือนกัน ไม่ชอบการส่งเสียงไปยัง API ระยะไกล และอยากให้ทุกอย่างทำงานบนเครื่องโดยไม่รั่วไหล ลองมาบ้างไม่กี่ตัว เช่น โมเดลที่ใช้ใน FUTO Keyboard แต่ยังรู้สึกว่ายังไม่ค่อยถึง โดยเฉพาะการจัดการเสียงรบกวนหรือคำฟุ่มเฟือยอย่าง "อืม..." "เอ่อ..." รวมถึงการแก้คำกลางประโยคตอนพูด ก็ยังตามไม่ค่อยทัน อยากให้มีโมเดลแบบเปิดที่แก้ปัญหาเหล่านี้ได้ดี ยังบอกไม่ได้ว่าเป็นปัญหาที่ตัวแอปหรือข้อจำกัดของโมเดลเอง แต่ก็อยากรู้ว่ามีโมเดลใหม่ ๆ ในด้านนี้ไหม ก่อนหน้านั้นคงต้องทนพิมพ์จดโน้ตต่อไปแม้จะไม่สะดวก
- เคยลองใช้ Whisper ตรง ๆ หรือยัง อยากแนะนำตัวนี้ มันเป็น open weights และหนึ่งในจุดเด่นของ Epicenter ที่แนะนำไว้ข้างบนคือฟีเจอร์ "แปลงทรานสคริปชัน" ซึ่งสามารถเอาข้อความไปให้ LLM ช่วยเกลาให้สะอาดขึ้นได้ ถ้ารับต้นทุน token ได้ ไม่ใช่แค่ลบคำฟุ่มเฟือย แต่ยังอาจช่วยจัดประโยคใหม่ตามหน่วยความหมายได้อัตโนมัติด้วย
ยิ่งนานก็ยิ่งชอบแนวคิดเรื่องการทำงานแบบโลคัลเฟิร์สต์ในสายนี้ รวมกับการมีเครื่องมือแบ็กอัปของตัวเองด้วย ช่วงหลัง hyprnote ได้รับความนิยมบน Hacker News ซึ่งทำออกมาได้ดีมาก และแม้จะเป็นโลคัลเฟิร์สต์ ก็ยังใช้ร่วมกับเครื่องมือที่ชอบได้ด้วย
- เป็นแฟน Hyprnote เหมือนกัน ทั้งสองผลิตภัณฑ์มีความต่างกันอยู่บ้าง แต่ก็มีส่วนที่ทับซ้อนกันทั้งในแง่เทคโนโลยีสแตกและภารกิจ
ใช้ whispering มานานกว่าหนึ่งปีแล้ว และมันเปลี่ยนวิธีที่ผมโต้ตอบกับคอมพิวเตอร์ไปเลย แนะนำมากว่าควรซื้อเมาส์กับคีย์บอร์ดที่ตั้งปุ่มได้ แล้วผูกคีย์ลัดของ whispering ไว้ ตอนนี้รู้สึกว่าการพิมพ์ปกติไม่มีประสิทธิภาพจนกลับไปแบบเดิมไม่ได้แล้ว
- ขอบคุณมากสำหรับกำลังใจ ฟีดแบ็กแบบนี้ช่วยได้มากจริง ๆ ถ้าต่อไปเจอปัญหาอะไรก็ติดต่อมาได้เสมอ
สงสัยว่าเทคโนโลยีนี้จะทำงานได้ดีกับเสียงเด็กไหม แอปด้านการศึกษามีความต้องการโมเดลแบบโลคัลที่ให้ความสำคัญกับความเป็นส่วนตัวสูงมาก แต่เท่าที่รู้ตอนนี้ Whisper ยังฟังเสียงเด็กเล็กได้ไม่ค่อยดี
- ใช่แล้ว Whisper ค่อนข้างอ่อนกับเสียงเด็ก ส่วน Parakeet หรือโมเดลอื่น ๆ ยังไม่ได้ทดสอบ แต่สำหรับงานด้านการศึกษา นี่เป็นเคสที่ดีเพราะความเป็นส่วนตัวสำคัญมาก อยากแนะนำ Hyprnote ด้วย ตอนนี้ก็พยายามขยายไปยังโมเดลอย่าง OWhisper อยู่เช่นกัน ดูได้ที่ แนะนำ Hyprnote, รายละเอียด OWhisper
หมกมุ่นกับซอฟต์แวร์โอเพนซอร์สแบบโลคัลเฟิร์สต์มาก และคิดว่าทุกคนก็ควรเป็นแบบนั้น
- เห็นด้วยสุด ๆ