Ghost Pepper – แอปแปลงเสียงเป็นข้อความแบบโลคัลสำหรับ macOS
(github.com/matthartman)- แอปจดจำเสียงแบบโลคัลสำหรับ macOS ที่ กดปุ่ม Control ค้างไว้แล้วพูด ระบบจะแปลงเป็นข้อความและวางให้โดยอัตโนมัติ
- การจดจำเสียงและกระบวนการจัดระเบียบข้อความทั้งหมดทำงานบนเครื่องเท่านั้น จึง ปกป้องความเป็นส่วนตัวโดยไม่ส่งข้อมูลขึ้นคลาวด์
- พัฒนาบนพื้นฐานของ WhisperKit และ LLM.swift โดยดาวน์โหลด โมเดลจาก Hugging Face อัตโนมัติและแคชเก็บไว้
- มี ฟีเจอร์จัดระเบียบอัจฉริยะ สำหรับลบคำพูดที่ไม่จำเป็นและแก้รูปแบบการพูดที่เป็นการแก้คำตัวเอง พร้อมทำงานเบื้องหลังในรูปแบบ แอปบนแถบเมนู
- เป็นโอเพนซอร์สภายใต้ สัญญาอนุญาต MIT และทำงานได้บน Apple Silicon macOS 14 ขึ้นไป
ภาพรวม
- Ghost Pepper คือ แอปแปลงเสียงเป็นข้อความแบบโลคัลเต็มรูปแบบ สำหรับ macOS ที่รองรับการ กดปุ่ม Control ค้างไว้ พูด แล้วปล่อย เพื่อให้ระบบแปลงเป็นข้อความและวางให้อัตโนมัติ
- ไม่ใช้ Cloud API และข้อมูลรวมถึงโมเดลทั้งหมดจะถูก ประมวลผลบนเครื่องเท่านั้น
- ทำงานบน macOS 14.0 ขึ้นไปที่ใช้ Apple Silicon (M1 ขึ้นไป)
- ทำงานในรูปแบบ แอปบนแถบเมนู และสามารถตั้งให้เริ่มอัตโนมัติเมื่อเข้าสู่ระบบได้
- เป็นโปรเจ็กต์โอเพนซอร์สที่เผยแพร่ภายใต้ สัญญาอนุญาต MIT
ฟีเจอร์หลัก
- กดปุ่ม Control ค้างไว้แล้วพูด → เมื่อปล่อยปุ่ม ระบบจะ แปลงเป็นข้อความและวางให้อัตโนมัติ
- โครงสร้างการทำงานแบบ รันบนเครื่อง โดยทั้งการจดจำเสียงและโมเดลหลังประมวลผลทำงานอยู่ภายใน Mac
- มี ฟีเจอร์จัดระเบียบอัจฉริยะ ที่ลบคำพูดไม่จำเป็น (เช่น uh, um) และ ปรับแก้สำนวนที่เป็นการแก้คำตัวเองโดยอัตโนมัติ
- อินเทอร์เฟซเฉพาะบนแถบเมนู ทำงานเบื้องหลังโดยไม่มีไอคอนใน Dock
- รองรับการตั้งค่าจากผู้ใช้: แก้ไขพรอมป์ต์สำหรับจัดระเบียบ เลือกไมโครโฟน และเปิด/ปิดฟังก์ชันได้
วิธีการทำงาน
- โมเดลทั้งหมดเป็น โอเพนซอร์ส และเมื่อเปิดใช้งานครั้งแรก ระบบจะดาวน์โหลดอัตโนมัติแล้ว แคชไว้ในเครื่อง
- การจดจำเสียงดำเนินการผ่าน WhisperKit ส่วนการจัดระเบียบข้อความดำเนินการผ่าน LLM.swift
- ไฟล์โมเดลให้บริการผ่าน Hugging Face
-
โมเดลจดจำเสียง
- Whisper tiny.en (~75MB): โมเดลภาษาอังกฤษล้วนที่เร็วที่สุด
- Whisper small.en (~466MB): ค่าเริ่มต้น โมเดลภาษาอังกฤษล้วนที่มีความแม่นยำสูง
- Whisper small (multilingual): รองรับหลายภาษา
- Parakeet v3 (~1.4GB): รองรับ 25 ภาษา พัฒนาบนพื้นฐานของ FluidAudio
-
โมเดลจัดระเบียบข้อความ
- Qwen 3.5 0.8B (~535MB): ค่าเริ่มต้น ประมวลผลในเวลาประมาณ 1~2 วินาที
- Qwen 3.5 2B (~1.3GB): ความเร็วในการประมวลผลสูง (ประมาณ 4~5 วินาที)
- Qwen 3.5 4B (~2.8GB): คุณภาพสูงสุด (ประมาณ 5~7 วินาที)
การติดตั้งและการใช้งาน
-
ติดตั้งแอป
- ดาวน์โหลด GhostPepper.dmg
- เปิด DMG แล้ว ลากไปยังโฟลเดอร์ Applications
- อนุญาต สิทธิ์ไมโครโฟนและการช่วยการเข้าถึง
- เริ่มใช้งานด้วยการ กดปุ่ม Control ค้างไว้แล้วพูด
-
บิลด์จากซอร์ส
- โคลนรีโพซิทอรี
- เปิด
GhostPepper.xcodeprojใน Xcode - บิลด์และรันด้วย Cmd+R
สิทธิ์ที่ต้องใช้
| สิทธิ์ | วัตถุประสงค์ |
|---|---|
| Microphone | บันทึกเสียง |
| Accessibility | ใช้คีย์ลัดแบบโกลบอลและวางข้อความอัตโนมัติ |
ข้อมูลเพิ่มเติม
- เริ่มอัตโนมัติเมื่อเข้าสู่ระบบ ถูกเปิดใช้งานเป็นค่าเริ่มต้น และสามารถปิดได้ในการตั้งค่า
- ไม่มีการบันทึกล็อกลงดิสก์ — ข้อความที่แปลงแล้วจะไม่ถูกบันทึกเป็นไฟล์ และ ล็อกดีบักจะถูกเก็บไว้ในหน่วยความจำเท่านั้น ก่อนถูกลบเมื่อปิดแอป
โครงสร้างเทคนิคและการพึ่งพา
- WhisperKit: เอนจินจดจำเสียง
- LLM.swift: LLM แบบโลคัลสำหรับจัดระเบียบข้อความ
- Hugging Face: โฮสต์โมเดล
- Sparkle: จัดการอัปเดตแอป macOS
ความหมายของชื่อ
- โมเดลทั้งหมด ทำงานบนเครื่องเท่านั้น ทำให้ข้อมูลส่วนบุคคลไม่ถูกส่งออกไปภายนอก
- ชื่อ Ghost Pepper (พริกเผ็ดจัด) สื่อถึง ความสามารถอันทรงพลังที่ใช้งานได้ฟรี
การรองรับองค์กรและอุปกรณ์ที่มีการจัดการ
- แอปต้องการสิทธิ์ Accessibility ซึ่งโดยทั่วไป ต้องใช้สิทธิ์ผู้ดูแลระบบ
- ในสภาพแวดล้อม MDM (Jamf, Kandji, Mosaic เป็นต้น) สามารถอนุมัติล่วงหน้าได้ผ่านโปรไฟล์ PPPC (Privacy Preferences Policy Control)
- Bundle ID:
com.github.matthartman.ghostpepper - Team ID:
BBVMGXR9AY - Permission: Accessibility (
com.apple.security.accessibility)
- Bundle ID:
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
แอปนี้เจ๋งมาก แต่ทุกครั้งที่เห็นก็ทำให้นึกถึง Pixel 6 ของฉัน
เป็นรุ่นปี 2021 แต่ก็แปลงเสียงเป็นข้อความแบบออฟไลน์ได้ และยังแก้ไขอัตโนมัติตามบริบทด้วย ถึงขั้นว่าถ้าฉันพูดต่อเนื่อง มันยังย้อนกลับไปแก้ประโยคก่อนหน้าให้ใหม่ได้อีก
น่าทึ่งที่ Google ใส่เทคโนโลยีแบบนี้มาก่อน Whisper หรือ Qwen ตั้ง 5 ปี แต่ก็สงสัยว่าทำไมตอนนี้บนแพลตฟอร์มที่แรงกว่ากลับต้องใช้โมเดล transformer ขนาด 1GB
Google สนับสนุนการฝึกโมเดลนี้มาตั้งแต่ราว 10 ปีก่อน และจนถึงตอนนี้ก็ยังดีมากอยู่
มันถูกฝังมาในเบราว์เซอร์ที่ใช้ Webkit หรือ Blink ทำให้หลายเว็บไซต์เอาไปใช้เป็น frontend แบบง่ายๆ
แต่ตัวโมเดลเองอยู่ในรูปแบบ blob แบบปิด เลยทำให้ Firefox ไม่รองรับ
เอกสาร MDN / เดโม Chrome
ตอนนั้นฉันอยู่ในทีมนั้น แต่เพราะไม่มีคนดูแลงานบำรุงรักษา เลยต้องทิ้งโมเดลออฟไลน์แล้วเปลี่ยนเป็นออนไลน์อย่างเดียว
ไม่ใช่เพราะเหตุผลด้านเทคนิค แต่เป็นเพราะ ขาดคนดูแลรักษา ล้วนๆ
บน Android ฉันใช้ Futo และบน macOS ใช้ MacWhisper ซึ่งดีกว่าโมเดลพื้นฐานของ Apple มาก
แต่โมเดล STT แบบโลคัลโอเพนซอร์สอย่าง Whisper หรือ Parakeet กลับทรงพลังกว่ามาก
มันเสียอาการน้อยกว่ามากเวลาเจอเสียงรบกวนหรือเสียงพึมพำ
ฉันทำงานสาย Voice AI เลยใช้โมเดลพวกนี้ทุกวัน และความต่างที่รู้สึกได้จริงนั้นใหญ่มาก
แอปทำออกมาได้ดีมาก ถ้าจะให้ feedback คือ
อย่างแรก ควรมีฟีเจอร์ วางลง clipboard อัตโนมัติ แบบจำเป็นเลย จะได้ไม่ต้องกดคีย์ลัด หรืออย่างน้อยก็เปิดให้ตั้งค่าได้
อย่างที่สอง ความเร็วช้ากว่าโซลูชันอื่นนิดหน่อย ซึ่งกระทบกับการใช้งานมาก
อย่างที่สาม น่าจะมีการควบคุมการจัดรูปแบบ เช่น ถ้าพูดว่า “new line” ก็ควรถูกตีความเป็นการขึ้นบรรทัดใหม่จริงๆ
เธรดนี้เหมือนกลุ่มซัพพอร์ตของคนที่แต่ละคนทำ แอปเสียง→ข้อความสำหรับ macOS ของตัวเองเลย
เพิ่งเพิ่ม Ghost Pepper เข้าไปล่าสุด และคุณยังสร้าง skill.md ที่มีฟีเจอร์ที่ต้องการเพื่อ build แอปเองได้ด้วย
ในหมวดที่อิ่มตัวแล้วแบบนี้ ต้องอธิบายให้ชัดว่า ต่างจากแอปที่มีอยู่ยังไง
โพสต์ที่เกี่ยวข้อง
KeyVox GitHub
ประสิทธิภาพแทบไม่ต่างจาก Wispr Flow และรันแบบโลคัลล้วน
ในฐานะผู้ใช้ Linux ฉันพัฒนา Hyprwhspr ขึ้นมา
ถ้ารันโมเดล Cohere Transcribe รุ่นล่าสุดบน GPU ประสิทธิภาพดีมาก
อยากรู้ว่าคุณเคยเทียบ WhisperKit กับ faster-whisper หรือ turbov3 ไหม
ฉันคาดหวังว่า Apple คงจะออก STT แบบเนทีฟ เร็วๆ นี้
แล้วก็อยากรู้ด้วยว่าทำไมถึงสร้างใหม่แทนที่จะไปปรับปรุงโปรเจกต์เดิม
ความแม่นยำดีพอจนไม่ต้องใช้โมเดล cleanup
แต่กับเสียงยาวเกิน 30 วินาทีจะเริ่มรู้สึกถึง latency เลยอยากรู้ว่า WhisperKit จัดการกับเสียงยาวๆ ยังไง
เคยคิดเรื่องฟีเจอร์ foot pedal PTT (Push-To-Talk) ไหม?
Apple เองก็มี STT อยู่แล้ว แต่คุณภาพโมเดลยังน่าผิดหวังอยู่
Speech-to-text เป็นแกนหลักของ flow การพัฒนาของฉัน
มันมีประโยชน์มากโดยเฉพาะเวลาพูดพรอมป์ต์ให้ LLM หรือ coding agent ฟัง
ฉันรวบรวมเครื่องมือ voice input โอเพนซอร์สที่ดีที่สุดแยกตามแพลตฟอร์มไว้ใน GitHub repository นี้
ฉันพิมพ์ได้ 120 คำต่อนาที เลยเร็วกว่าพูดมาก
นอกจากเรื่อง accessibility แล้ว ฉันสงสัยจริงๆ ว่านี่มีไว้สำหรับคนพิมพ์ช้าหรือสำหรับคนที่อยาก นอนบนโซฟาแล้วเขียนโค้ด กันแน่
มีแอปอย่าง Handy อยู่แล้วไม่ใช่เหรอ?
ขอบคุณที่แชร์ ฉันชอบที่เน้น ความเร็วแบบโลคัลและความเป็นส่วนตัว
ฉันใช้ Hex ซึ่งมีเป้าหมายคล้ายกันอยู่ เลยอยากรู้ว่าคุณมองความต่างของสองแอปนี้ยังไง
ช่วงนี้ยิ่ง local-first LLM เล็กลงเท่าไร มันก็ดูเหมือนจะยิ่งกลายเป็น โครงสร้างพื้นฐานหลัก ของการพัฒนาแอป
เหมือนสมัยก่อนที่ Electron ทำให้สร้างแอปสวยๆ ได้ง่าย ตอนนี้ก็แค่แลกด้วย RAM นิดหน่อย
บล็อกที่เกี่ยวข้อง
มีโปรเจกต์เกี่ยวกับ Whisper เยอะมาก เลยสงสัยว่านี่คือโมเดล OpenAI รุ่นเก่าหรือเป็นเวอร์ชันอัปเดตแล้ว
ฉันใช้ Parakeet v3 อยู่ มันเล็กและดีมาก แต่ก็ยังสงสัยว่าทำไม Whisper ถึงยังมีเยอะขนาดนี้
มันหลอนน้อยกว่าโมเดลใหม่ๆ และยังรันบน AMD GPU ได้ง่ายด้วย
ฉันเคยพอร์ต Parakeet เองแล้ว แต่สุดท้ายก็กลับมาใช้ Whisper
แต่ฉันใช้ ภาษาโปแลนด์ กับคำศัพท์เฉพาะทางเยอะ เลยพบว่า Whisper v3 เหมาะกว่ามาก
เพราะงั้นจุดแข็งคือมัน ปรับให้เข้ากับสภาพแวดล้อมของระบบได้
บนโทรศัพท์ GrapheneOS ก็เชื่อมกับเซิร์ฟเวอร์ Parakeet ด้วย
โพสต์ที่เกี่ยวข้อง
ฉันชอบโปรเจกต์นี้มากและอยากลองเอาไปผสานเข้ากับ workflow ของตัวเอง
แต่ข้อความที่ว่า “ให้ฟรีทั้งที่เทียบกับ AI lab ใหญ่ที่ได้เงินลงทุน $80M” มันสะดุดใจนิดหน่อย
งานนี้ไม่ได้ดู rebellious เท่าไร แต่เหมือนเป็น การต่อยอดจากงานวิจัยที่มีอยู่แล้ว มากกว่า
จะเรียกว่ามัน “spicy” ก็ดูเวอร์ไปนิด