Ghost Pepper – แอปแปลงเสียงเป็นข้อความแบบโลคัลสำหรับ macOS

(github.com/matthartman)

4 คะแนน โดย GN⁺ 22 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แอปจดจำเสียงแบบโลคัลสำหรับ macOS ที่ กดปุ่ม Control ค้างไว้แล้วพูด ระบบจะแปลงเป็นข้อความและวางให้โดยอัตโนมัติ
การจดจำเสียงและกระบวนการจัดระเบียบข้อความทั้งหมดทำงานบนเครื่องเท่านั้น จึง ปกป้องความเป็นส่วนตัวโดยไม่ส่งข้อมูลขึ้นคลาวด์
พัฒนาบนพื้นฐานของ WhisperKit และ LLM.swift โดยดาวน์โหลด โมเดลจาก Hugging Face อัตโนมัติและแคชเก็บไว้
มี ฟีเจอร์จัดระเบียบอัจฉริยะ สำหรับลบคำพูดที่ไม่จำเป็นและแก้รูปแบบการพูดที่เป็นการแก้คำตัวเอง พร้อมทำงานเบื้องหลังในรูปแบบ แอปบนแถบเมนู
เป็นโอเพนซอร์สภายใต้ สัญญาอนุญาต MIT และทำงานได้บน Apple Silicon macOS 14 ขึ้นไป

ภาพรวม

Ghost Pepper คือ แอปแปลงเสียงเป็นข้อความแบบโลคัลเต็มรูปแบบ สำหรับ macOS ที่รองรับการ กดปุ่ม Control ค้างไว้ พูด แล้วปล่อย เพื่อให้ระบบแปลงเป็นข้อความและวางให้อัตโนมัติ
ไม่ใช้ Cloud API และข้อมูลรวมถึงโมเดลทั้งหมดจะถูก ประมวลผลบนเครื่องเท่านั้น
ทำงานบน macOS 14.0 ขึ้นไปที่ใช้ Apple Silicon (M1 ขึ้นไป)
ทำงานในรูปแบบ แอปบนแถบเมนู และสามารถตั้งให้เริ่มอัตโนมัติเมื่อเข้าสู่ระบบได้
เป็นโปรเจ็กต์โอเพนซอร์สที่เผยแพร่ภายใต้ สัญญาอนุญาต MIT

ฟีเจอร์หลัก

กดปุ่ม Control ค้างไว้แล้วพูด → เมื่อปล่อยปุ่ม ระบบจะ แปลงเป็นข้อความและวางให้อัตโนมัติ
โครงสร้างการทำงานแบบ รันบนเครื่อง โดยทั้งการจดจำเสียงและโมเดลหลังประมวลผลทำงานอยู่ภายใน Mac
มี ฟีเจอร์จัดระเบียบอัจฉริยะ ที่ลบคำพูดไม่จำเป็น (เช่น uh, um) และ ปรับแก้สำนวนที่เป็นการแก้คำตัวเองโดยอัตโนมัติ
อินเทอร์เฟซเฉพาะบนแถบเมนู ทำงานเบื้องหลังโดยไม่มีไอคอนใน Dock
รองรับการตั้งค่าจากผู้ใช้: แก้ไขพรอมป์ต์สำหรับจัดระเบียบ เลือกไมโครโฟน และเปิด/ปิดฟังก์ชันได้

วิธีการทำงาน

โมเดลทั้งหมดเป็น โอเพนซอร์ส และเมื่อเปิดใช้งานครั้งแรก ระบบจะดาวน์โหลดอัตโนมัติแล้ว แคชไว้ในเครื่อง
การจดจำเสียงดำเนินการผ่าน WhisperKit ส่วนการจัดระเบียบข้อความดำเนินการผ่าน LLM.swift
ไฟล์โมเดลให้บริการผ่าน Hugging Face
โมเดลจดจำเสียง
- Whisper tiny.en (~75MB): โมเดลภาษาอังกฤษล้วนที่เร็วที่สุด
- Whisper small.en (~466MB): ค่าเริ่มต้น โมเดลภาษาอังกฤษล้วนที่มีความแม่นยำสูง
- Whisper small (multilingual): รองรับหลายภาษา
- Parakeet v3 (~1.4GB): รองรับ 25 ภาษา พัฒนาบนพื้นฐานของ FluidAudio
โมเดลจัดระเบียบข้อความ
- Qwen 3.5 0.8B (~535MB): ค่าเริ่มต้น ประมวลผลในเวลาประมาณ 1~2 วินาที
- Qwen 3.5 2B (~1.3GB): ความเร็วในการประมวลผลสูง (ประมาณ 4~5 วินาที)
- Qwen 3.5 4B (~2.8GB): คุณภาพสูงสุด (ประมาณ 5~7 วินาที)

การติดตั้งและการใช้งาน

ติดตั้งแอป
1. ดาวน์โหลด GhostPepper.dmg
2. เปิด DMG แล้ว ลากไปยังโฟลเดอร์ Applications
3. อนุญาต สิทธิ์ไมโครโฟนและการช่วยการเข้าถึง
4. เริ่มใช้งานด้วยการ กดปุ่ม Control ค้างไว้แล้วพูด
บิลด์จากซอร์ส
1. โคลนรีโพซิทอรี
2. เปิด GhostPepper.xcodeproj ใน Xcode
3. บิลด์และรันด้วย Cmd+R

สิทธิ์ที่ต้องใช้

สิทธิ์	วัตถุประสงค์
Microphone	บันทึกเสียง
Accessibility	ใช้คีย์ลัดแบบโกลบอลและวางข้อความอัตโนมัติ

ข้อมูลเพิ่มเติม

เริ่มอัตโนมัติเมื่อเข้าสู่ระบบ ถูกเปิดใช้งานเป็นค่าเริ่มต้น และสามารถปิดได้ในการตั้งค่า
ไม่มีการบันทึกล็อกลงดิสก์ — ข้อความที่แปลงแล้วจะไม่ถูกบันทึกเป็นไฟล์ และ ล็อกดีบักจะถูกเก็บไว้ในหน่วยความจำเท่านั้น ก่อนถูกลบเมื่อปิดแอป

โครงสร้างเทคนิคและการพึ่งพา

WhisperKit: เอนจินจดจำเสียง
LLM.swift: LLM แบบโลคัลสำหรับจัดระเบียบข้อความ
Hugging Face: โฮสต์โมเดล
Sparkle: จัดการอัปเดตแอป macOS

ความหมายของชื่อ

โมเดลทั้งหมด ทำงานบนเครื่องเท่านั้น ทำให้ข้อมูลส่วนบุคคลไม่ถูกส่งออกไปภายนอก
ชื่อ Ghost Pepper (พริกเผ็ดจัด) สื่อถึง ความสามารถอันทรงพลังที่ใช้งานได้ฟรี

การรองรับองค์กรและอุปกรณ์ที่มีการจัดการ

แอปต้องการสิทธิ์ Accessibility ซึ่งโดยทั่วไป ต้องใช้สิทธิ์ผู้ดูแลระบบ
ในสภาพแวดล้อม MDM (Jamf, Kandji, Mosaic เป็นต้น) สามารถอนุมัติล่วงหน้าได้ผ่านโปรไฟล์ PPPC (Privacy Preferences Policy Control)
- Bundle ID: com.github.matthartman.ghostpepper
- Team ID: BBVMGXR9AY
- Permission: Accessibility (com.apple.security.accessibility)

1 ความคิดเห็น

GN⁺ 22 일 전

ความคิดเห็นจาก Hacker News

แอปนี้เจ๋งมาก แต่ทุกครั้งที่เห็นก็ทำให้นึกถึง Pixel 6 ของฉัน
เป็นรุ่นปี 2021 แต่ก็แปลงเสียงเป็นข้อความแบบออฟไลน์ได้ และยังแก้ไขอัตโนมัติตามบริบทด้วย ถึงขั้นว่าถ้าฉันพูดต่อเนื่อง มันยังย้อนกลับไปแก้ประโยคก่อนหน้าให้ใหม่ได้อีก
น่าทึ่งที่ Google ใส่เทคโนโลยีแบบนี้มาก่อน Whisper หรือ Qwen ตั้ง 5 ปี แต่ก็สงสัยว่าทำไมตอนนี้บนแพลตฟอร์มที่แรงกว่ากลับต้องใช้โมเดล transformer ขนาด 1GB
- นี่คือโมเดลตัวเดียวกับที่ใช้ใน WebSpeech API และทำงานแบบออฟไลน์ล้วนได้ด้วย
  Google สนับสนุนการฝึกโมเดลนี้มาตั้งแต่ราว 10 ปีก่อน และจนถึงตอนนี้ก็ยังดีมากอยู่
  มันถูกฝังมาในเบราว์เซอร์ที่ใช้ Webkit หรือ Blink ทำให้หลายเว็บไซต์เอาไปใช้เป็น frontend แบบง่ายๆ
  แต่ตัวโมเดลเองอยู่ในรูปแบบ blob แบบปิด เลยทำให้ Firefox ไม่รองรับ
  เอกสาร MDN / เดโม Chrome
- Microsoft OneNote ก็มีฟีเจอร์คล้ายกันตั้งแต่ราวปี 2007
  ตอนนั้นฉันอยู่ในทีมนั้น แต่เพราะไม่มีคนดูแลงานบำรุงรักษา เลยต้องทิ้งโมเดลออฟไลน์แล้วเปลี่ยนเป็นออนไลน์อย่างเดียว
  ไม่ใช่เพราะเหตุผลด้านเทคนิค แต่เป็นเพราะ ขาดคนดูแลรักษา ล้วนๆ
- ความแม่นยำต่ำกว่ามาก
  บน Android ฉันใช้ Futo และบน macOS ใช้ MacWhisper ซึ่งดีกว่าโมเดลพื้นฐานของ Apple มาก
- macOS กับ iOS ก็ทำได้ผ่าน ฟีเจอร์เขียนตามคำบอก ที่มีมาในตัว บน Mac ใช้ปุ่ม Globe + D
- Pixel 7 ของฉันกลับมีอัตราการรู้จำต่ำเกินไปจนแทบใช้ไม่ได้
  แต่โมเดล STT แบบโลคัลโอเพนซอร์สอย่าง Whisper หรือ Parakeet กลับทรงพลังกว่ามาก
  มันเสียอาการน้อยกว่ามากเวลาเจอเสียงรบกวนหรือเสียงพึมพำ
  ฉันทำงานสาย Voice AI เลยใช้โมเดลพวกนี้ทุกวัน และความต่างที่รู้สึกได้จริงนั้นใหญ่มาก
แอปทำออกมาได้ดีมาก ถ้าจะให้ feedback คือ
อย่างแรก ควรมีฟีเจอร์ วางลง clipboard อัตโนมัติ แบบจำเป็นเลย จะได้ไม่ต้องกดคีย์ลัด หรืออย่างน้อยก็เปิดให้ตั้งค่าได้
อย่างที่สอง ความเร็วช้ากว่าโซลูชันอื่นนิดหน่อย ซึ่งกระทบกับการใช้งานมาก
อย่างที่สาม น่าจะมีการควบคุมการจัดรูปแบบ เช่น ถ้าพูดว่า “new line” ก็ควรถูกตีความเป็นการขึ้นบรรทัดใหม่จริงๆ
เธรดนี้เหมือนกลุ่มซัพพอร์ตของคนที่แต่ละคนทำ แอปเสียง→ข้อความสำหรับ macOS ของตัวเองเลย
- ฉันรวบรวมทุกแอปที่ฉันทำไว้ ที่นี่
  เพิ่งเพิ่ม Ghost Pepper เข้าไปล่าสุด และคุณยังสร้าง skill.md ที่มีฟีเจอร์ที่ต้องการเพื่อ build แอปเองได้ด้วย
- ในซับเรดดิต /r/macapps ก็มีแอป whisper dictation เยอะเกินไปเหมือนกัน
  ในหมวดที่อิ่มตัวแล้วแบบนี้ ต้องอธิบายให้ชัดว่า ต่างจากแอปที่มีอยู่ยังไง
  โพสต์ที่เกี่ยวข้อง
- ฉันก็เคยทำเองตัวหนึ่งเหมือนกัน แต่ต่อมาดันไปเจอ KeyVox แล้วได้คุยกับผู้สร้างมัน
  KeyVox GitHub
- ฉันทำไว้บน nixOS โดยเอา Noctalia มาติดอินดิเคเตอร์
  ประสิทธิภาพแทบไม่ต่างจาก Wispr Flow และรันแบบโลคัลล้วน
- ตามสไตล์ Apple สุดๆ คาดว่าเดี๋ยวพอถึง macOS 27 หรือ 28 ก็คงกลายเป็นฟีเจอร์พื้นฐานเอง
ในฐานะผู้ใช้ Linux ฉันพัฒนา Hyprwhspr ขึ้นมา
ถ้ารันโมเดล Cohere Transcribe รุ่นล่าสุดบน GPU ประสิทธิภาพดีมาก
อยากรู้ว่าคุณเคยเทียบ WhisperKit กับ faster-whisper หรือ turbov3 ไหม
ฉันคาดหวังว่า Apple คงจะออก STT แบบเนทีฟ เร็วๆ นี้
- อยากรู้ว่าเทียบกับ Handy แล้วเป็นอย่างไร
  แล้วก็อยากรู้ด้วยว่าทำไมถึงสร้างใหม่แทนที่จะไปปรับปรุงโปรเจกต์เดิม
- ฉันรัน Whisper large-v3 แบบ self-hosted บน M2 Max
  ความแม่นยำดีพอจนไม่ต้องใช้โมเดล cleanup
  แต่กับเสียงยาวเกิน 30 วินาทีจะเริ่มรู้สึกถึง latency เลยอยากรู้ว่า WhisperKit จัดการกับเสียงยาวๆ ยังไง
- ฉันใช้ Hyprwhspr บน Omarchy ทุกวัน มันยอดเยี่ยมจริงๆ
- ฉันก็กำลังจะทำอะไรคล้ายๆ กันอยู่พอดี แต่ตอนนี้ไม่ต้องทำแล้ว ขอบคุณมาก
  เคยคิดเรื่องฟีเจอร์ foot pedal PTT (Push-To-Talk) ไหม?
  Apple เองก็มี STT อยู่แล้ว แต่คุณภาพโมเดลยังน่าผิดหวังอยู่
Speech-to-text เป็นแกนหลักของ flow การพัฒนาของฉัน
มันมีประโยชน์มากโดยเฉพาะเวลาพูดพรอมป์ต์ให้ LLM หรือ coding agent ฟัง
ฉันรวบรวมเครื่องมือ voice input โอเพนซอร์สที่ดีที่สุดแยกตามแพลตฟอร์มไว้ใน GitHub repository นี้
- อยากรู้ว่าคุณใช้การเขียนตามคำบอกในการพัฒนายังไง
  ฉันพิมพ์ได้ 120 คำต่อนาที เลยเร็วกว่าพูดมาก
  นอกจากเรื่อง accessibility แล้ว ฉันสงสัยจริงๆ ว่านี่มีไว้สำหรับคนพิมพ์ช้าหรือสำหรับคนที่อยาก นอนบนโซฟาแล้วเขียนโค้ด กันแน่
มีแอปอย่าง Handy อยู่แล้วไม่ใช่เหรอ?
- มีจุดที่น่าเสียดายอยู่บ้าง
  1. บน Linux สามารถทำระบบคล้ายกันได้ง่ายด้วย FTP account, curlftpfs และ SVN/CVS
  2. มันยังแทน USB drive ไม่ได้ทั้งหมด ฉันยังต้องพก USB ไว้สำหรับการพรีเซนต์แบบออฟไลน์
  3. โมเดลรายได้ยังไม่ชัดเจน สงสัยว่าจะ ทำเงิน ได้ยังไงถ้าให้ใช้ฟรี
- Handy เป็นเครื่องมือที่ทำออกมาได้ดีมากจริงๆ
- มันเป็นไปได้ที่จะมี หลายโซลูชัน สำหรับปัญหาเดียวกัน
- ใช่แล้ว speech-to-text มีอยู่แล้ว
- มันเหมาะกับ use case ของฉันพอดี โดยไม่ต้องไปยุ่งกับ UI ของแอปอื่น
ขอบคุณที่แชร์ ฉันชอบที่เน้น ความเร็วแบบโลคัลและความเป็นส่วนตัว
ฉันใช้ Hex ซึ่งมีเป้าหมายคล้ายกันอยู่ เลยอยากรู้ว่าคุณมองความต่างของสองแอปนี้ยังไง
ช่วงนี้ยิ่ง local-first LLM เล็กลงเท่าไร มันก็ดูเหมือนจะยิ่งกลายเป็น โครงสร้างพื้นฐานหลัก ของการพัฒนาแอป
เหมือนสมัยก่อนที่ Electron ทำให้สร้างแอปสวยๆ ได้ง่าย ตอนนี้ก็แค่แลกด้วย RAM นิดหน่อย
- เห็นด้วย สุดท้ายทุกอย่างคงจะกลายเป็น ClaudeVM กันหมด
  บล็อกที่เกี่ยวข้อง
มีโปรเจกต์เกี่ยวกับ Whisper เยอะมาก เลยสงสัยว่านี่คือโมเดล OpenAI รุ่นเก่าหรือเป็นเวอร์ชันอัปเดตแล้ว
ฉันใช้ Parakeet v3 อยู่ มันเล็กและดีมาก แต่ก็ยังสงสัยว่าทำไม Whisper ถึงยังมีเยอะขนาดนี้
- Whisper ยังเป็น โมเดลที่เสถียรและเชื่อถือได้ อยู่
  มันหลอนน้อยกว่าโมเดลใหม่ๆ และยังรันบน AMD GPU ได้ง่ายด้วย
  ฉันเคยพอร์ต Parakeet เองแล้ว แต่สุดท้ายก็กลับมาใช้ Whisper
- ฉันก็คิดอยู่ว่าจะเปลี่ยนไปใช้ Parakeet ดีไหม
  แต่ฉันใช้ ภาษาโปแลนด์ กับคำศัพท์เฉพาะทางเยอะ เลยพบว่า Whisper v3 เหมาะกว่ามาก
- Whisper รองรับหลายภาษา และมีหลายรุ่นตั้งแต่ tiny ถึง turbo
  เพราะงั้นจุดแข็งคือมัน ปรับให้เข้ากับสภาพแวดล้อมของระบบได้
- ฉันก็ใช้ Parakeet บน macOS ผ่าน Voice Ink และที่บ้านก็ใช้ Kokoro สำหรับเสียง→ข้อความ
  บนโทรศัพท์ GrapheneOS ก็เชื่อมกับเซิร์ฟเวอร์ Parakeet ด้วย
  โพสต์ที่เกี่ยวข้อง
ฉันชอบโปรเจกต์นี้มากและอยากลองเอาไปผสานเข้ากับ workflow ของตัวเอง
แต่ข้อความที่ว่า “ให้ฟรีทั้งที่เทียบกับ AI lab ใหญ่ที่ได้เงินลงทุน $80M” มันสะดุดใจนิดหน่อย
งานนี้ไม่ได้ดู rebellious เท่าไร แต่เหมือนเป็น การต่อยอดจากงานวิจัยที่มีอยู่แล้ว มากกว่า
จะเรียกว่ามัน “spicy” ก็ดูเวอร์ไปนิด

Ghost Pepper – แอปแปลงเสียงเป็นข้อความแบบโลคัลสำหรับ macOS

ภาพรวม

ฟีเจอร์หลัก

วิธีการทำงาน

โมเดลจดจำเสียง

โมเดลจัดระเบียบข้อความ

การติดตั้งและการใช้งาน

ติดตั้งแอป

บิลด์จากซอร์ส

สิทธิ์ที่ต้องใช้

ข้อมูลเพิ่มเติม

โครงสร้างเทคนิคและการพึ่งพา

ความหมายของชื่อ

การรองรับองค์กรและอุปกรณ์ที่มีการจัดการ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News