4 คะแนน โดย GN⁺ 22 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • แอปจดจำเสียงแบบโลคัลสำหรับ macOS ที่ กดปุ่ม Control ค้างไว้แล้วพูด ระบบจะแปลงเป็นข้อความและวางให้โดยอัตโนมัติ
  • การจดจำเสียงและกระบวนการจัดระเบียบข้อความทั้งหมดทำงานบนเครื่องเท่านั้น จึง ปกป้องความเป็นส่วนตัวโดยไม่ส่งข้อมูลขึ้นคลาวด์
  • พัฒนาบนพื้นฐานของ WhisperKit และ LLM.swift โดยดาวน์โหลด โมเดลจาก Hugging Face อัตโนมัติและแคชเก็บไว้
  • มี ฟีเจอร์จัดระเบียบอัจฉริยะ สำหรับลบคำพูดที่ไม่จำเป็นและแก้รูปแบบการพูดที่เป็นการแก้คำตัวเอง พร้อมทำงานเบื้องหลังในรูปแบบ แอปบนแถบเมนู
  • เป็นโอเพนซอร์สภายใต้ สัญญาอนุญาต MIT และทำงานได้บน Apple Silicon macOS 14 ขึ้นไป

ภาพรวม

  • Ghost Pepper คือ แอปแปลงเสียงเป็นข้อความแบบโลคัลเต็มรูปแบบ สำหรับ macOS ที่รองรับการ กดปุ่ม Control ค้างไว้ พูด แล้วปล่อย เพื่อให้ระบบแปลงเป็นข้อความและวางให้อัตโนมัติ
  • ไม่ใช้ Cloud API และข้อมูลรวมถึงโมเดลทั้งหมดจะถูก ประมวลผลบนเครื่องเท่านั้น
  • ทำงานบน macOS 14.0 ขึ้นไปที่ใช้ Apple Silicon (M1 ขึ้นไป)
  • ทำงานในรูปแบบ แอปบนแถบเมนู และสามารถตั้งให้เริ่มอัตโนมัติเมื่อเข้าสู่ระบบได้
  • เป็นโปรเจ็กต์โอเพนซอร์สที่เผยแพร่ภายใต้ สัญญาอนุญาต MIT

ฟีเจอร์หลัก

  • กดปุ่ม Control ค้างไว้แล้วพูด → เมื่อปล่อยปุ่ม ระบบจะ แปลงเป็นข้อความและวางให้อัตโนมัติ
  • โครงสร้างการทำงานแบบ รันบนเครื่อง โดยทั้งการจดจำเสียงและโมเดลหลังประมวลผลทำงานอยู่ภายใน Mac
  • มี ฟีเจอร์จัดระเบียบอัจฉริยะ ที่ลบคำพูดไม่จำเป็น (เช่น uh, um) และ ปรับแก้สำนวนที่เป็นการแก้คำตัวเองโดยอัตโนมัติ
  • อินเทอร์เฟซเฉพาะบนแถบเมนู ทำงานเบื้องหลังโดยไม่มีไอคอนใน Dock
  • รองรับการตั้งค่าจากผู้ใช้: แก้ไขพรอมป์ต์สำหรับจัดระเบียบ เลือกไมโครโฟน และเปิด/ปิดฟังก์ชันได้

วิธีการทำงาน

  • โมเดลทั้งหมดเป็น โอเพนซอร์ส และเมื่อเปิดใช้งานครั้งแรก ระบบจะดาวน์โหลดอัตโนมัติแล้ว แคชไว้ในเครื่อง
  • การจดจำเสียงดำเนินการผ่าน WhisperKit ส่วนการจัดระเบียบข้อความดำเนินการผ่าน LLM.swift
  • ไฟล์โมเดลให้บริการผ่าน Hugging Face
  • โมเดลจดจำเสียง

    • Whisper tiny.en (~75MB): โมเดลภาษาอังกฤษล้วนที่เร็วที่สุด
    • Whisper small.en (~466MB): ค่าเริ่มต้น โมเดลภาษาอังกฤษล้วนที่มีความแม่นยำสูง
    • Whisper small (multilingual): รองรับหลายภาษา
    • Parakeet v3 (~1.4GB): รองรับ 25 ภาษา พัฒนาบนพื้นฐานของ FluidAudio
  • โมเดลจัดระเบียบข้อความ

    • Qwen 3.5 0.8B (~535MB): ค่าเริ่มต้น ประมวลผลในเวลาประมาณ 1~2 วินาที
    • Qwen 3.5 2B (~1.3GB): ความเร็วในการประมวลผลสูง (ประมาณ 4~5 วินาที)
    • Qwen 3.5 4B (~2.8GB): คุณภาพสูงสุด (ประมาณ 5~7 วินาที)

การติดตั้งและการใช้งาน

  • ติดตั้งแอป

    1. ดาวน์โหลด GhostPepper.dmg
    2. เปิด DMG แล้ว ลากไปยังโฟลเดอร์ Applications
    3. อนุญาต สิทธิ์ไมโครโฟนและการช่วยการเข้าถึง
    4. เริ่มใช้งานด้วยการ กดปุ่ม Control ค้างไว้แล้วพูด
  • บิลด์จากซอร์ส

    1. โคลนรีโพซิทอรี
    2. เปิด GhostPepper.xcodeproj ใน Xcode
    3. บิลด์และรันด้วย Cmd+R

สิทธิ์ที่ต้องใช้

สิทธิ์ วัตถุประสงค์
Microphone บันทึกเสียง
Accessibility ใช้คีย์ลัดแบบโกลบอลและวางข้อความอัตโนมัติ

ข้อมูลเพิ่มเติม

  • เริ่มอัตโนมัติเมื่อเข้าสู่ระบบ ถูกเปิดใช้งานเป็นค่าเริ่มต้น และสามารถปิดได้ในการตั้งค่า
  • ไม่มีการบันทึกล็อกลงดิสก์ — ข้อความที่แปลงแล้วจะไม่ถูกบันทึกเป็นไฟล์ และ ล็อกดีบักจะถูกเก็บไว้ในหน่วยความจำเท่านั้น ก่อนถูกลบเมื่อปิดแอป

โครงสร้างเทคนิคและการพึ่งพา

  • WhisperKit: เอนจินจดจำเสียง
  • LLM.swift: LLM แบบโลคัลสำหรับจัดระเบียบข้อความ
  • Hugging Face: โฮสต์โมเดล
  • Sparkle: จัดการอัปเดตแอป macOS

ความหมายของชื่อ

  • โมเดลทั้งหมด ทำงานบนเครื่องเท่านั้น ทำให้ข้อมูลส่วนบุคคลไม่ถูกส่งออกไปภายนอก
  • ชื่อ Ghost Pepper (พริกเผ็ดจัด) สื่อถึง ความสามารถอันทรงพลังที่ใช้งานได้ฟรี

การรองรับองค์กรและอุปกรณ์ที่มีการจัดการ

  • แอปต้องการสิทธิ์ Accessibility ซึ่งโดยทั่วไป ต้องใช้สิทธิ์ผู้ดูแลระบบ
  • ในสภาพแวดล้อม MDM (Jamf, Kandji, Mosaic เป็นต้น) สามารถอนุมัติล่วงหน้าได้ผ่านโปรไฟล์ PPPC (Privacy Preferences Policy Control)
    • Bundle ID: com.github.matthartman.ghostpepper
    • Team ID: BBVMGXR9AY
    • Permission: Accessibility (com.apple.security.accessibility)

1 ความคิดเห็น

 
GN⁺ 22 일 전
ความคิดเห็นจาก Hacker News
  • แอปนี้เจ๋งมาก แต่ทุกครั้งที่เห็นก็ทำให้นึกถึง Pixel 6 ของฉัน
    เป็นรุ่นปี 2021 แต่ก็แปลงเสียงเป็นข้อความแบบออฟไลน์ได้ และยังแก้ไขอัตโนมัติตามบริบทด้วย ถึงขั้นว่าถ้าฉันพูดต่อเนื่อง มันยังย้อนกลับไปแก้ประโยคก่อนหน้าให้ใหม่ได้อีก
    น่าทึ่งที่ Google ใส่เทคโนโลยีแบบนี้มาก่อน Whisper หรือ Qwen ตั้ง 5 ปี แต่ก็สงสัยว่าทำไมตอนนี้บนแพลตฟอร์มที่แรงกว่ากลับต้องใช้โมเดล transformer ขนาด 1GB

    • นี่คือโมเดลตัวเดียวกับที่ใช้ใน WebSpeech API และทำงานแบบออฟไลน์ล้วนได้ด้วย
      Google สนับสนุนการฝึกโมเดลนี้มาตั้งแต่ราว 10 ปีก่อน และจนถึงตอนนี้ก็ยังดีมากอยู่
      มันถูกฝังมาในเบราว์เซอร์ที่ใช้ Webkit หรือ Blink ทำให้หลายเว็บไซต์เอาไปใช้เป็น frontend แบบง่ายๆ
      แต่ตัวโมเดลเองอยู่ในรูปแบบ blob แบบปิด เลยทำให้ Firefox ไม่รองรับ
      เอกสาร MDN / เดโม Chrome
    • Microsoft OneNote ก็มีฟีเจอร์คล้ายกันตั้งแต่ราวปี 2007
      ตอนนั้นฉันอยู่ในทีมนั้น แต่เพราะไม่มีคนดูแลงานบำรุงรักษา เลยต้องทิ้งโมเดลออฟไลน์แล้วเปลี่ยนเป็นออนไลน์อย่างเดียว
      ไม่ใช่เพราะเหตุผลด้านเทคนิค แต่เป็นเพราะ ขาดคนดูแลรักษา ล้วนๆ
    • ความแม่นยำต่ำกว่ามาก
      บน Android ฉันใช้ Futo และบน macOS ใช้ MacWhisper ซึ่งดีกว่าโมเดลพื้นฐานของ Apple มาก
    • macOS กับ iOS ก็ทำได้ผ่าน ฟีเจอร์เขียนตามคำบอก ที่มีมาในตัว บน Mac ใช้ปุ่ม Globe + D
    • Pixel 7 ของฉันกลับมีอัตราการรู้จำต่ำเกินไปจนแทบใช้ไม่ได้
      แต่โมเดล STT แบบโลคัลโอเพนซอร์สอย่าง Whisper หรือ Parakeet กลับทรงพลังกว่ามาก
      มันเสียอาการน้อยกว่ามากเวลาเจอเสียงรบกวนหรือเสียงพึมพำ
      ฉันทำงานสาย Voice AI เลยใช้โมเดลพวกนี้ทุกวัน และความต่างที่รู้สึกได้จริงนั้นใหญ่มาก
  • แอปทำออกมาได้ดีมาก ถ้าจะให้ feedback คือ
    อย่างแรก ควรมีฟีเจอร์ วางลง clipboard อัตโนมัติ แบบจำเป็นเลย จะได้ไม่ต้องกดคีย์ลัด หรืออย่างน้อยก็เปิดให้ตั้งค่าได้
    อย่างที่สอง ความเร็วช้ากว่าโซลูชันอื่นนิดหน่อย ซึ่งกระทบกับการใช้งานมาก
    อย่างที่สาม น่าจะมีการควบคุมการจัดรูปแบบ เช่น ถ้าพูดว่า “new line” ก็ควรถูกตีความเป็นการขึ้นบรรทัดใหม่จริงๆ

  • เธรดนี้เหมือนกลุ่มซัพพอร์ตของคนที่แต่ละคนทำ แอปเสียง→ข้อความสำหรับ macOS ของตัวเองเลย

    • ฉันรวบรวมทุกแอปที่ฉันทำไว้ ที่นี่
      เพิ่งเพิ่ม Ghost Pepper เข้าไปล่าสุด และคุณยังสร้าง skill.md ที่มีฟีเจอร์ที่ต้องการเพื่อ build แอปเองได้ด้วย
    • ในซับเรดดิต /r/macapps ก็มีแอป whisper dictation เยอะเกินไปเหมือนกัน
      ในหมวดที่อิ่มตัวแล้วแบบนี้ ต้องอธิบายให้ชัดว่า ต่างจากแอปที่มีอยู่ยังไง
      โพสต์ที่เกี่ยวข้อง
    • ฉันก็เคยทำเองตัวหนึ่งเหมือนกัน แต่ต่อมาดันไปเจอ KeyVox แล้วได้คุยกับผู้สร้างมัน
      KeyVox GitHub
    • ฉันทำไว้บน nixOS โดยเอา Noctalia มาติดอินดิเคเตอร์
      ประสิทธิภาพแทบไม่ต่างจาก Wispr Flow และรันแบบโลคัลล้วน
    • ตามสไตล์ Apple สุดๆ คาดว่าเดี๋ยวพอถึง macOS 27 หรือ 28 ก็คงกลายเป็นฟีเจอร์พื้นฐานเอง
  • ในฐานะผู้ใช้ Linux ฉันพัฒนา Hyprwhspr ขึ้นมา
    ถ้ารันโมเดล Cohere Transcribe รุ่นล่าสุดบน GPU ประสิทธิภาพดีมาก
    อยากรู้ว่าคุณเคยเทียบ WhisperKit กับ faster-whisper หรือ turbov3 ไหม
    ฉันคาดหวังว่า Apple คงจะออก STT แบบเนทีฟ เร็วๆ นี้

    • อยากรู้ว่าเทียบกับ Handy แล้วเป็นอย่างไร
      แล้วก็อยากรู้ด้วยว่าทำไมถึงสร้างใหม่แทนที่จะไปปรับปรุงโปรเจกต์เดิม
    • ฉันรัน Whisper large-v3 แบบ self-hosted บน M2 Max
      ความแม่นยำดีพอจนไม่ต้องใช้โมเดล cleanup
      แต่กับเสียงยาวเกิน 30 วินาทีจะเริ่มรู้สึกถึง latency เลยอยากรู้ว่า WhisperKit จัดการกับเสียงยาวๆ ยังไง
    • ฉันใช้ Hyprwhspr บน Omarchy ทุกวัน มันยอดเยี่ยมจริงๆ
    • ฉันก็กำลังจะทำอะไรคล้ายๆ กันอยู่พอดี แต่ตอนนี้ไม่ต้องทำแล้ว ขอบคุณมาก
      เคยคิดเรื่องฟีเจอร์ foot pedal PTT (Push-To-Talk) ไหม?
      Apple เองก็มี STT อยู่แล้ว แต่คุณภาพโมเดลยังน่าผิดหวังอยู่
  • Speech-to-text เป็นแกนหลักของ flow การพัฒนาของฉัน
    มันมีประโยชน์มากโดยเฉพาะเวลาพูดพรอมป์ต์ให้ LLM หรือ coding agent ฟัง
    ฉันรวบรวมเครื่องมือ voice input โอเพนซอร์สที่ดีที่สุดแยกตามแพลตฟอร์มไว้ใน GitHub repository นี้

    • อยากรู้ว่าคุณใช้การเขียนตามคำบอกในการพัฒนายังไง
      ฉันพิมพ์ได้ 120 คำต่อนาที เลยเร็วกว่าพูดมาก
      นอกจากเรื่อง accessibility แล้ว ฉันสงสัยจริงๆ ว่านี่มีไว้สำหรับคนพิมพ์ช้าหรือสำหรับคนที่อยาก นอนบนโซฟาแล้วเขียนโค้ด กันแน่
  • มีแอปอย่าง Handy อยู่แล้วไม่ใช่เหรอ?

    • มีจุดที่น่าเสียดายอยู่บ้าง
      1. บน Linux สามารถทำระบบคล้ายกันได้ง่ายด้วย FTP account, curlftpfs และ SVN/CVS
      2. มันยังแทน USB drive ไม่ได้ทั้งหมด ฉันยังต้องพก USB ไว้สำหรับการพรีเซนต์แบบออฟไลน์
      3. โมเดลรายได้ยังไม่ชัดเจน สงสัยว่าจะ ทำเงิน ได้ยังไงถ้าให้ใช้ฟรี
    • Handy เป็นเครื่องมือที่ทำออกมาได้ดีมากจริงๆ
    • มันเป็นไปได้ที่จะมี หลายโซลูชัน สำหรับปัญหาเดียวกัน
    • ใช่แล้ว speech-to-text มีอยู่แล้ว
    • มันเหมาะกับ use case ของฉันพอดี โดยไม่ต้องไปยุ่งกับ UI ของแอปอื่น
  • ขอบคุณที่แชร์ ฉันชอบที่เน้น ความเร็วแบบโลคัลและความเป็นส่วนตัว
    ฉันใช้ Hex ซึ่งมีเป้าหมายคล้ายกันอยู่ เลยอยากรู้ว่าคุณมองความต่างของสองแอปนี้ยังไง

  • ช่วงนี้ยิ่ง local-first LLM เล็กลงเท่าไร มันก็ดูเหมือนจะยิ่งกลายเป็น โครงสร้างพื้นฐานหลัก ของการพัฒนาแอป
    เหมือนสมัยก่อนที่ Electron ทำให้สร้างแอปสวยๆ ได้ง่าย ตอนนี้ก็แค่แลกด้วย RAM นิดหน่อย

  • มีโปรเจกต์เกี่ยวกับ Whisper เยอะมาก เลยสงสัยว่านี่คือโมเดล OpenAI รุ่นเก่าหรือเป็นเวอร์ชันอัปเดตแล้ว
    ฉันใช้ Parakeet v3 อยู่ มันเล็กและดีมาก แต่ก็ยังสงสัยว่าทำไม Whisper ถึงยังมีเยอะขนาดนี้

    • Whisper ยังเป็น โมเดลที่เสถียรและเชื่อถือได้ อยู่
      มันหลอนน้อยกว่าโมเดลใหม่ๆ และยังรันบน AMD GPU ได้ง่ายด้วย
      ฉันเคยพอร์ต Parakeet เองแล้ว แต่สุดท้ายก็กลับมาใช้ Whisper
    • ฉันก็คิดอยู่ว่าจะเปลี่ยนไปใช้ Parakeet ดีไหม
      แต่ฉันใช้ ภาษาโปแลนด์ กับคำศัพท์เฉพาะทางเยอะ เลยพบว่า Whisper v3 เหมาะกว่ามาก
    • Whisper รองรับหลายภาษา และมีหลายรุ่นตั้งแต่ tiny ถึง turbo
      เพราะงั้นจุดแข็งคือมัน ปรับให้เข้ากับสภาพแวดล้อมของระบบได้
    • ฉันก็ใช้ Parakeet บน macOS ผ่าน Voice Ink และที่บ้านก็ใช้ Kokoro สำหรับเสียง→ข้อความ
      บนโทรศัพท์ GrapheneOS ก็เชื่อมกับเซิร์ฟเวอร์ Parakeet ด้วย
      โพสต์ที่เกี่ยวข้อง
  • ฉันชอบโปรเจกต์นี้มากและอยากลองเอาไปผสานเข้ากับ workflow ของตัวเอง
    แต่ข้อความที่ว่า “ให้ฟรีทั้งที่เทียบกับ AI lab ใหญ่ที่ได้เงินลงทุน $80M” มันสะดุดใจนิดหน่อย
    งานนี้ไม่ได้ดู rebellious เท่าไร แต่เหมือนเป็น การต่อยอดจากงานวิจัยที่มีอยู่แล้ว มากกว่า
    จะเรียกว่ามัน “spicy” ก็ดูเวอร์ไปนิด