macOSPilot - CoPilot แบบเสียง+วิชันสำหรับ macOS
(github.com/elfvingralf)- ผู้ช่วย AI ที่ใช้ได้กับทุกแอปพลิเคชันบน macOS โดยใช้เสียงและวิชัน
- กดคีย์ลัดแล้วถามด้วยเสียง จากนั้นระบบจะตอบกลับด้วยเสียงตามคอนเท็กซ์ปัจจุบัน
- จับภาพหน้าจอของหน้าต่างปัจจุบันแล้วส่งไปให้ OpenAI GPT Vision
- คำถามจะถูกถอดเสียงเป็นข้อความด้วย OpenAI Whisper API แล้วส่งไปพร้อมกัน
- คำตอบข้อความที่ได้รับจะถูกแปลงเป็นเสียงด้วย OpenAI TTS แล้วส่งออกมา
- พัฒนาด้วย NodeJS/Electron
- คีย์ลัดเริ่มต้นคือ Cmd + Shift + '
1 ความคิดเห็น
ความคิดเห็นใน Hacker News
มีคำถามว่าควรใช้คำว่า "macOS" แทน "OSX" ในพรอมป์ต์จะดีกว่าหรือไม่ หรือว่าไม่ได้คิดมากกับสิ่งที่เลือกใช้ตอนแรก
มีข้อเสนอให้เพิ่มตัวเลือกสตรีมข้อความแทน TTS
มีการกล่าวว่าเคยเขียนสคริปต์คล้ายกันสำหรับการตั้งค่า Linux
แนะนำให้ตั้งเพดานค่าใช้จ่ายเมื่อใช้ OpenAI API
มีเสียงตอบรับเชิงบวกต่อโปรเจกต์
มีคำถามว่ามีแผนจะทำให้โปรเจกต์นี้ทำงานกับ local LLMs แทนที่จะเป็น "open"AI หรือไม่
มีความเห็นว่าอยากสร้างอะไรสักอย่างโดยผสานเข้ากับเทอร์มินัลโดยตรง
มีปฏิกิริยาในเชิงลบต่อข้อมูลที่ว่า "macOSpilot ใช้ NodeJS/Electron"
มีการแชร์ประสบการณ์ลองใช้ร่วมกับดิจิทัลออดิโอเวิร์กสเตชัน Ableton Live
มีการแชร์จินตนาการเรื่องประสิทธิภาพการทำงานระหว่างรอผลลัพธ์ของคำสั่ง
ls