- โปรแกรมแก้ไขเอกสารด้วยเสียงที่ผสานการรู้จำเสียงพูดเข้ากับคำสั่งภาษาธรรมชาติ
- เมื่อผู้ใช้พูดว่า "ช่วยทำเป็นรายการให้หน่อย" หรือ "ช่วยเพิ่มการอ้างอิงในบรรทัดให้กับหน้าที่ 86 ของหนังสือเล่มนี้" ระบบจะดำเนินการตามคำสั่งนั้น
- ซอฟต์แวร์รู้จำเสียงพูดยังคงมอบประสบการณ์ที่ใช้งานยากและเปราะบาง
- ซอฟต์แวร์ต่างแข่งกันด้านความแม่นยำ แต่ไม่ได้จัดการกับธรรมชาติที่เปราะบางของข้อความที่ถูกสร้างขึ้น
- ผู้ใช้ต้องเรียนรู้คำสั่งพิเศษ และยังไม่เพียงพอที่จะใช้แทนคีย์บอร์ด
- แนวทางแก้ปัญหาของ Aqua Voice
- Aqua สามารถถอดคำพูดของผู้ใช้ตามที่พูด, ดำเนินการตามคำสั่ง, หรือปรับแต่งคำพูดให้กลายเป็นข้อความตามเจตนาที่ต้องการได้อย่างลื่นไหล
- หากผู้ใช้พูดติดขัดหรือพูดประโยคเดิมหลายครั้ง Aqua จะเลือกเฉพาะเวอร์ชันสุดท้ายมาแปลงเป็นข้อความ
- วิสัยทัศน์และเทคโนโลยีของ Aqua Voice
- มุ่งมอบประสบการณ์การรู้จำเสียงพูดที่เป็นธรรมชาติมากขึ้น และประสบการณ์การเขียนด้วย AI แบบทำงานร่วมกัน
- ให้บริการแบบสตรีมมิงที่เชื่อมต่อกับโมเดลอย่างต่อเนื่องแบบเรียลไทม์
- มี 6 โมเดลที่ทำงานร่วมกันเพื่อถอดความ ตีความ และเขียนเอกสารใหม่ตามเจตนา
- ใช้การถอดเสียงแบบ MoE(Mixture of Experts) เพื่อเพิ่มความแม่นยำแบบเรียลไทม์
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ฉันอยากใช้สิ่งนี้เพื่อพูดตามจดหมายถึงคนไข้และอื่น ๆ โมเดลแบบ local/HIPAA compliance ยังอีกไกลไหม?
ในฐานะคนที่มีความหลากหลายทางระบบประสาทเหมือนกันและทำงานกับข้อความได้ดีกว่าเสียงมาก ฉันชอบไอเดียนี้มากจริง ๆ ฟีดแบ็กเดียวของฉันคือ... ฉันอยากรันมันโดยมีการควบคุมมากกว่านี้ ฉันรัน LLM แบบ local อยู่แล้ว (เช่น LM Studio) และก็น่าจะรันอย่าง whisper ได้ด้วย ฉันเข้าใจว่าการเปิดซอร์ส (หรือทำให้เข้าถึงซอร์สโค้ดได้) อาจขัดกับความพยายามในการทำเชิงพาณิชย์ แต่ก็อาจมีทางเลือกบางอย่างแบบ Red Hat ที่เก็บเงินสำหรับการใช้งานทางธุรกิจ และให้บุคคลทั่วไปใช้ฟรีเมื่อรันแบบ local
ในอีกด้านหนึ่ง คุณมีข้อได้เปรียบจากการเป็นผู้นำที่แข็งแกร่งในพื้นที่ที่คนจำนวนมากจะได้ประโยชน์และใช้งานมัน แต่ก็อาจมีคนทำคู่แข่งได้ถ้าเอาผลลัพธ์จาก LLM หลายตัวหลายชั้นมายำรวมกัน (โปรเจกต์แบบนั้นมักเป็นโอเพนซอร์ส แม้บางครั้งจะ 'ขัดเกลา' น้อยกว่า) ถ้าคุณเสนอข้อตกลงที่ดี ก็อาจมีโอกาสประสบความสำเร็จอย่างมาก ขอให้โชคดี!