Aqua Voice – โปรแกรมแก้ไขข้อความที่ขับเคลื่อนด้วยเสียง

xguru · 2024-03-29T09:46:01+09:00

โปรแกรมแก้ไขเอกสารด้วยเสียงที่ผสานการรู้จำเสียงพูดเข้ากับคำสั่งภาษาธรรมชาติ เมื่อผู้ใช้พูดว่า "ช่วยทำเป็นรายการให้หน่อย" หรือ "ช่วยเพิ่มการอ้างอิงในบรรทัดให้กับหน้าที่ 86 ของหนังสือเล่มนี้" ระบบจะดำเนินการตามคำสั่งนั้น ซอฟต์แวร์รู้จำเสียงพูดยังคงมอบประสบการณ์ที่ใช้งานยากและเปราะบาง ซอฟต์แวร์ต่างแข่งกันด้านความแม่นยำ แต่ไม่ได้จัดการกับธรรมชาติที่เปราะบางของข้อความที่ถูกสร้างขึ้น ผู้ใช้ต้องเรียนรู้คำสั่งพิเศษ และยังไม่เพียงพอที่จะใช้แทนคีย์บอร์ด แนวทางแก้ปัญหาของ Aqua Voice Aqua สามารถถอดคำพูดของผู้ใช้ตามที่พูด, ดำเนินการตามคำสั่ง, หรือปรับแต่งคำพูดให้กลายเป็นข้อความตามเจตนาที่ต้องการได้อย่างลื่นไหล หากผู้ใช้พูดติดขัดหรือพูดประโยคเดิมหลายครั้ง Aqua จะเลือกเฉพาะเวอร์ชันสุดท้ายมาแปลงเป็นข้อความ วิสัยทัศน์และเทคโนโลยีของ Aqua Voice มุ่งมอบประสบการณ์การรู้จำเสียงพูดที่เป็นธรรมชาติมากขึ้น และประสบการณ์การเขียนด้วย AI แบบทำงานร่วมกัน ให้บริการแบบสตรีมมิงที่เชื่อมต่อกับโมเดลอย่างต่อเนื่องแบบเรียลไทม์ มี 6 โมเดลที่ทำงานร่วมกันเพื่อถอดความ ตีความ และเขียนเอกสารใหม่ตามเจตนา ใช้การถอดเสียงแบบ MoE(Mixture of Experts) เพื่อเพิ่มความแม่นยำแบบเรียลไทม์

(withaqua.com)

9 คะแนน โดย xguru 2024-03-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โปรแกรมแก้ไขเอกสารด้วยเสียงที่ผสานการรู้จำเสียงพูดเข้ากับคำสั่งภาษาธรรมชาติ
เมื่อผู้ใช้พูดว่า "ช่วยทำเป็นรายการให้หน่อย" หรือ "ช่วยเพิ่มการอ้างอิงในบรรทัดให้กับหน้าที่ 86 ของหนังสือเล่มนี้" ระบบจะดำเนินการตามคำสั่งนั้น
ซอฟต์แวร์รู้จำเสียงพูดยังคงมอบประสบการณ์ที่ใช้งานยากและเปราะบาง
- ซอฟต์แวร์ต่างแข่งกันด้านความแม่นยำ แต่ไม่ได้จัดการกับธรรมชาติที่เปราะบางของข้อความที่ถูกสร้างขึ้น
- ผู้ใช้ต้องเรียนรู้คำสั่งพิเศษ และยังไม่เพียงพอที่จะใช้แทนคีย์บอร์ด
แนวทางแก้ปัญหาของ Aqua Voice
- Aqua สามารถถอดคำพูดของผู้ใช้ตามที่พูด, ดำเนินการตามคำสั่ง, หรือปรับแต่งคำพูดให้กลายเป็นข้อความตามเจตนาที่ต้องการได้อย่างลื่นไหล
- หากผู้ใช้พูดติดขัดหรือพูดประโยคเดิมหลายครั้ง Aqua จะเลือกเฉพาะเวอร์ชันสุดท้ายมาแปลงเป็นข้อความ
วิสัยทัศน์และเทคโนโลยีของ Aqua Voice
- มุ่งมอบประสบการณ์การรู้จำเสียงพูดที่เป็นธรรมชาติมากขึ้น และประสบการณ์การเขียนด้วย AI แบบทำงานร่วมกัน
- ให้บริการแบบสตรีมมิงที่เชื่อมต่อกับโมเดลอย่างต่อเนื่องแบบเรียลไทม์
- มี 6 โมเดลที่ทำงานร่วมกันเพื่อถอดความ ตีความ และเขียนเอกสารใหม่ตามเจตนา
- ใช้การถอดเสียงแบบ MoE(Mixture of Experts) เพื่อเพิ่มความแม่นยำแบบเรียลไทม์

1 ความคิดเห็น

xguru 2024-03-29

ความคิดเห็นจาก Hacker News

เจ๋งมาก! มีฟีดแบ็กเล็กน้อย:
- คำว่า '1000 โทเค็น' ไม่มีความหมายสำหรับผู้ใช้ที่ไม่ใช่สายเทคนิค และแทบไม่มีความหมายสำหรับฉันด้วย แค่บอกมาว่าฉันพูดได้กี่คำก็พอ
- ตารางอัตราความผิดพลาด LaTeX ที่ใช้ฟอนต์ serif นั่นก็น่าเบื่อเกินไป ผู้คนอยากเห็นอะไรที่หวือหวาอย่าง 'ผิดพลาดน้อยกว่า macOS dictation ได้สูงสุด 7 เท่า' ไม่ใช่ตารางเปรียบเทียบ
- 'อัตราความผิดพลาดของคำ 0.05' ก็ควรเอาออกด้วย ควรอธิบายว่ามันหมายถึงอะไรและใช้เปอร์เซ็นต์
- 'ลืมชื่อ คำ ข้อเท็จจริง หรือตัวเลขใช่ไหม? ขอให้ Aqua เติมให้สิ' ฉันอยากให้ปิดฟีเจอร์นี้ได้ และอย่างน้อยก็ควรมีการระบุให้ชัดเจนเมื่อมีการแทรกเนื้อหาที่ฉันไม่ได้พูดลงไปในเอกสาร เวลาใช้งานการพูดตาม ฉันมักต้องการให้มีแต่คำที่ฉันพูดจริง ๆ อยู่บนหน้า
อย่างที่คนอื่นพูดไว้ ทำได้ดีมาก
- นี่น่าจะดีเป็นพิเศษบนโทรศัพท์หรือสมาร์ตวอตช์ ดูเหมือนจะเป็นตัวเปลี่ยนเกมจริง ๆ ในแง่ความสามารถในการจดโน้ตในที่ที่ประสบการณ์การใช้คีย์บอร์ดไม่ค่อยดี
- เคยลองใช้เขียนโค้ดไหม? นี่อาจยอดเยี่ยมอย่างน่าทึ่งในฐานะปลั๊กอิน IDE/โปรแกรมแก้ไขข้อความ
- ดีใจที่เห็นว่าไม่ได้เอา AI ไปทำอะไรน่าปวดหัว แอปจำนวนมากที่เราเห็นมันแย่มาก สิ่งที่คุณสร้างยอดเยี่ยมและห่างไกลจากประสบการณ์โรงงานช็อกโกแลตต้องสาป
ฉันได้รับบาดเจ็บจาก RSI ในช่วงปี 94/95 และใช้การรู้จำเสียงมาตั้งแต่นั้น ฉันอยากได้โซลูชันที่ทำให้ฉันเลิกใช้ Windows ได้ ฉันอยากได้โซลูชันที่สามารถพูดตามได้ง่ายใน Firefox, Thunderbird และ VS Code สิ่งที่สำคัญที่สุดคือความสามารถในการแก้ไข/จัดการข้อความที่ Nuance เรียกว่า 'Select-and-Say' เช่น การแก้ไขเล็กน้อย การแทนที่ประโยคด้วยการพูดตามใหม่ เป็นต้น ซึ่งทำให้ใช้เสียงได้ง่ายกว่าการแค่จับข้อความที่พูดตามแบบที่แอป whisper ส่วนใหญ่ทำมาก ถ้าทำสิ่งนี้ได้ ฉันจะเป็นลูกค้าตลอดชีวิต
- สิ่งที่สำคัญรองลงมาคือความสามารถในการเขียนแอ็กชันรูทีนสำหรับไวยากรณ์ ฉันชอบ Python เพราะเป็นเป้าหมายที่ง่ายที่สุดเวลาให้ chatGPT เขียนโค้ดให้ แต่ฉันก็น่าจะเรียนภาษาอื่นได้เหมือนกัน (ยกเว้น JavaScript ฉันเกลียดมัน) ฉันขออ้างอิงแพ็กเกจ 'natPython' ของ Joel Gould นี่คือพรีเซนเทชันต้นฉบับและสิ่งที่ผู้คนสร้างขึ้นจากมัน
- มีบทเรียนจากอดีตอยู่ ในช่วงแรกของ DragonDictate/NaturallySpeaking ตอนที่ Baker บริหาร Dragon Systems พวกเขาส่งพนักงานไปเข้าร่วมประชุมกลุ่มผู้ใช้การรู้จำเสียงในท้องถิ่นเป็นประจำ เพื่อคุยกับพวกเราว่าอะไรได้ผลและอะไรล้มเหลว พวกเขารู้ว่าการดูพวกเราเหล่าคนพิการจะให้ข้อมูลเกี่ยวกับการสร้างสภาพแวดล้อมการรู้จำเสียงที่ดีได้มากกว่าชุมชนผู้ใช้อื่น ๆ เรามักเจอเคสขอบก่อนใคร พวกเขาทำหลายอย่างได้ดี เช่น สนับสนุนการประชุมกลุ่มผู้ใช้การรู้จำเสียงบางกลุ่มด้วยสถานที่และเวลาของพนักงาน
- ดูเหมือนว่า Nuance จะลืมบทเรียนนั้นไปแล้ว
- ยังไงก็ตาม วันนี้ฉันตั้งใจจะทำงาน แต่พรีเซนเทชันของคุณยิงมันทิ้งไปจากหัวฉันแล้ว :-)
- [เพิ่มภายหลัง] น่าประทับใจจริง ๆ ชัดเจนว่าฉันต้องใช้เวลากับสิ่งนี้มากขึ้น ฉันมองออกว่าประสบการณ์กับ Naturally Speaking ได้จำกัดมุมมองของฉันไว้ และคุณมีวิสัยทัศน์ที่กว้างกว่ามากว่าหน้าตาอินเทอร์เฟซผู้ใช้จะเป็นอย่างไรได้บ้าง
ฉันอยากได้อะไรแบบนี้สำหรับการป้อนข้อมูล ฉันมักต้องวัดของโดยที่มือไม่ว่างและต้องจดโน้ต มันสามารถส่งออก/จัดรูปแบบข้อมูลแบบตารางได้ไหม?
นี่สุดยอดจริง ๆ ฉันหวังให้มีใครสักคนสร้างสิ่งนี้:
- ฉันยินดีจ่าย $10 ต่อเดือนสำหรับสิ่งนี้ แต่สิ่งที่ฉันอยากได้จริง ๆ คืออย่างใดอย่างหนึ่งต่อไปนี้:
  - ปลั๊กอิน Raycast หรือแอปเดสก์ท็อปที่ทำให้สิ่งนี้โต้ตอบกับทุกช่องข้อความที่แก้ไขได้ในสภาพแวดล้อมของฉัน
  - API ที่สามารถส่งข้อความ/บริบทที่มีอยู่ + สตรีมเสียงเข้าไป และรับ heartbeat ของการอัปเดตเอกสารทั้งฉบับกลับมา เพื่อให้คอมมูนิตี้สร้างปลั๊กอิน Obsidian/VSCode/เบราว์เซอร์สำหรับพื้นที่ป้อนข้อความขนาดใหญ่ได้
- บ่ายนี้ฉันคงจะจ่าย $10 อยู่ดี และขอแสดงความยินดีด้วย!
ซอฟต์แวร์พูดตามมีความสำคัญมากในอุตสาหกรรมการแพทย์ แพทย์ทุกคนใช้มัน และอะไรแบบโซลูชันของคุณอาจทำให้งานของพวกเขามีประสิทธิภาพขึ้นมาก คุณเคยสำรวจตลาดส่วนนี้ไหม?
นี่น่าทึ่งมาก! ใช้งานแล้วรู้สึกดีมาก และการผสมกันของ transcription + intent ดูเหมือนจะมีศักยภาพมหาศาล
ฉันอยากใช้สิ่งนี้เพื่อพูดตามจดหมายถึงคนไข้และอื่น ๆ โมเดลแบบ local/HIPAA compliance ยังอีกไกลไหม?
ขอแสดงความยินดีกับการเปิดตัว!
ในฐานะคนที่มีความหลากหลายทางระบบประสาทเหมือนกันและทำงานกับข้อความได้ดีกว่าเสียงมาก ฉันชอบไอเดียนี้มากจริง ๆ ฟีดแบ็กเดียวของฉันคือ... ฉันอยากรันมันโดยมีการควบคุมมากกว่านี้ ฉันรัน LLM แบบ local อยู่แล้ว (เช่น LM Studio) และก็น่าจะรันอย่าง whisper ได้ด้วย ฉันเข้าใจว่าการเปิดซอร์ส (หรือทำให้เข้าถึงซอร์สโค้ดได้) อาจขัดกับความพยายามในการทำเชิงพาณิชย์ แต่ก็อาจมีทางเลือกบางอย่างแบบ Red Hat ที่เก็บเงินสำหรับการใช้งานทางธุรกิจ และให้บุคคลทั่วไปใช้ฟรีเมื่อรันแบบ local
ในอีกด้านหนึ่ง คุณมีข้อได้เปรียบจากการเป็นผู้นำที่แข็งแกร่งในพื้นที่ที่คนจำนวนมากจะได้ประโยชน์และใช้งานมัน แต่ก็อาจมีคนทำคู่แข่งได้ถ้าเอาผลลัพธ์จาก LLM หลายตัวหลายชั้นมายำรวมกัน (โปรเจกต์แบบนั้นมักเป็นโอเพนซอร์ส แม้บางครั้งจะ 'ขัดเกลา' น้อยกว่า) ถ้าคุณเสนอข้อตกลงที่ดี ก็อาจมีโอกาสประสบความสำเร็จอย่างมาก ขอให้โชคดี!
นี่เจ๋งมาก ฉันอาจจะสมัครใช้ เพียงแต่ต้องลดการสมัครอย่างอื่นลงหน่อย ช่วงนี้มีผลิตภัณฑ์ AI ที่น่าลองเยอะเกินไป
แม้จะไม่ได้บอกไว้อย่างชัดเจน แต่ฉันอยากรู้ว่ามีข้อมูลอะไรถูกส่งขึ้นคลาวด์บ้าง — ฉันเดาว่าเป็นไฟล์บันทึกเสียงทั้งหมด หรือว่า STT ทำบนอุปกรณ์? แล้วนโยบายความเป็นส่วนตัว/การเก็บรักษาข้อมูลของคุณสำหรับข้อมูลนี้เป็นอย่างไร? เดโมยอดเยี่ยมและผลิตภัณฑ์ก็ดีมาก!

Aqua Voice – โปรแกรมแก้ไขข้อความที่ขับเคลื่อนด้วยเสียง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News