Google เปิดตัว SoundStream โค้ดเสียงประสาทเทียมแบบ End-to-End
(ai.googleblog.com)- โค้ดเสียงแบบโครงข่ายประสาทเทียมตัวแรกที่ใช้ได้ทั้งกับเสียงพูดและดนตรี
→ สามารถทำงานแบบเรียลไทม์บน CPU ของสมาร์ตโฟนได้
→ เข้ารหัสเสียงได้หลากหลายประเภท ทั้งเสียงคุณภาพสูงและเสียงพูดที่คมชัด, เสียงพูดที่มีนอยส์และเสียงก้องมาก, ดนตรี และเสียงแวดล้อม
- ฝึกด้วยโครงข่ายประสาทเทียมที่ปลายทางทั้งสองด้าน จึงทำการบีบอัดและปรับปรุงคุณภาพเสียงได้พร้อมกัน เพื่อให้ได้เสียงคุณภาพสูง
→ SoundStream ที่ 3kbps เหนือกว่า Opus 12 kpbs และให้คุณภาพใกล้เคียง EVS 9.6bps
→ ใช้บิตน้อยลง 3.2x-4x จึงลดปริมาณข้อมูลรับส่งได้อย่างมาก
→ สามารถลดนอยส์ได้ในระดับที่ยอดเยี่ยม
- มีแผนจะรวมเข้ากับ Lyra โค้ดเสียงสำหรับเสียงพูดแบบ Low-Bitrate ที่เปิดตัวไปเมื่อต้นปีนี้
1 ความคิดเห็น
Opus ก็ขึ้นชื่อว่าดีมากอยู่แล้ว
น่าทึ่งจริง ๆ