Google เปิดตัว SoundStream โค้ดเสียงประสาทเทียมแบบ End-to-End

xguru · 2021-08-16T09:22:01+09:00

โค้ดเสียงแบบโครงข่ายประสาทเทียมตัวแรกที่ใช้ได้ทั้งกับเสียงพูดและดนตรี → สามารถทำงานแบบเรียลไทม์บน CPU ของสมาร์ตโฟนได้ → เข้ารหัสเสียงได้หลากหลายประเภท ทั้งเสียงคุณภาพสูงและเสียงพูดที่คมชัด, เสียงพูดที่มีนอยส์และเสียงก้องมาก, ดนตรี และเสียงแวดล้อม ฝึกด้วยโครงข่ายประสาทเทียมที่ปลายทางทั้งสองด้าน จึงทำการบีบอัดและปรับปรุงคุณภาพเสียงได้พร้อมกัน เพื่อให้ได้เสียงคุณภาพสูง → SoundStream ที่ 3kbps เหนือกว่า Opus 12 kpbs และให้คุณภาพใกล้เคียง EVS 9.6bps → ใช้บิตน้อยลง 3.2x-4x จึงลดปริมาณข้อมูลรับส่งได้อย่างมาก → สามารถลดนอยส์ได้ในระดับที่ยอดเยี่ยม มีแผนจะรวมเข้ากับ Lyra โค้ดเสียงสำหรับเสียงพูดแบบ Low-Bitrate ที่เปิดตัวไปเมื่อต้นปีนี้

(ai.googleblog.com)

12 คะแนน โดย xguru 2021-08-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โค้ดเสียงแบบโครงข่ายประสาทเทียมตัวแรกที่ใช้ได้ทั้งกับเสียงพูดและดนตรี

→ สามารถทำงานแบบเรียลไทม์บน CPU ของสมาร์ตโฟนได้

→ เข้ารหัสเสียงได้หลากหลายประเภท ทั้งเสียงคุณภาพสูงและเสียงพูดที่คมชัด, เสียงพูดที่มีนอยส์และเสียงก้องมาก, ดนตรี และเสียงแวดล้อม

ฝึกด้วยโครงข่ายประสาทเทียมที่ปลายทางทั้งสองด้าน จึงทำการบีบอัดและปรับปรุงคุณภาพเสียงได้พร้อมกัน เพื่อให้ได้เสียงคุณภาพสูง

→ SoundStream ที่ 3kbps เหนือกว่า Opus 12 kpbs และให้คุณภาพใกล้เคียง EVS 9.6bps

→ ใช้บิตน้อยลง 3.2x-4x จึงลดปริมาณข้อมูลรับส่งได้อย่างมาก

→ สามารถลดนอยส์ได้ในระดับที่ยอดเยี่ยม

มีแผนจะรวมเข้ากับ Lyra โค้ดเสียงสำหรับเสียงพูดแบบ Low-Bitrate ที่เปิดตัวไปเมื่อต้นปีนี้

1 ความคิดเห็น

alstjr7375 2021-08-17

Opus ก็ขึ้นชื่อว่าดีมากอยู่แล้ว

น่าทึ่งจริง ๆ

Google เปิดตัว SoundStream โค้ดเสียงประสาทเทียมแบบ End-to-End

บทความที่เกี่ยวข้อง

1 ความคิดเห็น