- งานวิจัยที่ Google Research เผยแพร่
- สร้างเพลงที่สอดคล้องกับคำบรรยายข้อความได้อย่างมาก เช่น "เมโลดีไวโอลินที่สงบนิ่งโดยมีริฟฟ์กีตาร์ที่ใส่ distortion คลออยู่"
- สร้างเพลงความยาวหลายนาทีที่ 24kHz โดยวางปัญหาให้อยู่ในรูปของงาน hierarchical sequence-to-sequence modeling
- เหนือกว่าระบบเดิมอย่างมากทั้งด้านคุณภาพเสียงและการทำตามคำอธิบายข้อความ
- นอกจากนี้ยังสามารถดัดแปลงสไตล์ของเมโลดีจากการผิวปากหรือการฮัมได้
- สามารถสร้างเสียงแบบโหมดเรื่องราวได้โดยป้อนพรอมป์ต์หลายรายการตามลำดับ
- เปิดเผยชุดข้อมูล MusicCaps ที่ประกอบด้วยคู่ข้อมูลเพลง-ข้อความ 5.5k คู่
ยังไม่มีความคิดเห็น