7 คะแนน โดย unohee 10 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

เครื่องสร้างเพลง AI เชิงพาณิชย์ทั้งหมด เช่น Suno, Udio, MusicGen และ Stable Audio ต่างมีข้อจำกัดทางกายภาพที่หลีกเลี่ยงไม่ได้ร่วมกัน
นั่นคือเสียงที่สร้างขึ้นจะต้องผ่าน Residual Vector Quantization
(RVQ) เสมอ

RVQ ทำหน้าที่แมปการแทนค่าเสียงแบบต่อเนื่องไปยังเวกเตอร์โค้ดบุ๊กแบบไม่ต่อเนื่อง ช่องว่างจากการควอนไทซ์ที่เกิดขึ้นในกระบวนการนี้ไม่สามารถย้อนกลับได้ เมื่อโมเดลแยกเสียงที่ฝึกด้วยเพลงที่สร้างโดยมนุษย์เท่านั้นประมวลผลเสียงที่สร้างโดย AI ช่องว่างนี้จะปรากฏเป็นค่าคลาดเคลื่อนจากการสร้างกลับที่มีขนาดใหญ่และมีโครงสร้างผิดปกติ นี่คือสัญญาณทางนิติวิทยาศาสตร์

ตัวตรวจจับเดิม (CLAM, SpecTTTra) ทำงานได้ดีภายใน distribution ที่ใช้ฝึก แต่จะพังเมื่อเจอกับเครื่องกำเนิดใหม่ ๆ ArtifactNet ตรวจจับไม่ใช่ว่าเพลง AI ฟังดูอย่างไร แต่เป็นเพราะเหตุใดจึงแตกต่างทางกายภาพ


ไปป์ไลน์ (รวม 4.0M พารามิเตอร์):

  1. ArtifactUNet (3.6M) — bounded-mask UNet ที่ทำนาย multiplication mask บน STFT magnitude โดยจำกัดไว้ที่ [0, 0.5] ฝึกด้วยการกลั่นความรู้ 2 ขั้นตอน โดยใช้ Demucs v4 residual เป็นครู

  2. ฟีเจอร์นิติวิทยาศาสตร์ HPSS 7 แชนเนล — แยก residual ออกเป็นองค์ประกอบฮาร์มอนิก/เพอร์คัสซีฟ แล้วรวมกับอนุพันธ์ตามเวลาและ spectral flux

  3. CNN แบบน้ำหนักเบา (0.4M) — ประมวลผลเซกเมนต์ 4 วินาที และตัดสินผลระดับเพลงด้วยค่ามัธยฐาน


หลักฐานทางกายภาพ: การวัดแบนด์วิดท์ที่มีประสิทธิผลของ residual จากการแยกเสียง (n=94):

  • เพลงที่มนุษย์สร้าง: เฉลี่ย 1,996 Hz
  • ค่าเฉลี่ยของ AI (22 ตัวสร้าง): 291 Hz
  • Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz

โดยไม่ขึ้นกับสถาปัตยกรรม เครื่องสร้าง AI ทั้งหมดกระจุกตัวอยู่ใกล้ 200 Hz


ผลลัพธ์บน ArtifactBench (6,183 แทร็ก, 22 ตัวสร้าง, ไม่มีข้อมูลทับซ้อนระหว่างการฝึกและทดสอบ):

โมเดล พารามิเตอร์ F1 FPR
ArtifactNet 4M 0.983 1.5%
CLAM 194M 0.758 69.3%
SpecTTTra 19M 0.771 19.4%

CLAM มีอัตราการตรวจผิดว่าเพลงจริงเป็น AI สูงถึง 69.3% ซึ่งแทบไม่มีความหมายในทางปฏิบัติในฐานะตัวจำแนก SONICS/MoM benchmark แจกจ่ายชุด real โดยให้เพียง YouTube ID เท่านั้น แต่หลายรายการถูกลบหรือทำเป็นส่วนตัวไปแล้ว ทำให้ไม่สามารถเปรียบเทียบ F1 บนฐานข้อมูลต้นฉบับได้ ArtifactBench เปรียบเทียบทั้งสามโมเดลภายใต้เงื่อนไขเดียวกันด้วยพาร์ทิชัน real ที่เก็บรวบรวมและตรวจสอบเองโดยตรง


ข้อจำกัด: ต้องใช้อินพุต 44.1kHz; ใน MP3 บิตเรตต่ำ FPR ~8%;
เมื่อถูกโจมตีด้วยการล้างร่องรอยแบบ Demucs single-pass ค่า TPR ลดลงเหลือ 94%; สำหรับ Udio รุ่นล่าสุด TPR = 87%


เดโม (~5 วินาที): https://demo.intrect.io/
งานวิจัย: https://arxiv.org/abs/2604.16254
โมเดล + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
อยู่ระหว่างยื่นจดสิทธิบัตร (KR + PCT)

2 ความคิดเห็น

 
unsure4000 10 일 전

ดูเหมือนว่าจะเป็นบทความของคุณเองใช่ไหม?

 
chisquare88 9 일 전

69% ก็ยังแทบไม่ต่างจากเดาสุ่มแบบหัวก้อยอยู่ดี และดูเหมือนจะใกล้เคียงกับการบอกให้ AI สร้างเพลงเพิ่ม unit test มากกว่า