ArtifactNet: เฟรมเวิร์กนิติวิทยาศาสตร์แบบน้ำหนักเบาสำหรับตรวจจับเพลงที่สร้างโดย AI ด้วยฟิสิกส์ของโคเด็ก
(arxiv.org)เครื่องสร้างเพลง AI เชิงพาณิชย์ทั้งหมด เช่น Suno, Udio, MusicGen และ Stable Audio ต่างมีข้อจำกัดทางกายภาพที่หลีกเลี่ยงไม่ได้ร่วมกัน
นั่นคือเสียงที่สร้างขึ้นจะต้องผ่าน Residual Vector Quantization
(RVQ) เสมอ
RVQ ทำหน้าที่แมปการแทนค่าเสียงแบบต่อเนื่องไปยังเวกเตอร์โค้ดบุ๊กแบบไม่ต่อเนื่อง ช่องว่างจากการควอนไทซ์ที่เกิดขึ้นในกระบวนการนี้ไม่สามารถย้อนกลับได้ เมื่อโมเดลแยกเสียงที่ฝึกด้วยเพลงที่สร้างโดยมนุษย์เท่านั้นประมวลผลเสียงที่สร้างโดย AI ช่องว่างนี้จะปรากฏเป็นค่าคลาดเคลื่อนจากการสร้างกลับที่มีขนาดใหญ่และมีโครงสร้างผิดปกติ นี่คือสัญญาณทางนิติวิทยาศาสตร์
ตัวตรวจจับเดิม (CLAM, SpecTTTra) ทำงานได้ดีภายใน distribution ที่ใช้ฝึก แต่จะพังเมื่อเจอกับเครื่องกำเนิดใหม่ ๆ ArtifactNet ตรวจจับไม่ใช่ว่าเพลง AI ฟังดูอย่างไร แต่เป็นเพราะเหตุใดจึงแตกต่างทางกายภาพ
ไปป์ไลน์ (รวม 4.0M พารามิเตอร์):
-
ArtifactUNet (3.6M) — bounded-mask UNet ที่ทำนาย multiplication mask บน STFT magnitude โดยจำกัดไว้ที่ [0, 0.5] ฝึกด้วยการกลั่นความรู้ 2 ขั้นตอน โดยใช้ Demucs v4 residual เป็นครู
-
ฟีเจอร์นิติวิทยาศาสตร์ HPSS 7 แชนเนล — แยก residual ออกเป็นองค์ประกอบฮาร์มอนิก/เพอร์คัสซีฟ แล้วรวมกับอนุพันธ์ตามเวลาและ spectral flux
-
CNN แบบน้ำหนักเบา (0.4M) — ประมวลผลเซกเมนต์ 4 วินาที และตัดสินผลระดับเพลงด้วยค่ามัธยฐาน
หลักฐานทางกายภาพ: การวัดแบนด์วิดท์ที่มีประสิทธิผลของ residual จากการแยกเสียง (n=94):
- เพลงที่มนุษย์สร้าง: เฉลี่ย 1,996 Hz
- ค่าเฉลี่ยของ AI (22 ตัวสร้าง): 291 Hz
- Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz
โดยไม่ขึ้นกับสถาปัตยกรรม เครื่องสร้าง AI ทั้งหมดกระจุกตัวอยู่ใกล้ 200 Hz
ผลลัพธ์บน ArtifactBench (6,183 แทร็ก, 22 ตัวสร้าง, ไม่มีข้อมูลทับซ้อนระหว่างการฝึกและทดสอบ):
| โมเดล | พารามิเตอร์ | F1 | FPR |
|---|---|---|---|
| ArtifactNet | 4M | 0.983 | 1.5% |
| CLAM | 194M | 0.758 | 69.3% |
| SpecTTTra | 19M | 0.771 | 19.4% |
CLAM มีอัตราการตรวจผิดว่าเพลงจริงเป็น AI สูงถึง 69.3% ซึ่งแทบไม่มีความหมายในทางปฏิบัติในฐานะตัวจำแนก SONICS/MoM benchmark แจกจ่ายชุด real โดยให้เพียง YouTube ID เท่านั้น แต่หลายรายการถูกลบหรือทำเป็นส่วนตัวไปแล้ว ทำให้ไม่สามารถเปรียบเทียบ F1 บนฐานข้อมูลต้นฉบับได้ ArtifactBench เปรียบเทียบทั้งสามโมเดลภายใต้เงื่อนไขเดียวกันด้วยพาร์ทิชัน real ที่เก็บรวบรวมและตรวจสอบเองโดยตรง
ข้อจำกัด: ต้องใช้อินพุต 44.1kHz; ใน MP3 บิตเรตต่ำ FPR ~8%;
เมื่อถูกโจมตีด้วยการล้างร่องรอยแบบ Demucs single-pass ค่า TPR ลดลงเหลือ 94%; สำหรับ Udio รุ่นล่าสุด TPR = 87%
เดโม (~5 วินาที): https://demo.intrect.io/
งานวิจัย: https://arxiv.org/abs/2604.16254
โมเดล + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
อยู่ระหว่างยื่นจดสิทธิบัตร (KR + PCT)
2 ความคิดเห็น
ดูเหมือนว่าจะเป็นบทความของคุณเองใช่ไหม?
69% ก็ยังแทบไม่ต่างจากเดาสุ่มแบบหัวก้อยอยู่ดี และดูเหมือนจะใกล้เคียงกับการบอกให้ AI สร้างเพลงเพิ่ม unit test มากกว่า