ArtifactNet: เฟรมเวิร์กนิติวิทยาศาสตร์แบบน้ำหนักเบาสำหรับตรวจจับเพลงที่สร้างโดย AI ด้วยฟิสิกส์ของโคเด็ก

(arxiv.org)

7 คะแนน โดย unohee 10 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

เครื่องสร้างเพลง AI เชิงพาณิชย์ทั้งหมด เช่น Suno, Udio, MusicGen และ Stable Audio ต่างมีข้อจำกัดทางกายภาพที่หลีกเลี่ยงไม่ได้ร่วมกัน
นั่นคือเสียงที่สร้างขึ้นจะต้องผ่าน Residual Vector Quantization
(RVQ) เสมอ

RVQ ทำหน้าที่แมปการแทนค่าเสียงแบบต่อเนื่องไปยังเวกเตอร์โค้ดบุ๊กแบบไม่ต่อเนื่อง ช่องว่างจากการควอนไทซ์ที่เกิดขึ้นในกระบวนการนี้ไม่สามารถย้อนกลับได้ เมื่อโมเดลแยกเสียงที่ฝึกด้วยเพลงที่สร้างโดยมนุษย์เท่านั้นประมวลผลเสียงที่สร้างโดย AI ช่องว่างนี้จะปรากฏเป็นค่าคลาดเคลื่อนจากการสร้างกลับที่มีขนาดใหญ่และมีโครงสร้างผิดปกติ นี่คือสัญญาณทางนิติวิทยาศาสตร์

ตัวตรวจจับเดิม (CLAM, SpecTTTra) ทำงานได้ดีภายใน distribution ที่ใช้ฝึก แต่จะพังเมื่อเจอกับเครื่องกำเนิดใหม่ ๆ ArtifactNet ตรวจจับไม่ใช่ว่าเพลง AI ฟังดูอย่างไร แต่เป็นเพราะเหตุใดจึงแตกต่างทางกายภาพ

ไปป์ไลน์ (รวม 4.0M พารามิเตอร์):

ArtifactUNet (3.6M) — bounded-mask UNet ที่ทำนาย multiplication mask บน STFT magnitude โดยจำกัดไว้ที่ [0, 0.5] ฝึกด้วยการกลั่นความรู้ 2 ขั้นตอน โดยใช้ Demucs v4 residual เป็นครู
ฟีเจอร์นิติวิทยาศาสตร์ HPSS 7 แชนเนล — แยก residual ออกเป็นองค์ประกอบฮาร์มอนิก/เพอร์คัสซีฟ แล้วรวมกับอนุพันธ์ตามเวลาและ spectral flux
CNN แบบน้ำหนักเบา (0.4M) — ประมวลผลเซกเมนต์ 4 วินาที และตัดสินผลระดับเพลงด้วยค่ามัธยฐาน

หลักฐานทางกายภาพ: การวัดแบนด์วิดท์ที่มีประสิทธิผลของ residual จากการแยกเสียง (n=94):

เพลงที่มนุษย์สร้าง: เฉลี่ย 1,996 Hz
ค่าเฉลี่ยของ AI (22 ตัวสร้าง): 291 Hz
Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz

โดยไม่ขึ้นกับสถาปัตยกรรม เครื่องสร้าง AI ทั้งหมดกระจุกตัวอยู่ใกล้ 200 Hz

ผลลัพธ์บน ArtifactBench (6,183 แทร็ก, 22 ตัวสร้าง, ไม่มีข้อมูลทับซ้อนระหว่างการฝึกและทดสอบ):

โมเดล	พารามิเตอร์	F1	FPR
ArtifactNet	4M	0.983	1.5%
CLAM	194M	0.758	69.3%
SpecTTTra	19M	0.771	19.4%

CLAM มีอัตราการตรวจผิดว่าเพลงจริงเป็น AI สูงถึง 69.3% ซึ่งแทบไม่มีความหมายในทางปฏิบัติในฐานะตัวจำแนก SONICS/MoM benchmark แจกจ่ายชุด real โดยให้เพียง YouTube ID เท่านั้น แต่หลายรายการถูกลบหรือทำเป็นส่วนตัวไปแล้ว ทำให้ไม่สามารถเปรียบเทียบ F1 บนฐานข้อมูลต้นฉบับได้ ArtifactBench เปรียบเทียบทั้งสามโมเดลภายใต้เงื่อนไขเดียวกันด้วยพาร์ทิชัน real ที่เก็บรวบรวมและตรวจสอบเองโดยตรง

ข้อจำกัด: ต้องใช้อินพุต 44.1kHz; ใน MP3 บิตเรตต่ำ FPR ~8%;
เมื่อถูกโจมตีด้วยการล้างร่องรอยแบบ Demucs single-pass ค่า TPR ลดลงเหลือ 94%; สำหรับ Udio รุ่นล่าสุด TPR = 87%

เดโม (~5 วินาที): https://demo.intrect.io/
งานวิจัย: https://arxiv.org/abs/2604.16254
โมเดล + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
อยู่ระหว่างยื่นจดสิทธิบัตร (KR + PCT)

2 ความคิดเห็น

unsure4000 10 일 전

ดูเหมือนว่าจะเป็นบทความของคุณเองใช่ไหม?

chisquare88 9 일 전

69% ก็ยังแทบไม่ต่างจากเดาสุ่มแบบหัวก้อยอยู่ดี และดูเหมือนจะใกล้เคียงกับการบอกให้ AI สร้างเพลงเพิ่ม unit test มากกว่า

ArtifactNet: เฟรมเวิร์กนิติวิทยาศาสตร์แบบน้ำหนักเบาสำหรับตรวจจับเพลงที่สร้างโดย AI ด้วยฟิสิกส์ของโคเด็ก

บทความที่เกี่ยวข้อง

2 ความคิดเห็น