- Anna’s Archive ได้สำรองข้อมูลเมตาดาต้าและไฟล์เพลงทั้งหมดของ Spotify และเผยแพร่เป็นคลังทอร์เรนต์ขนาดราว 300TB
- ครอบคลุมเมตาดาต้าเพลงราว 256 ล้านเพลงและไฟล์เพลง 86 ล้านไฟล์ คิดเป็น99.6% ของการรับฟังทั้งหมด
- จัดเก็บเพลงยอดนิยมด้วยคุณภาพต้นฉบับ OGG Vorbis 160kbit/s และเพลงที่ไม่เป็นที่นิยมด้วย OGG Opus 75kbit/s เพื่อให้การเก็บรักษามีประสิทธิภาพ
- ข้อมูลถูกจัดให้ในรูปแบบฐานข้อมูล SQLite และรวมถึงโครงสร้างรายละเอียดอย่างเพลย์ลิสต์, audio features, อัลบั้มอาร์ต
- เป็นคลังเก็บรักษาเพลงแบบเปิดเต็มรูปแบบแห่งแรกของโลก เพื่ออนุรักษ์มรดกทางดนตรีของมนุษยชาติอย่างถาวรจากภัยธรรมชาติ สงคราม การตัดงบประมาณ ฯลฯ
ภาพรวมโครงการ
- Anna’s Archive ได้สแครปเมตาดาต้าและไฟล์เพลงทั้งหมดของ Spotify ในวงกว้างเพื่อทำแบ็กอัป
- ขนาดรวมประมาณ 300TB แจกจ่ายในรูปแบบทอร์เรนต์ที่จัดกลุ่มตามความนิยม
- มี 256 ล้านแทร็ก และรหัส ISRC ที่ไม่ซ้ำกัน 186 ล้านรายการ
- คลังนี้เป็นที่เก็บรักษาเพลงแบบเปิดเต็มรูปแบบที่ใครก็ทำมิเรอร์ได้ และมีไฟล์เพลง 86 ล้านไฟล์
- ซึ่งคิดเป็นประมาณ 99.6% ของการรับฟังทั้งหมดบน Spotify
- ก่อนหน้านี้ Anna’s Archive มุ่งเน้นการเก็บรักษาเนื้อหาแบบข้อความเป็นหลัก (หนังสือ, งานวิจัย ฯลฯ) แต่ครั้งนี้ได้ขยายไปสู่สื่อที่ไม่ใช่ข้อความอย่างดนตรี
- หลังค้นพบวิธีสแครปโครงสร้างของ Spotify จึงผลักดันการสร้างคลังที่มุ่งเน้นการอนุรักษ์เพลง
ข้อจำกัดของการเก็บรักษาดนตรีแบบเดิม
- ความพยายามเก็บรักษาดนตรีที่ผ่านมา มีปัญหาหลัก 3 ประการ
- เอนเอียงไปทางศิลปินยอดนิยม ทำให้เพลงนอกกระแสถูกละเลย
- ยึดติดกับคุณภาพเสียงแบบ lossless จนใช้พื้นที่จัดเก็บอย่างไม่มีประสิทธิภาพ
- ไม่มีรายการทอร์เรนต์ที่เป็นตัวแทนของเพลงทั้งหมด
- แบ็กอัป Spotify ครั้งนี้จึงเข้ามาแก้ข้อจำกัดเหล่านี้และสร้างคลังดนตรีที่เน้นการเก็บรักษา
องค์ประกอบข้อมูลและสถิติ
- เก็บเมตาดาต้าได้ 99.9% จากประมาณ 256 ล้านแทร็กของ Spotify
- จัดลำดับความสำคัญตามตัวชี้วัดความนิยม (popularity)
- แทร็ก
popularity>0 ถูกเก็บด้วยคุณภาพต้นฉบับ OGG Vorbis 160kbit/s
- แทร็ก
popularity=0 ถูกเข้ารหัสใหม่เป็น OGG Opus 75kbit/s
- รวมเพลงส่วนใหญ่ที่ออกก่อนเดือนกรกฎาคม 2025
- 3 เพลงอันดับสูงสุด (Lady Gaga, Billie Eilish, Bad Bunny) มียอดสตรีมรวมมากกว่าผลรวมของเพลงล่างสุด 20 ล้านถึง 100 ล้านเพลง
- มากกว่า 70% ของเพลงทั้งหมด เป็นเพลงไม่ดังที่มียอดฟังน้อยกว่า 1,000 ครั้ง
โครงสร้างการแจกจ่ายผ่านทอร์เรนต์
- ข้อมูลประกอบด้วย 2 ส่วนคือเมตาดาต้าและไฟล์เพลง
- เมตาดาต้า: ให้ในรูปแบบ SQLite DB ขนาดประมาณ 200GB (บีบอัดแล้ว)
- ข้อมูลวิเคราะห์เสียง: 4TB (บีบอัดแล้ว)
- ไฟล์เพลงถูกแจกจ่ายในฟอร์แมต Anna’s Archive Containers (AAC)
- หลังลบแพ็กเก็ต OGG ที่ผิดพลาดของ Spotify แล้ว ได้แทรกเมตาดาต้าอย่างชื่อเพลง, ISRC, อัลบั้มอาร์ต, ข้อมูล replaygain
- บางไฟล์มีข้อผิดพลาดของแท็ก
REPLAYGAIN_ALBUM_PEAK
การสำรวจและวิเคราะห์ข้อมูล
- การกระจายความนิยม: การรับฟังส่วนใหญ่อยู่ในช่วงเพลง
popularity 50~80
- ความยาวแทร็ก: มีจุดพีกที่ช่วง 2 นาที, 3 นาที, 4 นาที
- มีสถิติของคอนเทนต์แบบ Explicit และเพลงที่มี ISRC ซ้ำกัน
- การกระจายแนวเพลงของศิลปิน: มีทั้งการแสดงผลตามแนวเพลงย่อยและแนวเพลงที่จัดกลุ่มแล้ว
- การวิเคราะห์ปีที่อัลบั้มออก: เพลงที่สร้างอัตโนมัติและเพลงที่สร้างโดย AI เพิ่มขึ้นอย่างรวดเร็วในช่วงหลัง
- การวิเคราะห์ audio features: BPM เฉลี่ยราว 120 และพบความสัมพันธ์ระหว่าง loudness กับ energy
โครงสร้างรายละเอียดของเมตาดาต้า
- องค์ประกอบหลักของไฟล์ SQLite
spotify_clean.sqlite3: สำเนา API ของศิลปิน, อัลบั้ม, แทร็กที่เกือบสมบูรณ์
spotify_clean_audio_features.sqlite3: เก็บaudio features ของแต่ละแทร็ก เช่น BPM, key, energy, valence
spotify_clean_playlists.sqlite3: มีเพลย์ลิสต์ 6.6 ล้านรายการ และรายการแทร็ก 1.7 พันล้านรายการ
spotify_clean_track_files.sqlite3: แมปแทร็กกับไฟล์จริง รวมถึงสถานะไฟล์, แฮช SHA256, ข้อมูลผู้ให้สิทธิ์
- มีไฟล์ JSONL เพิ่มเติมที่รวมข้อมูลหนังสือเสียง, พอดแคสต์, รายการ, ตอนต่าง ๆ
- ใน
spotify_2025_07_coverart.tar.torrent จะเก็บไฟล์ภาพอัลบั้มอาร์ต
การมีส่วนร่วมและคำขอด้านการเก็บรักษา
- Anna’s Archive ขอการสนับสนุนผ่านการบริจาคและการร่วม seed ทอร์เรนต์
- แม้ seed เพียงเล็กน้อยก็ช่วยการเก็บรักษาโดยรวมได้
- เป้าหมายคือการอนุรักษ์มรดกทางดนตรีของมนุษยชาติอย่างถาวรจากภัยธรรมชาติ สงคราม การตัดงบประมาณ ฯลฯ
ฟีเจอร์เพิ่มเติมและการทดลอง
- สามารถทำฟังก์ชัน ‘True Shuffle’ กับแทร็กทั้งหมดของ Spotify ได้
- สร้างเพลย์ลิสต์สุ่มอย่างแท้จริงผ่าน SQLite query
- หากมีความสนใจมากพอ ในอนาคตอาจเพิ่มฟังก์ชันดาวน์โหลดไฟล์รายไฟล์
สรุป
- Anna’s Archive ได้แบ็กอัปข้อมูลของ Spotify เกือบทั้งหมดและสร้างฐานข้อมูลเมตาดาต้าเพลงแบบเปิดที่ใหญ่ที่สุดในโลก
- เป็นคลังเก็บรักษาแบบเปิดเต็มรูปแบบที่ใครก็สามารถทำมิเรอร์ได้
- เป็นโครงการที่มีทั้งความโปร่งใสของโครงสร้างข้อมูล ความแม่นยำทางเทคนิค และความสามารถในการเก็บรักษาระยะยาว
- ก้าวข้ามการพึ่งพาแพลตฟอร์มเชิงพาณิชย์ของอุตสาหกรรมดนตรี และวางรากฐานสำหรับการเก็บรักษาบันทึกทางวัฒนธรรมอย่างถาวร
7 ความคิดเห็น
Spotify คงเดือดน่าดูสินะ
Spotify가 Anna’s Archive 상대 소송에서 승소하여 .org 도메인 폐쇄
เห็นข่าวล่าสุดบอกว่าโดนฟ้องแล้วนะ
อยู่ตรงไหนสักแห่งระหว่างวีรบุรุษนอกกฎหมายกับไร้กฎหมาย...
ลิขสิทธิ์ล่ะ...
ตอนนี้โมเดลสร้างเพลงที่ก่อนหน้านี้จำกัดอยู่แค่เชิงพาณิชย์แบบ Suno ก็น่าจะสามารถนำมาเทรนได้ในรูปแบบ open-weight open-source ด้วยเหมือนกันนะ
สุดยอดมากๆ เลย
ความคิดเห็นจาก Hacker News
น่าทึ่งจริงๆ
ไม่รู้มาก่อนเลยว่า DRM ของ Spotify ถูกเจาะได้ จนดาวน์โหลดกันได้ในระดับมหาศาลแบบนี้
สำหรับผู้ใช้ทั่วไปอาจดูไม่ค่อยมีประโยชน์มากนัก แต่สำหรับนักวิจัยด้าน การจัดหมวดหมู่เพลงหรือการสร้างเพลง นี่อาจเป็นโอกาสครั้งใหญ่
แต่ก็น่าจะเปิดเผยได้ยากว่าเทรนด้วยชุดข้อมูลไหน
สงสัยว่านี่ทำตามคำขอของนักวิจัย AI หรือเป็นเพียงแค่เพื่อ การอนุรักษ์ข้อมูล
ตอนนี้มี อุปกรณ์หรือแอป ที่คอยหาแหล่งสตรีมทีวี·ภาพยนตร์ผิดกฎหมายแบบอัตโนมัติจนเป็นเรื่องแพร่หลายแล้ว
ในทางเทคนิคมันทำได้อยู่แล้ว และคนในครอบครัวที่ไม่ใช่สายเทคนิคก็ยังใช้อยู่
เพียงแต่ทีม Anna’s Archive เป็นกลุ่มที่ขับเคลื่อนด้วย อุดมการณ์ เลยไม่ได้ทำเพื่อบริษัท AI
ถ้าต้องการเพลงก็เคยใช้ ytldp โหลดจาก YouTube แต่เดี๋ยวนี้แทบไม่ทำแล้ว
ใช้ YouTube กับข่าวหรือเปิดคลอมากกว่าฟังเพลง
รู้สึกเศร้านิดหน่อยที่ Google เป็นคนควบคุมสิ่งนี้
สิ่งที่ควรทำจริงๆ คือกำกับดูแลบริษัทอย่าง Spotify เพื่อให้ นักดนตรีได้รับค่าตอบแทนอย่างเป็นธรรม
การเปิดข้อมูลแบบนี้กลับยิ่งกระตุ้นให้เกิด ขยะ AI มากขึ้น
พอมองที่ขนาดแล้วมันมหาศาลจริงๆ
เมื่อก่อน What.CD เคยถูกเรียกว่า “หอสมุดอเล็กซานเดรียแห่งวงการดนตรี” แต่ตอนนั้นก็ยังอยู่ในระดับทอร์เรนต์หลายล้านรายการ
แต่ Spotify rip ของ Anna มี เรคคอร์ดไม่ซ้ำกัน 186 ล้านรายการ
แน่นอนว่าช่วงท้ายๆ อาจมีเพลงบอตปนอยู่บ้าง แต่ขนาดโดยรวมมันเหนือกว่ามาก
ตั้งแต่ EP ยุคแรกของวงเล็กๆ ตามต่างจังหวัด ไปจนถึง อัลบั้มหายาก ที่ขึ้นสตรีมไม่ได้เพราะสิทธิไม่ชัดเจน
ความสนุกในการค้นพบ ที่เกิดจากคำแนะนำ รีวิว และเพลย์ลิสต์ที่ชุมชนช่วยกันทำด้วยมือ เป็นสิ่งที่อัลกอริทึมแทนไม่ได้
ด้วยเหตุนี้ฉันเลยได้รู้จักศิลปินที่ยังชอบมาจนถึงทุกวันนี้หลายคน
เป็นชุมชนที่รักดนตรีกันจริงๆ และ Trent Reznor ก็เคยชมออกสื่อด้วย
ทุกวันนี้น่าเสียดายที่ชุมชนดนตรีบริสุทธิ์แบบนั้นแทบหายไปแล้ว
Spotify มีข้อจำกัดเพราะรวมได้เฉพาะเพลงที่มีไลเซนส์สำหรับสตรีมเท่านั้น
ถ้าจะเป็นคลังเพลงที่สมบูรณ์แบบจริงๆ ก็ยังอีกไกล
ฉันคิดว่าโปรเจกต์แบบนี้จำเป็นมาก
ที่อย่าง Anna’s Archive สำคัญพอๆ กับ Internet Archive
ประเด็นหลักคือการ อนุรักษ์มรดกดิจิทัล อย่างเว็บไซต์ เกม หนังสือ ฯลฯ
เมื่อคนเปลี่ยนรุ่นกันไป ก็มีคนมากมายที่ไม่เคยได้สัมผัสความสร้างสรรค์ของเว็บยุคก่อน
ฉันคิดว่าคนยุคนี้คือรุ่นที่ยังมี โอกาส จะเก็บรักษาสิ่งเหล่านี้ไว้ได้
ทุกวันนี้เป็นยุคที่เพลงกับภาพยนตร์ค่อยๆ หายไปจากแพลตฟอร์มทีละอย่าง การอนุรักษ์แบบนี้จึงสำคัญมาก
ฉันเองก็มี เพลย์ลิสต์ที่กลายเป็นสีเทา อยู่ตั้งสามรายการ — แม้แต่ชื่อก็หายไปแล้วจนไม่รู้ว่าเคยฟังอะไร
เพราะงั้นเพลงที่อยากเก็บไว้ถาวรก็ซื้อเป็น CD ส่วน เพลงแดนซ์ ก็ปล่อยผ่านไป
งานแบบนี้เป็น สิ่งสำคัญ จริงๆ
แค่อ่านบทความเมื่อ 10 ปีก่อน ลิงก์ภายนอกส่วนใหญ่ก็กลายเป็น 404 หายไปหมดแล้ว
แม้จะมีคำถามว่าควรเก็บทุกอย่างไว้หรือไม่ แต่ถ้าทำได้ก็ ควรเก็บ
น่าทึ่ง
แค่ข้อเท็จจริงที่ว่ามีการ สแครป Spotify ในระดับมหาศาล ก็ชวนสนใจแล้ว
คงไม่เปิดเผยวิธีละเอียด แต่ถ้าได้อ่านก็น่าจะสนุก
แค่อย่าใช้เกินเลย และทำในระดับ โปรเจกต์งานอดิเรก จะดีกว่า
เซิร์ฟเวอร์เพลงของฉันก็เล่นแทร็ก Spotify ด้วยวิธีนี้
ลิงก์โค้ด
ส่วนตัวแล้วฉันไม่ค่อยชอบเรื่องนี้
มีแหล่งที่คุณภาพเสียงดีกว่านี้อยู่แล้ว และการริปขนาดใหญ่แบบนี้มีแต่จะเพิ่ม ความเสี่ยงทางกฎหมาย
โดยเฉพาะกลัวว่าจะทำให้แม้แต่ ห้องสมุด e-book พลอยเสี่ยงไปด้วย
ในประกาศเองก็ยังบอกว่า “เพลงถูกอนุรักษ์ไว้อยู่แล้วเพียงพอ” ดังนั้นควรแยกเป็นอีกโปรเจกต์ต่างหาก
ผู้ให้บริการอินเทอร์เน็ตในเยอรมนี (SIM.de/Drillisch) กำลัง บล็อก Anna’s Archive
ตอนปิด VPN จะเข้าไม่ได้ และต้องเปิด Mullvad VPN ถึงจะใช้งานได้
ไม่เคยรู้มาก่อนว่าในเยอรมนีก็มีการเซ็นเซอร์แบบนี้
ค้นหา
alextud popcorntimeแล้วไม่เจอผลลัพธ์ PopcornTimeTV GitHubทั้ง Google, Kagi, DuckDuckGo, Bing เป็นเหมือนกันหมด
มีแต่ฟอร์กขึ้นมา แต่ต้นฉบับไม่ขึ้น เลยสงสัยว่ามี การกรองผลค้นหา
เมื่อก่อนมี เพลงที่ถูกลบ จากหลายแพลตฟอร์มพร้อมกันอยู่หลายเพลง
เลยสงสัยว่าจะหาเจออีกครั้งจากอาร์ไคฟ์แบบนี้ไหม
ทุกวันนี้มี สื่อสูญหายในยุคปัจจุบัน เกิดขึ้นทุกวัน
ผู้เผยแพร่บางรายพยายามทำลายสำเนาทุกชุดอย่างจงใจ ซึ่งฉันคิดว่าเป็น พฤติกรรมที่น่าสยดสยองทางจิตใจ
การทำลายงานสร้างสรรค์ให้หมดสิ้นไปโดยสมบูรณ์ ไม่ว่าด้วยเหตุผลใดก็ไม่มีทางสมเหตุสมผล
ถ้าเหลืออยู่แค่บนเทปในตู้นิรภัยเหล็ก ก็แทบไม่ต่างจากการไม่มีอยู่จริง
ในทางเทคนิค การทำ สตรีมมิงเซิร์ฟเวอร์ ที่ใช้ทอร์เรนต์เป็นแบ็กเอนด์ก็เป็นไปได้
คือค่อยดาวน์โหลดเฉพาะส่วนที่ต้องใช้เมื่อมีคำขอเข้ามา
ลิงก์บทความวิจัยที่เกี่ยวข้อง
ตอนนี้ Spotify ยังถูกอยู่เลยยังไม่ค่อยใส่ใจ แต่ ปัญหาค่าตอบแทนศิลปิน ก็ยังคงมีอยู่
หวังว่าสักวันจะตั้ง เซิร์ฟเวอร์เพลง self-hosted ที่ใช้ทอร์เรนต์ ได้ง่ายๆ