29 คะแนน โดย GN⁺ 2025-12-21 | 7 ความคิดเห็น | แชร์ทาง WhatsApp
  • Anna’s Archive ได้สำรองข้อมูลเมตาดาต้าและไฟล์เพลงทั้งหมดของ Spotify และเผยแพร่เป็นคลังทอร์เรนต์ขนาดราว 300TB
  • ครอบคลุมเมตาดาต้าเพลงราว 256 ล้านเพลงและไฟล์เพลง 86 ล้านไฟล์ คิดเป็น99.6% ของการรับฟังทั้งหมด
  • จัดเก็บเพลงยอดนิยมด้วยคุณภาพต้นฉบับ OGG Vorbis 160kbit/s และเพลงที่ไม่เป็นที่นิยมด้วย OGG Opus 75kbit/s เพื่อให้การเก็บรักษามีประสิทธิภาพ
  • ข้อมูลถูกจัดให้ในรูปแบบฐานข้อมูล SQLite และรวมถึงโครงสร้างรายละเอียดอย่างเพลย์ลิสต์, audio features, อัลบั้มอาร์ต
  • เป็นคลังเก็บรักษาเพลงแบบเปิดเต็มรูปแบบแห่งแรกของโลก เพื่ออนุรักษ์มรดกทางดนตรีของมนุษยชาติอย่างถาวรจากภัยธรรมชาติ สงคราม การตัดงบประมาณ ฯลฯ

ภาพรวมโครงการ

  • Anna’s Archive ได้สแครปเมตาดาต้าและไฟล์เพลงทั้งหมดของ Spotify ในวงกว้างเพื่อทำแบ็กอัป
    • ขนาดรวมประมาณ 300TB แจกจ่ายในรูปแบบทอร์เรนต์ที่จัดกลุ่มตามความนิยม
    • มี 256 ล้านแทร็ก และรหัส ISRC ที่ไม่ซ้ำกัน 186 ล้านรายการ
  • คลังนี้เป็นที่เก็บรักษาเพลงแบบเปิดเต็มรูปแบบที่ใครก็ทำมิเรอร์ได้ และมีไฟล์เพลง 86 ล้านไฟล์
    • ซึ่งคิดเป็นประมาณ 99.6% ของการรับฟังทั้งหมดบน Spotify
  • ก่อนหน้านี้ Anna’s Archive มุ่งเน้นการเก็บรักษาเนื้อหาแบบข้อความเป็นหลัก (หนังสือ, งานวิจัย ฯลฯ) แต่ครั้งนี้ได้ขยายไปสู่สื่อที่ไม่ใช่ข้อความอย่างดนตรี
  • หลังค้นพบวิธีสแครปโครงสร้างของ Spotify จึงผลักดันการสร้างคลังที่มุ่งเน้นการอนุรักษ์เพลง

ข้อจำกัดของการเก็บรักษาดนตรีแบบเดิม

  • ความพยายามเก็บรักษาดนตรีที่ผ่านมา มีปัญหาหลัก 3 ประการ
    1. เอนเอียงไปทางศิลปินยอดนิยม ทำให้เพลงนอกกระแสถูกละเลย
    2. ยึดติดกับคุณภาพเสียงแบบ lossless จนใช้พื้นที่จัดเก็บอย่างไม่มีประสิทธิภาพ
    3. ไม่มีรายการทอร์เรนต์ที่เป็นตัวแทนของเพลงทั้งหมด
  • แบ็กอัป Spotify ครั้งนี้จึงเข้ามาแก้ข้อจำกัดเหล่านี้และสร้างคลังดนตรีที่เน้นการเก็บรักษา

องค์ประกอบข้อมูลและสถิติ

  • เก็บเมตาดาต้าได้ 99.9% จากประมาณ 256 ล้านแทร็กของ Spotify
  • จัดลำดับความสำคัญตามตัวชี้วัดความนิยม (popularity)
    • แทร็ก popularity>0 ถูกเก็บด้วยคุณภาพต้นฉบับ OGG Vorbis 160kbit/s
    • แทร็ก popularity=0 ถูกเข้ารหัสใหม่เป็น OGG Opus 75kbit/s
  • รวมเพลงส่วนใหญ่ที่ออกก่อนเดือนกรกฎาคม 2025
  • 3 เพลงอันดับสูงสุด (Lady Gaga, Billie Eilish, Bad Bunny) มียอดสตรีมรวมมากกว่าผลรวมของเพลงล่างสุด 20 ล้านถึง 100 ล้านเพลง
  • มากกว่า 70% ของเพลงทั้งหมด เป็นเพลงไม่ดังที่มียอดฟังน้อยกว่า 1,000 ครั้ง

โครงสร้างการแจกจ่ายผ่านทอร์เรนต์

  • ข้อมูลประกอบด้วย 2 ส่วนคือเมตาดาต้าและไฟล์เพลง
    • เมตาดาต้า: ให้ในรูปแบบ SQLite DB ขนาดประมาณ 200GB (บีบอัดแล้ว)
    • ข้อมูลวิเคราะห์เสียง: 4TB (บีบอัดแล้ว)
  • ไฟล์เพลงถูกแจกจ่ายในฟอร์แมต Anna’s Archive Containers (AAC)
    • หลังลบแพ็กเก็ต OGG ที่ผิดพลาดของ Spotify แล้ว ได้แทรกเมตาดาต้าอย่างชื่อเพลง, ISRC, อัลบั้มอาร์ต, ข้อมูล replaygain
    • บางไฟล์มีข้อผิดพลาดของแท็ก REPLAYGAIN_ALBUM_PEAK

การสำรวจและวิเคราะห์ข้อมูล

  • การกระจายความนิยม: การรับฟังส่วนใหญ่อยู่ในช่วงเพลง popularity 50~80
  • ความยาวแทร็ก: มีจุดพีกที่ช่วง 2 นาที, 3 นาที, 4 นาที
  • มีสถิติของคอนเทนต์แบบ Explicit และเพลงที่มี ISRC ซ้ำกัน
  • การกระจายแนวเพลงของศิลปิน: มีทั้งการแสดงผลตามแนวเพลงย่อยและแนวเพลงที่จัดกลุ่มแล้ว
  • การวิเคราะห์ปีที่อัลบั้มออก: เพลงที่สร้างอัตโนมัติและเพลงที่สร้างโดย AI เพิ่มขึ้นอย่างรวดเร็วในช่วงหลัง
  • การวิเคราะห์ audio features: BPM เฉลี่ยราว 120 และพบความสัมพันธ์ระหว่าง loudness กับ energy

โครงสร้างรายละเอียดของเมตาดาต้า

  • องค์ประกอบหลักของไฟล์ SQLite
    • spotify_clean.sqlite3: สำเนา API ของศิลปิน, อัลบั้ม, แทร็กที่เกือบสมบูรณ์
    • spotify_clean_audio_features.sqlite3: เก็บaudio features ของแต่ละแทร็ก เช่น BPM, key, energy, valence
    • spotify_clean_playlists.sqlite3: มีเพลย์ลิสต์ 6.6 ล้านรายการ และรายการแทร็ก 1.7 พันล้านรายการ
    • spotify_clean_track_files.sqlite3: แมปแทร็กกับไฟล์จริง รวมถึงสถานะไฟล์, แฮช SHA256, ข้อมูลผู้ให้สิทธิ์
  • มีไฟล์ JSONL เพิ่มเติมที่รวมข้อมูลหนังสือเสียง, พอดแคสต์, รายการ, ตอนต่าง ๆ
  • ใน spotify_2025_07_coverart.tar.torrent จะเก็บไฟล์ภาพอัลบั้มอาร์ต

การมีส่วนร่วมและคำขอด้านการเก็บรักษา

  • Anna’s Archive ขอการสนับสนุนผ่านการบริจาคและการร่วม seed ทอร์เรนต์
    • แม้ seed เพียงเล็กน้อยก็ช่วยการเก็บรักษาโดยรวมได้
  • เป้าหมายคือการอนุรักษ์มรดกทางดนตรีของมนุษยชาติอย่างถาวรจากภัยธรรมชาติ สงคราม การตัดงบประมาณ ฯลฯ

ฟีเจอร์เพิ่มเติมและการทดลอง

  • สามารถทำฟังก์ชัน ‘True Shuffle’ กับแทร็กทั้งหมดของ Spotify ได้
    • สร้างเพลย์ลิสต์สุ่มอย่างแท้จริงผ่าน SQLite query
  • หากมีความสนใจมากพอ ในอนาคตอาจเพิ่มฟังก์ชันดาวน์โหลดไฟล์รายไฟล์

สรุป

  • Anna’s Archive ได้แบ็กอัปข้อมูลของ Spotify เกือบทั้งหมดและสร้างฐานข้อมูลเมตาดาต้าเพลงแบบเปิดที่ใหญ่ที่สุดในโลก
  • เป็นคลังเก็บรักษาแบบเปิดเต็มรูปแบบที่ใครก็สามารถทำมิเรอร์ได้
  • เป็นโครงการที่มีทั้งความโปร่งใสของโครงสร้างข้อมูล ความแม่นยำทางเทคนิค และความสามารถในการเก็บรักษาระยะยาว
  • ก้าวข้ามการพึ่งพาแพลตฟอร์มเชิงพาณิชย์ของอุตสาหกรรมดนตรี และวางรากฐานสำหรับการเก็บรักษาบันทึกทางวัฒนธรรมอย่างถาวร

7 ความคิดเห็น

 
tested 2025-12-24

Spotify คงเดือดน่าดูสินะ

 
lsdcnu 2026-01-25

Spotify가 Anna’s Archive 상대 소송에서 승소하여 .org 도메인 폐쇄
เห็นข่าวล่าสุดบอกว่าโดนฟ้องแล้วนะ

 
vndk2234 2025-12-23

อยู่ตรงไหนสักแห่งระหว่างวีรบุรุษนอกกฎหมายกับไร้กฎหมาย...

 
roxie 2025-12-21

ลิขสิทธิ์ล่ะ...

 
devworld 2025-12-21

ตอนนี้โมเดลสร้างเพลงที่ก่อนหน้านี้จำกัดอยู่แค่เชิงพาณิชย์แบบ Suno ก็น่าจะสามารถนำมาเทรนได้ในรูปแบบ open-weight open-source ด้วยเหมือนกันนะ

 
daumkakao 2025-12-21

สุดยอดมากๆ เลย

 
GN⁺ 2025-12-21
ความคิดเห็นจาก Hacker News
  • น่าทึ่งจริงๆ
    ไม่รู้มาก่อนเลยว่า DRM ของ Spotify ถูกเจาะได้ จนดาวน์โหลดกันได้ในระดับมหาศาลแบบนี้
    สำหรับผู้ใช้ทั่วไปอาจดูไม่ค่อยมีประโยชน์มากนัก แต่สำหรับนักวิจัยด้าน การจัดหมวดหมู่เพลงหรือการสร้างเพลง นี่อาจเป็นโอกาสครั้งใหญ่
    แต่ก็น่าจะเปิดเผยได้ยากว่าเทรนด้วยชุดข้อมูลไหน
    สงสัยว่านี่ทำตามคำขอของนักวิจัย AI หรือเป็นเพียงแค่เพื่อ การอนุรักษ์ข้อมูล

    • ไม่เห็นด้วยที่บอกว่าไม่มีประโยชน์กับผู้ใช้ทั่วไป
      ตอนนี้มี อุปกรณ์หรือแอป ที่คอยหาแหล่งสตรีมทีวี·ภาพยนตร์ผิดกฎหมายแบบอัตโนมัติจนเป็นเรื่องแพร่หลายแล้ว
      ในทางเทคนิคมันทำได้อยู่แล้ว และคนในครอบครัวที่ไม่ใช่สายเทคนิคก็ยังใช้อยู่
      เพียงแต่ทีม Anna’s Archive เป็นกลุ่มที่ขับเคลื่อนด้วย อุดมการณ์ เลยไม่ได้ทำเพื่อบริษัท AI
    • ฉันไม่ได้ใช้ Spotify
      ถ้าต้องการเพลงก็เคยใช้ ytldp โหลดจาก YouTube แต่เดี๋ยวนี้แทบไม่ทำแล้ว
      ใช้ YouTube กับข่าวหรือเปิดคลอมากกว่าฟังเพลง
      รู้สึกเศร้านิดหน่อยที่ Google เป็นคนควบคุมสิ่งนี้
    • จริงๆ แล้ว เมทาดาทา อาจมีค่ามากกว่าตัวไฟล์เพลงด้วยซ้ำ
    • บอกว่านี่คือ “งานเพื่อให้นักวิจัยจัดหมวดหมู่เพลงได้ใช้” ฟังดูเหมือนการหาเหตุผลเข้าข้างตัวเองว่าจะไม่ต้องสนับสนุนศิลปิน
      สิ่งที่ควรทำจริงๆ คือกำกับดูแลบริษัทอย่าง Spotify เพื่อให้ นักดนตรีได้รับค่าตอบแทนอย่างเป็นธรรม
      การเปิดข้อมูลแบบนี้กลับยิ่งกระตุ้นให้เกิด ขยะ AI มากขึ้น
    • น่าจะทำให้สร้างเครื่องมือเก็บสะสมเพลงอัตโนมัติแบบ Lidarr ระดับรายแทร็กได้ง่ายขึ้น
  • พอมองที่ขนาดแล้วมันมหาศาลจริงๆ
    เมื่อก่อน What.CD เคยถูกเรียกว่า “หอสมุดอเล็กซานเดรียแห่งวงการดนตรี” แต่ตอนนั้นก็ยังอยู่ในระดับทอร์เรนต์หลายล้านรายการ
    แต่ Spotify rip ของ Anna มี เรคคอร์ดไม่ซ้ำกัน 186 ล้านรายการ
    แน่นอนว่าช่วงท้ายๆ อาจมีเพลงบอตปนอยู่บ้าง แต่ขนาดโดยรวมมันเหนือกว่ามาก

    • สิ่งที่ทำให้ What.CD ยิ่งใหญ่ไม่ใช่แค่ปริมาณ แต่เป็น ความหายากและคุณภาพ
      ตั้งแต่ EP ยุคแรกของวงเล็กๆ ตามต่างจังหวัด ไปจนถึง อัลบั้มหายาก ที่ขึ้นสตรีมไม่ได้เพราะสิทธิไม่ชัดเจน
      ความสนุกในการค้นพบ ที่เกิดจากคำแนะนำ รีวิว และเพลย์ลิสต์ที่ชุมชนช่วยกันทำด้วยมือ เป็นสิ่งที่อัลกอริทึมแทนไม่ได้
      ด้วยเหตุนี้ฉันเลยได้รู้จักศิลปินที่ยังชอบมาจนถึงทุกวันนี้หลายคน
    • ก่อน What.CD ก็มี OiNK’s Pink Palace
      เป็นชุมชนที่รักดนตรีกันจริงๆ และ Trent Reznor ก็เคยชมออกสื่อด้วย
      ทุกวันนี้น่าเสียดายที่ชุมชนดนตรีบริสุทธิ์แบบนั้นแทบหายไปแล้ว
    • ใช่เลย What.CD มีทั้ง CD บูตเล็ก เทป และ เพลงที่ไม่มีบน Spotify อยู่เยอะมาก
      Spotify มีข้อจำกัดเพราะรวมได้เฉพาะเพลงที่มีไลเซนส์สำหรับสตรีมเท่านั้น
    • ฉันเองก็ฟัง เพลงนอกกระแส บน YouTube Music บ่อย และเห็นคอมเมนต์แนว “เสียดายที่ไม่มีใน Spotify” เยอะมาก
      ถ้าจะเป็นคลังเพลงที่สมบูรณ์แบบจริงๆ ก็ยังอีกไกล
    • What.CD นับทอร์เรนต์เป็นระดับอัลบั้ม แต่ Spotify รวมแม้แต่ พอดแคสต์หรือของที่สร้างโดย AI เข้าไปด้วย
  • ฉันคิดว่าโปรเจกต์แบบนี้จำเป็นมาก
    ที่อย่าง Anna’s Archive สำคัญพอๆ กับ Internet Archive
    ประเด็นหลักคือการ อนุรักษ์มรดกดิจิทัล อย่างเว็บไซต์ เกม หนังสือ ฯลฯ
    เมื่อคนเปลี่ยนรุ่นกันไป ก็มีคนมากมายที่ไม่เคยได้สัมผัสความสร้างสรรค์ของเว็บยุคก่อน
    ฉันคิดว่าคนยุคนี้คือรุ่นที่ยังมี โอกาส จะเก็บรักษาสิ่งเหล่านี้ไว้ได้

  • ทุกวันนี้เป็นยุคที่เพลงกับภาพยนตร์ค่อยๆ หายไปจากแพลตฟอร์มทีละอย่าง การอนุรักษ์แบบนี้จึงสำคัญมาก
    ฉันเองก็มี เพลย์ลิสต์ที่กลายเป็นสีเทา อยู่ตั้งสามรายการ — แม้แต่ชื่อก็หายไปแล้วจนไม่รู้ว่าเคยฟังอะไร
    เพราะงั้นเพลงที่อยากเก็บไว้ถาวรก็ซื้อเป็น CD ส่วน เพลงแดนซ์ ก็ปล่อยผ่านไป

  • งานแบบนี้เป็น สิ่งสำคัญ จริงๆ
    แค่อ่านบทความเมื่อ 10 ปีก่อน ลิงก์ภายนอกส่วนใหญ่ก็กลายเป็น 404 หายไปหมดแล้ว
    แม้จะมีคำถามว่าควรเก็บทุกอย่างไว้หรือไม่ แต่ถ้าทำได้ก็ ควรเก็บ

  • น่าทึ่ง
    แค่ข้อเท็จจริงที่ว่ามีการ สแครป Spotify ในระดับมหาศาล ก็ชวนสนใจแล้ว
    คงไม่เปิดเผยวิธีละเอียด แต่ถ้าได้อ่านก็น่าจะสนุก

    • จริงๆ แล้วไม่ได้ยากขนาดนั้น
      แค่อย่าใช้เกินเลย และทำในระดับ โปรเจกต์งานอดิเรก จะดีกว่า
      เซิร์ฟเวอร์เพลงของฉันก็เล่นแทร็ก Spotify ด้วยวิธีนี้
      ลิงก์โค้ด
    • สิ่งที่น่าทึ่งกว่าคือเขา ส่งข้อมูล 300TB แบบไม่ระบุตัวตน ได้
    • เดาว่าน่าจะใช้เครื่องมือแบบนี้ → spotizerr-spotify
  • ส่วนตัวแล้วฉันไม่ค่อยชอบเรื่องนี้
    มีแหล่งที่คุณภาพเสียงดีกว่านี้อยู่แล้ว และการริปขนาดใหญ่แบบนี้มีแต่จะเพิ่ม ความเสี่ยงทางกฎหมาย
    โดยเฉพาะกลัวว่าจะทำให้แม้แต่ ห้องสมุด e-book พลอยเสี่ยงไปด้วย
    ในประกาศเองก็ยังบอกว่า “เพลงถูกอนุรักษ์ไว้อยู่แล้วเพียงพอ” ดังนั้นควรแยกเป็นอีกโปรเจกต์ต่างหาก

  • ผู้ให้บริการอินเทอร์เน็ตในเยอรมนี (SIM.de/Drillisch) กำลัง บล็อก Anna’s Archive
    ตอนปิด VPN จะเข้าไม่ได้ และต้องเปิด Mullvad VPN ถึงจะใช้งานได้
    ไม่เคยรู้มาก่อนว่าในเยอรมนีก็มีการเซ็นเซอร์แบบนี้

    • ฉันก็เคยเจอคล้ายๆ กัน
      ค้นหา alextud popcorntime แล้วไม่เจอผลลัพธ์ PopcornTimeTV GitHub
      ทั้ง Google, Kagi, DuckDuckGo, Bing เป็นเหมือนกันหมด
      มีแต่ฟอร์กขึ้นมา แต่ต้นฉบับไม่ขึ้น เลยสงสัยว่ามี การกรองผลค้นหา
  • เมื่อก่อนมี เพลงที่ถูกลบ จากหลายแพลตฟอร์มพร้อมกันอยู่หลายเพลง
    เลยสงสัยว่าจะหาเจออีกครั้งจากอาร์ไคฟ์แบบนี้ไหม
    ทุกวันนี้มี สื่อสูญหายในยุคปัจจุบัน เกิดขึ้นทุกวัน
    ผู้เผยแพร่บางรายพยายามทำลายสำเนาทุกชุดอย่างจงใจ ซึ่งฉันคิดว่าเป็น พฤติกรรมที่น่าสยดสยองทางจิตใจ
    การทำลายงานสร้างสรรค์ให้หมดสิ้นไปโดยสมบูรณ์ ไม่ว่าด้วยเหตุผลใดก็ไม่มีทางสมเหตุสมผล
    ถ้าเหลืออยู่แค่บนเทปในตู้นิรภัยเหล็ก ก็แทบไม่ต่างจากการไม่มีอยู่จริง

  • ในทางเทคนิค การทำ สตรีมมิงเซิร์ฟเวอร์ ที่ใช้ทอร์เรนต์เป็นแบ็กเอนด์ก็เป็นไปได้
    คือค่อยดาวน์โหลดเฉพาะส่วนที่ต้องใช้เมื่อมีคำขอเข้ามา

    • Spotify เองก็เคยใช้ P2P streaming จนถึงปี 2014
      ลิงก์บทความวิจัยที่เกี่ยวข้อง
    • ฉันเองก็เพิ่งจัด *homelab arr stack ไปเมื่อไม่นานนี้ แต่สำหรับเพลงยังรู้สึกว่าไม่คุ้มราคาเท่าไร
      ตอนนี้ Spotify ยังถูกอยู่เลยยังไม่ค่อยใส่ใจ แต่ ปัญหาค่าตอบแทนศิลปิน ก็ยังคงมีอยู่
      หวังว่าสักวันจะตั้ง เซิร์ฟเวอร์เพลง self-hosted ที่ใช้ทอร์เรนต์ ได้ง่ายๆ
    • ในทางเทคนิคไม่ควรทำ แต่ ทำได้
    • ก็เป็นแนว Popcorn Time แบบหนึ่ง