1 คะแนน โดย GN⁺ 2025-12-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โปรเจกต์ที่กู้คืน โพสต์ Li.st ที่หายไปของ Anthony Bourdain จากข้อมูลการครอว์ลเว็บสาธารณะ
  • ใช้ Common Crawl และ Internet Archive เพื่อสำรวจและกู้คืน HTML ที่ยังหลงเหลืออยู่ในโดเมน li.st
  • ใช้สคริปต์ Python commoncrawl_search.py เพื่อรวบรวมเอกสาร HTML จาก S3 bucket สาธารณะโดยอัตโนมัติ
  • กู้คืนข้อความของโพสต์ได้จำนวนมาก แต่ไฟล์ภาพส่วนใหญ่สูญหาย และมีเพียงบางรายการที่ยังคงอยู่ในรูปแบบ HTML
  • เปิดเผยผลการกู้คืนไว้ใน GitHub repository เพื่อให้ชุมชนสามารถมีส่วนร่วมในการกู้คืนและอนุรักษ์เพิ่มเติมในอนาคต

ภาพรวมของโปรเจกต์

  • ความพยายามในการกู้คืน โพสต์ Li.st ที่สูญหาย ของ Bourdain โดยใช้ข้อมูลการครอว์ลสาธารณะ
    • หลังจากเห็นว่ามีการเผยแพร่บางรายการไว้ก่อนหน้านี้บนเว็บไซต์ GReg TeChnoLogY จึงเริ่มสำรวจความเป็นไปได้ในการกู้คืน
    • อาศัยประสบการณ์ด้านความปลอดภัยและการครอว์ล โดยใช้เฉพาะ คลังข้อมูลที่เข้าถึงได้สาธารณะ เท่านั้น
  • ค้นหาดัชนีเอกสารของ Common Crawl เพื่อรวบรวมข้อมูลในเส้นทาง https://li.st/Bourdain*
    • ทำงานในสภาพแวดล้อม Python 3.14.2 หลังติดตั้ง dependency จาก requirements.txt แล้วจึงรัน
    • ตัวอย่างคำสั่ง: python commoncrawl_search.py "https://li.st/Bourdain*"; --all --download

กระบวนการกู้คืนและเครื่องมือ

  • commoncrawl_search.py ส่งคำขอไปยังดาต้าเซ็ตที่กำหนด และดาวน์โหลดรายการที่ตรงกันจาก S3 bucket สาธารณะ
    • เอกสาร HTML มีขนาดเล็ก จึงกู้คืนได้ค่อนข้างง่าย
  • ผลลัพธ์ที่กู้คืนถูกจัดเก็บไว้ใน GitHub repository (https://github.com/thecsw/bourdain)
    • แต่ละไฟล์ HTML คงเลย์เอาต์ต้นฉบับไว้ พร้อม จัดโครงสร้างใหม่โดยไม่แก้ไขเนื้อหา
    • ไม่ใช่งานที่สร้างโดย AI และมีเพียงบางส่วนของโค้ดเท่านั้นที่เขียนด้วยเครื่องมืออัตโนมัติ

โพสต์สำคัญที่กู้คืนได้

  • things-i-no-longer-have-time-or-patience-for: รายการอย่าง ‘Cocaine’, ‘True Detective’, ‘Beer nerds’ เป็นต้น
  • nice-views: ทิวทัศน์จากมอนแทนา เปอร์โตริโก นาซอส LA อิสตันบูล และสถานที่ท่องเที่ยวอื่น ๆ
  • if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: เช่น ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’
  • objects-of-desire: ของสะสมส่วนตัว เช่น แว่นกันแดดวินเทจ เครื่องมือ trepanning ชุด BJJ และมีด Kramer
  • four-spy-novels-by-real-spies-and-one-not-by-a-spy: แนะนำงานสายลับของนักเขียนอย่าง Somerset Maugham และ Graham Greene
  • hotel-slut-that-s-me: รายชื่อโรงแรมทั่วโลกพร้อมถ้อยคำแสดงความผูกพันส่วนตัว
  • some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures และลิสต์เกี่ยวกับนิวยอร์กอีกจำนวนมาก
  • โพสต์ส่วนใหญ่ กู้คืนข้อความได้สำเร็จ แต่ ไฟล์ภาพสูญหายทั้งหมด

รายการที่กู้คืนไม่ได้

  • พบว่าโพสต์ David Bowie Related (14 มกราคม 2016) เพียงรายการเดียวไม่ปรากฏใน Common Crawl

ความหมายของโปรเจกต์และแผนต่อไป

  • อธิบายงานกู้คืนนี้ว่าเป็น ความพยายามแบบโบราณคดีดิจิทัล ที่พิสูจน์ให้เห็นถึงความเป็นไปได้ในการอนุรักษ์คอนเทนต์เว็บในอดีต
  • แม้การกู้คืนภาพจะทำได้ยาก แต่การสร้างคลังข้อความประสบความสำเร็จ
  • ทุกคนสามารถมีส่วนร่วมในการกู้คืนเพิ่มเติมได้ผ่าน Git repository สาธารณะ
  • เสนอความจำเป็นในการสร้าง public archive และหาแนวทางการเก็บรักษาระยะยาวต่อไป

1 ความคิดเห็น

 
GN⁺ 2025-12-15
ความคิดเห็นจาก Hacker News
  • ฉันก็ตกลงไปใน rabbit hole เดียวกัน และทำแบบเดียวกันเป๊ะเมื่อสัปดาห์ที่แล้ว
    ลิงก์ความพยายามของฉัน
    ถ้าคุณได้แรงบันดาลใจจากอันนั้นก็บอกไว้หน่อยก็ดี แต่ถ้าไม่ใช่ ก็ถือว่าน่าสนใจที่เราต่างคิดไอเดียเดียวกันขึ้นมาได้อย่างอิสระ

    • โอ้ ไม่รู้มาก่อนเลย! ฉันเริ่มจากโพสต์ต้นฉบับของ Greg แล้วเขาก็มาบอกทีหลังว่ามีคนที่ไปดู Common Crawl แล้ว
      ยังไงก็ตาม ฉันอัปเดตทั้ง git และหน้าเว็บเพื่อ ระบุถึง งานของคุณอย่างชัดเจนแล้ว
      ฉันใส่ลิงก์ตรงไปยังเว็บไซต์ของคุณด้วย บอกได้เลยนะว่าโอเคไหม
  • ต่อเนื่องจากโพสต์นี้ ตอนนี้ได้กู้คืน โพสต์ li.st ของ Anthony Bourdain ที่คิดว่าหายไปตามกาลเวลาได้ทั้งหมดแล้ว
    ผมคิดว่าไม่มีใครเหมือน Tony อีกแล้วจริงๆ

    • กู้คืนได้เกือบทั้งหมด แต่ตามบทความบอกว่ายังขาดอยู่อีกหนึ่งชิ้น — “David Bowie Related” (ลงวันที่ 14 มกราคม 2016)
  • ฉันชอบซีรีส์ของเขามาก แต่พอเขาไปเยือนบ้านเกิดของฉันแล้ว นำเสนอผิดเพี้ยนอย่างสิ้นเชิง ก็ทำให้ผิดหวัง
    ฉันเข้าใจมุมมองแบบต่อต้านกระแสและนอกกระแส แต่เขาไปคลุกคลีกับพวกนักต้มตุ๋นท้องถิ่นและคนที่เคยเปิดร้านอาหารแล้วล้มเหลว แล้วแนะนำพวกเขาเหมือนเป็น ‘เชฟหัวก้าวหน้า’
    หลังจากนั้นฉันก็มองตอนอื่นๆ ของเขาเปลี่ยนไปด้วย

    • เห็นด้วย Vice News ก็เคยทำอะไรคล้ายๆ กันในชิคาโก จนคนท้องถิ่นไม่ชอบกันมาก
    • ที่เซี่ยงไฮ้ก็เหมือนกัน
    • ฉันก็รู้สึกคล้ายๆ กัน รายการของเขาน่าสนใจอยู่ แต่มี ความหยิ่งแบบแผ่วๆ ของผู้ชายผิวขาวฐานะดีที่ไปไหนก็อธิบายเรื่องท้องถิ่นเหมือนตัวเองเป็นผู้เชี่ยวชาญ อาหารมักเป็นเรื่องรอง
    • อยากรู้ว่าเป็นเมืองไหน ฉันก็เคยรู้สึกแบบนั้นกับบางพื้นที่ และสงสัยเสมอว่าทีมงานใช้เกณฑ์อะไรในการเลือกสถานที่
    • เขาคงไม่ได้ตรวจสอบภูมิหลังทางการเมืองของผู้คนด้วยตัวเองหรอก น่าจะเป็นไปได้มากกว่าว่าทีมโปรดักชันจัดการไว้ล่วงหน้าแล้วเขาแค่เข้าร่วม ถึงอย่างนั้นก็ยังมีเหตุผลมากพอที่จะดูรายการของเขาอย่างมีวิจารณญาณ อยากรู้ชื่อเมืองเหมือนกัน
  • ดีใจมากที่ได้เห็นสิ่งที่กู้คืนมาแล้ว :)
    หวังว่ารูปภาพจะกู้คืนได้ด้วย อยากรู้ว่า รายชื่อแผ่นเสียง ที่เขาพูดถึงมีอะไรบ้าง

  • ดีใจที่รู้ว่า SIBERIA ในลิสต์ “Great Dead Bars of New York” กลับมาเปิดอีกครั้งแล้ว
    คราวนี้เริ่มต้นใหม่อยู่ในสถานี 59th Street/Columbus Circle

  • ปกติไม่อยากพูดเรื่องดีไซน์เว็บไซต์ แต่ ฟอนต์สีเทาอ่อน บนพื้นขาวอ่านยากมาก โดยเฉพาะกับสายตาของคนอายุมาก แทบมองไม่เห็นเลย

    • บนหน้าจอของฉันมันไม่ได้เป็นสีเทาอ่อนนะ ฉันเช็กทั้งเดสก์ท็อปและมือถือแล้ว สี #2B2B2B เข้มพอแน่นอน น่าจะเป็นปัญหาเรื่อง การตั้งค่าแกมมาของจอแสดงผล มากกว่า เว็บไซต์ดูโอเค
    • ตอนแรกฉันก็คิดแบบนั้น แต่สุดท้ายพบว่าส่วนขยาย dark mode ไปเปลี่ยนสี พอปิดแล้วก็ปกติดี
    • เข้าใจได้ว่าถ้าจู่ๆ มีหน้าจอขาวจ้าขึ้นมามันทำให้ปวดตา
    • ลายจุดจางๆ บนพื้นหลังก็กวนใจนิดหน่อยเหมือนกัน คอนทราสต์ สำคัญมาก
  • บาร์โปรดที่สุดของเขา Siberia กลับมาเปิดแล้ว
    อยู่ตรงปลายด้านใต้ของสถานีรถไฟใต้ดิน Columbus Circle เจ้าของชื่อ Tracy ก็ยังอยู่ และบรรยากาศก็ยังดิบๆ ไม่ปรุงแต่งเหมือนเดิม

  • ถ้าเป็นลิสต์หนังที่มี Tampopo อยู่ด้วย ฉันก็ถือว่าเป็นลิสต์ที่ดีแน่นอน

  • ขอบคุณมากจริงๆ ที่ทำงานกู้คืนนี้
    ในฐานะแฟน Bourdain ฉันมองว่าแม้เขาจะมีข้อบกพร่องในฐานะมนุษย์ แต่เขาก็เป็นหนึ่งในบุคคลที่น่าสนใจที่สุดของยุคสมัย
    ซีรีส์ Parts Unknown ของเขาเป็นหนึ่งใน คอนเทนต์เชิงมานุษยวิทยา ที่ดีที่สุดเท่าที่ฉันเคยดูทางทีวี และบทความนี้ก็น่าอ่านมากเช่นกัน