1 คะแนน โดย GN⁺ 1 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • สำนักข่าวใหญ่ เช่น New York Times, The Atlantic, USA Today กำลังบล็อกการเก็บรักษาข่าวโดย Wayback Machine จนเกิดเสียงเรียกร้องให้ยุติการกระทำดังกล่าว
  • ผู้บริหารสื่อรายใหญ่ควรให้คำมั่นสาธารณะว่าจะร่วมมือกับ Internet Archive เพื่อเก็บรักษา ข่าวทั้งหมด ไว้ใน Wayback Machine
  • ปี 2026 ถูกระบุว่าเป็นปีแรกในรอบ 30 ปีที่ผลงานของสำนักข่าวหลักจะไม่ถูกเก็บรักษาไว้ใน Internet Archive ในวัน World Press Freedom Day
  • ความกังวลเรื่อง AI ที่สำนักข่าวยกมาเป็นเหตุผลในการแบนถูกมองว่าเป็นเพียงสมมุติฐาน และในยุค generative AI การเก็บรักษาโดยอิสระยิ่งสำคัญมากขึ้น
  • ท่ามกลางการเซ็นเซอร์ อำนาจนิยม และ คำขู่ฆ่านักข่าว ที่เพิ่มขึ้น การเก็บรักษาโดยบุคคลที่สามซึ่งเป็นกลางช่วยให้รายงานข่าวไม่สูญหาย

เบื้องหลังการบล็อก

  • ปี 2026 ถูกระบุว่าเป็นปีแรกในรอบ 30 ปีที่ผลงานของสำนักข่าวใหญ่ เช่น New York Times, The Atlantic และ USA Today จะไม่ถูกเก็บรักษาไว้ใน Internet Archive ซึ่งเป็นองค์กรไม่แสวงหากำไรอิสระ ในวัน World Press Freedom Day
  • New York Times ได้เรียกร้องตั้งแต่เดือนกุมภาพันธ์ปีนี้ให้ Internet Archive ห้าม Wayback Machine เก็บรักษาผลงานของผู้สื่อข่าวของตน
  • ตามรายงานของ Wired ระบุว่า USA Today เผยแพร่รายงานเชิงข่าวที่ทรงพลังโดยอาศัย Wayback Machine แต่กลับบล็อกไม่ให้รายงานชิ้นเดียวกันนั้นถูกเก็บรักษาไว้ใน Wayback Machine
  • หลังจากที่นักข่าวมากกว่า 100 คนส่งจดหมายสนับสนุนการเก็บรักษางานข่าวของ Internet Archive ทาง CEO ของ The Atlantic ได้ออกมาแสดงจุดยืน แต่ไม่ได้ให้คำมั่นว่าจะหาทางออก

ความกังวลเรื่อง AI และบทบาทของ Wayback Machine

  • ความกังวลเรื่อง AI ที่สื่อเหล่านี้ยกขึ้นมาเป็นเหตุผลในการแบน Wayback Machine ถูกนำเสนอว่าเป็นเรื่องสมมุติทั้งหมด
  • generative AI ไม่อาจเป็นเหตุผลในการ ซ่อน งานข่าวที่มีหลักการจากผู้ตรวจสอบข้อเท็จจริงได้ และกลับยิ่งทำให้ Wayback Machine มีความจำเป็นมากขึ้น
  • มองว่าบริษัท AI สามารถเพิกเฉยต่อกฎและนำข่าวจากเว็บไซต์สำนักพิมพ์ไปใช้โดยไม่ได้รับความยินยอมได้เหมือนเว็บไซต์คลังข้อมูลเลียนแบบ และแทบไม่มีวิธีหยุดยั้ง
  • Wayback Machine ใช้คำว่า “archive” และแตกต่างจากบริการที่พยายามทำให้ดูคล้าย Internet Archive และ ไม่ใช่บริการชั่วคราว
  • Wayback Machine เก็บรักษาข่าวมานานกว่าคนอายุน้อยจำนวนมากที่ลงชื่อในคำร้องเสียอีก
  • Wayback Machine ไม่ใช่บริการข้าม paywall แต่ถูกมองว่าเป็นทรัพยากรสาธารณะขององค์กรไม่แสวงหากำไรอิสระเพื่อการเก็บรักษาสื่อข่าว
  • เหตุผลที่ Internet Archive ไม่ได้ทำตัวเหมือนบริษัทส่วนใหญ่ใน Silicon Valley คือ integrity และจุดนี้เองที่ทำให้ Internet Archive น่าเชื่อถือและเหมาะกับการดำเนินงานระยะยาว

การเก็บรักษางานข่าวและความเป็นสาธารณะ

  • เสรีภาพสื่อไม่ได้หมายถึงแค่เสรีภาพในการเขียนบทความเท่านั้น แต่ยังรวมถึงเสรีภาพที่ผลงานนั้นจะ ถูกอ่านและถูกจดจำข้ามรุ่น
  • เมื่อการเซ็นเซอร์และอำนาจนิยมเพิ่มขึ้น แรงกดดันให้เปลี่ยนแปลงรายงานหรือลบข้อเท็จจริงก็เพิ่มขึ้นตามไปด้วย
  • นักข่าวมักได้รับ คำขู่ฆ่า และมีการระบุว่าในช่วงหนึ่งปีที่ผ่านมา นักข่าวหลายคนเสียชีวิตเพราะงานของตนเอง
  • ในสถานการณ์เช่นนี้ ควรเสริมความแข็งแกร่งให้กับ การเก็บรักษาโดยบุคคลที่สามซึ่งเป็นกลาง ของ Wayback Machine เพื่อไม่ให้งานของนักข่าวสูญหายไป
  • รายงานข่าวควรเข้าถึงได้ไม่เพียงสำหรับเพื่อนร่วมงานและครอบครัวผู้เสียชีวิต แต่ยังรวมถึง สายตาของประวัติศาสตร์ ด้วย
  • Wayback Machine ช่วยให้สำนักข่าวออนไลน์สามารถต้านทานแรงกดดันให้ลบบทความที่คุกคามผู้มีอำนาจได้ดียิ่งขึ้น
  • หากเป็นสำนักข่าวที่ทำงานข่าวจริง การสนับสนุนพันธมิตรลักษณะนี้ก็สอดคล้องกับผลประโยชน์ของตนเองเช่นกัน

ข้อเรียกร้องและแหล่งอ้างอิง

  • ผู้บริหารสื่อรายใหญ่ควรให้คำมั่นต่อสาธารณะว่าจะร่วมมือกับ Internet Archive เพื่อ เก็บรักษาข่าวทั้งหมดไว้ใน Wayback Machine
  • การหาวิธีเก็บรักษาข่าวอย่างอิสระไม่ควรเป็นเรื่องที่ยากถึงเพียงนี้
  • แหล่งอ้างอิง

1 ความคิดเห็น

 
GN⁺ 1 시간 전
ความคิดเห็นบน Hacker News
  • สงสัยว่านี่เกิดขึ้นเพราะ archive.org เคารพ robots.txt และเว็บไซต์เหล่านั้นบล็อกการทำดัชนีของครอว์เลอร์หรือไม่
    น่าผิดหวังที่ “การทำสิ่งที่ถูกต้อง” อย่างการทำตาม robots.txt กลับกลายเป็นภาระที่ต้องมารับมือกับคำร้อง ขณะที่ฝั่งที่เมินคำสั่งเดียวกันกลับได้ประโยชน์

    • ถ้าครอว์เลอร์ที่ เป็นที่รู้จักสูง อย่าง archive.org เพิกเฉยต่อ robots.txt ก็มีโอกาสสูงที่จะโดนฟ้องหรือถูกกดดันในรูปแบบอื่น
      นี่ไม่ใช่แค่ทางเลือกเชิงศีลธรรม แต่แทบจะเป็นทางเลือกเดียวที่สมเหตุสมผล และเหตุผลที่ “อีกฝั่งได้ประโยชน์” ก็เพราะภาระหน้าที่ที่คล้ายคำสัญญานั้นเล็กเกินไป หรือผู้เล่นที่อยู่ในที่มืด/ตัวเล็กเกินกว่าจะมีแรงจูงใจให้ไล่ฟ้อง
    • ใช่เลย ใน robots.txt ของ nytimes.com มีส่วนแบบนี้อยู่: User-agent: archive.org_bot / Disallow: /
    • เหตุผลคือพวกเขาต้องการ ป้องกันไม่ให้บริษัท AI ขโมยคอนเทนต์ แต่ถ้า Internet Archive ทำตัวเป็นพร็อกซีให้ทั้งหมด ก็ป้องกันไม่ได้
      ถ้าเก็บข่าวใหม่ ๆ ไปไม่ได้ โมเดลภาษาขนาดใหญ่ทั้งหมดก็คงมีประโยชน์น้อยกว่านี้มาก
    • ไม่ใช่ archive.org ไม่ได้เคารพ robots.txt ต้องติดต่อโดยตรงเพื่อขอไม่ให้รวมเว็บไซต์ของคุณไว้: https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea...
    • นี่คือความโง่แบบเดียวกับที่ DRM สร้างขึ้น
      เหมือนบอกให้คนเป็นโจรสลัด เพราะฝั่งโจรสลัดนั้นเป็นอิสระ
  • ถ้า Archive.org เข้าถึงคอนเทนต์ของ NYT และสำนักพิมพ์อื่นได้ ปัญหาก็ดูจะเป็นว่าแม้คนจะดึงข้อมูลปริมาณมากจาก NYT โดยตรงไม่ได้ ก็ยัง เก็บคอนเทนต์ NYT จำนวนมากผ่าน Archive.org ได้อยู่
    ถ้า Archive.org บล็อกสแครปเปอร์ สำนักพิมพ์อาจตัดสินใจอีกแบบและยอมให้ Archive.org เข้าถึงได้

  • ไอเดีย: อาจ อนุญาตให้สแครป ได้ แต่ห้ามเผยแพร่ต่อสาธารณะเป็นเวลา 1 ปี ดีไหม?

    • ควรมี กองทุนร่วมสำหรับการฟ้องร้อง ด้วย เพื่อให้ Archive บังคับให้ครอว์เลอร์ LLM ต้องตอบแทนกลับมาได้
  • เหมือนที่ Financial Times ให้บริการผ่าน NewsBank แบบ เอสโครว์ 30 วัน พวกนี้ก็น่าจะทำเอสโครว์ได้เหมือนกัน

  • ถ้าใส่หมวกทฤษฎีสมคบคิด ก็อาจเป็นไปได้ว่าส่วนหนึ่งเพราะพวกเขาชอบสภาพที่ตัวเอง แอบแก้ไข แล้วทำเหมือนบทความเวอร์ชันเก่าไม่เคยมีอยู่

  • คนที่ไม่เคยเห็นโฆษณาขององค์กรเหล่านั้นเลย และไม่เคยจ่ายค่าสมาชิกให้พวกเขา กำลังจะต่อสู้เพื่อเรียกร้องให้องค์กรเหล่านั้น เปิดประตูหลังทิ้งไว้ งั้นเหรอ?

  • รู้เรื่องข้อถกเถียงนี้จากฝั่ง Times และ Atlantic อยู่บ้าง อาจโดนด่าก็ได้ แต่ผมถามผู้บริหารระดับสูงฝั่งดิจิทัลของสำนักแรกว่าคิดอย่างไรกับ วิธีหลบเพย์วอลล์ ที่เจอกันบ่อยบน HN และแปลกใจมากที่พวกเขาไม่เคยได้ยินเรื่องพวกนี้มาก่อนเลย
    สุดท้ายพวกเขาเห็นด้วยว่าทางสมดุลที่เหมาะสมคือเปิดให้สาธารณะหลัง 30 วัน และถ้ามีความเกี่ยวข้องในอนาคตก็ควรมีการจำกัดการเข้าถึง เช่น ห้ามดึงเกิน N ครั้งต่อวัน เท่าที่รู้ Internet Archive ไม่ได้ติดต่อเชิงรุกเรื่องนี้ และควรกดดันให้ทั้งสำนักพิมพ์และ Internet Archive มาเจรจากัน

    • ฟังดูเป็นจุดประนีประนอมที่ดีทีเดียว องค์กรข่าวยังคงรักษา ยอด pageview พุ่งช่วงแรก ได้ และบทบาทของอินเทอร์เน็ตในฐานะแหล่งข้อมูลฟรี/ห้องสมุดสากลก็ยังอยู่
      ถึงอย่างนั้น นิตยสารก็คงยังอยากควบคุม back catalog ของตัวเอง ตอนนี้พวกเขาก็ขายสิทธิ์เข้าถึงให้ห้องสมุดและมหาวิทยาลัยอยู่แล้ว และอย่างที่พูดกันหลายครั้งบน HN บางองค์กรข่าวอาจอยากเปลี่ยนหรืออัปเดตบทความโดยไม่มี “ประวัติการแก้ไข” สาธารณะ
    • Internet Archive ถูกใช้เพื่อหลบเพย์วอลล์เป็นประจำหรือ? ปกติจะเป็น archive.is มากกว่า และไม่ได้เกี่ยวข้องกับ IA
    • การห้ามดึงเกิน N ครั้งต่อวัน “หากมีความเกี่ยวข้องขึ้นมา” มันไม่เป็นประโยชน์กับพวกเขาไม่ว่าทางไหนหรือ?
      ชวนให้สงสัยว่าอาจมีแดชบอร์ดสถิติดิจิทัลที่น่าเศร้าเปิดคาไว้ที่ไหนสักแห่ง และการบูชาตัวเลขนั้นได้เข้ามาแทนที่จิตวิญญาณดั้งเดิมของงานข่าวหรือเปล่า
    • ไม่ได้น่าแปลกใจขนาดนั้น พวกเขากำลังทำงานด้วย โมเดลของยุคที่ผิด และแรงจูงใจที่ผิด
      ยังทำตัวเหมือนอยู่ในโลกที่ข้อมูลและข่าวสารหายาก และตัวเองเป็นแหล่งความจริงเพียงหนึ่งเดียว ตอนนี้สถานการณ์กลับกันแล้ว ไม่มีความจริงมาตรฐานเพียงชุดเดียว แต่ข้อมูลและข่าวสารมีล้นเหลือ และความอุดมสมบูรณ์นั้นก็รวมถึงข้อมูลเท็จและคำโกหกด้วย งานข่าวเชิงสืบสวนที่ NYT และ Atlantic ทำได้ในวันที่ดีที่สุดนั้นมีคุณค่าต่อโลก แต่แม้นักข่าวจะอยากให้คนเข้าถึงได้ องค์กรกลับพยายามซ่อนและแยกมันออกไป ในอุดมคติ เด็กทุกคนควรได้เรียนภาษาอังกฤษกับ NYT และ Atlantic เติบโตมากับสื่อบันทึกเหล่านี้ และมองโลกผ่านมันได้ แต่โมเดลปัจจุบันไม่เปิดทางให้ทำแบบนั้น รูปแบบที่ผสมการอุปถัมภ์กับมูลนิธิสไตล์ Wikimedia อาจเหมาะกว่า ผู้อ่านที่รักสถาบันและพันธกิจของมันจ่ายได้เท่าที่ต้องการ ได้สิทธิประโยชน์ตามระดับเงินสนับสนุน และเงินสมทบก็เข้ากองทุนไปลงทุน โดยผลตอบแทนถูกจัดสรรกลับมาเป็นส่วนหนึ่งของงบดำเนินงาน ผมคิดว่าในโลกที่ข้อมูลล้นเหลือ วารสารศาสตร์แบบดั้งเดิมอยู่รอดได้ยากหากไม่มี แนวทางบนฐานการอุปถัมภ์
    • อยากให้เว็บไซต์ “ข่าว” แบบนี้ไม่ถูกโพสต์บน HN ไปเลย ถ้าบทความนั้นเป็นจริงและคุ้มค่าต่อการถกเถียง องค์กรที่ น่าเชื่อถือกว่า อย่าง Reuters ก็น่าจะรายงาน หรือไม่ก็ต้องเป็นแหล่งปฐมภูมิที่ควรโพสต์ตรง ๆ
      บ่อยเกินไปที่พวกเขาเลือกเล่ารายละเอียดและคำพูดแบบเลือกสรร หรือรายงานข้อเท็จจริงจากแหล่งที่เชื่อถือไม่ได้ซึ่งภายหลังพิสูจน์ว่าเท็จทั้งหมด แล้วในกรณีหลังพวกเขาก็ถอนบทความเงียบ ๆ ทำให้ผู้อ่านส่วนใหญ่ยังคงเชื่อเรื่องเท็จต่อไป บางทีนี่อาจเป็นเหตุผลว่าทำไมถึงไม่อยากให้ถูกเก็บถาวรด้วยซ้ำ โพสต์บล็อกเล็ก ๆ ยังดีกว่าเสียอีก ถึงจะมีอคติและไม่น่าเชื่อถือ แต่ก็มีความคิดที่เป็นต้นฉบับ สนับสนุนตัวบุคคล และอาจไม่มีโฆษณา แน่นอนว่าอีกปัญหาหนึ่งคือมีบล็อก LLM แบบเดิม ๆ โผล่มาที่นี่เยอะมาก
  • กำลังรอสิ่งนี้อยู่: (https://news.ycombinator.com/item?id=48070516)

  • เราต้องการ Internet Archive ที่ตรวจสอบได้ด้วยวิธีเข้ารหัส อาจเป็นไปไม่ได้หากไม่มีอะไรอย่าง web3, nostr หรือ gpg/pgp

    • ถ้ามี หลายอาร์ไคฟ์ ที่ไม่เกี่ยวข้องกัน ก็น่าจะดีพอสมควรแล้ว
    • ทำไม Archive ถึงไม่เผยอะไรอย่าง ลายเซ็น SSL ของทุกคำขอล่ะ?
      การประทับเวลาอาจตรวจสอบเชิงเข้ารหัสได้ด้วยวิธีแบบเอาไปวางบน Bitcoin คล้าย opentimestamps
  • ผมเซ็นแล้ว แต่ก็ควรพูดกันตรง ๆ
    ถ้าวาดกราฟวงกลมระหว่างจำนวนครั้งที่อ่านบทความ NYT เก่า ๆ ผ่าน Wayback Machine กับจำนวนครั้งที่คอมเมนต์อันดับต้น ๆ บน HN แปะลิงก์บทความค่อนข้างใหม่แล้วทุกคนแห่ไปเพื่อหลบเพย์วอลล์ มันคงจะเป็น วงกลมเต็มวงพอดี

    • ถ้าไม่มีสำเนาที่เก็บถาวร คุณจะจ่ายเงินให้ NYT เพื่ออ่านบทความนั้นไหม? ผมว่าไม่น่าใช่