1 คะแนน โดย GN⁺ 2023-12-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • The New York Times ได้ยื่นฟ้องคดีลิขสิทธิ์ต่อบริษัทในเครือ OpenAI และ Microsoft โดยกล่าวหาว่านำคอนเทนต์ของตนไปใช้ในการฝึกและสร้างผลลัพธ์โดยไม่ได้รับอนุญาต พร้อมเรียกร้องให้ ลบอินสแตนซ์ GPT และชุดข้อมูลฝึก ด้วย
  • ประเด็นสำคัญไม่ใช่แค่การฝึกโมเดลเท่านั้น แต่รวมถึงการที่เครื่องมือบนพื้นฐาน GPT สามารถ ถ่ายทอดเนื้อหาบทความที่ต้องจ่ายเงินของ Times ได้แทบจะตรงต้นฉบับ จนเลี่ยงเพย์วอลล์ได้หรือไม่
  • Times อ้างว่าใน Common Crawl มี เร็กคอร์ดไม่ซ้ำ 16 ล้านรายการ จากเว็บไซต์ของตนรวมอยู่ และเป็นแหล่งอ้างอิงที่ถูกใช้มากเป็นอันดับสามในข้อมูลฝึกที่เปิดเผยก่อน GPT-3.5
  • จากการทดสอบของ Ars Technica ดูเหมือนว่า ChatGPT จะถูกปิดช่องทางเลี่ยงดังกล่าวแล้ว แต่ Copilot สามารถถ่ายทอดช่วงต้นของบทความ Times บางชิ้นได้เป็นจำนวนมากเมื่อขอให้แสดงย่อหน้าแรก
  • คดีนี้รวมข้อกล่าวหาเรื่องละเมิดลิขสิทธิ์, DMCA, เครื่องหมายการค้า และการแข่งขันที่ไม่เป็นธรรม พร้อมขอคำสั่งห้ามถาวร ค่าเสียหาย การคืนทรัพย์ และการริบผลประโยชน์ที่ได้มาโดยมิชอบ

คู่กรณีในคดีและข้อเรียกร้องหลัก

  • The New York Times ได้ยื่นฟ้องบริษัทหลายแห่งที่เกี่ยวข้องกับ OpenAI และ Microsoft ในข้อหาละเมิดลิขสิทธิ์
  • Microsoft ถูกรวมเป็นจำเลยด้วยในฐานะพาร์ตเนอร์ของ OpenAI ที่ให้บริการ Copilot ด้วยเทคโนโลยีของ OpenAI และมีส่วนเกี่ยวข้องกับการ จัดหาโครงสร้างพื้นฐาน สำหรับฝึกโมเดลภาษาใหญ่ GPT
  • ข้อเรียกร้องรวมถึงการ ลบอินสแตนซ์ GPT ทั้งหมด ที่ฝึกด้วยข้อมูลของ Times และทำลายชุดข้อมูลที่ใช้ในการฝึก
  • ยังขอ คำสั่งห้ามถาวร เพื่อป้องกันไม่ให้เกิดการกระทำลักษณะเดียวกันในอนาคต
  • มาตรการเยียวยาทางการเงินรวมถึงค่าเสียหายตามกฎหมาย ค่าเสียหายชดเชย การคืนทรัพย์ การริบผลประโยชน์ที่ได้มาโดยมิชอบ และการเยียวยาอื่น ๆ ที่กฎหมายหรือหลักความเป็นธรรมอนุญาต

โครงสร้างความเสียหายตามมุมมองของ Times

  • Times ระบุว่าตนมีผู้สื่อข่าวและบุคลากรด้านข่าวจำนวนมาก ทำข่าวหลากหลายด้านรวมถึงงานข่าวสืบสวน จนถูกมองเป็นแหล่งข้อมูลที่น่าเชื่อถือในหลายประเด็น
  • เพื่อกู้คืนต้นทุนการรายงานข่าว Times จึงจำกัดการเข้าถึงบทความด้วย เพย์วอลล์ ที่เข้มงวด
  • บริษัทควบคุมการใช้ผลงานผ่านการแจ้งลิขสิทธิ์ในฉบับพิมพ์ ข้อกำหนดการให้บริการที่จำกัดการคัดลอกและการใช้งาน และนโยบายการให้สิทธิ์ใช้งานแบบเลือกสรร
  • แกนหลักของเหตุผลเรื่องความเสียหายในคดีคือ หากเครื่องมือของ OpenAI นำเสนอคอนเทนต์ของ Times โดยไม่ได้รับอนุญาต ก็จะทำลายความสัมพันธ์กับผู้อ่านและแย่งรายได้จากค่าสมัครสมาชิก ไลเซนส์ โฆษณา และพาร์ตเนอร์ชิป

ประเด็นเกี่ยวกับการใช้ข้อมูลฝึก

  • Times อ้างว่าคอนเทนต์ของตนถูกนำไปใช้โดยไม่ได้รับอนุญาตในกระบวนการฝึก GPT หลายเวอร์ชัน
  • ก่อน GPT-3.5 มีการเปิดเผยข้อมูลเกี่ยวกับชุดข้อมูลฝึก และ Times เห็นว่าในหนึ่งในนั้นคือ Common Crawl มีเร็กคอร์ดไม่ซ้ำ 16 ล้านรายการที่เผยแพร่จากเว็บไซต์ของ Times รวมอยู่
  • ตามเกณฑ์ดังกล่าว Times เป็นแหล่งอ้างอิงที่ถูกใช้มากเป็นอันดับสาม รองจาก Wikipedia และฐานข้อมูลสิทธิบัตรสหรัฐฯ
  • แม้ OpenAI จะไม่เปิดเผยรายละเอียดข้อมูลฝึกของ GPT เวอร์ชันล่าสุดมากเหมือนเดิมแล้ว แต่คำฟ้องชี้ถึงพฤติการณ์ว่าบทความฉบับเต็มของ Times ยังคงถูกรวมอยู่ในกระบวนการฝึก
  • หากคดีเดินหน้าต่อ ประเด็นการเข้าถึงข้อมูลฝึกอาจกลายเป็นจุดสำคัญในกระบวนการ เปิดเผยพยานหลักฐาน

ปัญหาการถ่ายทอดซ้ำที่ปรากฏในขั้นตอนการสร้างผลลัพธ์

  • คำฟ้องไม่ได้หยุดอยู่ที่การใช้สื่อที่มีลิขสิทธิ์ในการฝึก แต่เน้นด้วยว่าเนื้อหาที่เรียนรู้ไปแล้วสามารถถูกสร้างออกมาอีกครั้งระหว่างการใช้งานได้
  • Times ระบุว่าเครื่องมือ generative AI ที่ใช้ OpenAI สามารถ อ่านข้อความของคอนเทนต์ Times แบบคำต่อคำ หรือสรุปอย่างใกล้เคียงมาก หรือเลียนแบบสไตล์การเขียนได้
  • เอกสารคำฟ้องมีตัวอย่างที่ GPT-4 ถ่ายทอดส่วนใหญ่ของบทความ Times ออกมาแทบจะตรงต้นฉบับ
  • พรอมป์ตัวอย่างคือให้ชื่อบทความของ Times กับ ChatGPT แล้วขอให้แสดงย่อหน้าแรก จากนั้นขอให้แสดงย่อหน้าถัดไปต่อเนื่อง
  • เมื่อ Ars Technica ทดสอบบางส่วนของพรอมป์เดียวกัน ChatGPT แนะนำให้ตรวจสอบจากเว็บไซต์ของ Times หรือแหล่งข้อมูลที่น่าเชื่อถืออื่น แต่ก็ยังไม่อาจตัดความเป็นไปได้ได้ว่า หากมีบริบทก่อนหน้าเพียงพอ เนื้อหาที่มีลิขสิทธิ์อาจถูกแสดงออกมา
  • Copilot เป็นบริการที่เปลี่ยนชื่อมาจาก Bing Chat และ Ars Technica ยืนยันว่าเมื่อขอให้แสดงย่อหน้าแรกของบทความ Times บางชิ้น ระบบสามารถถ่ายทอดช่วงต้นของบทความได้ราวหนึ่งในสาม

การโต้แย้งเรื่อง fair use และความเสียหายต่อชื่อเสียง

  • ฝั่ง OpenAI และ Microsoft เคยแสดงจุดยืนต่อสาธารณะว่าการใช้คอนเทนต์ที่มีลิขสิทธิ์โดยไม่ได้รับอนุญาตเพื่อฝึกโมเดล generative AI เป็น fair use เพราะมี วัตถุประสงค์เชิงแปลงรูปแบบ แบบใหม่
  • Times โต้ว่า การใช้คอนเทนต์ของ Times โดยไม่จ่ายค่าใช้จ่ายเพื่อสร้างผลิตภัณฑ์ที่มาแทนที่ Times และแย่งผู้อ่านไปนั้นไม่ได้มีความเป็นการแปลงรูปแบบแต่อย่างใด
  • อาการ hallucination ของ AI ก็ถูกยกว่าเป็นองค์ประกอบที่อาจทำลายคุณค่าด้านชื่อเสียงของ Times ได้เช่นกัน
  • ตัวอย่างเช่น Times อ้างว่าโมเดล GPT แต่งขึ้นว่า Times เคยตีพิมพ์บทความเมื่อวันที่ 10 มกราคม 2020 ว่าด้วยความเชื่อมโยงระหว่างน้ำส้มกับโรคมะเร็งต่อมน้ำเหลืองชนิด non-Hodgkin ทั้งที่ Times ไม่เคยเผยแพร่บทความดังกล่าว
  • คำฟ้องยังอ้างว่า Copilot ให้รายการตัวอย่างที่ไม่มีอยู่ในต้นฉบับเกี่ยวกับบทความ Times ว่าด้วยอาหารที่ดีต่อสุขภาพหัวใจ และ 80% ของรายการที่ขอไม่ได้ถูกกล่าวถึงในบทความต้นฉบับ
  • ในกรณีคำแนะนำของ Wirecutter มีการอ้างว่าผลิตภัณฑ์ที่พนักงานไม่เคยรีวิวกลับถูกระบุว่าเป็นคำแนะนำของ Wirecutter

Wirecutter และปัญหารายได้จากพาร์ตเนอร์

  • Wirecutter เป็นสื่อที่ The New York Times เป็นเจ้าของ
  • คำฟ้องอ้างว่า Copilot สามารถแสดงส่วนสำคัญของบทความ Wirecutter ได้เช่นกัน
  • ในข้อความตัดตอนจากบทความดังกล่าว ลิงก์แอฟฟิลิเอต ถูกลบออก ทำให้รายได้สำคัญของ Wirecutter ถูกตัดทอน

รายการข้อเรียกร้องทางกฎหมาย

  • คดีนี้กล่าวหาบริษัทที่เกี่ยวข้องกับ OpenAI ว่าต้องรับผิดชอบด้านการพัฒนาซอฟต์แวร์ และกล่าวหา Microsoft ร่วมว่าต้องรับผิดชอบด้านการให้บริการบนพื้นฐาน OpenAI และการสร้างโครงสร้างพื้นฐานสำหรับการฝึก
  • รายการข้อกล่าวหารวมถึงการละเมิดลิขสิทธิ์โดยตรง การมีส่วนร่วมในการละเมิด และการละเมิดโดยตัวการแทน
  • นอกจากนี้ยังมีการกล่าวหาเรื่องการละเมิด DMCA การละเมิดเครื่องหมายการค้า และ การฉกฉวยผลประโยชน์โดยการแข่งขันที่ไม่เป็นธรรม

1 ความคิดเห็น

 
GN⁺ 2023-12-29
ความคิดเห็นบน Hacker News
  • ถ้าตัดองค์ประกอบของ LLM ออก แล้วสร้างผลิตภัณฑ์จากบทความ NYT ที่ scrape มาอย่างถูกกฎหมาย ก็สงสัยอยู่ว่านั่นเป็น fair use หรือไม่
    เช่น สมมติว่าโฮสต์บทความเหล่านั้น ทำดัชนีให้ และขายฟีเจอร์เขียนใหม่แบบเสียเงิน เช่น สรุปบทความเกี่ยวกับความสัมพันธ์สหรัฐฯ-อังกฤษในช่วง 5 ปีที่ผ่านมา ถึงจะจ่ายแค่ค่าสมาชิกรายเดือนให้ NYT ไม่ได้คายต้นฉบับยาว ๆ ออกมาตรง ๆ และใช้แค่อ้างอิงสั้น ๆ ก็ยังฟังดูไม่เหมือน fair use
    โดยทั่วไปเราไม่สามารถเอาผลิตภัณฑ์แผนใช้งานส่วนบุคคลมาสร้างงานดัดแปลงแล้วขายให้บุคคลที่สามเพื่อเงินได้ กรณีอย่าง VS Code ก็เช่นกัน
    ต่างจาก search engine มาก Search engine ไม่ได้ทดแทนแหล่งต้นทาง แต่กลับส่งคนไปยังต้นฉบับและให้โอกาสซื้อบทความ ส่วนผลิตภัณฑ์แบบนี้หรือ LLM ใช้คอนเทนต์ของ NYT ในฐานะ สินค้าทดแทน ที่ทำให้ไม่จำเป็นต้องสมัคร NYT จริง ๆ

    • สิ่งที่อธิบายมานั้นจริง ๆ แล้วเข้าข่าย fair use อย่างสมบูรณ์
      ยิ่งไปกว่านั้น ถ้าดูบทความข่าวของสื่อระดับรองลงมา ส่วนใหญ่แทบทั้งหมดจะเห็นได้ว่าเอาเนื้อหามาจากที่อย่าง NYT โดยตรง ปกติเขาจะเขียนว่า “ตามรายงานของ The Times คนนั้นคนนี้ทำสิ่งนั้นสิ่งนี้” และมักจะแปะลิงก์ต้นฉบับไว้ด้วย
    • อีกปัจจัยที่ควรพิจารณาคือ neural network อาจทำงานเหมือน การบีบอัดแบบสูญเสียข้อมูล และในโมเดลที่ overfit สิ่งนี้จะเห็นได้ชัดมาก
      บางครั้งมัน overfit มากจนไม่ใช่แม้แต่การบีบอัดแบบสูญเสียข้อมูล แต่ข้อมูลถูกเข้ารหัสไว้ใน neural network แบบตรงตามต้นฉบับเลย
    • “ไม่ได้คายก้อนบทความ NYT ต้นฉบับออกมาตรง ๆ ใช้แค่ข้อความคัดย่อสั้นมาก ๆ” นั่นแทบจะเป็นคำอธิบายของ Google เลย
      พอคิดดูแล้วก็น่าทึ่งที่ Google ถูกกฎหมาย แต่สิ่งที่ Google ทำได้รับการยอมรับอย่างชัดเจนว่าถูกกฎหมาย ภายใน Google เก็บและใช้สำเนาข้อความฉบับเต็มของเว็บเพจทั้งหมดที่ทำดัชนีไว้
      แน่นอนว่า Google ให้ลิงก์ไปยังแหล่งต้นทาง ถ้า OpenAI ทำแบบเดียวกัน แล้ว click-through rate มีแค่ 0.1% และแทบไม่ช่วยรายได้ของ NYTimes เลย ก็จะถือว่าถูกกฎหมายไหม? แล้วถ้าตรวจจับจังหวะที่กำลังจะส่งออกต้นฉบับตรง ๆ แล้วทำให้มันแค่ถอดความแทนล่ะ? NYTimes ไม่ได้มีลิขสิทธิ์เหนือฉบับถอดความของบทความตัวเอง ในทางปฏิบัติแทบไม่ต่างกันเลย ดังนั้นถ้ารัฐบาลบังคับให้ใช้วิธีอ้อมแบบนั้นก็คงค่อนข้างน่าขำ
    • การเขียนบทความข่าวหรือบล็อกที่แทบจะสรุปบทความข่าว และมักอ้างอิงเป็นครั้งคราว ไม่ใช่เรื่องปกติธรรมดามากหรอกหรือ?
    • คำถามที่ว่า “ถ้าสร้างผลิตภัณฑ์จากบทความ NYT ที่ scrape มาอย่างถูกกฎหมาย จะเป็น fair use ไหม?” ไม่ใช่คำถามที่ดี
      การมองออกไปนอกหน้าต่างแล้วเห็นเพื่อนบ้านไปร้านค้านั้นไม่เป็นไร แต่ถ้าใช้กล้องติดตามทุกคนบนถนนแล้วใส่ลงฐานข้อมูล ในหลายที่ก็จะเป็นปัญหาและผิดกฎหมาย
      เมื่อ สเกลใหญ่ขึ้น ตรรกะไม่ได้จำเป็นต้องใช้ได้เหมือนเดิมเสมอไป
  • ในคดีมีตัวอย่างที่ ChatGPT/Bing Copilot คัดลอก NYT แบบตรงตามต้นฉบับ ออกมา ดูยากที่จะอ้างว่าการคัดลอกแบบนี้เป็น fair use
    อย่างไรก็ตาม OAI/MS น่าจะแก้ไขได้แม้อยู่ใน paradigm ปัจจุบัน แค่ฝึกด้วย RLHF ให้รู้จักการลอกเลียนและให้คะแนนโทษก็พอ
    แต่คดีนี้ไปไกลกว่าการบอกว่าการคัดลอกแบบนั้นเป็นการละเมิดลิขสิทธิ์มาก มันอ้างว่า “การทำสำเนางานของ Times โดยไม่ได้รับอนุญาตเพื่อฝึก LLM เป็นการใช้ทดแทนที่ไม่ได้รับความชอบธรรมจากวัตถุประสงค์เชิงแปลงสภาพ”
    นี่เป็นข้อกล่าวอ้างที่แรงว่าการดาวน์โหลดบทความมาเป็นข้อมูลฝึกสอนนั้นเป็นการละเมิดลิขสิทธิ์ในตัวมันเอง การที่ GPT ส่งออกต้นฉบับอาจเป็นสิ่งที่ทำให้ประเด็นไขว้เขวก็ได้ หวังว่าผู้พิพากษาจะมองออก และโฟกัสไปที่ประเด็นกฎหมายที่ยังไม่ชัดเจน น่าสนใจ และมีผลประโยชน์ใหญ่โตว่า อะไรในโมเดลที่อาจเป็นหรือไม่เป็น transformative use

    • “ให้ RLHF รู้จักการลอกเลียนและให้คะแนนโทษ” นั่นไม่ใช่ปัญหาของ RLHF
      วิธีที่คาดหวังคือการคง n-gram Bloom filter ของคอนเทนต์ที่รู้ว่ามีลิขสิทธิ์ไว้ เช่น แจกแจงชุดคำต่อเนื่อง 7 คำทั้งหมดในบทความเพื่อตรวจสอบ และทำให้โมเดลส่งออกคำที่เหมือนแหล่งต้นทางได้ไม่เกิน n-1 คำ
      แต่นี่จะย้อนศรกลับมา บริษัท AI จะลงทุนกับ การระบุแหล่งที่มาของคอนเทนต์ มากขึ้นมาก และเครื่องมือระบุแหล่งที่มาใหม่ ๆ จะถูกนำไปใช้กับบทความทั้งหมดที่มนุษย์เขียนด้วย เพราะใคร ๆ ก็อาจแอบใช้ GPT ได้ ซึ่งอาจเกิดผลยับยั้งความคิดสร้างสรรค์ อีกทั้งไม่ใช่ทุกอย่างที่ NYT เขียนจะเป็นต้นฉบับ ดังนั้น NYT ก็ต้องถูกเทียบกับแหล่งที่มาอื่นทั้งหมดด้วย
    • คิดว่า NYT น่าจะชนะ
      มีช่องให้มอง LLM ว่าเป็น คลังข้อมูลบีบอัด ที่มีอัลกอริทึมแปลก ๆ ได้ ข้อเท็จจริงที่ว่ามันสามารถคายข้อมูลฝึกสอนออกมาแบบตรงตามต้นฉบับได้เป็นระยะ ๆ และมีมาตรการป้องกันเพื่อกันไม่ให้เกิดสิ่งนี้ คือหลักฐาน
      หลักฐานชิ้นที่สองคือบทความวิจัยที่อธิบายไว้ที่นี่: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... นักวิจัยใช้ข้อมูลที่บีบอัดด้วย gzip เป็นโมเดลแทน LLM และถึงกับเอาชนะ LLM ที่ฝึกมาแล้วได้
      AI เป็น black box ในระดับหนึ่ง แต่การดำเนินการ black box ไม่ได้ทำให้ได้รับความคุ้มครองจากคดีละเมิดสิทธิ์ เราไม่สามารถสร้างฐานข้อมูลจากการ scrape ข้อมูลที่มีลิขสิทธิ์ แล้วไปจดสิทธิบัตรว่าการ query ข้อมูลนั้นเป็น fair use ได้
      เรื่องนี้ต้องมีกฎหมาย และกฎหมายนั้นคงไม่ใช่ “ถ้าใช้ฝึกโมเดล ทุกคนก็คัดลอกทุกอย่างได้ฟรี” ต้องจัดการเรื่องไลเซนส์ และต้องเขียนกฎหมายจริง ๆ ไม่ใช่แค่พึ่งคำพิพากษาบรรทัดฐานเท่านั้น ผมค่อนข้างเห็นใจการให้ดุลยพินิจกว้าง ๆ แก่นักวิจัยโอเพนซอร์สและแฮกเกอร์ แต่ไม่ได้เห็นใจ Microsoft และ OpenAI ที่ Microsoft สนับสนุนในระดับเดียวกัน
    • fair use หลายกรณีมี การคัดลอกตรงตามต้นฉบับ รวมอยู่ด้วย คำถามสำคัญไม่ใช่ตัวการคัดลอกเองเท่ากับบริบทที่การคัดลอกนั้นเกิดขึ้น NYT กำลังเข้ามาในพื้นที่ที่ยังไม่เคยมีใครบุกเบิก
    • ไม่รู้ว่าข้อเสนอ “ให้ RLHF รู้จักการลอกเลียนและให้คะแนนโทษ” จะทำงานจริงอย่างไร ถ้าจะรู้จักการลอกเลียนระหว่าง inference ก็กลับต้องจดจำให้แน่นยิ่งกว่าเดิม
      ถ้ามันทำงานได้ก็ค่อนข้างตลก คือฝึกให้คัดลอกข้อมูลฝึกสอนแบบตรงตามต้นฉบับก่อน แล้วค่อยฝึกอีกทีว่าอย่าทำแบบนั้น
      เดิมทีมันก็ทำงานแบบนั้นไม่ใช่หรือ? เพราะ loss function เป็นแบบนั้น จึงถูกฝึกให้คัดลอกข้อมูลฝึกสอนแบบตรงตามต้นฉบับ เพียงแต่ข้อมูลมีมากเกินไป จึงไม่คาดหวังว่ามันจะทำแบบนั้นได้กับข้อมูลฝึกสอนส่วนใหญ่เมื่อพิจารณาจำนวนพารามิเตอร์
    • การคัดลอกงานที่มีลิขสิทธิ์แล้วใช้ตามวัตถุประสงค์ในการแสดงออกเดิม ไม่ใช่ fair use ใช่ไหม? ต้องใช้เพื่อ วัตถุประสงค์เชิงแปลงสภาพ
      สมมติว่าผมขายเว็บสมัครสมาชิกชื่อ New Jersey Times แล้วแค่ดาวน์โหลดบทความ New York Times มาผ่าน autoencoder ที่ใส่ noise แบบสุ่มเข้าไป วัตถุประสงค์เหมือนกับเว็บไซต์ New York Times ทุกประการ แค่ผมเป็นคนได้เงิน แบบนี้เป็น fair use หรือ?
  • NYT กำลังก่อ ปราสาททรายหน้าคลื่นสึนามิ อยู่ มองในภาพใหญ่แล้ว คดีนี้จะไม่สำคัญด้วยเหตุผลหลายอย่าง
    อย่างแรก LLM รุ่นถัดไปจะถูกฝึกด้วยข้อมูล “สังเคราะห์”/ข้อมูลสาธารณะเท่านั้น GPT-4V สามารถฟอกคลังข้อความฝึกทั้งหมดที่มีลิขสิทธิ์ให้จำไม่ได้อย่างง่ายดาย เช่น เขียนใหม่ 40% แล้วลบผู้เขียนกับแหล่งที่มาออก แบบนั้นก็จะไม่มีเนื้อหาลิขสิทธิ์ให้ GPT-5 คายออกมาอีก
    อย่างที่สอง งานวิจัย การโฮสต์ และความก้าวหน้าจะเดินหน้าต่อไป สหรัฐฯ หยุดสิ่งนี้ไม่ได้ ทำได้แค่เลือกจะตามหลัง โลกจะเดินหน้าต่อไป และจีนก็จะเฝ้าดูอย่างสนุกสนานเมื่อคู่แข่งรายใหญ่ที่สุดฆ่าตัวตายทางปัญญาเพื่อเอาใจบริษัทสื่อที่แสวงหาค่าเช่า
    อย่างที่สาม โมเดลสามารถแชร์ weight, merge เข้าหากัน, ร่วมมือกัน, ถูกตัดออก และวิวัฒน์ข้ามรีลีสหลายเจเนอเรชันได้ กฎหมายลิขสิทธิ์ไม่เหมาะอย่างยิ่งสำหรับการไล่ตามผู้ละเมิดในซุปสายตระกูล AI แบบนี้ที่ถูกเคี่ยวจากข้อมูลซึ่งที่มาไม่ชัดเจนหรือน่าสงสัย
    ไม่ว่าจะชอบหรือไม่ เรากำลังอยู่ในยุคสติปัญญาใหม่ NYT และรายอื่นๆ จะถูกพาไปกับกระแสนี้ไม่ว่าพวกเขาจะต้องการหรือไม่ก็ตาม

    • นี่เป็นการตีความที่แย่มากจริงๆ เป็นตรรกะแบบอ้างผลลัพธ์ ผมคิดว่า New York Times มีความชอบธรรมโดยสมบูรณ์ที่จะดำเนินการทางกฎหมาย พวกเขาลงทุนเวลาและแรงในการสร้างคอนเทนต์ แต่ถูกนำไปใช้เพื่อผลประโยชน์ทางการเงินโดยไม่ได้รับอนุญาต นี่คือการละเมิดชัดเจน
      ถ้าดูองค์ประกอบของ fair use ในด้านวัตถุประสงค์และลักษณะการใช้งาน อาจมีเหตุผลเรื่องการแปลงสภาพในอนาคตได้ แต่ข้อพิพาทปัจจุบันอยู่ที่การใช้ต้นฉบับแบบตรงๆ ดังนั้นจึงชัดเจนว่าไม่ใช่การแปลงสภาพ การใช้เชิงพาณิชย์ก็ทำให้การวินิจฉัย fair use ยากขึ้นอีก
      ในด้านลักษณะของงานอันมีลิขสิทธิ์ งานที่เป็นข้อเท็จจริงมากกว่ามักมีโอกาสถูกยอมรับว่าเป็น fair use สูงกว่า แต่ผมมองว่าบทความของ NYT แม้จะเป็นข้อเท็จจริงก็ยังมีความสร้างสรรค์ด้วย
      ในด้านปริมาณและสาระสำคัญที่ใช้ มีการใช้บทความทั้งชิ้น จึงไม่มีช่องให้โต้แย้งว่าใช้เพียงส่วนเล็กน้อยที่ไม่สำคัญ
      ในด้านผลกระทบต่อมูลค่าตลาด NYT ไม่ได้รับเงิน และถ้าผู้คนไปดูใน ChatGPT แทนที่จะอ่านบทความของ NYT ก็ไม่มีทางช่วยมูลค่าตลาดได้
      ผมไม่ใช่นักกฎหมาย แต่คิดว่า NYT มีสิทธิ์เพียงพอที่จะยื่นฟ้อง ความก้าวหน้าเป็นสิ่งหลีกเลี่ยงไม่ได้ แต่มนุษย์ต้องเป็นผู้หล่อหลอมและนำทางมันอย่างแข็งขัน ไม่เช่นนั้นจะเรียกว่าความก้าวหน้าไม่ได้ การดำเนินการทางกฎหมายในที่นี้เป็นเครื่องมือที่จำเป็นให้บุคคลและองค์กรยืนยันสิทธิของตนและมีอิทธิพลต่อทิศทาง
    • “บริษัทสื่อที่แสวงหาค่าเช่า” งั้นเหรอ? บริษัทสื่อที่สร้างคอนเทนต์จริงๆ นี่เป็น การแสวงหาค่าเช่า เหรอ? เมื่อเทียบกับขยะภาพหลอนที่ AI สร้างขึ้นน่ะ?
    • ที่ว่า “จีนจะดูสหรัฐฯ ฆ่าตัวตายทางปัญญาอย่างสนุกสนาน” หมายถึงจีนประเทศเดียวกับที่ได้ออกกฎระเบียบกว้างขวางเกี่ยวกับ AI ไปแล้วนั่นหรือ?
      อย่างน้อยในกรณีหนึ่ง สตาร์ทอัพจีนต้องปิดแชตบอตที่เพิ่งเปิดตัว เพราะมันพูดเกี่ยวกับสงครามยูเครนไม่ตรงกับจุดยืนทางการของพรรค
      https://finance.yahoo.com/news/beijing-tries-regulate-china-...
      https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
      ผมเห็นด้วยว่างานวิจัย การโฮสต์ และความก้าวหน้าจะดำเนินต่อไป แต่ไม่ค่อยแน่ใจว่าจีนจะเป็นผู้ได้ประโยชน์เพียงเพราะสหรัฐฯ เพิ่มอุปกรณ์นิรภัยให้รถไฟเหาะนี้อีกนิด
    • สื่อเป็นการแสวงหาค่าเช่าจริงหรือ? พวกเขาสร้าง คอนเทนต์และบทวิเคราะห์ใหม่ และอยากได้รับค่าตอบแทนจากสิ่งนั้น ดูต่างจากการกักตุนทรัพยากรธรรมชาติหรือที่ดินอยู่มาก
    • กฎข้อแรกของอินเทอร์เน็ตคือ “ถ้าเอาขึ้นอินเทอร์เน็ตแล้ว มันไม่ใช่ของคุณอีกต่อไป”
      ไม่จำเป็นต้องเห็นด้วย และไม่จำเป็นต้องชอบ แต่ถ้ายอมรับและใช้ชีวิตให้สอดคล้องกับมัน ก็จะเจ็บตัวน้อยลงมาก
  • ตัวคำฟ้องเองคือเอกสารนี้ที่ arstechnica ลิงก์ไว้: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
    ตั้งแต่หน้า 30 เป็นต้นไปมีตัวอย่างค่อนข้างชัดเจนว่า ChatGPT มีสำเนาภายในของเนื้อหาที่มีลิขสิทธิ์ และท่องออกมาแบบตรงกับต้นฉบับ
    โดยสาระแล้ว นี่คือสถานการณ์ที่คัดลอกเนื้อหามีลิขสิทธิ์จำนวนมากเข้าไปในก้อนอะไรสักอย่างแล้วใช้การบีบอัดแบบสูญเสียข้อมูลกับมัน การบีบอัดนั้นต้องทำลายข้อมูลมากแค่ไหน ลิขสิทธิ์ถึงจะไม่ใช้บังคับอีกต่อไป? ดูเหมือนว่าคงต้องทำลายไปค่อนข้างมาก
    สิ่งที่อาจช่วย OpenAI ได้กลับเป็น ความปิด ของมันเอง OpenAI สามารถจับคู่โดยตรงกับส่วนที่มีลิขสิทธิ์ในชุดข้อมูลที่ ChatGPT ถูกฝึก แล้วกรองและบล็อกไม่ให้เนื้อหาลิขสิทธิ์หลุดออกจาก LLM ผ่านเว็บอินเทอร์เฟซได้ ในทางกลับกัน โปรเจกต์โอเพนซอร์สที่ฝึกด้วยชุดข้อมูลเดียวกันจะมีโจทย์ที่ยากกว่ามาก คือการต้องเอาเนื้อหาลิขสิทธิ์ออกจากตัว LLM เอง

    • เป้าหมายของส่วนที่ว่า “คัดลอกเนื้อหาลิขสิทธิ์จำนวนมากใส่ลงในก้อนแล้วใช้การบีบอัดแบบสูญเสียข้อมูล” อาจใกล้เคียงกับ “ให้ไม่มีใครสังเกตได้ว่าขโมยมา” มากกว่า
      หมายถึงทำให้ไม่ถูกค้นพบง่ายๆ หรือแม้จะวิเคราะห์โดยตรงก็ยังมี plausible deniability มากพอที่จะเอาตัวรอดได้
    • ผมสงสัยว่าได้ผลลัพธ์นี้มาอย่างไร เพราะไม่ได้แสดง UI ปกติอย่างหน้าจอ ChatGPT หรือ Copilot
      จึงยากจะตัดสินว่าเป็นการทำซ้ำจากข้อมูลฝึก หรือเป็นความผิดพลาดแบบเดียวกับในบทความต้นฉบับ ที่ใช้ Copilot ให้ค้นหาบทความ/ค้น Bing ก่อน แล้วค่อยตอบ
    • คำตอบต่อ “ความปิด” คือ การ audit ที่ถูกควบคุมจากภายนอก
  • หากคิดว่าตัวอย่างในคดีนี้เป็น “การใช้งานโดยชอบธรรม” ก็ควรคิดให้ดีว่านั่นหมายถึงอะไร ในทางปฏิบัติคือการปล่อยให้บริษัทไม่กี่แห่งรวบรวมมูลค่าทั้งหมดของอินเทอร์เน็ตเข้าไปไว้ใน กล่องดำ ของตัวเองโดยแทบไม่มีกฎเกณฑ์ใด ๆ ซึ่งดูอันตรายมาก
    แม้จะไม่ใช่คดีนี้ ก็หวังว่าศาลจะช่วยกำหนดกติกาการปะทะกันในเรื่องนี้

    • ผมมองตรงกันข้ามเลย หากต้นทุนข้อมูลคุณภาพสูงพุ่งเป็นหลายพันล้านดอลลาร์ ก็จะไม่มี โมเดลโอเพนซอร์ส ใดแบกรับค่าใช้จ่ายในการฝึกได้ไหว
      จนกว่าจะมีใครแก้ปัญหาข้อมูลสังเคราะห์ได้ วงการนี้ก็จะเหลือแต่ผู้เล่นอย่าง OpenAI และ Google
    • การสเครปข้อมูลเป็นสิ่งถูกกฎหมาย และกรณีนี้ดูเหมือนงานดัดแปลงเชิงเปลี่ยนรูป
    • อีกฝั่งก็น่ากังวลเช่นกัน กฎหมายทรัพย์สินทางปัญญานั้นซับซ้อน ยุ่งเหยิง ขัดแย้ง และคลุมเครือทางศีลธรรมมาโดยตลอด
      ข้อถกเถียงเรื่องการละเมิดทรัพย์สินทางปัญญาของ LLM ทำให้ข้อบกพร่องที่มีอยู่โดยเนื้อแท้นี้ปรากฏขึ้นทันที และท้ายที่สุดก็บังคับให้ต้องมีคำตัดสินที่จะสร้างบรรทัดฐานเกี่ยวกับความชอบด้วยกฎหมายของการคิดของมนุษย์ เป็นปัญหาที่ไม่มีใครสบายใจได้
      ผมเข้าใจว่าการให้อำนาจดุลยพินิจแก่ OpenAI และ Microsoft มากเกินไปอาจเป็นอันตราย แต่ในทางกลับกันก็พลาดประเด็นไปว่า บริษัทอย่าง Disney ได้กำหนดทิศทางกฎหมายลิขสิทธิ์ส่วนใหญ่มาอย่างแท้จริงเป็นเวลาหลายสิบปีแล้ว พวกเขาคงน้ำลายสออยู่กับความเป็นไปได้ที่จะเกิดบรรทัดฐานที่ว่า แม้แต่ความสามารถในการมีปฏิสัมพันธ์กับสื่อหรือข้อมูลใด ๆ ในระดับใดก็ตามก็อาจต้องจ่ายเงิน
      สุดท้ายแล้วเรากำลังตระหนักว่าเราได้สร้างระบบเศรษฐกิจขนาดมหึมาบนแนวคิดที่มีข้อบกพร่องโดยพื้นฐานอย่างการเป็นเจ้าของไอเดีย ทางออกคือฉีกตำรากฎทิ้ง ซึ่งจะเจ็บปวดมาก หรือไม่ก็ผลักดันต่อไปให้หนักขึ้น ซึ่งจะถึงตาย
    • ศาลได้ตัดสินเรื่องนี้ไปแล้ว
      ในญี่ปุ่นบอกว่า สำหรับ AI แล้วทำอะไรก็ได้
      ทางที่ดีคืออย่าเสียเปรียบในการแข่งขันเพียงเพราะเอาอะไรขึ้นอินเทอร์เน็ตอย่างเปิดเผย ถ้าคุณเอาออกมาให้ทุกคนดู ก็ต้องคาดไว้ได้ว่าคนอื่นจะนำไปใช้
  • นักพัฒนาชอบแสร้งว่า LLM คล้ายมนุษย์ และใช้สื่ออย่าง NYTimes เป็นสื่อการเรียนรู้เหมือนมนุษย์
    แต่ไม่ใช่เลย มองให้ง่ายกว่านั้นคือ งานเขียนที่เป็นกรรมสิทธิ์ถูกผนวกเข้าไปในซอร์สโค้ดของ OpenAI แล้ว เหมือนกับผมคัดลอกโค้ดกรรมสิทธิ์บางส่วนของคนอื่นมาแปะใน codebase ของตัวเอง แล้วอ้างว่าการคัดลอกวางเป็นกระบวนการวิวัฒนาการตามธรรมชาติของวิวัฒนาการนับล้านปี
    ความจริงที่ว่า LLM ซับซ้อนเกินกว่าจะรู้ว่ามันอยู่ตรงไหน ไม่ได้ทำให้เรื่องนี้เป็นอย่างอื่นไปได้

    • นั่นไม่ใช่การคัดลอก-วาง แต่เป็นการ บีบอัดแบบมีการสูญเสียข้อมูล แม้แต่ GPT-4 ก็ไม่มีหน่วยความจำมากพอจะเก็บข้อมูลฝึกทั้งหมดในรูปแบบบีบอัดแบบไม่สูญเสียข้อมูลได้เลย คล้ายกับการที่มนุษย์บีบอัดข้อมูลที่อ่านมา
    • นักพัฒนาที่คิดว่า LLM คล้ายมนุษย์นั้นไม่ได้ฉลาดนัก และมักกลายเป็นเป้าถูกล้อเลียน
    • คำว่า “งานเขียนที่เป็นกรรมสิทธิ์ถูกผนวกเข้าไปในซอร์สโค้ดของ OpenAI” นั้นไม่ถูกต้อง
      ซอร์สโค้ดของ LLM น่าจะเป็นข้อความไม่กี่ร้อยบรรทัดที่อธิบายรูปแบบของโครงข่ายประสาทเทียมที่อยู่ในโมเดล
      เนื้อหาของ NYTimes ไม่น่าจะอยู่ในซอร์สโค้ด NYTimes ไม่ได้เผยแพร่ซอร์สโค้ด Python แต่เผยแพร่ข่าวในภาษามนุษย์
      ในเชิงแนวคิด LLM นั้นเรียบง่าย ส่วนใหญ่ประกอบด้วยการคูณเมทริกซ์ การดำเนินการไม่เชิงเส้นที่เชื่อมแต่ละเลเยอร์ และลูปแบบอาศัย attention เป็นต้น สิ่งที่ทำให้ซับซ้อนคือ ข้อมูลฝึกและปริมาณการคำนวณ อันมหาศาล
  • บริษัทที่มีคอนเทนต์ต่างได้กลิ่นเงินกันหมด
    NYT คงไม่รังเกียจที่เนื้อหาของตัวเองถูกใช้ฝึก LLM ขอแค่ได้รับค่าธรรมเนียมเท่านั้น Reddit จะปิด API ฟรีและให้คนจ่ายเงินหากต้องการคอนเทนต์สำหรับฝึก Discord ก็จะขายคอนเทนต์สำหรับฝึก AI หากยังไม่ได้ทำไปแล้ว Twitter ก็ทำอยู่
    เมื่อก่อน LLM เป็นแค่การทดลอง จึงไม่มีใครสนใจ ตอนนี้มีมูลค่าหลายล้านล้านดอลลาร์เป็นเดิมพัน

    • NYT ไม่ได้ “มี” คอนเทนต์ แต่ สร้างคอนเทนต์ นั่นคือเหตุผลที่มันมีอยู่
    • “พวกเขา” รวมถึงคนที่ทำงานอยู่ที่นั่นด้วย ใครบางคนเขียนบทความแบบเต็มเวลา แล้วทำไมต้องส่งมอบผลงานนั้นให้ฟรี เพื่อให้ใครบางคนเอาไปฝึกและทำเงินจากผลลัพธ์?
    • ถ้าตอน LLM ยังเป็นการทดลองไม่สนใจ แต่พอเห็นมูลค่าหลายล้านล้านดอลลาร์แล้วค่อยขยับ จะอ้างได้ไหมว่าเป็นความผิดของ NYT เองที่มองอนาคตไม่ออกและหลับอยู่ จน “เมื่อมองย้อนกลับไปจึงเป็นความผิดพลาด” ที่ปล่อยให้ OpenAI และรายอื่น ๆ เข้าถึงคอนเทนต์ของตัวเองได้ฟรี เปิดเผย และไม่จำกัด?
  • มุมมองของ NYT จะดูโง่มากในอนาคต เมื่อเราเอา LLM ใส่เข้าไปในร่างกลที่โต้ตอบกับโลกกายภาพ และเรียนรู้/อัปเดตค่าน้ำหนักได้แบบเรียลไทม์
    หุ่นยนต์แบบนั้นอาจกลายเป็นว่าการอ่าน ดู หรือฟังสื่อที่มีลิขสิทธิ์ทั้งหมดเป็นสิ่งผิดกฎหมาย ดูทีวีก็ไม่ได้ อ่านหนังสือห้องสมุดก็ไม่ได้ ท่องเว็บก็ไม่ได้ เพราะระหว่างนั้นอาจจดจำเนื้อหาบางส่วนที่มีลิขสิทธิ์ไว้ได้

    • ไม่เห็นด้วย ปัญหาคือส่วนที่เป็น ต้นฉบับแบบคำต่อคำ กำลังเทียบกับวิธีการทำงานของมนุษย์ แต่มนุษย์ก็ไม่ได้รับอนุญาตให้ทำแบบนั้นเช่นกัน
      สำหรับมนุษย์อาจยากกว่า แต่ถ้าจำหนังสือที่มีลิขสิทธิ์ได้ทั้งเล่มแล้วไปอ่านออกอากาศทางทีวีแบบสด ๆ หรือสร้างสำเนาจากความทรงจำแล้วนำไปขาย ก็จะถูกฟ้อง
      มนุษย์สร้างงานดัดแปลงอยู่เสมอ และ LLM ทำแบบนั้นก็ไม่เป็นไร แต่ห้ามทำแบบต้นฉบับคำต่อคำ
    • การท่องจำไม่ใช่ปัญหา ปัญหาคือการ ส่งกลับมาแบบต้นฉบับคำต่อคำ หรือการตัดการเข้าถึงแหล่งต้นทาง
      ถ้ามีคนที่มีความจำแบบถ่ายภาพ และผู้คนขอให้คนนั้นท่องข่าวให้ฟังแทนการซื้อหนังสือพิมพ์ ก็จะเกิดปัญหาเดียวกัน
      ปัจจุบัน การแสดงต่อสาธารณะของสื่อที่มีลิขสิทธิ์ถือเป็นการละเมิด
    • LLM แบบนั้นเป็นพลเมืองอิสระที่ได้รับสิทธิหรือไม่? ถ้าใช่ก็โอเค
      หรือทั้งหมดจะถูกบริษัทขนาดยักษ์หนึ่งแห่งเป็นเจ้าของ และถูกใช้เพื่อรีดเงินจากพวกเราทุกคนตามแบบทุนนิยม? ถ้าอย่างนั้นผมเห็นด้วยกับการห้าม
    • ถ้า LLM ที่อยู่ในร่างกายได้รับอนุญาตให้อ่าน nytimes ผ่านแท็บเล็ต ผมคิดว่า NYT ก็คงไม่สนใจ
  • ตั้งแต่ ChatGPT เปิดตัวมา ผม/ฉันก็ยืนยันมาตลอดว่า LLM ควรถูกจัดว่าเป็นการใช้งานโดยชอบธรรมในฐานะ งานดัดแปลงเชิงแปรรูป แม้จะไม่ใช่นักกฎหมาย เป็นแค่ความเห็นของคนนอกวงการกฎหมาย แต่ก็น่าสนใจว่าระบบกฎหมายจะว่าอย่างไรกับเรื่องนี้

    • คดีนี้อ้างว่า GPT ทำซ้ำย่อหน้าของ NYT แทบจะเหมือนต้นฉบับทุกคำ
    • หากคิดถึงขนาดของข้อมูลฝึก และจินตนาการว่าผลลัพธ์หนึ่ง ๆ เป็นผลจากการแทรกระหว่างตัวอย่างฝึกจำนวนมหาศาลจากผู้คนหลากหลาย มุมมองนี้ก็ดูสมเหตุสมผล
      ถ้ายืมชิ้นส่วนมาจากแหล่งที่มาหลายสิบ หลายร้อย หรือหลายพันแห่ง แล้วลิขสิทธิ์ของใครกันที่ถูกละเมิด? รีมิกซ์เพลงก็ยืมจากหลายแหล่งเช่นกัน และหากเพลงนั้นแตกต่างและมีความเป็นต้นฉบับอย่างชัดเจน ก็ดูเหมือนจะผ่านการพิจารณาทางกฎหมายได้ในระดับหนึ่ง
      แต่ข้ออ้างแบบครอบคลุมว่า LLM หรือ AI ในปัจจุบันเข้าข่ายการใช้งานโดยชอบธรรม จะป้องกันได้ยากขึ้นเมื่อโมเดลทำซ้ำงานรายชิ้นที่สมบูรณ์และระบุตัวตนได้ซ้ำ ๆ และในกรณีเฉพาะก็ละเมิดกฎหมายลิขสิทธิ์อย่างชัดเจน โมเดลอาจรีมิกซ์หรือมีลักษณะเชิงแปรรูปในกรณีส่วนใหญ่ แต่มีหลักฐานว่าไม่ได้เป็นเช่นนั้นเสมอไปทุกครั้ง บางทีคดีนี้อาจกลายเป็นแรงผลักดันให้แก้ไข AI ไม่ให้ทำซ้ำงานเฉพาะชิ้น และทำให้ข้ออ้างเรื่องการใช้งานโดยชอบธรรมแข็งแรงขึ้นและป้องกันได้จริงมากขึ้น
    • คำถามนี้ท้ายที่สุดแล้วคงหลีกเลี่ยงไม่ได้ที่จะไปถึง ศาลสูงสุด ยิ่งเร็วยิ่งดี ในความเห็นของผม/ฉัน นี่เป็นการใช้งานโดยชอบธรรมอย่างชัดเจน เอเจนต์เชิงสร้างสรรค์จะถูกมองในทางกฎหมายว่าไม่ต่างจากศิลปินมนุษย์ที่ใช้ผลรวมของอิทธิพลทั้งหมดของตนเพื่อสร้างผลงานใหม่
    • ถ้าขอให้ ChatGPT พิมพ์บทความที่มาจากชุดข้อมูลของมันออกมาแบบต้นฉบับพร้อมแหล่งที่มา จะเกิดอะไรขึ้น?
    • รวมถึงเนื้อหาที่อยู่หลังกำแพงจ่ายเงินด้วยหรือไม่?
  • สถานการณ์นี้ถูกทำนายไว้ในวิดีโอ EPIC 2014 ที่มีอิทธิพลมาก ซึ่งออกมาเมื่อปี 2004
    https://www.youtube.com/watch?v=eUHBPuHS-7s ต้นฉบับเป็น Flash จึงหายไปในหลุมความทรงจำ เหลือเพียงไฟล์แปลงคุณภาพต่ำนี้
    36 วินาที: “แต่สื่อมวลชนอย่างที่คุณเคยรู้จักไม่มีอยู่อีกต่อไปแล้ว”
    40 วินาที: “องค์กรข่าวในศตวรรษที่ 20 กลายเป็นสิ่งรอง เป็นเศษซากโดดเดี่ยวจากอดีตที่ไม่ได้ไกลนัก”
    2 นาที 11 วินาที: “ในปี 2002 Google ยังเปิดตัว Google News ซึ่งเป็นพอร์ทัลข่าวด้วย องค์กรข่าวทั้งหลายต่อต้าน Google News ถูกแก้ไขโดยคอมพิวเตอร์ทั้งหมด”
    5 นาที 13 วินาที: “สงครามข่าวในปี 2010 เป็นเรื่องน่าสังเกตตรงที่ไม่มีองค์กรข่าวจริง ๆ เข้าร่วมเลยแม้แต่แห่งเดียว Googlezon รุกฆาต Microsoft ในที่สุด ด้วยความสามารถที่ยักษ์ซอฟต์แวร์ตามไม่ทัน ด้วยอัลกอริทึมใหม่ คอมพิวเตอร์ของ Googlezon ดึงประโยคและข้อเท็จจริงออกจากแหล่งเนื้อหาทั้งหมดแบบไดนามิก แล้วนำมาประกอบใหม่เป็นบทความใหม่ คอมพิวเตอร์เขียนบทความใหม่ให้ผู้ใช้แต่ละคน”
    5 นาที 55 วินาที: “ในปี 2011 อำนาจที่สี่ซึ่งหลับใหลอยู่ตื่นขึ้นและทำการต่อต้านครั้งแรกและครั้งสุดท้าย New York Times Company ฟ้อง Googlezon โดยอ้างว่าหุ่นยนต์สกัดข้อเท็จจริงของบริษัทละเมิดกฎหมายลิขสิทธิ์ คดีนี้ไปถึงศาลสูงสุด”
    รายละเอียดอาจไม่ได้ตรงเป๊ะ แต่ความแม่นยำโดยรวมก็น่าทึ่ง อย่างไรก็ดี ในไทม์ไลน์นี้อาจเป็นผลผลิตของไฮเปอร์สติชันชนิดหนึ่งก็ได้
    https://en.wikipedia.org/wiki/EPIC_2014 เคยคิดว่า EPIC 2014 อาจเป็นวิดีโอ Flash เพียงเรื่องเดียวที่มีบทความ Wikipedia แต่พอลองค้นดูก็พบว่ามีอีกห้าเรื่อง