1 คะแนน โดย GN⁺ 2023-07-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Sarah Silverman นักแสดงตลกและนักเขียน ร่วมกับ Christopher Golden และ Richard Kadrey ยื่นฟ้อง OpenAI และ Meta แยกกันต่อศาลแขวงสหรัฐ
  • ประเด็นสำคัญคือ ChatGPT และ LLaMA ถูกฝึกด้วยชุดข้อมูลที่มีหนังสือรวมอยู่ด้วยโดยไม่ได้รับอนุญาตจากผู้เขียนหรือไม่
  • โจทก์มองว่าหนังสือที่ได้มาอย่างผิดกฎหมายจาก shadow library อย่าง Bibliotik, Library Genesis และ Z-Library ถูกเผยแพร่ในวงกว้างผ่านทอร์เรนต์
  • ในคดีของ OpenAI มีการยกกรณีที่ ChatGPT สรุป Bedwetter, Ararat, Sandman Slim ขึ้นมาเป็นพฤติการณ์บ่งชี้ว่ามีการใช้ข้อมูลฝึก
  • คดีของ Meta เชื่อมโยงแหล่งข้อมูลฝึกของ LLaMA กับ ThePile และ EleutherAI โดยตั้งข้อสงสัยว่าหนังสือของโจทก์อาจถูกรวมอยู่ในชุดข้อมูลที่ใช้

ผู้ถูกฟ้องและประเด็นหลักของคดี

  • Sarah Silverman, Christopher Golden และ Richard Kadrey ยื่นฟ้อง OpenAI และ Meta แยกกันต่อศาลแขวงสหรัฐ
  • แกนกลางของทั้งสองคดีคือการพิจารณาว่าเข้าข่าย ละเมิดลิขสิทธิ์ หรือไม่
  • โจทก์อ้างว่า ChatGPT ของ OpenAI และ LLaMA ของ Meta ถูกฝึกด้วยชุดข้อมูลที่มีผลงานของตนรวมอยู่ด้วย
  • ประเด็นสำคัญคือชุดข้อมูลดังกล่าวได้มาโดยไม่ได้รับอนุญาตจากผู้เขียนหรือไม่

ข้อถกเถียงเรื่องแหล่งที่มาของข้อมูลฝึก

  • คดีนี้อ้างว่าชุดข้อมูลที่ใช้ฝึก ChatGPT และ LLaMA ได้มาอย่างผิดกฎหมาย
  • เว็บไซต์ shadow library ที่โจทก์ระบุมีดังนี้
    • Bibliotik
    • Library Genesis
    • Z-Library
    • และเว็บไซต์ลักษณะคล้ายกันอื่น ๆ
  • อีกประเด็นที่ถูกหยิบยกคือหนังสือเหล่านี้ถูกแจกจ่ายจำนวนมากผ่าน ระบบทอร์เรนต์

ตัวอย่างที่ยกขึ้นในคดี OpenAI

  • โจทก์ยกกรณีที่ ChatGPT สรุปหนังสือของตนตามพรอมป์ต์มาเป็นหลักฐาน
  • หนังสือที่อยู่ในหลักฐานมีดังนี้
    • Bedwetter ของ Sarah Silverman
    • Ararat ของ Christopher Golden
    • Sandman Slim ของ Richard Kadrey
  • คดียังอ้างว่า ChatGPT ไม่ได้สร้างซ้ำ ข้อมูลการจัดการลิขสิทธิ์ ที่อยู่ในงานตีพิมพ์ของโจทก์

จุดโฟกัสของคดี Meta

  • คดีแยกที่ยื่นต่อ Meta มองว่าหนังสือของโจทก์สามารถเข้าถึงได้ในชุดข้อมูลฝึกของ LLaMA
  • LLaMA ถูกอธิบายว่าเป็น โมเดล AI โอเพนซอร์ส 4 รุ่นที่ Meta เปิดตัวในเดือนกุมภาพันธ์
  • คำฟ้องตั้งข้อสังเกตไปที่ ThePile ซึ่งเป็นหนึ่งในแหล่งที่มาของชุดข้อมูลฝึกที่ระบุในเอกสาร LLaMA ของ Meta
  • ThePile ถูกกล่าวถึงว่าเป็นชุดข้อมูลที่ EleutherAI จัดทำขึ้น

ปฏิกิริยาจากคู่กรณี

  • Christopher Golden และ Richard Kadrey ปฏิเสธที่จะแสดงความเห็นเกี่ยวกับคดี
  • ฝั่งของ Sarah Silverman ยังไม่ตอบกลับจนถึงเวลาที่มีการรายงานข่าว

1 ความคิดเห็น

 
GN⁺ 2023-07-10
ความคิดเห็นจาก Hacker News
  • เท่ากับพูดอย่างชัดเจนว่า ผู้สร้าง AI ได้นำงานที่มีลิขสิทธิ์มาจาก เว็บละเมิดลิขสิทธิ์หนังสือ มาใช้จริง
    แค่ดาวน์โหลดหนังสือจากเว็บนั้นเพียงเล่มเดียวก็อาจถูกฟ้องและถูกตัดสินว่าละเมิดได้ และถ้าดาวน์โหลดทั้งหมดก็อาจต้องรับผิดชดใช้เป็นเงินหลายพันล้านดอลลาร์
    แต่บริษัทอย่าง Google หรือ Facebook ดูเหมือนจะเล่นกันคนละกติกา คล้ายกับสถานการณ์ที่ถ้าฆ่าคนหนึ่งคนคุณคือฆาตกร แต่ถ้าฆ่าคนเป็นล้าน คำถามถึงเรื่องนั้นกลับกลายเป็น “คำถามชี้นำ” และคุณสามารถตอบโต้ด้วยความโกรธได้

    • ควรหยุดคิดสักครู่ว่าเพราะ ลิขสิทธิ์ เด็กแทบทุกคนจึงไม่สามารถเข้าถึงหนังสือแทบทั้งหมดที่เคยถูกเขียนขึ้นมาได้จนถึงทุกวันนี้
      การล้มลิขสิทธิ์ทั้งหมดในชั่วข้ามคืนคงกระทบแรงเกินไป แต่ยิ่งลดอิทธิพลของลิขสิทธิ์ได้มากเท่าไร โลกก็น่าจะดีขึ้นและพัฒนาได้เร็วขึ้นมากเท่านั้น
      ในปี 2023 ประชากรโลกมากกว่าครึ่งมีสมาร์ตโฟนแล้ว จึงน่าจะจินตนาการถึงโลกที่คนกว่าครึ่งเข้าถึงหนังสือดิจิทัลทั้งหมดและเลี้ยงดูเด็ก ๆ ด้วยหนังสือเหล่านั้นได้
    • โมเดลแมชชีนเลิร์นนิง ถูกฝึกด้วยข้อมูลที่มีลิขสิทธิ์มานานแล้ว
      ImageNet เต็มไปด้วยภาพที่มีลิขสิทธิ์, Clearview ก็ขูดข้อมูลใบหน้าจากอินเทอร์เน็ตแบบตรงตัว, และน่าจะมีตัวอย่างที่เก่ากว่านี้อีก
      ไม่แน่ใจว่าศาลสหรัฐเคยตัดสินว่านี่เป็นการใช้งานโดยชอบธรรมมาก่อนหรือยัง แต่ถ้ายังไม่เคย สุดท้ายก็น่าจะตัดสินไปในทางนั้น
    • ถ้าพูดให้เคร่งครัด สิ่งที่มักถูกฟ้องไม่ใช่การดาวน์โหลด แต่คือการ อัปโหลด
      ตราบใดที่ไม่แชร์ต่อ ก็สามารถดาวน์โหลดจาก Z-Library หรือ BitTorrent ได้เท่าที่ต้องการ
      การทำดัชนีเนื้อหาที่มีลิขสิทธิ์เพื่อการค้นหาก็ดูจะปลอดภัย หรืออย่างน้อยก็อยู่ในพื้นที่สีเทา
    • สงสัยว่าคำกล่าวที่ว่า “ถ้าดาวน์โหลดหนังสือจากเว็บนั้นจะถูกฟ้องและตัดสินว่าละเมิด” เกิดขึ้นจริงบ่อยแค่ไหน
      อาจได้รับหนังสือแจ้งการละเมิด และถ้าทำหนักจริงผู้ให้บริการอินเทอร์เน็ตอาจตัดบริการได้ แต่ยังไม่เคยได้ยินกรณีที่มีคนถูกฟ้องจริงเพียงเพราะดาวน์โหลดอะไรบางอย่าง
    • ค่อนข้างชอบที่ฝั่ง AI ปฏิบัติกันราวกับว่า ลิขสิทธิ์ไม่มีอยู่จริง
      อยากให้ศาลรับรองน้ำหนักของ LLM และชุดข้อมูลว่าเป็น “การใช้งานโดยชอบธรรม” หรือด้วยเหตุผลทางกฎหมายขำ ๆ อะไรก็ตามที
      Aaron Swartz เป็นผู้ใหญ่ตัวจริง
  • เป็นไปได้มากว่าหนังสือของ Silverman อยู่ในชุดข้อมูล Books2 แต่ประโยคนี้ในคำฟ้องดูผิดอย่างชัดเจน
    อย่างแรก ต่อให้โมเดลไม่เคยเห็นข้อความในหนังสือเล่มนั้นเลยแม้แต่คำเดียวระหว่างการฝึก มันก็อาจเรียนรู้วิธีสรุปจากบทสรุปสาธารณะอื่น ๆ เช่นหน้า Wikipedia ได้
    อย่างที่สอง ก็ยังไม่ชัดว่าโมเดลที่เห็นแต่ข้อความต้นฉบับของหนังสือ โดยไม่เคยเห็นคำอธิบายหรือบทสรุปของหนังสือเลย จะสามารถสรุปได้ดีจริงหรือไม่
    เพื่อตรวจสอบเรื่องนี้ อาจเลือกหนังสือที่อยู่ใน Project Gutenberg และตามคำฟ้องระบุว่าอยู่ใน Books1 จึงน่าจะรวมอยู่ในข้อมูลฝึกของ ChatGPT แต่แทบไม่มีการพูดถึงบนออนไลน์ หากความสามารถในการสรุปมาจากการได้ฝึกกับตัวหนังสือจริง หนังสือหายากก็ควรถูกสรุปได้ดีพอ ๆ กับหนังสือของ Silverman
    มีการสุ่มเลือก The Ruby of Kishmoor ซึ่งเป็นหนังสือที่เพิ่มเข้า Project Gutenberg ตั้งแต่ปี 2003 ปรากฏว่า ChatGPT ที่ใช้ GPT-3.5 หลอนสรุปผิดแม้กระทั่งตัวละครหลัก ส่วน GPT-4 ปฏิเสธจะลองโดยบอกว่าไม่รู้จักเรื่องนี้
    ถ้าเหตุผลที่ ChatGPT สรุปหนังสือของ Silverman ได้เป็นเพราะหนังสือเล่มนั้นอยู่ในข้อมูลฝึกจริง ก็ชวนสงสัยว่าทำไมมันถึงทำแบบเดียวกันกับหนังสืออื่นไม่ได้

    • playground ของ GPT-4 สรุป The Ruby of Kishmoor ไว้แบบนี้
      พรอมป์ต์: โปรดสรุปหนังสือต่อไปนี้ที่อยู่ใน Project Gutenberg — The Ruby of Kishmoor
      คำตอบอธิบายว่าเป็นเรื่องผจญภัยสั้น ๆ ของ Howard Pyle โดย Jonathan Rugg ถูกคนแปลกหน้าลึกลับชักชวนให้ไปแคริบเบียนเพื่อครอบครองวัตถุล้ำค่าชื่อ Ruby of Kishmoor
      หลังจากไปถึงแคริบเบียน เขาพบว่าทับทิมมีคำสาปร้ายแรงติดอยู่ แต่ด้วยความอยากรู้อยากเห็นและโอกาสร่ำรวยมหาศาล เขาจึงยอมเสี่ยงไล่ตามอัญมณีนี้ต่อไป บทสรุประบุว่า หลังเผชิญความท้าทายหลายอย่าง เขาพบทับทิมได้ไม่ใช่จากการค้นหาอย่างเป็นระบบ แต่เพราะโชคล้วน ๆ
      ระหว่างการเดินทาง เรื่องนี้สำรวจความโลภของมนุษย์และขอบเขตที่ผู้คนยอมไปเพื่อผลประโยชน์ทางวัตถุ โดยผสมการผจญภัย องค์ประกอบเหนือธรรมชาติ ความกล้าหาญ และการใคร่ครวญเชิงศีลธรรม จนทำให้ต้องกลับมาคิดถึงคุณค่าที่แท้จริงของการแสวงหาวัตถุ
      ตอนจบ Jonathan หนีออกมาพร้อมทับทิมได้ แต่ต้องจ่ายราคาส่วนตัวอย่างหนัก และทิ้งคำถามไว้เกี่ยวกับคุณค่าที่แท้จริงของชีวิตและการไขว่คว้าทางวัตถุ
    • เวลายื่นฟ้อง หากจะกำหนดขอบเขตของ การเปิดเผยพยานหลักฐาน ก็มักระบุข้อเท็จจริงกันในลักษณะนั้น
      คืออ้างว่ามีเหตุอันควรให้เชื่อว่าเป็นความจริง และตอนนี้ก็จะสามารถตรวจสอบได้โดยตรงผ่านกระบวนการฟ้องร้อง
    • มีคนบอกว่า “ประโยคนี้ในคำฟ้องเป็นเท็จอย่างชัดเจน” แต่เหตุผลที่ตามมาจริง ๆ แค่แสดงให้เห็นว่ามันอาจไม่เป็นความจริงก็เท่านั้น
      ฉันเองก็เห็นโพสต์อื่นแล้วลองให้ GPT-4 สรุป The Ruby of Kishmoor และเมื่อถามสองครั้งมันก็ให้บทสรุปมา ฉันไม่รู้จักหนังสือเล่มนี้เลยจึงตัดสินความถูกต้องไม่ได้ แต่อย่างน้อยการทดสอบนั้นก็ถือว่าใช้ไม่ได้แล้ว
      การสมมติว่า ChatGPT คงเคารพลิขสิทธิ์โดยปริยายและคงไม่สแกนเนื้อหาที่มีลิขสิทธิ์โดยไม่ได้รับอนุญาตนั้นดูไร้เดียงสาพอสมควร กระบวนการเปิดเผยพยานหลักฐานอาจให้คำตอบสุดท้ายได้ น่าจะต้องมีบันทึกว่าได้สแกนอะไรไปบ้าง
      เหตุผลที่ดีกว่าน่าจะเป็นการยืนยันว่านี่คือ การใช้งานโดยชอบธรรม
    • อาจเป็นเรื่องของความเข้าถึงได้ต่างกัน ฉันเคยได้ยินชื่อ Silverman แต่ไม่เคยได้ยิน Ruby of Kishmoor
      คนจำนวนมากกว่าน่าจะพูดถึงเล่มนั้น และน่าจะมีบทสรุปอยู่ตามเว็บไซต์ส่วนตัวหรือที่อื่นมากกว่า
    • ความ สมเหตุสมผลพอเชื่อได้ นี่แหละคือเกณฑ์สำหรับให้คดีรอดจากคำร้องขอยกฟ้อง
      ถ้าสมเหตุสมผลพอ ก็เข้าสู่ขั้นเปิดเผยพยานหลักฐานได้ และการเปิดเผยพยานหลักฐานจะช่วยให้เข้าใกล้ข้อเท็จจริงจริงมากขึ้น
  • ประเด็นนี้ค่อนข้างน่าสนใจ เพราะมีการแยกความต่างระหว่างข้อมูลสำหรับฝึกที่ใครก็เข้าถึงได้ถ้ามีแค่เว็บเบราว์เซอร์ เช่น บล็อกส่วนตัว กับข้อมูลสำหรับฝึกที่ “ได้มาโดยผิดกฎหมายและถูกแจกจ่ายจำนวนมากผ่านระบบทอร์เรนต์”
    ยังไม่ค่อยเข้าใจว่าทำไมความแตกต่างแบบนี้จึงต้องมีความสำคัญทางกฎหมายต่อการเผยแพร่ LLM เพราะคนเขียนบล็อกก็ไม่ได้ยินยอมเหมือนกัน
    แต่ก็สงสัยอยู่ว่าการใช้ทอร์เรนต์ละเมิดลิขสิทธิ์ในการฝึกมีปัญหาทางกฎหมายหรือไม่ หากการเผยแพร่ LLM ที่ฝึกจากงานที่มีลิขสิทธิ์ได้รับอนุญาตภายใต้ fair use แล้ว จะมีฐานกฎหมายอะไรหรือไม่ที่จะบอกว่าถ้าจะทำให้ถูกกฎหมายต้องซื้อคอนเทนต์ที่ขายอยู่ก่อน? เช่น โพสต์บล็อกเข้าถึงได้ฟรีจึงพอใช้ได้ แต่หนังสือของ Sarah Silverman ไม่เคยเปิดให้อ่านฟรีและก็ไม่ได้จ่ายเงิน จึงใช้ไม่ได้ อะไรทำนองนั้น
    หรือศาลจะไม่สนเลยว่าสิ่งหนึ่งถูกสร้างขึ้นมาอย่างไร? ต่อให้มีการอ้างข้อความจากหนังสือหนึ่งย่อหน้าในงานเขียนฟรีแลนซ์ ก็ไม่มีใครถามว่าซื้อหนังสือเล่มนั้นหรือเปล่า พิสูจน์ได้ไหมว่ายืมจากห้องสมุดหรือเพื่อน หรือว่าไปดาวน์โหลดสำเนาดิจิทัลแบบผิดกฎหมายมา

    • สุดท้ายแล้วน่าจะเกิดแนวคิดเรื่องไลเซนส์ใหม่ คล้ายกับ sync rights ของวงการเพลง อาจเรียกว่า “สิทธิในการฝึก” ก็ได้
      จะซื้อข้อความนั้นมาหรือก๊อบปี้เถื่อนมาก็อาจไม่ใช่ประเด็นสำคัญ เช่นเดียวกับทุกวันนี้เวลาเอาแทร็กเสียงไปมิกซ์ลงในซาวด์แทร็กภาพยนตร์ ประเด็นหลักไม่ได้อยู่ที่คุณซื้อแทร็กนั้นมาหรือก๊อบปี้เถื่อนมา
      เอเจนซีของคนดังจะเจรจาค่าธรรมเนียมสิทธิในการฝึกของครีเอเตอร์ยอดนิยมแบบเหมารวม และครีเอเตอร์ก็จะได้รับกระแสรายได้ก้อนเล็ก ๆ ที่ผู้ให้บริการ LLM บวกเข้าไปในรายการค่าใช้จ่าย API
      สิทธิในการฝึกของครีเอเตอร์อิสระก็น่าจะยังถูกละเมิดแบบสะเปะสะปะเหมือนเดิม และ LLM เชิงพาณิชย์รายใหญ่ที่ถูกสงสัยหรือพิสูจน์ได้ว่าละเมิดสิทธิในการฝึกก็จะถูกประณามหรือถูกฟ้อง ส่วน LLM อิสระก็น่าจะยังหลบอยู่ใต้เรดาร์
    • หนึ่งในปัจจัยของการพิจารณา fair use และจนถึงไม่นานมานี้ก็ถูกมองอย่างต่อเนื่องว่าเป็นปัจจัยที่สำคัญที่สุด คือ ผลกระทบต่อ “ตลาดเชิงพาณิชย์” ของงานต้นฉบับ
      ดังนั้นถ้างานต้นฉบับแทบไม่มีตลาดเชิงพาณิชย์อยู่เลย ศาลก็มีแนวโน้มจะรับรอง fair use มากขึ้น แต่การที่อะไรสักอย่างไม่ได้ถูกขายอย่างคึกคักเพียงอย่างเดียวก็ยังไม่ใช่ข้อสรุป
      ไลเซนส์โอเพนซอร์สก็แจกฟรีเหมือนกัน แต่ก็ยังยืนอยู่ได้ในศาลอุทธรณ์
    • การทำสำเนาเพื่อใช้ส่วนตัว ของงานที่มีลิขสิทธิ์นั้นทำได้ แต่การแจกจ่ายต่อทำไม่ได้
      ยังไม่ชัดว่าต้องถึงระดับไหนจึงจะนับเป็นการแจกจ่ายต่อ และก็ยังคลุมเครือว่ามีความแตกต่างอย่างมีนัยสำคัญระหว่างโมเดลนี้กับเครื่องแบบ VCR ที่กดปุ่มแล้วสร้างงานต้นฉบับขึ้นมาใหม่หรือไม่
    • มุมมองฝั่ง AI ดูเหมือนกำลังอาศัยกระแสที่ถูกปั่นเกินจริง
      ถ้าการดาวน์โหลดสื่อมีลิขสิทธิ์แบบ “ละเมิดลิขสิทธิ์” เป็นเรื่องผิดกฎหมาย นั่นก็คือความผิดอาญา และเรื่องที่เหลือแทบไม่เกี่ยวกันเลย การดูหนังเถื่อนไม่ได้ทำให้การเล่าเรื่องย่อของหนังให้คนอื่นฟังกลายเป็นเรื่องผิดกฎหมาย
    • เท่าที่เข้าใจ ถ้าจะอ้าง fair use ต้อง ครอบครองงานนั้นอย่างถูกกฎหมาย ก่อน ไม่ใช่ทนาย
      ถ้างานนั้นได้มาอย่างถูกกฎหมายผ่านการซื้อเท่านั้น ก็ต้องเป็นการซื้อเองอย่างถูกกฎหมาย หรือเป็นสำเนาที่ได้มาจากคนที่ซื้อมาอย่างถูกกฎหมาย เช่น ได้รับเป็นของขวัญ
  • ไม่แน่ใจว่าเรากำลังอ่านคำฟ้องฉบับเดียวกันอยู่หรือเปล่า
    ในงานวิจัยของ Meta https://arxiv.org/pdf/2302.13971.pdf ระบุว่ามีการรวมคอร์ปัสหนังสือสองชุดไว้ในชุดข้อมูลสำหรับฝึก หนึ่งคือ Project Gutenberg ที่มีหนังสือสาธารณสมบัติ และอีกชุดคือส่วน Books3 ของ ThePile
    งานวิจัย The Pile https://arxiv.org/abs/2101.00027 อธิบาย Books3 ว่าเป็นชุดข้อมูลหนังสือที่ได้มาจากสำเนาเนื้อหาใน private tracker ชื่อ Bibliotik
    ลิงก์ของ Shawn Presser คือ https://twitter.com/theshawwn/status/1320282149329784833 และเขาอธิบาย Books3 ว่าเป็น “all of bibliotik” หรือหนังสือ 196,640 เล่มที่ถูกทำเป็นไฟล์ .txt แบบธรรมดา
    ไม่มีทั้งเวลาและพื้นที่จะดาวน์โหลดไฟล์ขนาด 37GB แต่ว่าถ้าหนังสือของ Silverman อยู่ในนั้น ก็ดูเหมือนว่านี่จะเป็นคดีที่ ชนะได้ชัดเจน ไม่ใช่หรือ
    LLaMA ของ Meta ก็เหมือนจะเป็นไปตามที่พวกเขายอมรับเองว่า ถูกฝึกจากหนังสือเถื่อน

    • หนังสือของ Silverman อยู่ในนั้น
      ผลลัพธ์ของ $ grep -i "Sarah Silverman" books3.list.txt แสดง 325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txt
      สำหรับคนที่อยากดูแค่รายชื่อไฟล์ก็มีลิงก์นี้ รายการเองก็เป็นไฟล์ขนาดใหญ่เหมือนกัน: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
    • จะว่าถูกก็ใช่ จะว่าไม่ถูกก็ใช่
      ถ้าจำเป็นต้องมีขั้นตอนสร้างสำเนาของคอร์ปัสตามที่ tracker นิยามไว้เพื่อใช้ในการฝึกตั้งแต่แรก ก็แทบจะเป็น คดีที่ชัดเจน แล้วว่ามีการละเมิดลิขสิทธิ์เกิดขึ้นในขั้นตอนนั้น
      แต่สุดท้ายแล้ว Silverman จะได้รับการเยียวยาอะไรได้มากไปกว่ามูลค่าหนังสือที่ซื้อ หรืออาจรวมถึงค่าเสียหายเชิงลงโทษสามเท่าหรือไม่ ก็ยังขึ้นอยู่กับประเด็นเดิมเรื่องความสัมพันธ์ระหว่างการฝึกโมเดลกับลิขสิทธิ์
      และยังมีประเด็นเพิ่มเติมด้วยว่าสถานะผิดกฎหมายของข้อมูลก่อนการฝึกจะทำให้การวินิจฉัยนั้นเปลี่ยนไปหรือไม่
    • ดูเหมือนจะไม่ได้อ่านเรื่องเดียวกัน เพราะจู่ ๆ ก็ลาก Google เข้ามาเกี่ยวซะอย่างนั้น
  • ดูเหมือนว่าปัญหานี้จะใหญ่กว่าที่บางคนคิดไว้
    อาจเกิดตลาดสำหรับ ข้อมูลฝึกที่สะอาด ซึ่งไม่มีข้อเรียกร้องด้านลิขสิทธิ์แฝงอยู่ เช่น ใช้เฉพาะงานที่เป็นสาธารณสมบัติ
    ถ้าเป็นแบบนั้น เราจะรู้ว่าเป็น AI เพราะมันพูดเหมือนนักเขียนปลายศตวรรษที่ 18 หรือต้นศตวรรษที่ 19 หรือเปล่า?

    • นี่ไม่ใช่ปัญหาใหม่เสียทีเดียว และเคยมีประเด็นคล้ายกันกับเสิร์ชเอนจิน อีกทั้งอาจมองได้ว่าเป็น การใช้งานเชิงดัดแปลง
      แต่โมเดลที่ยินดีทำซ้ำข้อความที่มีลิขสิทธิ์ทั้งก้อนอาจมีปัญหา และยังมีประเด็นใหม่อย่างโมเดลที่หลอนข้อมูลหมิ่นประมาทขึ้นมาด้วย
      ถึงอย่างนั้นก็ดูเหมือนยากที่จะเอายักษ์ตัวนี้กลับเข้าไปในขวด ต่อจากนี้มีแนวโน้มจะเห็นทั้งคดีความจำนวนมาก งานจัดระเบียบ และรูปแบบการนำไปใช้ในทางที่ผิดแบบใหม่ ๆ
    • หวังว่าจะมีตลาดแบบนั้นเกิดขึ้น อยากให้มีตลาดสำหรับขาย ใบอนุญาตเพื่อการฝึก ของทรัพย์สินทางปัญญา
      มันอาจกลายเป็นแหล่งรายได้แบบพาสซีฟเล็ก ๆ แต่จับต้องได้ สำหรับศิลปิน นักเขียน และกวีที่ไม่ขัดข้องหากทรัพย์สินทางปัญญาของตนถูกนำไปใช้ในชุดข้อมูลฝึก
      การเจรจากับผู้สร้างแต่ละคนเป็นรายบุคคลคงไม่สมจริง แต่ถ้าเป็นกลุ่มใหญ่กว่า เช่น สำนักพิมพ์ แกลเลอรี สมาคมวิชาชีพ หรือสหภาพ ที่สามารถรับประกันคุณภาพของสมาชิกได้ ก็ดูพอเป็นไปได้ พวกเขาสามารถออกใบอนุญาตและแบ่งรายได้ให้สมาชิกทุกคนได้
      การที่ LLM กวาดข้อมูลทั้งหมดนี้ไปใช้โดยไม่มีความยินยอมหรือสัญญา แถมบางทียังมาจากเว็บไซต์ทอร์เรนต์ด้วย เป็นเรื่องไร้จริยธรรมอย่างชัดเจน โมเดลแบบนี้อาจเป็นประโยชน์กับทุกฝ่ายได้
    • จนกว่าปัญหานี้จะถูกแก้ไข ข้อมูลฝึกที่สะอาดก็น่าจะมีคุณค่าในฐานะเครื่องมือ ลดความเสี่ยง
      หลังจากแก้ได้แล้ว มันอาจไม่ใช่ปัญหาอีกเลย หรือกลายเป็นเพียงโจทย์เรื่องการแลกเปลี่ยนต้นทุน-ผลประโยชน์ที่เข้าใจง่ายขึ้นมาก
      มันอาจเป็นส่วนผสมของงานสาธารณสมบัติและสิ่งพิมพ์ของรัฐบาลสหรัฐฯ ซึ่งสิ่งพิมพ์ของรัฐบาลสหรัฐฯ นั้นไม่อยู่ภายใต้ลิขสิทธิ์โดยหมวดหมู่
    • ยังมีตลาดของ เขตอำนาจศาลที่สะอาด ด้วย หมายถึงเขตอำนาจที่ไม่มองการฝึกโครงข่ายประสาทเทียมว่าเป็นการละเมิดลิขสิทธิ์
      ญี่ปุ่นได้ประกาศตัวเป็นเขตอำนาจแบบนั้นแล้ว
    • น่าจะตั้งใจจะพูดถึงศตวรรษที่ 19 และ 20 มากกว่า 18 และ 19 แต่ถึงอย่างนั้นก็คงขำดี
  • ผมไม่ใช่ทนาย แต่สิ่งนี้ดูไม่ใช่ตัวอย่างที่ดีนักสำหรับการพิสูจน์การละเมิด
    สรุปเนื้อหาหนังสือแบบละเอียดฟังดูเป็น การใช้งานเชิงดัดแปลง ตามแบบฉบับ โดยเฉพาะในกรณีของ Silverman ยิ่งตัดองค์ประกอบเชิงศิลป์ของร้อยแก้วออกและย่อหนังสือให้เหลือเป็น “ข้อเท็จจริง” มากเท่าไร ก็ยิ่งยากที่มันจะเป็นสิ่งทดแทนต้นฉบับโดยตรง

    • ในคำฟ้องมีตรรกะที่ค่อนข้างดีอยู่ หากไล่ย้อนที่มาของข้อมูลฝึก ก็จะไปจบที่ การได้มาโดยผิดกฎหมาย
      ข้อที่ว่าข้อมูลที่ได้มาโดยผิดกฎหมายถูกใช้ในกิจการเชิงพาณิชย์ และกิจการนั้นคือโมเดล AI อาจเป็นเพียงเรื่องรอง จะทำธุรกิจโดยใช้ข้อมูลที่ได้มาอย่างผิดกฎหมายไม่ได้
    • ยิ่งคิดก็ยิ่งรู้สึกว่าผลลัพธ์น่าจะขึ้นอยู่กับว่า “กฎหมาย” จะมอง AI เป็น สิ่งที่ใกล้เคียงมนุษย์ หรือ “สิ่งที่ใกล้เคียงเครื่องจักร”
      มนุษย์อ่านและศึกษาแล้วสร้างผลงานอีกแบบออกมาได้
      แต่การ “ป้อนข้อมูลให้เครื่องจักร” ดูเหมือนการละเมิดอย่างชัดเจน แม้ว่าสุดปลายทางจะไม่ได้มีสิ่งเดียวกันเป๊ะ ๆ ออกมาก็ตาม
    • อาจไม่ใช่ก็ได้ แต่หนึ่งในข้อกล่าวอ้างก็น่าสนใจ คืออ้างว่าบางส่วนของชุดข้อมูลถูก ได้มาโดยผิดกฎหมาย
      แล้วความเสียหายตรงนั้นจะคิดเท่าไร? เท่าราคาปลีกฉบับปกแข็งหรือเปล่า?
    • ถ้าใส่พรอมป์ตอย่างเหมาะสม LLM จะสามารถทวนหนังสือทั้งเล่มแบบ คำต่อคำ ได้ไหม?
    • ผมยังไม่ได้อ่านคำฟ้อง แต่ก็อาจมีตรรกะว่า fair use ใช้ไม่ได้ เพราะ OpenAI ฝึกข้อมูลจากงานที่ขโมยมา
  • ต่อให้ยังไม่พูดถึงว่า LLM เป็นงานดัดแปลงของสิ่งที่มันฝึกมาทั้งหมดหรือไม่ ข้อกล่าวอ้างนี้ก็ดูอ่อนมาก
    ต่อให้ไม่มีงานชิ้นนั้นอยู่ในชุดฝึกเลย LLM ที่ฝึกจากสรุปหลาย ๆ ชิ้นเกี่ยวกับงานนั้นก็สามารถสร้างสรุปแบบนั้นขึ้นมาเองได้
    โดยทั่วไปแล้ว แค่ การมีความรู้ เกี่ยวกับอะไรบางอย่าง ไม่ใช่หลักฐานว่าได้ฝึกจากสิ่งนั้น

    • แม้จะไม่ใช่หลักฐานชี้ขาด แต่ศาลก็ไม่ได้ต้องการหลักฐานชี้ขาดเพื่อเริ่มคดีและค้นพบข้อเท็จจริงใหม่ ๆ
      สามารถถามผู้เชี่ยวชาญด้าน LLM และฝั่ง OpenAI ได้ว่ามีความเป็นไปได้สูงหรือไม่ที่เอาต์พุตนั้นจะสืบเนื่องจากงานลิขสิทธิ์ที่เป็นประเด็น
      ยังไงก็ตาม ถ้าตรรกะคือ “ไม่ใช่ มันไม่ได้มาจากหนังสือ แต่มาจากสรุปที่มีลิขสิทธิ์ของคนอื่น” นั่นก็แปลว่าคนที่เขียนสรุปนั้นต่างหากที่ควรฟ้องเรื่องละเมิดลิขสิทธิ์ไม่ใช่หรือ? เว้นแต่ OpenAI จะบอกว่า “จริง ๆ แล้วมันมาจากทั้งเล่ม ไม่ใช่จากสรุป”
    • ถ้าแทนที่ LLM ด้วยมนุษย์ ก็จะเกิดนัยที่น่าสนใจ
      เราอ่านงานมาหลายพันชิ้น แล้วอย่างนั้นทุกสิ่งที่เราเขียนก็หมายความว่าเป็น งานดัดแปลง ทั้งหมดหรือ?
  • หลักฐานที่น่าเชื่อกว่าน่าจะเป็นการทำให้ ChatGPT พิมพ์ข้อความต้นฉบับออกมาตรง ๆ ไม่ใช่แค่สรุป
    ตอนที่ลองด้วยตัวเอง มันตอบประมาณว่าไม่สามารถเข้าถึงฐานข้อมูลภายนอกหรือหนังสือเฉพาะเจาะจงที่อยู่หลังเส้นตัดความรู้เดือนกันยายน 2021 ได้ และไม่สามารถให้คำคัดลอกแบบคำต่อคำจาก The Bedwetter ของ Sarah Silverman หรือข้อความเฉพาะอื่น ๆ ได้
    แต่ก็บอกว่ายังสามารถสร้างข้อความจากการฝึกและความรู้ที่มีจนถึงจุดนั้นได้ และให้ถามเกี่ยวกับ Sarah Silverman หรือหัวข้อที่เกี่ยวข้องแทน

    • อาจพลาดการคุยอันนี้ไป: https://news.ycombinator.com/item?id=36400053
      ดูเหมือนว่า OpenAI จะรู้ว่าซอฟต์แวร์ของตนสามารถปล่อยเนื้อหาที่มีลิขสิทธิ์ออกมาได้ จึงรีบใส่ฟิลเตอร์แบบฉุกเฉิน
      ดังนั้นการที่ตอนนี้ขอแล้วมันไม่พิมพ์หนังสือออกมา ไม่ได้เป็นหลักฐานว่า AI ไม่ได้จดจำก้อนข้อมูลใหญ่นั้นไว้ แค่อาจมี ฟิลเตอร์ความปลอดภัย ทำงานอยู่ และอาจต้องใช้วิธีอ้อมง่าย ๆ เท่านั้น
    • ก่อนหน้านี้ผมเคยลองให้ ChatGPT พิมพ์ ย่อหน้าแรกของ The Lord of the Rings ออกมา แล้วมันหยุดหลังไม่กี่คำแรก
      ดูเหมือนนักพัฒนาจะกรองเอาไว้
    • GPT คือ JPEG แบบบีบอัดสูญเสียของทั้งอินเทอร์เน็ต ด้วยวิธีการทำงานของโครงข่ายประสาทเทียม การดึงข้อความแบบคำต่อคำออกมาจากมันเป็นไปไม่ได้
      คุณคิดว่าจะยัดข้อมูลข้อความระดับเอกซะไบต์ลงในโครงข่ายประสาทเทียมขนาดกิกะไบต์ได้อย่างไร? ใช่แล้ว มันคือการบีบอัดแบบสูญเสีย
  • เป็นไปได้มากกว่ามากไหมว่ามันสังเคราะห์ขึ้นมาเองจากการที่ในชุดข้อมูลฝึกมี บทวิจารณ์หนังสือและบทสรุป อยู่จำนวนมาก?

    • มี ร่องรอยที่มีการบันทึกไว้เป็นหลักฐาน ว่ามีการใช้คลังหนังสือเถื่อนในการฝึก
    • ในความเป็นจริง ดูมีโอกาสมากกว่ามากที่พวกเขาจะแค่ใส่ไฟล์ PDF หนังสือกองโตไว้ในโฟลเดอร์สำหรับฝึกแล้วรันมันตรงๆ
      แทบเป็นไปไม่ได้เลยที่จะเชื่อว่าบริษัท AI พวกนี้จะระมัดระวังกับข้อมูลที่พวกเขาดูดเข้าไปใช้ฝึกแม้แต่นิดเดียว
    • แล้วบทสรุปพวกนั้นมาจากไหน? ผมว่ามีโอกาสมากกว่ามากที่มันจะถูกดึงมาจาก ห้องสมุดเงา แน่นอนว่านั่นเองก็ดูแทบจะพิสูจน์ไม่ได้เช่นกัน
      อาจพอทดสอบได้ระดับหนึ่ง ถ้าลองขอให้มันสรุปหนังสือหรือตัวบทที่หาได้จากห้องสมุดเงาเท่านั้น
    • ถ้ามีบทวิจารณ์และบทสรุปอยู่ในชุดข้อมูลฝึกจริง LLM ของ OpenAI ก็จะใกล้เคียงกับ เสิร์ชเอนจิน มากกว่าหรือเปล่า ในแง่ที่ว่ามันสร้างข้อความตามพรอมป์ตที่ป้อนเข้าไป?
  • ที่ Getty Images ก็ฟ้อง Stability AI เรื่อง AI เหมือนกันนี่ค่อนข้างน่าขำ กรรมตามสนองหรือเปล่า?
    Getty ขโมยจากคนอื่นได้ แต่คนอื่นขโมยจาก Getty ไม่ได้งั้นเหรอ? ผมไม่ได้มีส่วนได้เสียอะไรกับศึกนี้ แต่ความหน้าไหว้หลังหลอกของบริษัทพวกนี้มันหนักจริงๆ

    • Getty ขโมยจากใคร?