Sarah Silverman ยื่นฟ้อง OpenAI และ Meta ฐานละเมิดลิขสิทธิ์

(theverge.com)

1 คะแนน โดย GN⁺ 2023-07-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Sarah Silverman นักแสดงตลกและนักเขียน ร่วมกับ Christopher Golden และ Richard Kadrey ยื่นฟ้อง OpenAI และ Meta แยกกันต่อศาลแขวงสหรัฐ
ประเด็นสำคัญคือ ChatGPT และ LLaMA ถูกฝึกด้วยชุดข้อมูลที่มีหนังสือรวมอยู่ด้วยโดยไม่ได้รับอนุญาตจากผู้เขียนหรือไม่
โจทก์มองว่าหนังสือที่ได้มาอย่างผิดกฎหมายจาก shadow library อย่าง Bibliotik, Library Genesis และ Z-Library ถูกเผยแพร่ในวงกว้างผ่านทอร์เรนต์
ในคดีของ OpenAI มีการยกกรณีที่ ChatGPT สรุป Bedwetter, Ararat, Sandman Slim ขึ้นมาเป็นพฤติการณ์บ่งชี้ว่ามีการใช้ข้อมูลฝึก
คดีของ Meta เชื่อมโยงแหล่งข้อมูลฝึกของ LLaMA กับ ThePile และ EleutherAI โดยตั้งข้อสงสัยว่าหนังสือของโจทก์อาจถูกรวมอยู่ในชุดข้อมูลที่ใช้

ผู้ถูกฟ้องและประเด็นหลักของคดี

Sarah Silverman, Christopher Golden และ Richard Kadrey ยื่นฟ้อง OpenAI และ Meta แยกกันต่อศาลแขวงสหรัฐ
แกนกลางของทั้งสองคดีคือการพิจารณาว่าเข้าข่าย ละเมิดลิขสิทธิ์ หรือไม่
โจทก์อ้างว่า ChatGPT ของ OpenAI และ LLaMA ของ Meta ถูกฝึกด้วยชุดข้อมูลที่มีผลงานของตนรวมอยู่ด้วย
ประเด็นสำคัญคือชุดข้อมูลดังกล่าวได้มาโดยไม่ได้รับอนุญาตจากผู้เขียนหรือไม่

ข้อถกเถียงเรื่องแหล่งที่มาของข้อมูลฝึก

คดีนี้อ้างว่าชุดข้อมูลที่ใช้ฝึก ChatGPT และ LLaMA ได้มาอย่างผิดกฎหมาย
เว็บไซต์ shadow library ที่โจทก์ระบุมีดังนี้
- Bibliotik
- Library Genesis
- Z-Library
- และเว็บไซต์ลักษณะคล้ายกันอื่น ๆ
อีกประเด็นที่ถูกหยิบยกคือหนังสือเหล่านี้ถูกแจกจ่ายจำนวนมากผ่าน ระบบทอร์เรนต์

ตัวอย่างที่ยกขึ้นในคดี OpenAI

โจทก์ยกกรณีที่ ChatGPT สรุปหนังสือของตนตามพรอมป์ต์มาเป็นหลักฐาน
หนังสือที่อยู่ในหลักฐานมีดังนี้
- Bedwetter ของ Sarah Silverman
- Ararat ของ Christopher Golden
- Sandman Slim ของ Richard Kadrey
คดียังอ้างว่า ChatGPT ไม่ได้สร้างซ้ำ ข้อมูลการจัดการลิขสิทธิ์ ที่อยู่ในงานตีพิมพ์ของโจทก์

จุดโฟกัสของคดี Meta

คดีแยกที่ยื่นต่อ Meta มองว่าหนังสือของโจทก์สามารถเข้าถึงได้ในชุดข้อมูลฝึกของ LLaMA
LLaMA ถูกอธิบายว่าเป็น โมเดล AI โอเพนซอร์ส 4 รุ่นที่ Meta เปิดตัวในเดือนกุมภาพันธ์
คำฟ้องตั้งข้อสังเกตไปที่ ThePile ซึ่งเป็นหนึ่งในแหล่งที่มาของชุดข้อมูลฝึกที่ระบุในเอกสาร LLaMA ของ Meta
ThePile ถูกกล่าวถึงว่าเป็นชุดข้อมูลที่ EleutherAI จัดทำขึ้น

ปฏิกิริยาจากคู่กรณี

Christopher Golden และ Richard Kadrey ปฏิเสธที่จะแสดงความเห็นเกี่ยวกับคดี
ฝั่งของ Sarah Silverman ยังไม่ตอบกลับจนถึงเวลาที่มีการรายงานข่าว

1 ความคิดเห็น

GN⁺ 2023-07-10

ความคิดเห็นจาก Hacker News

เท่ากับพูดอย่างชัดเจนว่า ผู้สร้าง AI ได้นำงานที่มีลิขสิทธิ์มาจาก เว็บละเมิดลิขสิทธิ์หนังสือ มาใช้จริง
แค่ดาวน์โหลดหนังสือจากเว็บนั้นเพียงเล่มเดียวก็อาจถูกฟ้องและถูกตัดสินว่าละเมิดได้ และถ้าดาวน์โหลดทั้งหมดก็อาจต้องรับผิดชดใช้เป็นเงินหลายพันล้านดอลลาร์
แต่บริษัทอย่าง Google หรือ Facebook ดูเหมือนจะเล่นกันคนละกติกา คล้ายกับสถานการณ์ที่ถ้าฆ่าคนหนึ่งคนคุณคือฆาตกร แต่ถ้าฆ่าคนเป็นล้าน คำถามถึงเรื่องนั้นกลับกลายเป็น “คำถามชี้นำ” และคุณสามารถตอบโต้ด้วยความโกรธได้
- ควรหยุดคิดสักครู่ว่าเพราะ ลิขสิทธิ์ เด็กแทบทุกคนจึงไม่สามารถเข้าถึงหนังสือแทบทั้งหมดที่เคยถูกเขียนขึ้นมาได้จนถึงทุกวันนี้
  การล้มลิขสิทธิ์ทั้งหมดในชั่วข้ามคืนคงกระทบแรงเกินไป แต่ยิ่งลดอิทธิพลของลิขสิทธิ์ได้มากเท่าไร โลกก็น่าจะดีขึ้นและพัฒนาได้เร็วขึ้นมากเท่านั้น
  ในปี 2023 ประชากรโลกมากกว่าครึ่งมีสมาร์ตโฟนแล้ว จึงน่าจะจินตนาการถึงโลกที่คนกว่าครึ่งเข้าถึงหนังสือดิจิทัลทั้งหมดและเลี้ยงดูเด็ก ๆ ด้วยหนังสือเหล่านั้นได้
- โมเดลแมชชีนเลิร์นนิง ถูกฝึกด้วยข้อมูลที่มีลิขสิทธิ์มานานแล้ว
  ImageNet เต็มไปด้วยภาพที่มีลิขสิทธิ์, Clearview ก็ขูดข้อมูลใบหน้าจากอินเทอร์เน็ตแบบตรงตัว, และน่าจะมีตัวอย่างที่เก่ากว่านี้อีก
  ไม่แน่ใจว่าศาลสหรัฐเคยตัดสินว่านี่เป็นการใช้งานโดยชอบธรรมมาก่อนหรือยัง แต่ถ้ายังไม่เคย สุดท้ายก็น่าจะตัดสินไปในทางนั้น
- ถ้าพูดให้เคร่งครัด สิ่งที่มักถูกฟ้องไม่ใช่การดาวน์โหลด แต่คือการ อัปโหลด
  ตราบใดที่ไม่แชร์ต่อ ก็สามารถดาวน์โหลดจาก Z-Library หรือ BitTorrent ได้เท่าที่ต้องการ
  การทำดัชนีเนื้อหาที่มีลิขสิทธิ์เพื่อการค้นหาก็ดูจะปลอดภัย หรืออย่างน้อยก็อยู่ในพื้นที่สีเทา
- สงสัยว่าคำกล่าวที่ว่า “ถ้าดาวน์โหลดหนังสือจากเว็บนั้นจะถูกฟ้องและตัดสินว่าละเมิด” เกิดขึ้นจริงบ่อยแค่ไหน
  อาจได้รับหนังสือแจ้งการละเมิด และถ้าทำหนักจริงผู้ให้บริการอินเทอร์เน็ตอาจตัดบริการได้ แต่ยังไม่เคยได้ยินกรณีที่มีคนถูกฟ้องจริงเพียงเพราะดาวน์โหลดอะไรบางอย่าง
- ค่อนข้างชอบที่ฝั่ง AI ปฏิบัติกันราวกับว่า ลิขสิทธิ์ไม่มีอยู่จริง
  อยากให้ศาลรับรองน้ำหนักของ LLM และชุดข้อมูลว่าเป็น “การใช้งานโดยชอบธรรม” หรือด้วยเหตุผลทางกฎหมายขำ ๆ อะไรก็ตามที
  Aaron Swartz เป็นผู้ใหญ่ตัวจริง
เป็นไปได้มากว่าหนังสือของ Silverman อยู่ในชุดข้อมูล Books2 แต่ประโยคนี้ในคำฟ้องดูผิดอย่างชัดเจน
อย่างแรก ต่อให้โมเดลไม่เคยเห็นข้อความในหนังสือเล่มนั้นเลยแม้แต่คำเดียวระหว่างการฝึก มันก็อาจเรียนรู้วิธีสรุปจากบทสรุปสาธารณะอื่น ๆ เช่นหน้า Wikipedia ได้
อย่างที่สอง ก็ยังไม่ชัดว่าโมเดลที่เห็นแต่ข้อความต้นฉบับของหนังสือ โดยไม่เคยเห็นคำอธิบายหรือบทสรุปของหนังสือเลย จะสามารถสรุปได้ดีจริงหรือไม่
เพื่อตรวจสอบเรื่องนี้ อาจเลือกหนังสือที่อยู่ใน Project Gutenberg และตามคำฟ้องระบุว่าอยู่ใน Books1 จึงน่าจะรวมอยู่ในข้อมูลฝึกของ ChatGPT แต่แทบไม่มีการพูดถึงบนออนไลน์ หากความสามารถในการสรุปมาจากการได้ฝึกกับตัวหนังสือจริง หนังสือหายากก็ควรถูกสรุปได้ดีพอ ๆ กับหนังสือของ Silverman
มีการสุ่มเลือก The Ruby of Kishmoor ซึ่งเป็นหนังสือที่เพิ่มเข้า Project Gutenberg ตั้งแต่ปี 2003 ปรากฏว่า ChatGPT ที่ใช้ GPT-3.5 หลอนสรุปผิดแม้กระทั่งตัวละครหลัก ส่วน GPT-4 ปฏิเสธจะลองโดยบอกว่าไม่รู้จักเรื่องนี้
ถ้าเหตุผลที่ ChatGPT สรุปหนังสือของ Silverman ได้เป็นเพราะหนังสือเล่มนั้นอยู่ในข้อมูลฝึกจริง ก็ชวนสงสัยว่าทำไมมันถึงทำแบบเดียวกันกับหนังสืออื่นไม่ได้
- playground ของ GPT-4 สรุป The Ruby of Kishmoor ไว้แบบนี้
  พรอมป์ต์: โปรดสรุปหนังสือต่อไปนี้ที่อยู่ใน Project Gutenberg — The Ruby of Kishmoor
  คำตอบอธิบายว่าเป็นเรื่องผจญภัยสั้น ๆ ของ Howard Pyle โดย Jonathan Rugg ถูกคนแปลกหน้าลึกลับชักชวนให้ไปแคริบเบียนเพื่อครอบครองวัตถุล้ำค่าชื่อ Ruby of Kishmoor
  หลังจากไปถึงแคริบเบียน เขาพบว่าทับทิมมีคำสาปร้ายแรงติดอยู่ แต่ด้วยความอยากรู้อยากเห็นและโอกาสร่ำรวยมหาศาล เขาจึงยอมเสี่ยงไล่ตามอัญมณีนี้ต่อไป บทสรุประบุว่า หลังเผชิญความท้าทายหลายอย่าง เขาพบทับทิมได้ไม่ใช่จากการค้นหาอย่างเป็นระบบ แต่เพราะโชคล้วน ๆ
  ระหว่างการเดินทาง เรื่องนี้สำรวจความโลภของมนุษย์และขอบเขตที่ผู้คนยอมไปเพื่อผลประโยชน์ทางวัตถุ โดยผสมการผจญภัย องค์ประกอบเหนือธรรมชาติ ความกล้าหาญ และการใคร่ครวญเชิงศีลธรรม จนทำให้ต้องกลับมาคิดถึงคุณค่าที่แท้จริงของการแสวงหาวัตถุ
  ตอนจบ Jonathan หนีออกมาพร้อมทับทิมได้ แต่ต้องจ่ายราคาส่วนตัวอย่างหนัก และทิ้งคำถามไว้เกี่ยวกับคุณค่าที่แท้จริงของชีวิตและการไขว่คว้าทางวัตถุ
- เวลายื่นฟ้อง หากจะกำหนดขอบเขตของ การเปิดเผยพยานหลักฐาน ก็มักระบุข้อเท็จจริงกันในลักษณะนั้น
  คืออ้างว่ามีเหตุอันควรให้เชื่อว่าเป็นความจริง และตอนนี้ก็จะสามารถตรวจสอบได้โดยตรงผ่านกระบวนการฟ้องร้อง
- มีคนบอกว่า “ประโยคนี้ในคำฟ้องเป็นเท็จอย่างชัดเจน” แต่เหตุผลที่ตามมาจริง ๆ แค่แสดงให้เห็นว่ามันอาจไม่เป็นความจริงก็เท่านั้น
  ฉันเองก็เห็นโพสต์อื่นแล้วลองให้ GPT-4 สรุป The Ruby of Kishmoor และเมื่อถามสองครั้งมันก็ให้บทสรุปมา ฉันไม่รู้จักหนังสือเล่มนี้เลยจึงตัดสินความถูกต้องไม่ได้ แต่อย่างน้อยการทดสอบนั้นก็ถือว่าใช้ไม่ได้แล้ว
  การสมมติว่า ChatGPT คงเคารพลิขสิทธิ์โดยปริยายและคงไม่สแกนเนื้อหาที่มีลิขสิทธิ์โดยไม่ได้รับอนุญาตนั้นดูไร้เดียงสาพอสมควร กระบวนการเปิดเผยพยานหลักฐานอาจให้คำตอบสุดท้ายได้ น่าจะต้องมีบันทึกว่าได้สแกนอะไรไปบ้าง
  เหตุผลที่ดีกว่าน่าจะเป็นการยืนยันว่านี่คือ การใช้งานโดยชอบธรรม
- อาจเป็นเรื่องของความเข้าถึงได้ต่างกัน ฉันเคยได้ยินชื่อ Silverman แต่ไม่เคยได้ยิน Ruby of Kishmoor
  คนจำนวนมากกว่าน่าจะพูดถึงเล่มนั้น และน่าจะมีบทสรุปอยู่ตามเว็บไซต์ส่วนตัวหรือที่อื่นมากกว่า
- ความ สมเหตุสมผลพอเชื่อได้ นี่แหละคือเกณฑ์สำหรับให้คดีรอดจากคำร้องขอยกฟ้อง
  ถ้าสมเหตุสมผลพอ ก็เข้าสู่ขั้นเปิดเผยพยานหลักฐานได้ และการเปิดเผยพยานหลักฐานจะช่วยให้เข้าใกล้ข้อเท็จจริงจริงมากขึ้น
ประเด็นนี้ค่อนข้างน่าสนใจ เพราะมีการแยกความต่างระหว่างข้อมูลสำหรับฝึกที่ใครก็เข้าถึงได้ถ้ามีแค่เว็บเบราว์เซอร์ เช่น บล็อกส่วนตัว กับข้อมูลสำหรับฝึกที่ “ได้มาโดยผิดกฎหมายและถูกแจกจ่ายจำนวนมากผ่านระบบทอร์เรนต์”
ยังไม่ค่อยเข้าใจว่าทำไมความแตกต่างแบบนี้จึงต้องมีความสำคัญทางกฎหมายต่อการเผยแพร่ LLM เพราะคนเขียนบล็อกก็ไม่ได้ยินยอมเหมือนกัน
แต่ก็สงสัยอยู่ว่าการใช้ทอร์เรนต์ละเมิดลิขสิทธิ์ในการฝึกมีปัญหาทางกฎหมายหรือไม่ หากการเผยแพร่ LLM ที่ฝึกจากงานที่มีลิขสิทธิ์ได้รับอนุญาตภายใต้ fair use แล้ว จะมีฐานกฎหมายอะไรหรือไม่ที่จะบอกว่าถ้าจะทำให้ถูกกฎหมายต้องซื้อคอนเทนต์ที่ขายอยู่ก่อน? เช่น โพสต์บล็อกเข้าถึงได้ฟรีจึงพอใช้ได้ แต่หนังสือของ Sarah Silverman ไม่เคยเปิดให้อ่านฟรีและก็ไม่ได้จ่ายเงิน จึงใช้ไม่ได้ อะไรทำนองนั้น
หรือศาลจะไม่สนเลยว่าสิ่งหนึ่งถูกสร้างขึ้นมาอย่างไร? ต่อให้มีการอ้างข้อความจากหนังสือหนึ่งย่อหน้าในงานเขียนฟรีแลนซ์ ก็ไม่มีใครถามว่าซื้อหนังสือเล่มนั้นหรือเปล่า พิสูจน์ได้ไหมว่ายืมจากห้องสมุดหรือเพื่อน หรือว่าไปดาวน์โหลดสำเนาดิจิทัลแบบผิดกฎหมายมา
- สุดท้ายแล้วน่าจะเกิดแนวคิดเรื่องไลเซนส์ใหม่ คล้ายกับ sync rights ของวงการเพลง อาจเรียกว่า “สิทธิในการฝึก” ก็ได้
  จะซื้อข้อความนั้นมาหรือก๊อบปี้เถื่อนมาก็อาจไม่ใช่ประเด็นสำคัญ เช่นเดียวกับทุกวันนี้เวลาเอาแทร็กเสียงไปมิกซ์ลงในซาวด์แทร็กภาพยนตร์ ประเด็นหลักไม่ได้อยู่ที่คุณซื้อแทร็กนั้นมาหรือก๊อบปี้เถื่อนมา
  เอเจนซีของคนดังจะเจรจาค่าธรรมเนียมสิทธิในการฝึกของครีเอเตอร์ยอดนิยมแบบเหมารวม และครีเอเตอร์ก็จะได้รับกระแสรายได้ก้อนเล็ก ๆ ที่ผู้ให้บริการ LLM บวกเข้าไปในรายการค่าใช้จ่าย API
  สิทธิในการฝึกของครีเอเตอร์อิสระก็น่าจะยังถูกละเมิดแบบสะเปะสะปะเหมือนเดิม และ LLM เชิงพาณิชย์รายใหญ่ที่ถูกสงสัยหรือพิสูจน์ได้ว่าละเมิดสิทธิในการฝึกก็จะถูกประณามหรือถูกฟ้อง ส่วน LLM อิสระก็น่าจะยังหลบอยู่ใต้เรดาร์
- หนึ่งในปัจจัยของการพิจารณา fair use และจนถึงไม่นานมานี้ก็ถูกมองอย่างต่อเนื่องว่าเป็นปัจจัยที่สำคัญที่สุด คือ ผลกระทบต่อ “ตลาดเชิงพาณิชย์” ของงานต้นฉบับ
  ดังนั้นถ้างานต้นฉบับแทบไม่มีตลาดเชิงพาณิชย์อยู่เลย ศาลก็มีแนวโน้มจะรับรอง fair use มากขึ้น แต่การที่อะไรสักอย่างไม่ได้ถูกขายอย่างคึกคักเพียงอย่างเดียวก็ยังไม่ใช่ข้อสรุป
  ไลเซนส์โอเพนซอร์สก็แจกฟรีเหมือนกัน แต่ก็ยังยืนอยู่ได้ในศาลอุทธรณ์
- การทำสำเนาเพื่อใช้ส่วนตัว ของงานที่มีลิขสิทธิ์นั้นทำได้ แต่การแจกจ่ายต่อทำไม่ได้
  ยังไม่ชัดว่าต้องถึงระดับไหนจึงจะนับเป็นการแจกจ่ายต่อ และก็ยังคลุมเครือว่ามีความแตกต่างอย่างมีนัยสำคัญระหว่างโมเดลนี้กับเครื่องแบบ VCR ที่กดปุ่มแล้วสร้างงานต้นฉบับขึ้นมาใหม่หรือไม่
- มุมมองฝั่ง AI ดูเหมือนกำลังอาศัยกระแสที่ถูกปั่นเกินจริง
  ถ้าการดาวน์โหลดสื่อมีลิขสิทธิ์แบบ “ละเมิดลิขสิทธิ์” เป็นเรื่องผิดกฎหมาย นั่นก็คือความผิดอาญา และเรื่องที่เหลือแทบไม่เกี่ยวกันเลย การดูหนังเถื่อนไม่ได้ทำให้การเล่าเรื่องย่อของหนังให้คนอื่นฟังกลายเป็นเรื่องผิดกฎหมาย
- เท่าที่เข้าใจ ถ้าจะอ้าง fair use ต้อง ครอบครองงานนั้นอย่างถูกกฎหมาย ก่อน ไม่ใช่ทนาย
  ถ้างานนั้นได้มาอย่างถูกกฎหมายผ่านการซื้อเท่านั้น ก็ต้องเป็นการซื้อเองอย่างถูกกฎหมาย หรือเป็นสำเนาที่ได้มาจากคนที่ซื้อมาอย่างถูกกฎหมาย เช่น ได้รับเป็นของขวัญ
ไม่แน่ใจว่าเรากำลังอ่านคำฟ้องฉบับเดียวกันอยู่หรือเปล่า
ในงานวิจัยของ Meta https://arxiv.org/pdf/2302.13971.pdf ระบุว่ามีการรวมคอร์ปัสหนังสือสองชุดไว้ในชุดข้อมูลสำหรับฝึก หนึ่งคือ Project Gutenberg ที่มีหนังสือสาธารณสมบัติ และอีกชุดคือส่วน Books3 ของ ThePile
งานวิจัย The Pile https://arxiv.org/abs/2101.00027 อธิบาย Books3 ว่าเป็นชุดข้อมูลหนังสือที่ได้มาจากสำเนาเนื้อหาใน private tracker ชื่อ Bibliotik
ลิงก์ของ Shawn Presser คือ https://twitter.com/theshawwn/status/1320282149329784833 และเขาอธิบาย Books3 ว่าเป็น “all of bibliotik” หรือหนังสือ 196,640 เล่มที่ถูกทำเป็นไฟล์ .txt แบบธรรมดา
ไม่มีทั้งเวลาและพื้นที่จะดาวน์โหลดไฟล์ขนาด 37GB แต่ว่าถ้าหนังสือของ Silverman อยู่ในนั้น ก็ดูเหมือนว่านี่จะเป็นคดีที่ ชนะได้ชัดเจน ไม่ใช่หรือ
LLaMA ของ Meta ก็เหมือนจะเป็นไปตามที่พวกเขายอมรับเองว่า ถูกฝึกจากหนังสือเถื่อน
- หนังสือของ Silverman อยู่ในนั้น
  ผลลัพธ์ของ $ grep -i "Sarah Silverman" books3.list.txt แสดง 325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txt
  สำหรับคนที่อยากดูแค่รายชื่อไฟล์ก็มีลิงก์นี้ รายการเองก็เป็นไฟล์ขนาดใหญ่เหมือนกัน: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
- จะว่าถูกก็ใช่ จะว่าไม่ถูกก็ใช่
  ถ้าจำเป็นต้องมีขั้นตอนสร้างสำเนาของคอร์ปัสตามที่ tracker นิยามไว้เพื่อใช้ในการฝึกตั้งแต่แรก ก็แทบจะเป็น คดีที่ชัดเจน แล้วว่ามีการละเมิดลิขสิทธิ์เกิดขึ้นในขั้นตอนนั้น
  แต่สุดท้ายแล้ว Silverman จะได้รับการเยียวยาอะไรได้มากไปกว่ามูลค่าหนังสือที่ซื้อ หรืออาจรวมถึงค่าเสียหายเชิงลงโทษสามเท่าหรือไม่ ก็ยังขึ้นอยู่กับประเด็นเดิมเรื่องความสัมพันธ์ระหว่างการฝึกโมเดลกับลิขสิทธิ์
  และยังมีประเด็นเพิ่มเติมด้วยว่าสถานะผิดกฎหมายของข้อมูลก่อนการฝึกจะทำให้การวินิจฉัยนั้นเปลี่ยนไปหรือไม่
- ดูเหมือนจะไม่ได้อ่านเรื่องเดียวกัน เพราะจู่ ๆ ก็ลาก Google เข้ามาเกี่ยวซะอย่างนั้น
ดูเหมือนว่าปัญหานี้จะใหญ่กว่าที่บางคนคิดไว้
อาจเกิดตลาดสำหรับ ข้อมูลฝึกที่สะอาด ซึ่งไม่มีข้อเรียกร้องด้านลิขสิทธิ์แฝงอยู่ เช่น ใช้เฉพาะงานที่เป็นสาธารณสมบัติ
ถ้าเป็นแบบนั้น เราจะรู้ว่าเป็น AI เพราะมันพูดเหมือนนักเขียนปลายศตวรรษที่ 18 หรือต้นศตวรรษที่ 19 หรือเปล่า?
- นี่ไม่ใช่ปัญหาใหม่เสียทีเดียว และเคยมีประเด็นคล้ายกันกับเสิร์ชเอนจิน อีกทั้งอาจมองได้ว่าเป็น การใช้งานเชิงดัดแปลง
  แต่โมเดลที่ยินดีทำซ้ำข้อความที่มีลิขสิทธิ์ทั้งก้อนอาจมีปัญหา และยังมีประเด็นใหม่อย่างโมเดลที่หลอนข้อมูลหมิ่นประมาทขึ้นมาด้วย
  ถึงอย่างนั้นก็ดูเหมือนยากที่จะเอายักษ์ตัวนี้กลับเข้าไปในขวด ต่อจากนี้มีแนวโน้มจะเห็นทั้งคดีความจำนวนมาก งานจัดระเบียบ และรูปแบบการนำไปใช้ในทางที่ผิดแบบใหม่ ๆ
- หวังว่าจะมีตลาดแบบนั้นเกิดขึ้น อยากให้มีตลาดสำหรับขาย ใบอนุญาตเพื่อการฝึก ของทรัพย์สินทางปัญญา
  มันอาจกลายเป็นแหล่งรายได้แบบพาสซีฟเล็ก ๆ แต่จับต้องได้ สำหรับศิลปิน นักเขียน และกวีที่ไม่ขัดข้องหากทรัพย์สินทางปัญญาของตนถูกนำไปใช้ในชุดข้อมูลฝึก
  การเจรจากับผู้สร้างแต่ละคนเป็นรายบุคคลคงไม่สมจริง แต่ถ้าเป็นกลุ่มใหญ่กว่า เช่น สำนักพิมพ์ แกลเลอรี สมาคมวิชาชีพ หรือสหภาพ ที่สามารถรับประกันคุณภาพของสมาชิกได้ ก็ดูพอเป็นไปได้ พวกเขาสามารถออกใบอนุญาตและแบ่งรายได้ให้สมาชิกทุกคนได้
  การที่ LLM กวาดข้อมูลทั้งหมดนี้ไปใช้โดยไม่มีความยินยอมหรือสัญญา แถมบางทียังมาจากเว็บไซต์ทอร์เรนต์ด้วย เป็นเรื่องไร้จริยธรรมอย่างชัดเจน โมเดลแบบนี้อาจเป็นประโยชน์กับทุกฝ่ายได้
- จนกว่าปัญหานี้จะถูกแก้ไข ข้อมูลฝึกที่สะอาดก็น่าจะมีคุณค่าในฐานะเครื่องมือ ลดความเสี่ยง
  หลังจากแก้ได้แล้ว มันอาจไม่ใช่ปัญหาอีกเลย หรือกลายเป็นเพียงโจทย์เรื่องการแลกเปลี่ยนต้นทุน-ผลประโยชน์ที่เข้าใจง่ายขึ้นมาก
  มันอาจเป็นส่วนผสมของงานสาธารณสมบัติและสิ่งพิมพ์ของรัฐบาลสหรัฐฯ ซึ่งสิ่งพิมพ์ของรัฐบาลสหรัฐฯ นั้นไม่อยู่ภายใต้ลิขสิทธิ์โดยหมวดหมู่
- ยังมีตลาดของ เขตอำนาจศาลที่สะอาด ด้วย หมายถึงเขตอำนาจที่ไม่มองการฝึกโครงข่ายประสาทเทียมว่าเป็นการละเมิดลิขสิทธิ์
  ญี่ปุ่นได้ประกาศตัวเป็นเขตอำนาจแบบนั้นแล้ว
- น่าจะตั้งใจจะพูดถึงศตวรรษที่ 19 และ 20 มากกว่า 18 และ 19 แต่ถึงอย่างนั้นก็คงขำดี
ผมไม่ใช่ทนาย แต่สิ่งนี้ดูไม่ใช่ตัวอย่างที่ดีนักสำหรับการพิสูจน์การละเมิด
สรุปเนื้อหาหนังสือแบบละเอียดฟังดูเป็น การใช้งานเชิงดัดแปลง ตามแบบฉบับ โดยเฉพาะในกรณีของ Silverman ยิ่งตัดองค์ประกอบเชิงศิลป์ของร้อยแก้วออกและย่อหนังสือให้เหลือเป็น “ข้อเท็จจริง” มากเท่าไร ก็ยิ่งยากที่มันจะเป็นสิ่งทดแทนต้นฉบับโดยตรง
- ในคำฟ้องมีตรรกะที่ค่อนข้างดีอยู่ หากไล่ย้อนที่มาของข้อมูลฝึก ก็จะไปจบที่ การได้มาโดยผิดกฎหมาย
  ข้อที่ว่าข้อมูลที่ได้มาโดยผิดกฎหมายถูกใช้ในกิจการเชิงพาณิชย์ และกิจการนั้นคือโมเดล AI อาจเป็นเพียงเรื่องรอง จะทำธุรกิจโดยใช้ข้อมูลที่ได้มาอย่างผิดกฎหมายไม่ได้
- ยิ่งคิดก็ยิ่งรู้สึกว่าผลลัพธ์น่าจะขึ้นอยู่กับว่า “กฎหมาย” จะมอง AI เป็น สิ่งที่ใกล้เคียงมนุษย์ หรือ “สิ่งที่ใกล้เคียงเครื่องจักร”
  มนุษย์อ่านและศึกษาแล้วสร้างผลงานอีกแบบออกมาได้
  แต่การ “ป้อนข้อมูลให้เครื่องจักร” ดูเหมือนการละเมิดอย่างชัดเจน แม้ว่าสุดปลายทางจะไม่ได้มีสิ่งเดียวกันเป๊ะ ๆ ออกมาก็ตาม
- อาจไม่ใช่ก็ได้ แต่หนึ่งในข้อกล่าวอ้างก็น่าสนใจ คืออ้างว่าบางส่วนของชุดข้อมูลถูก ได้มาโดยผิดกฎหมาย
  แล้วความเสียหายตรงนั้นจะคิดเท่าไร? เท่าราคาปลีกฉบับปกแข็งหรือเปล่า?
- ถ้าใส่พรอมป์ตอย่างเหมาะสม LLM จะสามารถทวนหนังสือทั้งเล่มแบบ คำต่อคำ ได้ไหม?
- ผมยังไม่ได้อ่านคำฟ้อง แต่ก็อาจมีตรรกะว่า fair use ใช้ไม่ได้ เพราะ OpenAI ฝึกข้อมูลจากงานที่ขโมยมา
ต่อให้ยังไม่พูดถึงว่า LLM เป็นงานดัดแปลงของสิ่งที่มันฝึกมาทั้งหมดหรือไม่ ข้อกล่าวอ้างนี้ก็ดูอ่อนมาก
ต่อให้ไม่มีงานชิ้นนั้นอยู่ในชุดฝึกเลย LLM ที่ฝึกจากสรุปหลาย ๆ ชิ้นเกี่ยวกับงานนั้นก็สามารถสร้างสรุปแบบนั้นขึ้นมาเองได้
โดยทั่วไปแล้ว แค่ การมีความรู้ เกี่ยวกับอะไรบางอย่าง ไม่ใช่หลักฐานว่าได้ฝึกจากสิ่งนั้น
- แม้จะไม่ใช่หลักฐานชี้ขาด แต่ศาลก็ไม่ได้ต้องการหลักฐานชี้ขาดเพื่อเริ่มคดีและค้นพบข้อเท็จจริงใหม่ ๆ
  สามารถถามผู้เชี่ยวชาญด้าน LLM และฝั่ง OpenAI ได้ว่ามีความเป็นไปได้สูงหรือไม่ที่เอาต์พุตนั้นจะสืบเนื่องจากงานลิขสิทธิ์ที่เป็นประเด็น
  ยังไงก็ตาม ถ้าตรรกะคือ “ไม่ใช่ มันไม่ได้มาจากหนังสือ แต่มาจากสรุปที่มีลิขสิทธิ์ของคนอื่น” นั่นก็แปลว่าคนที่เขียนสรุปนั้นต่างหากที่ควรฟ้องเรื่องละเมิดลิขสิทธิ์ไม่ใช่หรือ? เว้นแต่ OpenAI จะบอกว่า “จริง ๆ แล้วมันมาจากทั้งเล่ม ไม่ใช่จากสรุป”
- ถ้าแทนที่ LLM ด้วยมนุษย์ ก็จะเกิดนัยที่น่าสนใจ
  เราอ่านงานมาหลายพันชิ้น แล้วอย่างนั้นทุกสิ่งที่เราเขียนก็หมายความว่าเป็น งานดัดแปลง ทั้งหมดหรือ?
หลักฐานที่น่าเชื่อกว่าน่าจะเป็นการทำให้ ChatGPT พิมพ์ข้อความต้นฉบับออกมาตรง ๆ ไม่ใช่แค่สรุป
ตอนที่ลองด้วยตัวเอง มันตอบประมาณว่าไม่สามารถเข้าถึงฐานข้อมูลภายนอกหรือหนังสือเฉพาะเจาะจงที่อยู่หลังเส้นตัดความรู้เดือนกันยายน 2021 ได้ และไม่สามารถให้คำคัดลอกแบบคำต่อคำจาก The Bedwetter ของ Sarah Silverman หรือข้อความเฉพาะอื่น ๆ ได้
แต่ก็บอกว่ายังสามารถสร้างข้อความจากการฝึกและความรู้ที่มีจนถึงจุดนั้นได้ และให้ถามเกี่ยวกับ Sarah Silverman หรือหัวข้อที่เกี่ยวข้องแทน
- อาจพลาดการคุยอันนี้ไป: https://news.ycombinator.com/item?id=36400053
  ดูเหมือนว่า OpenAI จะรู้ว่าซอฟต์แวร์ของตนสามารถปล่อยเนื้อหาที่มีลิขสิทธิ์ออกมาได้ จึงรีบใส่ฟิลเตอร์แบบฉุกเฉิน
  ดังนั้นการที่ตอนนี้ขอแล้วมันไม่พิมพ์หนังสือออกมา ไม่ได้เป็นหลักฐานว่า AI ไม่ได้จดจำก้อนข้อมูลใหญ่นั้นไว้ แค่อาจมี ฟิลเตอร์ความปลอดภัย ทำงานอยู่ และอาจต้องใช้วิธีอ้อมง่าย ๆ เท่านั้น
- ก่อนหน้านี้ผมเคยลองให้ ChatGPT พิมพ์ ย่อหน้าแรกของ The Lord of the Rings ออกมา แล้วมันหยุดหลังไม่กี่คำแรก
  ดูเหมือนนักพัฒนาจะกรองเอาไว้
- GPT คือ JPEG แบบบีบอัดสูญเสียของทั้งอินเทอร์เน็ต ด้วยวิธีการทำงานของโครงข่ายประสาทเทียม การดึงข้อความแบบคำต่อคำออกมาจากมันเป็นไปไม่ได้
  คุณคิดว่าจะยัดข้อมูลข้อความระดับเอกซะไบต์ลงในโครงข่ายประสาทเทียมขนาดกิกะไบต์ได้อย่างไร? ใช่แล้ว มันคือการบีบอัดแบบสูญเสีย
เป็นไปได้มากกว่ามากไหมว่ามันสังเคราะห์ขึ้นมาเองจากการที่ในชุดข้อมูลฝึกมี บทวิจารณ์หนังสือและบทสรุป อยู่จำนวนมาก?
- มี ร่องรอยที่มีการบันทึกไว้เป็นหลักฐาน ว่ามีการใช้คลังหนังสือเถื่อนในการฝึก
- ในความเป็นจริง ดูมีโอกาสมากกว่ามากที่พวกเขาจะแค่ใส่ไฟล์ PDF หนังสือกองโตไว้ในโฟลเดอร์สำหรับฝึกแล้วรันมันตรงๆ
  แทบเป็นไปไม่ได้เลยที่จะเชื่อว่าบริษัท AI พวกนี้จะระมัดระวังกับข้อมูลที่พวกเขาดูดเข้าไปใช้ฝึกแม้แต่นิดเดียว
- แล้วบทสรุปพวกนั้นมาจากไหน? ผมว่ามีโอกาสมากกว่ามากที่มันจะถูกดึงมาจาก ห้องสมุดเงา แน่นอนว่านั่นเองก็ดูแทบจะพิสูจน์ไม่ได้เช่นกัน
  อาจพอทดสอบได้ระดับหนึ่ง ถ้าลองขอให้มันสรุปหนังสือหรือตัวบทที่หาได้จากห้องสมุดเงาเท่านั้น
- ถ้ามีบทวิจารณ์และบทสรุปอยู่ในชุดข้อมูลฝึกจริง LLM ของ OpenAI ก็จะใกล้เคียงกับ เสิร์ชเอนจิน มากกว่าหรือเปล่า ในแง่ที่ว่ามันสร้างข้อความตามพรอมป์ตที่ป้อนเข้าไป?
ที่ Getty Images ก็ฟ้อง Stability AI เรื่อง AI เหมือนกันนี่ค่อนข้างน่าขำ กรรมตามสนองหรือเปล่า?
Getty ขโมยจากคนอื่นได้ แต่คนอื่นขโมยจาก Getty ไม่ได้งั้นเหรอ? ผมไม่ได้มีส่วนได้เสียอะไรกับศึกนี้ แต่ความหน้าไหว้หลังหลอกของบริษัทพวกนี้มันหนักจริงๆ
- Getty ขโมยจากใคร?

Sarah Silverman ยื่นฟ้อง OpenAI และ Meta ฐานละเมิดลิขสิทธิ์

ผู้ถูกฟ้องและประเด็นหลักของคดี

ข้อถกเถียงเรื่องแหล่งที่มาของข้อมูลฝึก

ตัวอย่างที่ยกขึ้นในคดี OpenAI

จุดโฟกัสของคดี Meta

ปฏิกิริยาจากคู่กรณี

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News