Sarah Silverman ยื่นฟ้อง OpenAI และ Meta ฐานละเมิดลิขสิทธิ์
(theverge.com)- Sarah Silverman นักแสดงตลกและนักเขียน ร่วมกับ Christopher Golden และ Richard Kadrey ยื่นฟ้อง OpenAI และ Meta แยกกันต่อศาลแขวงสหรัฐ
- ประเด็นสำคัญคือ ChatGPT และ LLaMA ถูกฝึกด้วยชุดข้อมูลที่มีหนังสือรวมอยู่ด้วยโดยไม่ได้รับอนุญาตจากผู้เขียนหรือไม่
- โจทก์มองว่าหนังสือที่ได้มาอย่างผิดกฎหมายจาก shadow library อย่าง Bibliotik, Library Genesis และ Z-Library ถูกเผยแพร่ในวงกว้างผ่านทอร์เรนต์
- ในคดีของ OpenAI มีการยกกรณีที่ ChatGPT สรุป Bedwetter, Ararat, Sandman Slim ขึ้นมาเป็นพฤติการณ์บ่งชี้ว่ามีการใช้ข้อมูลฝึก
- คดีของ Meta เชื่อมโยงแหล่งข้อมูลฝึกของ LLaMA กับ ThePile และ EleutherAI โดยตั้งข้อสงสัยว่าหนังสือของโจทก์อาจถูกรวมอยู่ในชุดข้อมูลที่ใช้
ผู้ถูกฟ้องและประเด็นหลักของคดี
- Sarah Silverman, Christopher Golden และ Richard Kadrey ยื่นฟ้อง OpenAI และ Meta แยกกันต่อศาลแขวงสหรัฐ
- แกนกลางของทั้งสองคดีคือการพิจารณาว่าเข้าข่าย ละเมิดลิขสิทธิ์ หรือไม่
- โจทก์อ้างว่า ChatGPT ของ OpenAI และ LLaMA ของ Meta ถูกฝึกด้วยชุดข้อมูลที่มีผลงานของตนรวมอยู่ด้วย
- ประเด็นสำคัญคือชุดข้อมูลดังกล่าวได้มาโดยไม่ได้รับอนุญาตจากผู้เขียนหรือไม่
ข้อถกเถียงเรื่องแหล่งที่มาของข้อมูลฝึก
- คดีนี้อ้างว่าชุดข้อมูลที่ใช้ฝึก ChatGPT และ LLaMA ได้มาอย่างผิดกฎหมาย
- เว็บไซต์ shadow library ที่โจทก์ระบุมีดังนี้
- Bibliotik
- Library Genesis
- Z-Library
- และเว็บไซต์ลักษณะคล้ายกันอื่น ๆ
- อีกประเด็นที่ถูกหยิบยกคือหนังสือเหล่านี้ถูกแจกจ่ายจำนวนมากผ่าน ระบบทอร์เรนต์
ตัวอย่างที่ยกขึ้นในคดี OpenAI
- โจทก์ยกกรณีที่ ChatGPT สรุปหนังสือของตนตามพรอมป์ต์มาเป็นหลักฐาน
- หนังสือที่อยู่ในหลักฐานมีดังนี้
- Bedwetter ของ Sarah Silverman
- Ararat ของ Christopher Golden
- Sandman Slim ของ Richard Kadrey
- คดียังอ้างว่า ChatGPT ไม่ได้สร้างซ้ำ ข้อมูลการจัดการลิขสิทธิ์ ที่อยู่ในงานตีพิมพ์ของโจทก์
จุดโฟกัสของคดี Meta
- คดีแยกที่ยื่นต่อ Meta มองว่าหนังสือของโจทก์สามารถเข้าถึงได้ในชุดข้อมูลฝึกของ LLaMA
- LLaMA ถูกอธิบายว่าเป็น โมเดล AI โอเพนซอร์ส 4 รุ่นที่ Meta เปิดตัวในเดือนกุมภาพันธ์
- คำฟ้องตั้งข้อสังเกตไปที่ ThePile ซึ่งเป็นหนึ่งในแหล่งที่มาของชุดข้อมูลฝึกที่ระบุในเอกสาร LLaMA ของ Meta
- ThePile ถูกกล่าวถึงว่าเป็นชุดข้อมูลที่ EleutherAI จัดทำขึ้น
ปฏิกิริยาจากคู่กรณี
- Christopher Golden และ Richard Kadrey ปฏิเสธที่จะแสดงความเห็นเกี่ยวกับคดี
- ฝั่งของ Sarah Silverman ยังไม่ตอบกลับจนถึงเวลาที่มีการรายงานข่าว
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
เท่ากับพูดอย่างชัดเจนว่า ผู้สร้าง AI ได้นำงานที่มีลิขสิทธิ์มาจาก เว็บละเมิดลิขสิทธิ์หนังสือ มาใช้จริง
แค่ดาวน์โหลดหนังสือจากเว็บนั้นเพียงเล่มเดียวก็อาจถูกฟ้องและถูกตัดสินว่าละเมิดได้ และถ้าดาวน์โหลดทั้งหมดก็อาจต้องรับผิดชดใช้เป็นเงินหลายพันล้านดอลลาร์
แต่บริษัทอย่าง Google หรือ Facebook ดูเหมือนจะเล่นกันคนละกติกา คล้ายกับสถานการณ์ที่ถ้าฆ่าคนหนึ่งคนคุณคือฆาตกร แต่ถ้าฆ่าคนเป็นล้าน คำถามถึงเรื่องนั้นกลับกลายเป็น “คำถามชี้นำ” และคุณสามารถตอบโต้ด้วยความโกรธได้
การล้มลิขสิทธิ์ทั้งหมดในชั่วข้ามคืนคงกระทบแรงเกินไป แต่ยิ่งลดอิทธิพลของลิขสิทธิ์ได้มากเท่าไร โลกก็น่าจะดีขึ้นและพัฒนาได้เร็วขึ้นมากเท่านั้น
ในปี 2023 ประชากรโลกมากกว่าครึ่งมีสมาร์ตโฟนแล้ว จึงน่าจะจินตนาการถึงโลกที่คนกว่าครึ่งเข้าถึงหนังสือดิจิทัลทั้งหมดและเลี้ยงดูเด็ก ๆ ด้วยหนังสือเหล่านั้นได้
ImageNet เต็มไปด้วยภาพที่มีลิขสิทธิ์, Clearview ก็ขูดข้อมูลใบหน้าจากอินเทอร์เน็ตแบบตรงตัว, และน่าจะมีตัวอย่างที่เก่ากว่านี้อีก
ไม่แน่ใจว่าศาลสหรัฐเคยตัดสินว่านี่เป็นการใช้งานโดยชอบธรรมมาก่อนหรือยัง แต่ถ้ายังไม่เคย สุดท้ายก็น่าจะตัดสินไปในทางนั้น
ตราบใดที่ไม่แชร์ต่อ ก็สามารถดาวน์โหลดจาก Z-Library หรือ BitTorrent ได้เท่าที่ต้องการ
การทำดัชนีเนื้อหาที่มีลิขสิทธิ์เพื่อการค้นหาก็ดูจะปลอดภัย หรืออย่างน้อยก็อยู่ในพื้นที่สีเทา
อาจได้รับหนังสือแจ้งการละเมิด และถ้าทำหนักจริงผู้ให้บริการอินเทอร์เน็ตอาจตัดบริการได้ แต่ยังไม่เคยได้ยินกรณีที่มีคนถูกฟ้องจริงเพียงเพราะดาวน์โหลดอะไรบางอย่าง
อยากให้ศาลรับรองน้ำหนักของ LLM และชุดข้อมูลว่าเป็น “การใช้งานโดยชอบธรรม” หรือด้วยเหตุผลทางกฎหมายขำ ๆ อะไรก็ตามที
Aaron Swartz เป็นผู้ใหญ่ตัวจริง
เป็นไปได้มากว่าหนังสือของ Silverman อยู่ในชุดข้อมูล Books2 แต่ประโยคนี้ในคำฟ้องดูผิดอย่างชัดเจน
อย่างแรก ต่อให้โมเดลไม่เคยเห็นข้อความในหนังสือเล่มนั้นเลยแม้แต่คำเดียวระหว่างการฝึก มันก็อาจเรียนรู้วิธีสรุปจากบทสรุปสาธารณะอื่น ๆ เช่นหน้า Wikipedia ได้
อย่างที่สอง ก็ยังไม่ชัดว่าโมเดลที่เห็นแต่ข้อความต้นฉบับของหนังสือ โดยไม่เคยเห็นคำอธิบายหรือบทสรุปของหนังสือเลย จะสามารถสรุปได้ดีจริงหรือไม่
เพื่อตรวจสอบเรื่องนี้ อาจเลือกหนังสือที่อยู่ใน Project Gutenberg และตามคำฟ้องระบุว่าอยู่ใน Books1 จึงน่าจะรวมอยู่ในข้อมูลฝึกของ ChatGPT แต่แทบไม่มีการพูดถึงบนออนไลน์ หากความสามารถในการสรุปมาจากการได้ฝึกกับตัวหนังสือจริง หนังสือหายากก็ควรถูกสรุปได้ดีพอ ๆ กับหนังสือของ Silverman
มีการสุ่มเลือก The Ruby of Kishmoor ซึ่งเป็นหนังสือที่เพิ่มเข้า Project Gutenberg ตั้งแต่ปี 2003 ปรากฏว่า ChatGPT ที่ใช้ GPT-3.5 หลอนสรุปผิดแม้กระทั่งตัวละครหลัก ส่วน GPT-4 ปฏิเสธจะลองโดยบอกว่าไม่รู้จักเรื่องนี้
ถ้าเหตุผลที่ ChatGPT สรุปหนังสือของ Silverman ได้เป็นเพราะหนังสือเล่มนั้นอยู่ในข้อมูลฝึกจริง ก็ชวนสงสัยว่าทำไมมันถึงทำแบบเดียวกันกับหนังสืออื่นไม่ได้
พรอมป์ต์: โปรดสรุปหนังสือต่อไปนี้ที่อยู่ใน Project Gutenberg — The Ruby of Kishmoor
คำตอบอธิบายว่าเป็นเรื่องผจญภัยสั้น ๆ ของ Howard Pyle โดย Jonathan Rugg ถูกคนแปลกหน้าลึกลับชักชวนให้ไปแคริบเบียนเพื่อครอบครองวัตถุล้ำค่าชื่อ Ruby of Kishmoor
หลังจากไปถึงแคริบเบียน เขาพบว่าทับทิมมีคำสาปร้ายแรงติดอยู่ แต่ด้วยความอยากรู้อยากเห็นและโอกาสร่ำรวยมหาศาล เขาจึงยอมเสี่ยงไล่ตามอัญมณีนี้ต่อไป บทสรุประบุว่า หลังเผชิญความท้าทายหลายอย่าง เขาพบทับทิมได้ไม่ใช่จากการค้นหาอย่างเป็นระบบ แต่เพราะโชคล้วน ๆ
ระหว่างการเดินทาง เรื่องนี้สำรวจความโลภของมนุษย์และขอบเขตที่ผู้คนยอมไปเพื่อผลประโยชน์ทางวัตถุ โดยผสมการผจญภัย องค์ประกอบเหนือธรรมชาติ ความกล้าหาญ และการใคร่ครวญเชิงศีลธรรม จนทำให้ต้องกลับมาคิดถึงคุณค่าที่แท้จริงของการแสวงหาวัตถุ
ตอนจบ Jonathan หนีออกมาพร้อมทับทิมได้ แต่ต้องจ่ายราคาส่วนตัวอย่างหนัก และทิ้งคำถามไว้เกี่ยวกับคุณค่าที่แท้จริงของชีวิตและการไขว่คว้าทางวัตถุ
คืออ้างว่ามีเหตุอันควรให้เชื่อว่าเป็นความจริง และตอนนี้ก็จะสามารถตรวจสอบได้โดยตรงผ่านกระบวนการฟ้องร้อง
ฉันเองก็เห็นโพสต์อื่นแล้วลองให้ GPT-4 สรุป The Ruby of Kishmoor และเมื่อถามสองครั้งมันก็ให้บทสรุปมา ฉันไม่รู้จักหนังสือเล่มนี้เลยจึงตัดสินความถูกต้องไม่ได้ แต่อย่างน้อยการทดสอบนั้นก็ถือว่าใช้ไม่ได้แล้ว
การสมมติว่า ChatGPT คงเคารพลิขสิทธิ์โดยปริยายและคงไม่สแกนเนื้อหาที่มีลิขสิทธิ์โดยไม่ได้รับอนุญาตนั้นดูไร้เดียงสาพอสมควร กระบวนการเปิดเผยพยานหลักฐานอาจให้คำตอบสุดท้ายได้ น่าจะต้องมีบันทึกว่าได้สแกนอะไรไปบ้าง
เหตุผลที่ดีกว่าน่าจะเป็นการยืนยันว่านี่คือ การใช้งานโดยชอบธรรม
คนจำนวนมากกว่าน่าจะพูดถึงเล่มนั้น และน่าจะมีบทสรุปอยู่ตามเว็บไซต์ส่วนตัวหรือที่อื่นมากกว่า
ถ้าสมเหตุสมผลพอ ก็เข้าสู่ขั้นเปิดเผยพยานหลักฐานได้ และการเปิดเผยพยานหลักฐานจะช่วยให้เข้าใกล้ข้อเท็จจริงจริงมากขึ้น
ประเด็นนี้ค่อนข้างน่าสนใจ เพราะมีการแยกความต่างระหว่างข้อมูลสำหรับฝึกที่ใครก็เข้าถึงได้ถ้ามีแค่เว็บเบราว์เซอร์ เช่น บล็อกส่วนตัว กับข้อมูลสำหรับฝึกที่ “ได้มาโดยผิดกฎหมายและถูกแจกจ่ายจำนวนมากผ่านระบบทอร์เรนต์”
ยังไม่ค่อยเข้าใจว่าทำไมความแตกต่างแบบนี้จึงต้องมีความสำคัญทางกฎหมายต่อการเผยแพร่ LLM เพราะคนเขียนบล็อกก็ไม่ได้ยินยอมเหมือนกัน
แต่ก็สงสัยอยู่ว่าการใช้ทอร์เรนต์ละเมิดลิขสิทธิ์ในการฝึกมีปัญหาทางกฎหมายหรือไม่ หากการเผยแพร่ LLM ที่ฝึกจากงานที่มีลิขสิทธิ์ได้รับอนุญาตภายใต้ fair use แล้ว จะมีฐานกฎหมายอะไรหรือไม่ที่จะบอกว่าถ้าจะทำให้ถูกกฎหมายต้องซื้อคอนเทนต์ที่ขายอยู่ก่อน? เช่น โพสต์บล็อกเข้าถึงได้ฟรีจึงพอใช้ได้ แต่หนังสือของ Sarah Silverman ไม่เคยเปิดให้อ่านฟรีและก็ไม่ได้จ่ายเงิน จึงใช้ไม่ได้ อะไรทำนองนั้น
หรือศาลจะไม่สนเลยว่าสิ่งหนึ่งถูกสร้างขึ้นมาอย่างไร? ต่อให้มีการอ้างข้อความจากหนังสือหนึ่งย่อหน้าในงานเขียนฟรีแลนซ์ ก็ไม่มีใครถามว่าซื้อหนังสือเล่มนั้นหรือเปล่า พิสูจน์ได้ไหมว่ายืมจากห้องสมุดหรือเพื่อน หรือว่าไปดาวน์โหลดสำเนาดิจิทัลแบบผิดกฎหมายมา
จะซื้อข้อความนั้นมาหรือก๊อบปี้เถื่อนมาก็อาจไม่ใช่ประเด็นสำคัญ เช่นเดียวกับทุกวันนี้เวลาเอาแทร็กเสียงไปมิกซ์ลงในซาวด์แทร็กภาพยนตร์ ประเด็นหลักไม่ได้อยู่ที่คุณซื้อแทร็กนั้นมาหรือก๊อบปี้เถื่อนมา
เอเจนซีของคนดังจะเจรจาค่าธรรมเนียมสิทธิในการฝึกของครีเอเตอร์ยอดนิยมแบบเหมารวม และครีเอเตอร์ก็จะได้รับกระแสรายได้ก้อนเล็ก ๆ ที่ผู้ให้บริการ LLM บวกเข้าไปในรายการค่าใช้จ่าย API
สิทธิในการฝึกของครีเอเตอร์อิสระก็น่าจะยังถูกละเมิดแบบสะเปะสะปะเหมือนเดิม และ LLM เชิงพาณิชย์รายใหญ่ที่ถูกสงสัยหรือพิสูจน์ได้ว่าละเมิดสิทธิในการฝึกก็จะถูกประณามหรือถูกฟ้อง ส่วน LLM อิสระก็น่าจะยังหลบอยู่ใต้เรดาร์
ดังนั้นถ้างานต้นฉบับแทบไม่มีตลาดเชิงพาณิชย์อยู่เลย ศาลก็มีแนวโน้มจะรับรอง fair use มากขึ้น แต่การที่อะไรสักอย่างไม่ได้ถูกขายอย่างคึกคักเพียงอย่างเดียวก็ยังไม่ใช่ข้อสรุป
ไลเซนส์โอเพนซอร์สก็แจกฟรีเหมือนกัน แต่ก็ยังยืนอยู่ได้ในศาลอุทธรณ์
ยังไม่ชัดว่าต้องถึงระดับไหนจึงจะนับเป็นการแจกจ่ายต่อ และก็ยังคลุมเครือว่ามีความแตกต่างอย่างมีนัยสำคัญระหว่างโมเดลนี้กับเครื่องแบบ VCR ที่กดปุ่มแล้วสร้างงานต้นฉบับขึ้นมาใหม่หรือไม่
ถ้าการดาวน์โหลดสื่อมีลิขสิทธิ์แบบ “ละเมิดลิขสิทธิ์” เป็นเรื่องผิดกฎหมาย นั่นก็คือความผิดอาญา และเรื่องที่เหลือแทบไม่เกี่ยวกันเลย การดูหนังเถื่อนไม่ได้ทำให้การเล่าเรื่องย่อของหนังให้คนอื่นฟังกลายเป็นเรื่องผิดกฎหมาย
ถ้างานนั้นได้มาอย่างถูกกฎหมายผ่านการซื้อเท่านั้น ก็ต้องเป็นการซื้อเองอย่างถูกกฎหมาย หรือเป็นสำเนาที่ได้มาจากคนที่ซื้อมาอย่างถูกกฎหมาย เช่น ได้รับเป็นของขวัญ
ไม่แน่ใจว่าเรากำลังอ่านคำฟ้องฉบับเดียวกันอยู่หรือเปล่า
ในงานวิจัยของ Meta https://arxiv.org/pdf/2302.13971.pdf ระบุว่ามีการรวมคอร์ปัสหนังสือสองชุดไว้ในชุดข้อมูลสำหรับฝึก หนึ่งคือ Project Gutenberg ที่มีหนังสือสาธารณสมบัติ และอีกชุดคือส่วน Books3 ของ ThePile
งานวิจัย The Pile https://arxiv.org/abs/2101.00027 อธิบาย Books3 ว่าเป็นชุดข้อมูลหนังสือที่ได้มาจากสำเนาเนื้อหาใน private tracker ชื่อ Bibliotik
ลิงก์ของ Shawn Presser คือ https://twitter.com/theshawwn/status/1320282149329784833 และเขาอธิบาย Books3 ว่าเป็น “all of bibliotik” หรือหนังสือ 196,640 เล่มที่ถูกทำเป็นไฟล์
.txtแบบธรรมดาไม่มีทั้งเวลาและพื้นที่จะดาวน์โหลดไฟล์ขนาด 37GB แต่ว่าถ้าหนังสือของ Silverman อยู่ในนั้น ก็ดูเหมือนว่านี่จะเป็นคดีที่ ชนะได้ชัดเจน ไม่ใช่หรือ
LLaMA ของ Meta ก็เหมือนจะเป็นไปตามที่พวกเขายอมรับเองว่า ถูกฝึกจากหนังสือเถื่อน
ผลลัพธ์ของ
$ grep -i "Sarah Silverman" books3.list.txtแสดง325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txtสำหรับคนที่อยากดูแค่รายชื่อไฟล์ก็มีลิงก์นี้ รายการเองก็เป็นไฟล์ขนาดใหญ่เหมือนกัน: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
ถ้าจำเป็นต้องมีขั้นตอนสร้างสำเนาของคอร์ปัสตามที่ tracker นิยามไว้เพื่อใช้ในการฝึกตั้งแต่แรก ก็แทบจะเป็น คดีที่ชัดเจน แล้วว่ามีการละเมิดลิขสิทธิ์เกิดขึ้นในขั้นตอนนั้น
แต่สุดท้ายแล้ว Silverman จะได้รับการเยียวยาอะไรได้มากไปกว่ามูลค่าหนังสือที่ซื้อ หรืออาจรวมถึงค่าเสียหายเชิงลงโทษสามเท่าหรือไม่ ก็ยังขึ้นอยู่กับประเด็นเดิมเรื่องความสัมพันธ์ระหว่างการฝึกโมเดลกับลิขสิทธิ์
และยังมีประเด็นเพิ่มเติมด้วยว่าสถานะผิดกฎหมายของข้อมูลก่อนการฝึกจะทำให้การวินิจฉัยนั้นเปลี่ยนไปหรือไม่
ดูเหมือนว่าปัญหานี้จะใหญ่กว่าที่บางคนคิดไว้
อาจเกิดตลาดสำหรับ ข้อมูลฝึกที่สะอาด ซึ่งไม่มีข้อเรียกร้องด้านลิขสิทธิ์แฝงอยู่ เช่น ใช้เฉพาะงานที่เป็นสาธารณสมบัติ
ถ้าเป็นแบบนั้น เราจะรู้ว่าเป็น AI เพราะมันพูดเหมือนนักเขียนปลายศตวรรษที่ 18 หรือต้นศตวรรษที่ 19 หรือเปล่า?
แต่โมเดลที่ยินดีทำซ้ำข้อความที่มีลิขสิทธิ์ทั้งก้อนอาจมีปัญหา และยังมีประเด็นใหม่อย่างโมเดลที่หลอนข้อมูลหมิ่นประมาทขึ้นมาด้วย
ถึงอย่างนั้นก็ดูเหมือนยากที่จะเอายักษ์ตัวนี้กลับเข้าไปในขวด ต่อจากนี้มีแนวโน้มจะเห็นทั้งคดีความจำนวนมาก งานจัดระเบียบ และรูปแบบการนำไปใช้ในทางที่ผิดแบบใหม่ ๆ
มันอาจกลายเป็นแหล่งรายได้แบบพาสซีฟเล็ก ๆ แต่จับต้องได้ สำหรับศิลปิน นักเขียน และกวีที่ไม่ขัดข้องหากทรัพย์สินทางปัญญาของตนถูกนำไปใช้ในชุดข้อมูลฝึก
การเจรจากับผู้สร้างแต่ละคนเป็นรายบุคคลคงไม่สมจริง แต่ถ้าเป็นกลุ่มใหญ่กว่า เช่น สำนักพิมพ์ แกลเลอรี สมาคมวิชาชีพ หรือสหภาพ ที่สามารถรับประกันคุณภาพของสมาชิกได้ ก็ดูพอเป็นไปได้ พวกเขาสามารถออกใบอนุญาตและแบ่งรายได้ให้สมาชิกทุกคนได้
การที่ LLM กวาดข้อมูลทั้งหมดนี้ไปใช้โดยไม่มีความยินยอมหรือสัญญา แถมบางทียังมาจากเว็บไซต์ทอร์เรนต์ด้วย เป็นเรื่องไร้จริยธรรมอย่างชัดเจน โมเดลแบบนี้อาจเป็นประโยชน์กับทุกฝ่ายได้
หลังจากแก้ได้แล้ว มันอาจไม่ใช่ปัญหาอีกเลย หรือกลายเป็นเพียงโจทย์เรื่องการแลกเปลี่ยนต้นทุน-ผลประโยชน์ที่เข้าใจง่ายขึ้นมาก
มันอาจเป็นส่วนผสมของงานสาธารณสมบัติและสิ่งพิมพ์ของรัฐบาลสหรัฐฯ ซึ่งสิ่งพิมพ์ของรัฐบาลสหรัฐฯ นั้นไม่อยู่ภายใต้ลิขสิทธิ์โดยหมวดหมู่
ญี่ปุ่นได้ประกาศตัวเป็นเขตอำนาจแบบนั้นแล้ว
ผมไม่ใช่ทนาย แต่สิ่งนี้ดูไม่ใช่ตัวอย่างที่ดีนักสำหรับการพิสูจน์การละเมิด
สรุปเนื้อหาหนังสือแบบละเอียดฟังดูเป็น การใช้งานเชิงดัดแปลง ตามแบบฉบับ โดยเฉพาะในกรณีของ Silverman ยิ่งตัดองค์ประกอบเชิงศิลป์ของร้อยแก้วออกและย่อหนังสือให้เหลือเป็น “ข้อเท็จจริง” มากเท่าไร ก็ยิ่งยากที่มันจะเป็นสิ่งทดแทนต้นฉบับโดยตรง
ข้อที่ว่าข้อมูลที่ได้มาโดยผิดกฎหมายถูกใช้ในกิจการเชิงพาณิชย์ และกิจการนั้นคือโมเดล AI อาจเป็นเพียงเรื่องรอง จะทำธุรกิจโดยใช้ข้อมูลที่ได้มาอย่างผิดกฎหมายไม่ได้
มนุษย์อ่านและศึกษาแล้วสร้างผลงานอีกแบบออกมาได้
แต่การ “ป้อนข้อมูลให้เครื่องจักร” ดูเหมือนการละเมิดอย่างชัดเจน แม้ว่าสุดปลายทางจะไม่ได้มีสิ่งเดียวกันเป๊ะ ๆ ออกมาก็ตาม
แล้วความเสียหายตรงนั้นจะคิดเท่าไร? เท่าราคาปลีกฉบับปกแข็งหรือเปล่า?
ต่อให้ยังไม่พูดถึงว่า LLM เป็นงานดัดแปลงของสิ่งที่มันฝึกมาทั้งหมดหรือไม่ ข้อกล่าวอ้างนี้ก็ดูอ่อนมาก
ต่อให้ไม่มีงานชิ้นนั้นอยู่ในชุดฝึกเลย LLM ที่ฝึกจากสรุปหลาย ๆ ชิ้นเกี่ยวกับงานนั้นก็สามารถสร้างสรุปแบบนั้นขึ้นมาเองได้
โดยทั่วไปแล้ว แค่ การมีความรู้ เกี่ยวกับอะไรบางอย่าง ไม่ใช่หลักฐานว่าได้ฝึกจากสิ่งนั้น
สามารถถามผู้เชี่ยวชาญด้าน LLM และฝั่ง OpenAI ได้ว่ามีความเป็นไปได้สูงหรือไม่ที่เอาต์พุตนั้นจะสืบเนื่องจากงานลิขสิทธิ์ที่เป็นประเด็น
ยังไงก็ตาม ถ้าตรรกะคือ “ไม่ใช่ มันไม่ได้มาจากหนังสือ แต่มาจากสรุปที่มีลิขสิทธิ์ของคนอื่น” นั่นก็แปลว่าคนที่เขียนสรุปนั้นต่างหากที่ควรฟ้องเรื่องละเมิดลิขสิทธิ์ไม่ใช่หรือ? เว้นแต่ OpenAI จะบอกว่า “จริง ๆ แล้วมันมาจากทั้งเล่ม ไม่ใช่จากสรุป”
เราอ่านงานมาหลายพันชิ้น แล้วอย่างนั้นทุกสิ่งที่เราเขียนก็หมายความว่าเป็น งานดัดแปลง ทั้งหมดหรือ?
หลักฐานที่น่าเชื่อกว่าน่าจะเป็นการทำให้ ChatGPT พิมพ์ข้อความต้นฉบับออกมาตรง ๆ ไม่ใช่แค่สรุป
ตอนที่ลองด้วยตัวเอง มันตอบประมาณว่าไม่สามารถเข้าถึงฐานข้อมูลภายนอกหรือหนังสือเฉพาะเจาะจงที่อยู่หลังเส้นตัดความรู้เดือนกันยายน 2021 ได้ และไม่สามารถให้คำคัดลอกแบบคำต่อคำจาก The Bedwetter ของ Sarah Silverman หรือข้อความเฉพาะอื่น ๆ ได้
แต่ก็บอกว่ายังสามารถสร้างข้อความจากการฝึกและความรู้ที่มีจนถึงจุดนั้นได้ และให้ถามเกี่ยวกับ Sarah Silverman หรือหัวข้อที่เกี่ยวข้องแทน
ดูเหมือนว่า OpenAI จะรู้ว่าซอฟต์แวร์ของตนสามารถปล่อยเนื้อหาที่มีลิขสิทธิ์ออกมาได้ จึงรีบใส่ฟิลเตอร์แบบฉุกเฉิน
ดังนั้นการที่ตอนนี้ขอแล้วมันไม่พิมพ์หนังสือออกมา ไม่ได้เป็นหลักฐานว่า AI ไม่ได้จดจำก้อนข้อมูลใหญ่นั้นไว้ แค่อาจมี ฟิลเตอร์ความปลอดภัย ทำงานอยู่ และอาจต้องใช้วิธีอ้อมง่าย ๆ เท่านั้น
ดูเหมือนนักพัฒนาจะกรองเอาไว้
คุณคิดว่าจะยัดข้อมูลข้อความระดับเอกซะไบต์ลงในโครงข่ายประสาทเทียมขนาดกิกะไบต์ได้อย่างไร? ใช่แล้ว มันคือการบีบอัดแบบสูญเสีย
เป็นไปได้มากกว่ามากไหมว่ามันสังเคราะห์ขึ้นมาเองจากการที่ในชุดข้อมูลฝึกมี บทวิจารณ์หนังสือและบทสรุป อยู่จำนวนมาก?
แทบเป็นไปไม่ได้เลยที่จะเชื่อว่าบริษัท AI พวกนี้จะระมัดระวังกับข้อมูลที่พวกเขาดูดเข้าไปใช้ฝึกแม้แต่นิดเดียว
อาจพอทดสอบได้ระดับหนึ่ง ถ้าลองขอให้มันสรุปหนังสือหรือตัวบทที่หาได้จากห้องสมุดเงาเท่านั้น
ที่ Getty Images ก็ฟ้อง Stability AI เรื่อง AI เหมือนกันนี่ค่อนข้างน่าขำ กรรมตามสนองหรือเปล่า?
Getty ขโมยจากคนอื่นได้ แต่คนอื่นขโมยจาก Getty ไม่ได้งั้นเหรอ? ผมไม่ได้มีส่วนได้เสียอะไรกับศึกนี้ แต่ความหน้าไหว้หลังหลอกของบริษัทพวกนี้มันหนักจริงๆ