การขูดเว็บสำหรับฉัน แต่ไม่ใช่สำหรับเธอ

(blog.ericgoldman.org)

1 คะแนน โดย GN⁺ 2023-08-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อข้อมูลเว็บสาธารณะกลายเป็นทรัพยากรหลักของการแข่งขันด้าน Generative AI และแพลตฟอร์ม ประเด็นว่า ใครควรได้รับอนุญาตให้นำข้อมูลไปใช้ จึงขยายเป็นปัญหาด้านกฎหมาย สัญญา และอำนาจเหนือตลาด
ข้อมูลที่แพลตฟอร์มอย่าง LinkedIn และ Facebook ต้องการปกป้องโดยมากคือ คอนเทนต์ที่ผู้ใช้สร้างขึ้น จึงอยู่ในขอบเขตที่แพลตฟอร์มอ้างสิทธิ์ในทรัพย์สินโดยตรงได้ยาก
เครื่องมือยับยั้งการขูดข้อมูลได้เปลี่ยนจากช่วงแรกที่ใช้แนวคิด การละเมิดต่อทรัพย์สินที่จับต้องได้ และในยุค 2000 ใช้ CFAA ไปสู่การฟ้องร้องโดยเน้นการละเมิดสัญญาหลังคดี hiQ Labs v. LinkedIn
เช่นเดียวกับคดี Bright Data ของ Twitter/X ข้อพิพาทล่าสุดแคบลงเป็นการอาศัยข้อกำหนดการใช้งานเพื่อกล่าวหาเรื่องการละเมิดสัญญา การแทรกแซงสัญญา และลาภมิควรได้
บริษัทอาจปิดกั้นข้อมูลในไซต์ของตนเองโดยเรียกว่า “proprietary” ขณะเดียวกันก็พยายามนำข้อมูลสาธารณะของผู้อื่นไปใช้ และคดีข้อมูลฝึก Generative AI จะเป็นสนามทดสอบถัดไปของความย้อนแย้งนี้

การขูดเว็บคือประเด็นเรื่องการเข้าถึงข้อมูล

การขูดเว็บเป็นวิธี ดึงความรู้ที่เผยแพร่สาธารณะบนอินเทอร์เน็ตในระดับมหาศาล และประเด็นสำคัญคือใครสามารถเข้าถึงและใช้ข้อมูลเพื่อวัตถุประสงค์ใดได้บ้าง
ข้อมูลบางส่วนบนอินเทอร์เน็ตอาจได้รับความคุ้มครองจากลิขสิทธิ์ เครื่องหมายการค้า และสิทธิในทรัพย์สินทางปัญญาอื่น ๆ แต่ข้อมูลจำนวนมากเป็นสิ่งที่ฝ่ายที่ต้องการปกป้องอ้างสิทธิ์ทรัพย์สินทางปัญญาได้ไม่ง่ายนัก
บริษัทโซเชียลมีเดียยื่นฟ้องคดีเกี่ยวกับการขูดข้อมูลอย่างแข็งขันมาโดยตลอด แต่คอนเทนต์ที่ LinkedIn และ Facebook ต้องการปกป้องโดยมากคือ คอนเทนต์ที่ผู้ใช้สร้างขึ้น
- ข้อกำหนดการใช้งานให้ไลเซนส์แก่แพลตฟอร์มในการใช้คอนเทนต์ของผู้ใช้ แต่โดยทั่วไปผลประโยชน์ตามกฎหมายลิขสิทธิ์ยังอยู่กับผู้ใช้
- แพลตฟอร์มปฏิเสธสิทธิความเป็นเจ้าของในข้อมูลดังกล่าวไว้ในข้อกำหนด แต่ในทางปฏิบัติกลับปฏิบัติต่อข้อมูลนั้นเหมือนเป็นทรัพย์สินของตนเอง

การเปลี่ยนผ่านของเครื่องมือทางกฎหมายเพื่อกันการขูดข้อมูล

ในยุคอินเทอร์เน็ตช่วงแรก ทฤษฎี การละเมิดต่อทรัพย์สินที่จับต้องได้ ถูกใช้เป็นเครื่องมือยับยั้งการขูดข้อมูล
- ตรรกะคือคำขอข้อมูลปริมาณมากที่ไม่พึงประสงค์เป็นการละเมิดเซิร์ฟเวอร์คอมพิวเตอร์ ซึ่งเป็นทรัพย์สินที่จับต้องได้ของเอกชน
- จำเป็นต้องมีองค์ประกอบเรื่องความเสียหาย และในช่วงปลายทศวรรษ 1990 ถึงต้นทศวรรษ 2000 มีกรณีที่ scraper ที่ทำงานไม่ดีสร้างภาระให้เว็บไซต์หรือทำให้ไซต์หยุดให้บริการ
เมื่อสภาพแวดล้อมทางเทคโนโลยีเปลี่ยนไป ความน่าเชื่อถือของทฤษฎีนี้ก็ลดลง
- ความจุของเซิร์ฟเวอร์เพิ่มขึ้นอย่างมาก
- scraper จำนวนมากจำกัดปริมาณคำขอ ทำงานในระดับที่โฮสต์เซิร์ฟเวอร์ตรวจจับได้ยากหรือแทบไม่ส่งผลกระทบ
- การพิสูจน์ความเสียหายจริงต่อเซิร์ฟเวอร์หรือทรัพย์สินที่จับต้องได้เกิดขึ้นได้น้อยลง
ตั้งแต่ต้นทศวรรษ 2000 ถึงปี 2017 Computer Fraud and Abuse Act(CFAA) เป็นเครื่องมือยับยั้งหลัก
- CFAA ห้ามการเข้าถึง “คอมพิวเตอร์ที่ได้รับการคุ้มครอง” โดยไม่ได้รับอนุญาต
- ในบริบทการขูดข้อมูล ประเด็นหลักคือการเข้าถึงหลังจากสิทธิถูกเพิกถอนผ่านหนังสือสั่งให้หยุดหรือมาตรการป้องกันบอทนั้นเป็น “การเข้าถึงโดยไม่ได้รับอนุญาต” หรือไม่

ผลลัพธ์ที่ซับซ้อนของ hiQ Labs v. LinkedIn

ตั้งแต่ปี 2001 ถึง 2017 การตีความแบบง่ายที่พบได้บ่อยคือ หากยังเข้าถึงต่อหลังถูกเพิกถอนสิทธิ ก็จะเกิดความรับผิดภายใต้ CFAA
คดี hiQ Labs, Inc. v. LinkedIn Corp. ในปี 2017 ได้รับความสนใจในทิศทางที่ยอมรับสิทธิของฝ่าย scraper คือ hiQ Labs ในการเข้าถึงข้อมูล LinkedIn ที่เป็นสาธารณะ
- Ninth Circuit เห็นว่าหากบริษัทอย่าง LinkedIn สามารถกำหนดตามใจว่าใครจะเก็บและใช้ข้อมูลที่ตนไม่ได้เป็นเจ้าของ เปิดเผยต่อสาธารณะ และตนเองก็เก็บรวบรวมและใช้อยู่ด้วย อาจเกิดความเสี่ยงของการผูกขาดข้อมูล
แต่ผลลัพธ์นี้ใกล้เคียงกับ ชัยชนะที่ได้ไม่คุ้มเสีย
- ต่อมา ศาลแขวงตัดสินว่า “User Agreement ของ LinkedIn ห้ามการขูดข้อมูลและการใช้ข้อมูลที่ถูกขูดไปโดยไม่ได้รับอนุญาตอย่างชัดเจน”
- LinkedIn ใช้เหตุนี้ขอคำสั่งห้ามถาวรและค่าเสียหายต่อ hiQ Labs ได้สำเร็จ
หลังจากนั้น เครื่องมือหลักในการกันการขูดข้อมูลจึงกลายเป็น การฟ้องร้องฐานละเมิดสัญญา มากกว่า CFAA

กฎหมายสัญญาทำงานเสมือนสิทธิในทรัพย์สินข้อมูล

เมื่อไม่นานมานี้ Twitter/X Corp. ยื่นฟ้อง scraper หลายราย รวมถึง Bright Data
- Bright Data ถือเป็นหนึ่งในบริษัทขูดเว็บรายใหญ่ที่สุดของโลก
- ข้อเรียกร้องที่ Twitter ยื่นต่อ Bright Data มี 3 ข้อ ได้แก่ การละเมิดสัญญา การแทรกแซงสัญญา และลาภมิควรได้
เมื่อ 10 ปีก่อน ในคดีขูดข้อมูลมักพบว่าโจทก์ยื่นข้อเรียกร้องทางกฎหมาย 10–15 ข้อเพื่อทดสอบหลายทฤษฎี แต่ระยะหลังมีความเชื่อมั่นมากขึ้นว่าศาลจะบังคับใช้ข้อเรียกร้องฐานละเมิดสัญญา
ภายใต้โครงสร้างนี้ เว็บไซต์โฮสต์สามารถกำหนดสิทธิเหนือข้อมูลได้ตามต้องการผ่านข้อกำหนดการใช้งานออนไลน์
บทความ Terms of Use ของ Mark Lemley ใน Minnesota Law Review ปี 2006 มองว่าเมื่อย้ายจากกฎหมายทรัพย์สินไปสู่กฎหมายสัญญา ขอบเขตสิทธิของเจ้าของเว็บไซต์จะไม่ได้ถูกกำหนดโดยกฎหมาย แต่ถูกกำหนดโดยเจ้าของไซต์เอง
ศาลยอมให้เกิดระบบที่สัญญาออนไลน์ทำงานเหมือนสิทธิในทรัพย์สินทางปัญญาชั่วคราวเหนือข้อมูลของไซต์ แทนที่จะใช้กฎทั่วไปเรื่องการใช้ข้อมูลหรือกฎทรัพย์สินทางปัญญาที่มีอยู่เดิม
- อย่างไรก็ตาม หากออกแบบให้เหมือนการคุ้มครองลิขสิทธิ์ทุกประการก็อาจเกิดปัญหาได้

ท่าทีสองมาตรฐานของบริษัทต่อการขูดข้อมูล

ระบบกฎหมายที่ใช้การละเมิดสัญญาเสมือนสิทธิในทรัพย์สินนั้นไม่มี ข้อกำหนดเรื่องความสอดคล้อง
- บริษัทสามารถยืนยันอย่างแข็งขันได้ว่าอะไรในไซต์ของตนเป็น “proprietary”
- ขณะเดียวกันก็สามารถอ้างได้ว่าอะไรในไซต์อื่นเป็นข้อมูลที่หยิบไปใช้ได้อย่างเสรี
เมื่อไม่นานมานี้ Microsoft อัปเดตข้อกำหนดการใช้งานทั่วไปเพื่อห้ามการขูด การเก็บเกี่ยว และวิธีสกัดข้อมูลที่คล้ายกันสำหรับบริการ AI
ในช่วงเวลาเดียวกัน OpenAI ซึ่งเป็นบริษัทในเครือของ Microsoft ได้เปิดตัว GPTbot ที่ออกแบบมาเพื่อขูดข้อมูลจากอินเทอร์เน็ต
ข้อกำหนดการใช้งานของ OpenAI ก็ห้ามการขูดข้อมูลเช่นกัน
LinkedIn บริษัทลูกของ Microsoft ประกาศชัยชนะในหนึ่งในคดีขูดเว็บที่ได้รับความสนใจมากที่สุดในสหรัฐฯ และได้รับคำสั่งห้ามถาวรไม่ให้อดีตคู่แข่งขูดหรือเข้าถึงข้อมูลทั้งสาธารณะและไม่สาธารณะโดยถาวร
Meta ก็ยื่นฟ้องบริษัทที่ขูดคอนเทนต์สาธารณะไปขาย แต่ในอดีตเคยมีกรณีจ่ายเงินให้ scraper รายเดียวกันเพื่อขูดข้อมูลสาธารณะ

ศาลและสนามทดสอบถัดไป

ท่าทีสองมาตรฐานเช่นนี้ถูกวิจารณ์ว่าไม่ใช่ปัญหาของบริษัทเท่านั้น แต่เป็นเพราะศาลอนุญาตให้มีโครงสร้างที่ทำเช่นนั้นได้
เป้าหมายของคำวิจารณ์รวมถึง Register.com v. Verio, Inc., Northern District of Texas ที่เปิดทางให้เกิดคดีที่เกี่ยวข้องกับ Southwest Airlines และศาลในคดี hiQ Labs ที่ไม่ได้อธิบายความไม่สอดคล้องกันระหว่างคำสั่งห้ามชั่วคราวภายใต้ CFAA กับคำสั่งห้ามถาวรฐานละเมิดสัญญา
หากอนุญาตให้บริษัทเอกชนสร้างสิทธิในทรัพย์สินทางปัญญาผ่านสัญญาสำเร็จรูปออนไลน์ การตัดสินใจเรื่องการเข้าถึงข้อมูลซึ่งควรเป็นประเด็นสาธารณประโยชน์อาจถูกครอบงำโดยผู้ตัดสินใจภาคเอกชน
เนื่องจากสัญญา รวมถึงสัญญาออนไลน์ เป็นประเด็นตามกฎหมายของรัฐ จึงยากที่จะจินตนาการถึงทางออกแบบง่าย ๆ
หนึ่งในทางออกที่เป็นไปได้คือการตีความหลักการ preemption ของลิขสิทธิ์ให้ครอบคลุมมากขึ้น แต่หลักกฎหมาย preemption ของลิขสิทธิ์ในปัจจุบันยังสับสนจากความเห็นที่แตกต่างกันระหว่างศาลอุทธรณ์ภาค และ Supreme Court เพิ่งปฏิเสธโอกาสที่จะแก้ไขเรื่องนี้
ไม่ว่าสถานะกฎหมายปัจจุบันจะเป็นอย่างไร สนามทดสอบถัดไปคือคดีเกี่ยวกับ ข้อมูลฝึก Generative AI และความไม่สอดคล้องทางกฎหมายในพื้นที่นี้อาจก่อให้เกิดข้อถกเถียงต่อไป

1 ความคิดเห็น

GN⁺ 2023-08-26

ความคิดเห็นจาก Hacker News

ยังสับสนอยู่ว่าคดี HiQ กับ LinkedIn ไปหยุดอยู่ตรงไหน เท่าที่รู้คือ LinkedIn ฟ้อง HiQ, ศาลอุทธรณ์ภาค 9 ตัดสินเข้าข้าง HiQ, LinkedIn ไปถึงศาลฎีกา แต่ศาลฎีกาอ้างอิงคดี Van Buren แล้วเพิกถอนคำพิพากษาและส่งกลับไปพิจารณาใหม่ จากนั้นศาลอุทธรณ์ภาค 9 ตรวจสอบอีกครั้งและได้ข้อสรุปเดิม
หลังจากนั้น LinkedIn ได้รับอนุญาตให้ยกเลิกคำสั่งคุ้มครองชั่วคราวที่ห้ามบล็อก HiQ และในเดือนพฤศจิกายน 2022 ดูเหมือนว่าหลังคำตัดสินแบบมีทั้งแพ้และชนะ ท้ายที่สุดก็จบด้วยการตกลงยอมความแบบไม่เปิดเผย หลายคนมักอ้างถึงคดีนี้ แต่ไม่ค่อยลงรายละเอียด
ถ้าอ่านสรุปคำตัดสินเดือนพฤศจิกายน 2022 ประเด็นดูเหมือนอยู่ที่ HiQ ทำให้ผู้คนต้องล็อกอิน จึงทำให้ข้อกำหนดการใช้งานมีผลบังคับ และสุดท้ายดูเหมือนศาลจะรับฟังข้อโต้แย้งฝ่าย LinkedIn ว่า HiQ ละเมิด ข้อกำหนดการใช้งานของ LinkedIn
https://www.natlawreview.com/article/court-finds-hiq-breache...
- พอกลับไปอ่านอีกครั้ง ดูเหมือนควรสรุปลำดับเหตุการณ์แบบนี้: hiQ ยื่นขอคำสั่งห้ามต่อศาลแขวงสหรัฐฯ เขตเหนือของแคลิฟอร์เนียเพื่อบังคับ LinkedIn และชนะในประเด็น ข้อเรียกร้องตาม CFAA; LinkedIn อุทธรณ์ต่อศาลอุทธรณ์ภาค 9 แต่ hiQ ก็ยังชนะในประเด็น CFAA ที่นั่นด้วย
  ข้อเรียกร้องด้านการผูกขาดของ hiQ แพ้ในชั้นคำร้องให้ยกฟ้อง และในช่วงเวลาใกล้ ๆ กัน hiQ ก็ปิดกิจการไปแล้ว แต่มีผู้สนับสนุนทุนหนายังคงจ่ายค่าดำเนินคดีต่อ LinkedIn เดินหน้าข้อเรียกร้องอื่น ๆ เช่นการผิดสัญญา และชนะในชั้นคำร้องให้ยกฟ้อง ศาลฎีกาส่งคดีกลับไปยังศาลอุทธรณ์ภาค 9 หลังคดี Van Buren และศาลอุทธรณ์ภาค 9 ก็เข้าข้าง hiQ อีกครั้งในประเด็น CFAA
  หลังจากนั้นคำสั่งคุ้มครองชั่วคราวถูกยกเลิก, hiQ แพ้เกือบทั้งหมดในชั้น summary judgment และท้ายที่สุดก็ยอมยกธงขาว ตกลงรับ คำสั่งห้ามถาวร ที่รับข้อเรียกร้องส่วนใหญ่ของ LinkedIn และจ่ายเงิน 500,000 ดอลลาร์ให้ LinkedIn
- แทนที่จะเรียกว่าคำตัดสินแบบมีทั้งแพ้และชนะในเดือนพฤศจิกายน 2022 มันคือ ความพ่ายแพ้ย่อยยับของ hiQ Labs มากกว่า อ่านคำสั่งห้ามถาวรที่ศาลออกมาก็พอ
- ไม่รู้ว่า “บรรทัดฐานทางกฎหมายของคำตัดสินแบบมีทั้งแพ้และชนะ” หมายถึงอะไร ไม่รู้ด้วยซ้ำว่าสิ่งแบบนั้นเป็นไปได้หรือไม่
เมื่อ “สัญญา” แบบข้อกำหนดการใช้งานมีมากขึ้น และในสังคมยุคใหม่แทบเป็นไปไม่ได้ที่จะใช้ชีวิตโดยไม่ยอมรับมัน ปัญหานี้ก็ยิ่งแย่ลงทุกวัน ถึงขั้นว่าซื้อ SSD ใหม่สักตัวก็ยังพ่วงการยอมรับข้อกำหนดมาด้วย
กฎหมายมีความสำคัญน้อยลงเรื่อย ๆ และเราถูกครอบงำมากขึ้นเรื่อย ๆ โดย สัญญาฝ่ายเดียว ที่บริษัทยักษ์ใหญ่ผลักดันใส่เราอยู่ฝ่ายเดียว
- เป็นสำนวนที่ดี ผมคิดว่ามีสองวิธีในการมองเว็บเพจ วิธีหนึ่งคือมองว่า เว็บเพจเป็นป้ายโฆษณา อีกวิธีหนึ่งคือมองว่า เว็บเพจเป็นแผ่นพับ
  ถ้าเป็นป้ายโฆษณา การทาทับส่วนที่ผมไม่ชอบ หรือก็คือการใช้ตัวบล็อกโฆษณา จะกลายเป็นสิ่งผิดทางศีลธรรม ฝ่ายที่เป็นเจ้าของเว็บเพจต้องการการควบคุม จึงชอบมุมมองนี้ และฝ่ายที่เปลี่ยนหน้าตาเว็บเพจไม่ได้อย่างผู้ใช้ทั่วไปก็มักยอมรับแบบนั้นเช่นกัน
  ถ้าเป็นแผ่นพับ ผมย่อมมีอิสระที่จะตัดมันออกและจัดวางใหม่ตามใจชอบ ในเชิงเทคนิคแล้วแบบหลังถูกต้องกว่า เว็บเพจเป็นเพียงข้อมูลไม่กี่บิตที่ถูกส่งมาให้ผม และตราบใดที่ผมควบคุมคอมพิวเตอร์ของตัวเองได้ ผมก็สามารถตัดบิตเหล่านั้นออกแล้วดูในแบบที่ผมต้องการได้
  จะพูดว่า Amazon.com บรรจุเว็บเพจของ Amazon และ Amazon เป็นเจ้าของหน้านั้นก็ได้ แต่ผมดู Amazon.com ผ่านอุปกรณ์ของผมเองหรืออุปกรณ์ของคนอื่นที่ไม่ใช่ของ Amazon มาโดยตลอด Amazon.com ไม่ได้อยู่บนป้ายโฆษณา แต่มันต้องอาศัยอุปกรณ์อิเล็กทรอนิกส์ที่คนอื่นเป็นเจ้าของ แล้วเจ้าของอุปกรณ์อิเล็กทรอนิกส์เหล่านั้นมีสิทธิอะไรบ้าง? พิกเซลบนหน้าจอของผมเริ่มกลายเป็นพื้นที่คุ้มครองของคุณตั้งแต่ตอนไหน?
- ตัวอย่างที่น่าขันที่สุดคือสัญญาแบบนี้เริ่มปรากฏใน โลกกายภาพ ด้วย มีร้านค้าที่ติดป้ายว่าเมื่อเข้าไปในร้านจริง ๆ แล้วถือว่ายอมรับเงื่อนไขสัญญา
  ถ้าจะอ่านสัญญาก็ให้สแกน QR code ด้วยโทรศัพท์ ผมเคยเห็นอะไรคล้าย ๆ กันในสวนสาธารณะด้วย ประมาณว่าเมื่อเข้าไปแล้วจะถูกผูกมัดกับข้อตกลงทางกฎหมายว่าจะไม่ฟ้องสวนสาธารณะหรือจะปฏิบัติตามกฎที่ประกาศไว้
- ถ้าจะสู้กับเรื่องนี้ ฝั่งลูกค้าก็ควรมี สัญญาแบบข้อกำหนดมาตรฐาน ของตัวเองด้วย เนื้อหาก็แค่ว่า ถ้าบริษัทรับผมเป็นลูกค้า สัญญาของบริษัทเองถือเป็นโมฆะ
  จ่ายเงินรายเดือนให้กับองค์กรอย่างสหภาพลูกค้าหรือประกัน แล้วมีทีมกฎหมายคอยหนุนหลัง สัญญานี้ก็น่าจะบังคับใช้ได้หรือไม่ได้พอ ๆ กับสัญญาของบริษัท สมดุลก็จะเกิดขึ้น จากนั้นก็ไม่ต้องอ่านแล้วว่าบริษัทเขียนอะไรไว้ด้วยตัวเล็ก ๆ
  ถ้าบริษัทไม่ยอมรับสัญญาของลูกค้าหรือไม่ให้เลี่ยงข้อกำหนดของตัวเอง ก็แค่เดินออกไป ธุรกรรมก็ไม่เกิดขึ้น และบริษัทอื่นก็จะได้ลูกค้าไป
- กฎหมายสัญญา สมัยใหม่ละเมิดสิทธิในทรัพย์สินส่วนบุคคลอย่างต่อเนื่อง ข้อกำหนดอนุญาโตตุลาการภาคบังคับยิ่งทำให้เรื่องนี้แย่ลง
ความรู้สึกที่ดูเหมือนความหน้าซื่อนั้นจะหายไปได้บ้าง ถ้ามองเรื่องนี้เป็น การแข่งขัน ไม่ใช่ความร่วมมือหรือชุมชนที่เท่าเทียมกัน และในความเป็นจริงมันก็เป็นการแข่งขันจริง ๆ เราคงไม่พูดกับทีมฟุตบอลว่า “นายจะยิงประตูฉันก็ได้ แต่พอฉันจะยิงประตู นายกลับมาขวางลูกบอลกะทันหันเหรอ?”
แน่นอนว่าพวกเขาจะพูดว่า “เว็บสแครปปิงใช้ทรัพยากร เลิกทำเถอะ” แต่เบื้องหลังก็ยังคงทำเว็บสแครปปิงต่อไป
มันเป็นพฤติกรรมที่แย่อย่างชัดเจน แต่ผมไม่คิดว่าเป็นพฤติกรรมหน้าซื่อใจคด เพราะมันสอดคล้องอย่างสมบูรณ์กับภาพของบริษัทไร้ศีลธรรมที่ต่อสู้กันไม่หยุด พยายามเพิ่มผลประโยชน์ของตัวเองให้สูงสุดและลดผลประโยชน์ของผู้อื่นให้เหลือน้อยที่สุด
- เป็นการเปรียบเทียบที่น่าสนใจ แต่ไม่แน่ใจว่าเป็นกรอบที่ถูกต้องหรือไม่ การทำให้การสแครปปิงยากขึ้นทางเทคนิคเทียบได้กับความพยายามยิงประตู ดังนั้นแม้อาจไม่ดีต่อโลกโดยรวมมากนัก แต่ก็อาจไม่ใช่ความหน้าซื่อใจคด
  แต่การพยายามหยุดพฤติกรรมบางอย่างด้วย วิธีการทางกฎหมาย นั้นใกล้เคียงกับการที่ตัวเองก็เล่นแบบเดียวกัน แต่ไปขอให้กรรมการสั่งห้ามรูปแบบการเล่นบางประเภทมากกว่า ในกีฬาก็มีเรื่องแบบนี้บ่อย แต่โดยทั่วไปมักถูกมองว่าเป็นความหน้าซื่อใจคด
- คำพูดที่ว่า “เว็บสแครปปิงใช้ทรัพยากร เลิกทำเถอะ” เป็นต้นทุนที่ควรคาดไว้เมื่อโพสต์อะไรบางอย่างบนอินเทอร์เน็ตสาธารณะ ผู้คนจะเข้าถึงมัน คุณไม่มีสิทธิ์บ่นว่าผู้คนเข้าถึงสิ่งที่คุณโพสต์ไว้ให้สาธารณชนดู
  แน่นอนว่าสแครปเปอร์ก็ทำตัวน่ารำคาญได้ เช่น ขี้เกียจจนเคาะเซิร์ฟเวอร์ไม่หยุด หรือเผลอดาวน์โหลดเนื้อหาเดิมซ้ำ ๆ แต่เรื่องนั้นไม่จำเป็นต้องใช้การฟ้องร้อง ถ้ามันถึงระดับการโจมตีแบบปฏิเสธการให้บริการ กฎหมายที่มีอยู่ก็จัดการได้อยู่แล้ว
  ถ้าบริษัทบางแห่งทำให้ทุกคนแย่ลงและมีแต่ตัวเองที่ร่ำรวยขึ้น เราควรคิดใหม่ว่าควรมอบ สิทธิพิเศษของนิติบุคคล ให้บริษัทแบบนั้นต่อไปหรือไม่ เราไม่จำเป็นต้องยอมให้ปรสิตและนักปล้นเอาสิ่งที่ต้องการไปด้วยต้นทุนของเรา
- ความหน้าซื่อใจคดไม่ได้เกิดขึ้นเฉพาะเมื่อคน ๆ หนึ่งเชื่อในอุดมคติที่ตัวเองพูดด้วยเจตนาดี แต่ในทางปฏิบัติทำตามไม่ได้เท่านั้น ต่อให้เปรียบเทียบกับทีมฟุตบอลจนทำให้ประเด็นพร่าไป ก็ไม่ได้เปลี่ยนข้อเท็จจริงที่ว่าพวกเขาบังคับใช้มาตรฐานกับคนอื่น แต่ไม่ใช้มาตรฐานเดียวกันกับตัวเอง
  ต่อให้พวกเขาทำเช่นนั้นด้วยเจตนาร้ายอย่างไร้ศีลธรรม มันก็ยังเป็น ความหน้าซื่อใจคด อยู่ดี ยิ่งเป็นแบบนั้นก็ยิ่งใช่ สิ่งสำคัญคือพวกเขาชูนโยบายแบบไหน และการไม่ได้เชื่อจริง ๆ ไม่ได้ทำให้พ้นผิด
- ปัญหาของตรรกะที่ว่า “บริษัทไร้ศีลธรรมก็เป็นแบบนี้อยู่แล้ว” คือ เหตุผลที่บริษัทได้รับอนุญาตให้มีอยู่ตั้งอยู่บนสมมติฐานว่ามันให้ประโยชน์สุทธิต่อสังคมโดยรวม หากสมมติฐานนั้นหายไป สังคมก็ไม่มีเหตุผลที่จะไม่มองบริษัทเป็น ฝันร้ายแบบเลิฟคราฟต์ที่หิวโหย แล้วกำจัดมันด้วยไฟและเรือกลไฟ
- ในฟุตบอล กฎถูกปรับเปลี่ยนมามากมายเพื่อสร้างการแข่งขันที่ยุติธรรม ดูเหมือนว่าใน กฎหมายบริษัท ก็ควรมีการปรับแบบนั้นให้มากขึ้นเช่นกัน
ไม่เข้าใจว่าทำไมเรื่องนี้ถึงแสดงถึงความหน้าซื่อใจคด มีความแตกต่างอย่างมากระหว่างการครอว์ลเว็บที่เข้าถึงได้แบบสาธารณะ กับการสแครปเว็บแอปพลิเคชันหรือ API ที่ต้องผ่านการยืนยันตัวตน เสิร์ชเอนจินที่ถูกกฎหมายครอว์ลเว็บสาธารณะอยู่เสมอ
- ความหน้าซื่อใจคดอยู่ตรงนี้ OpenAI และรายอื่น ๆ สแครปเว็บสาธารณะเพื่อฝึกและสร้างโมเดล แล้วขายการสมัครสมาชิกด้วยโมเดลนั้นเพื่อทำเงิน แต่ผู้สร้างข้อมูลฝึกไม่ได้อะไรกลับไปเลย
  แล้วกลับห้ามไม่ให้คนอื่นทำสิ่งเดียวกับที่ตัวเองเคยทำ
  ถ้าเทียบกับเสิร์ชเอนจินแล้วต่างกัน เสิร์ชเอนจินกวาดเว็บสาธารณะเพื่อสร้างดัชนีค้นหา และใช้ดัชนีนั้นให้ผลการค้นหาและโฆษณา สิ่งสำคัญคือโดยทั่วไปผลการค้นหาจะส่งผู้คนไปยังเว็บไซต์ที่ถูกกวาดมา และเปิดโอกาสให้เว็บไซต์เหล่านั้นทำเงิน
- เป็นความจริงที่ Microsoft ลงทุนใน OpenAI แต่ไม่ได้ควบคุม OpenAI
เห็นปัญหาอยู่สองอย่าง เว็บสแครปปิงเป็น ปัญหาโมเดลธุรกิจ อย่างชัดเจน และส่วนหนึ่งของปัญหานั้นมาจากขนาด
หากคุณให้คอนเทนต์ฟรีและพยายามค้ำจุนด้วยโฆษณา ทันทีที่คนอื่นเอาคุณค่าของคอนเทนต์ไปได้โดยไม่ดูโฆษณา โมเดลนั้นก็เริ่มพัง ตัวอย่างเช่น ตัวบล็อกโฆษณา คำตอบที่รวมอยู่ในผลการค้นหาของ Google โคลนของ Stack Overflow และสิ่งอย่าง ChatGPT
อีกปัญหาคือเรื่องขนาด ซึ่งผมไม่รู้จะแก้อย่างไร เมื่อรัฐบาลออกนโยบายเป็นมิตรว่าใช้พลั่วในสวนสาธารณะได้ ก็อาจคิดว่าจะเป็นประโยชน์กับคนอย่างนักตั้งแคมป์ แต่ถ้าทีมเหมืองเปิดมืออาชีพโผล่มา เรื่องก็เปลี่ยนไป
ถ้าเป็นเว็บไซต์ที่ให้ข้อมูลดี ๆ ฟรี แล้วหาเงินจากการขายหนังสือหรือบริการผู้เชี่ยวชาญ ก็อาจเป็นอาชีพที่พออยู่ได้ แม้คำตอบจะเข้าไปอยู่ในกล่องคำตอบของ Google เนื้อหาหรือการวิเคราะห์ที่ซับซ้อนกว่านั้นยังต้องเข้าไปอ่านอยู่ดี และอาจได้ผู้ติดตามจากตรงนั้น
แต่ถ้าสิ่งอย่าง ChatGPT สามารถ “อ่าน” งานเขียนของผม แล้วแจกจ่ายคุณค่า 80% ออกไปโดยไม่รู้ที่มา นั่นคือจบ โมเดลธุรกิจจะไม่ทำงานอีกต่อไป โมเดลทั้งหมดที่แบ่งปันข้อมูลดี ๆ ฟรีจะล้มเหลว เหมือนปัญหาที่ศิลปินกำลังเผชิญอยู่ตอนนี้
ผมไม่รู้วิธีแก้โดยไม่มีการห้ามบางอย่าง แต่หากทุกประเทศไม่ได้บังคับใช้เรื่องนี้ ก็ต้องปรับไปตามตัวส่วนร่วมต่ำสุด และสุดท้ายต้องล็อกคอนเทนต์ทั้งหมด ห้ามทั้งการค้นเว็บ คำตอบของ Google และ ChatGPT ต่อให้เขียนใน robots.txt ว่า “กรุณาอย่าสแครป” ก็คงไม่ทำงาน
- สิ่งที่น่าสนใจคือ โดยแก่นแล้วนี่แทบเหมือนกับการถกเถียงเรื่อง ลิขสิทธิ์ แบบดั้งเดิม ความต่างมีเพียงผู้เขียนหนังสือโดยปกติไม่ได้แจกหนังสือฟรีบนเว็บไซต์ส่วนตัวของตัวเอง
  ลิขสิทธิ์คือความพยายามปกป้องโมเดลธุรกิจของผู้เขียนที่ต้องการขายสิ่งที่คัดลอกได้ง่ายและถูกมาก ส่วนความพยายามจำกัดเว็บสแครปปิงทางกฎหมายคือความพยายามปกป้องโมเดลธุรกิจของผู้สร้างที่ให้สิ่งที่คัดลอกได้ง่ายและถูกมากฟรี แต่ต้องการให้มารับสำเนาฟรีจากผู้สร้างโดยตรงเท่านั้น
- ถูกต้อง ดังนั้นการสแครปปิงควรเป็นสิ่งที่ไม่จำกัดและถูกกฎหมายสำหรับทุกคน ข้อมูลทั้งหมดที่เข้าถึงได้บนอินเทอร์เน็ตควรถูกนำไปประมวลผลได้อย่างถูกกฎหมาย
  ดังนั้นเราควรสามารถใช้บริการ GPT เพื่อฝึกโมเดลของเราเอง หรือสแครปอะไรก็ตามที่เข้าถึงได้สาธารณะเช่นกัน การป้องกันเดียวของเราคือบริการคู่แข่งที่ประมวลผลข้อมูลได้ดีกว่าโมเดลภาษาขนาดใหญ่แบบทั่วไปใด ๆ ทางออกแทบจะเป็น การแข่งขันที่เป็นธรรม ไม่ใช่การกำกับดูแล
- ไม่น่าคิดว่าเพย์วอลล์จะแก้เรื่องนี้ได้ สำหรับสแครปเปอร์ บัญชีแบบจ่ายเงินเพียงบัญชีเดียวก็พอแล้ว ถ้าแค่ “อ่าน” บทความใหม่ ๆ ทันทีที่ออกมา การจำกัดอัตราก็แทบทำได้ยาก
  หลังจากได้ข้อมูลแล้วก็สามารถนำไปเผยแพร่ได้ หากการโพสต์ตรง ๆ เป็นการละเมิดลิขสิทธิ์ การทำให้มันคลุมเครือโดย ซ่อนอยู่หลัง AI ก็น่าจะเลี่ยงได้เพียงพอ
ถ้าห้องสมุดให้ยืมฟรีและดัชนีค้นเว็บไม่เคยมีอยู่มาก่อน แล้ววันนี้มีคนพยายามสร้างขึ้นใหม่ ก็คงถูกฟ้องจนพังยับเยินไปแล้ว
เหตุการณ์เหล่านี้พึ่งพาเหตุผลหลักคือความเข้าใจที่คลุมเครือเกี่ยวกับข้อตกลงตามสัญญา ความเห็นของผมมีสองอย่าง EULA ไม่ใช่เอกสารที่บริษัททำขึ้นมาให้เซ็น และโดยพื้นฐานแล้วผมมองว่า EULA เป็นขยะ
มันเป็นฝ่ายเดียวโดยสิ้นเชิง และส่วนใหญ่ถ้ามีใครมีทรัพยากรพอจะสู้จริง ๆ ก็น่าจะผิดกฎหมายหรือยืนไม่อยู่ในศาล
ผมคิดว่าความรับผิดชอบในการรับประกันว่าผู้ใช้ได้อ่านและเข้าใจ EULA ควรอยู่ที่บริษัทที่ทำมันขึ้นมา และถ้าพิสูจน์ไม่ได้ว่าคนนั้นเข้าใจ EULA ทั้งหมดก่อนเข้าถึงไซต์ ก็ไม่ควรบังคับใช้ได้ EULA ไม่ใช่สัญญาธุรกิจ แต่เป็นกฎหมายเทียมแบบองค์กรชนิดหนึ่งที่บริษัทพยายามผูกกับการใช้ผลิตภัณฑ์
มีผลิตภัณฑ์อะไรในโลกที่แนบรายการกฎการใช้งานยาวเหยียดแบบนี้มา แล้วบอกว่าถ้าฝ่าฝืนอาจถูกฟ้องได้?
ดังนั้นเมื่อเรื่องนี้ย้อนกลับมาที่ “การสแครปข้อมูลระหว่างบริษัทกับบริษัท” ถ้าคุณเอาขึ้นเว็บไว้ และคอนเทนต์นั้นไม่มีลิขสิทธิ์จริง ๆ ของคุณ กล่าวคือไม่ได้สร้างขึ้นเอง คุณก็ไม่มีสิทธิ์ปกป้องมันจากการ “ขโมย”
แน่นอนว่าผมรู้ว่า John Deere ไม่ให้ลูกค้าซ่อมแทรกเตอร์ของตัวเอง แต่นั่นก็เป็นเรื่องเหลวไหลเหมือนกัน
- ข้อตกลงออนไลน์แบบนี้มัก บังคับใช้ได้ แม้บริษัทจะมีทรัพยากรสำหรับป้องกันตัวจำนวนมากก็ตาม
คดี Register.com กับ Verio ที่ลิงก์ไว้น่าสนใจ ผมคิดว่าศาลตัดสินเรื่องสัญญาแบบเงื่อนไขการใช้งานอย่างละเอียดอ่อนกว่าที่คนทั่วไปเข้าใจกัน
ในคดีนี้ Verio เรียกใช้ API ของ Register เพื่อวัตถุประสงค์ที่ Register ห้ามไว้ แต่ Register กลับให้ข้อความ “สัญญา” ที่ระบุข้อจำกัดหลังจากการเรียกใช้นั้นเสร็จแล้ว ดูเหมือนน่าจะเป็นส่วนหนึ่งของ API response
ศาลมองจริง ๆ ว่านั่นสายเกินไป ถ้าวิธีเดียวที่จะรู้เงื่อนไขการเรียกใช้ API ได้คือการเรียก API นั้นก่อน นี่ก็คือ สัญญาแบบ shrink-wrap และเงื่อนไขดังกล่าวเป็นโมฆะ
อย่างไรก็ตาม ศาลนำการวินิจฉัยนี้ไปใช้เฉพาะกับการเรียก API ครั้งแรกเท่านั้น เพราะ Verio มีพนักงานที่คาดหวังให้ใช้สามัญสำนึกได้ และหลังจากการเรียกครั้งแรกก็มีโอกาสอ่านข้อความและรับรู้ข้อจำกัดแล้ว ดังนั้นในการเรียก API ทุกครั้งหลังจากนั้น พนักงานของ Verio จึงทำไปทั้งที่รู้ว่าเป็นสิ่งที่ Register ห้ามไว้อย่างชัดเจน ศาลจึงมองว่าเป็นการละเมิดสัญญา
ประเด็นสำคัญคือศาลไม่ได้ละทิ้งหลักการที่ว่าบุคคลต้องรู้เงื่อนไขของสัญญาจึงจะถือว่าเข้าทำสัญญา คดีนี้ในทางปฏิบัติใกล้เคียงกับการปฏิเสธสถานการณ์ที่รู้เงื่อนไขอยู่แล้วแต่แสร้งทำเป็นไม่รู้มากกว่า
[1] https://en.m.wikipedia.org/wiki/Register.com_v._Verio
กรณี Allen Institute ที่คุยกันเมื่อสัปดาห์ก่อนเป็นตัวอย่างที่ดี
https://news.ycombinator.com/item?id=37181415
พวกเขา “เปิดเผย” ชุดข้อมูลที่สร้างจากการสแครปวัสดุสาธารณสมบัติ พร้อมแนบ ไลเซนส์ ที่จำกัดว่าผู้คนจะนำไปใช้ได้อย่างไร
ประโยคที่ว่า “คอนเทนต์ที่พวกเขาพยายามปกป้องไม่ใช่ของพวกเขา แต่เป็นของผู้ใช้” ถูกแค่ในระดับหนึ่ง Facebook บอกว่าคอนเทนต์เป็นของผู้ใช้ เพื่อให้อธิบายได้ง่ายขึ้นว่าตัวเองไม่ต้องรับผิดเมื่อมีคอนเทนต์ผิดกฎหมาย
แต่ผู้ใช้ก็ยินยอมให้ Facebook ได้ “ไลเซนส์ทั่วโลก แบบไม่ผูกขาด โอนได้ ให้ไลเซนส์ช่วงต่อได้ ปลอดค่าลิขสิทธิ์ เพื่อใช้คอนเทนต์ทรัพย์สินทางปัญญาใด ๆ ที่คุณโพสต์บน Facebook หรือเกี่ยวข้องกับ Facebook”
ตัวอย่างเช่น แม้ผู้ใช้จะลบคอนเทนต์ของตัวเอง Facebook ก็ยังคงใช้มันและแสดงให้เพื่อน ๆ เห็นได้ ดังนั้นผมจึงบอกว่า “ในระดับหนึ่ง”
- นั่นไม่ได้เปลี่ยนว่าคอนเทนต์เป็นของใคร แค่ให้สิทธิบางอย่างแก่ Facebook เท่านั้น จริง ๆ แล้วถ้าไม่มีถ้อยคำอย่าง “ถาวร” หรือ “เพิกถอนไม่ได้” ก็ไม่ได้หมายความว่าจะใช้ต่อได้หลังลบ หรือไม่สามารถถอนการให้สิทธิ์ได้
- ไลเซนส์ ไม่ใช่กรรมสิทธิ์ อย่างไรก็ดี ส่วนนั้นของบทความเป็นเพียงการอธิบายบริบทเท่านั้น และสิ่งที่อธิบายตรงนี้ไม่ใช่ฐานทางกฎหมายของคดีหรือคำพิพากษาที่ถูกพูดถึง แต่เป็นส่วนที่อธิบายว่าทำไมจึงไม่ได้ใช้กฎหมายทรัพย์สิน
- คุณอ่านป้ายที่ติดไว้หรือเปล่า? มันเขียนว่า “ห้ามเดินบนถนนนอกที่ดินส่วนบุคคลของฉัน”
- ผมคิดว่าคำกล่าวที่ว่าแม้ผู้ใช้จะลบคอนเทนต์ของตัวเอง Facebook ก็ยังคงใช้ต่อและแสดงให้เพื่อน ๆ เห็นได้นั้นไม่น่าถูกต้อง ถ้าผมขอให้ Facebook ลบข้อมูลของผมออกจากแพลตฟอร์ม แล้วไม่ลบภายใน 1 เดือน Facebook ก็จะละเมิด GDPR และก็น่าจะละเมิด CCPA เป็นต้นด้วย

การขูดเว็บสำหรับฉัน แต่ไม่ใช่สำหรับเธอ

การขูดเว็บคือประเด็นเรื่องการเข้าถึงข้อมูล

การเปลี่ยนผ่านของเครื่องมือทางกฎหมายเพื่อกันการขูดข้อมูล

ผลลัพธ์ที่ซับซ้อนของ hiQ Labs v. LinkedIn

กฎหมายสัญญาทำงานเสมือนสิทธิในทรัพย์สินข้อมูล

ท่าทีสองมาตรฐานของบริษัทต่อการขูดข้อมูล

ศาลและสนามทดสอบถัดไป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News