4 คะแนน โดย laeyoung 2025-09-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Anthropic ตกลงยอมความคดีกับเหล่านักเขียนด้วยวงเงิน 1.5 พันล้านดอลลาร์
  • เงิน 1.5 พันล้านดอลลาร์ถือเป็นค่าเสียหายที่มีมูลค่าสูงที่สุดในประวัติศาสตร์คดีลิขสิทธิ์ของสหรัฐฯ
  • Anthropic มีแผนจะจ่ายเงิน 3,000 ดอลลาร์ต่อผลงานให้แก่นักเขียน 500,000 คน

1 ความคิดเห็น

 
GN⁺ 2025-09-07
ความคิดเห็นจาก Hacker News
  • ดูบทความผ่าน archive.ph

  • อยากย้ำให้ชัดว่าประเด็นนี้ไม่ได้อยู่ที่การเทรนโมเดลโดยตรง
    ตัวการเทรนเองเข้าข่ายการใช้งานโดยชอบธรรม (fair use) แต่ปัญหาคือการคัดลอกหนังสือแบบละเมิดลิขสิทธิ์ ซึ่ง Anthropic ทำพลาดในกระบวนการรวบรวมข้อมูล
    การซื้อหนังสือมือสองมาสแกนแล้วใช้เทรนนั้นโอเค
    Rainbows End เป็นนิยายที่ล้ำยุคในหลายมิติ

    • สำหรับความเห็นที่ว่าการซื้อหนังสือมือสองมาสแกนเพื่อเทรนนั้นโอเค ผมคิดว่าไม่น่ามีบริษัทไหนทำแบบนั้นจริง
      เมื่อมีเงิน VC ระดับหลายพันล้านดอลลาร์เป็นเดิมพัน ใครจะมานั่งค่อย ๆ ซื้อหนังสือทีละเล่มแล้วสแกน
      ทุกคนย่อมเลือกยอมจ่ายค่าปรับ และระดับค่าปรับก็ยังห่างไกลจากการเป็นแรงยับยั้ง
      เหมือนตอน Uber เริ่มทำธุรกิจโดยไม่มีใบอนุญาตแท็กซี่ แล้วค่อยใช้เงินลงทุนฝ่าค่าปรับกับล็อบบี้ทีหลัง
      สำหรับ Anthropic การกวาดเอา PDF และ ePUB ที่ไม่มี DRM มาใช้ย่อมเร็วและมีประสิทธิภาพกว่าการไปทำไลเซนส์กับสำนักพิมพ์ทีละรายมาก

    • กรณีนี้เป็นเพียงการยอมความ จึงไม่ใช่บรรทัดฐานทางกฎหมายและไม่ใช่การยอมรับว่าผิดกฎหมาย
      ยังไม่มีอะไรถูกตัดสินแน่ชัดในครั้งนี้ ทั้งเรื่องที่ว่าการเทรนเป็น fair use หรือการสแกนทำได้หรือไม่
      ประเด็นเหล่านี้ยังต้องให้คนอื่นไปต่อสู้กันต่อในอนาคต

    • เห็นด้วยว่า Rainbows End เป็นนิยายที่มองอนาคตไว้ได้จริง
      เป็นหนังสือที่ยอดเยี่ยมมากสำหรับคนที่ชอบอ่าน และ Vernor Vinge ผู้เขียนก็เป็นคนที่ทำให้คำว่า singularity แพร่หลายด้วย
      ข้อมูล Rainbows End บน Goodreads

    • ผมมองว่าแนวคิดเรื่องต้องซื้อหนังสือมือสองก่อนถึงจะอ่านได้มันแปลก
      ผมคิดว่าทุกคนควรมีสิทธิ์อ่านหนังสือทุกเล่มในห้องสมุดได้อย่างเสรี
      ความรู้มีอยู่เพื่อถูกเผยแพร่ และผู้คนก็ควรเข้าถึงมันอย่างกระตือรือร้น

    • ผมสงสัยว่า Aaron Swartz ถ้าได้เห็นยุคนี้ที่ libgen กลายเป็นเรื่องปกติไปแล้ว จะคิดอย่างไร

  • ขอแชร์สรุปเงื่อนไขการยอมความ

  1. จัดตั้งกองทุนชดเชยขั้นต่ำ 1.5 พันล้านดอลลาร์ โดยจ่าย 3,000 ดอลลาร์ต่อผลงานหนึ่งชิ้น คิดจากผลงาน 500,000 ชิ้นในกลุ่มที่เข้าเกณฑ์
    หากจำนวนผลงานเกิน 500,000 ชิ้น จะเพิ่มอีก 3,000 ดอลลาร์ต่อผลงานที่เพิ่มขึ้นมาแต่ละชิ้น
  2. Anthropic จะทำลายชุดข้อมูลทั้งหมดที่ได้มาจาก LibGen และ PiLiMi โดยไม่คำนึงถึงข้อกำหนดการเก็บรักษาพยานหลักฐานทางกฎหมาย
  3. จะได้รับการปลดจากความรับผิดเรื่องการละเมิดในอดีต เฉพาะผลงานที่อยู่ใน “Works List” อย่างเป็นทางการภายในวันที่ 25 สิงหาคม 2025 เท่านั้น
    การละเมิดที่เกิดขึ้นในอนาคต และการละเมิดจากผลลัพธ์ของ generative AI ไม่ได้ถูกยุติลงด้วยการยอมความครั้งนี้
  • ประเด็นสำคัญอย่างหนึ่งคือ ไม่มี “บรรทัดฐานทางกฎหมาย” เหลือไว้เลย
    ถ้ามีคดีลักษณะคล้ายกันเกิดขึ้น ก็ต้องเริ่มสู้กันใหม่ตั้งแต่ต้นทั้งหมด
    หลายครั้งคนก็มักเลือกยอมความแบบนี้ก็ต่อเมื่อเริ่มคิดว่าอาจจะแพ้
    คล้ายกรณีที่ Google รีบยอมความแบบเสียเปรียบกับ Epic ก่อนจะมีคำพิพากษาจากศาล

  • การยอมความครั้งนี้ไม่ได้มีแค่เรื่องชดเชย แต่ยังรวมถึงการทำลายชุดข้อมูลด้วย
    ตามบทความ Anthropic อ้างว่า “ไม่ได้ใช้ข้อมูลผิดกฎหมายดังกล่าวจริง”
    ถ้ามีบริษัท generative AI รายใดเทรนและทำเชิงพาณิชย์จากข้อมูลละเมิดลิขสิทธิ์แบบนี้จริง อุตสาหกรรมทั้งวงการอาจสั่นคลอนได้
    ผมสงสัยว่าจะมีกรณีแบบนี้โผล่มาอีกมากแค่ไหนในอนาคต

  • คิดแบบนี้แล้ว ผมสงสัยว่าแค่ซื้อหนังสือทั้งหมดตรง ๆ ไปเลยจะถูกกว่ามากหรือเปล่า

  • น่าแปลกใจที่มีผลงานแค่ 500,000 ชิ้น
    เพราะก่อนหน้านี้ให้ความรู้สึกเหมือนมีการดาวน์โหลดหนังสือเป็นหลักล้านเล่ม

  • สงสัยว่านักเขียนจะเข้าร่วมได้โดยตรงหรือไม่

  • ถ้าเป็น “3,000 ดอลลาร์ต่อผลงานหนึ่งชิ้น” ก็ดูเหมือนเป็นดีลที่ดีมากสำหรับการขอไลเซนส์หนังสือผ่านสัญญาลิขสิทธิ์

  • ให้ความรู้สึกว่าเงินทุนมหาศาลที่ระดมมา สุดท้ายก็เพื่อเอาไปจ่ายให้สำนักพิมพ์
    ทำให้นึกภาพการพิตช์กับนักลงทุนทำนองว่า “เราจะเตรียมงบสำหรับค่าใช้จ่ายก้อนใหญ่อย่างคดีความ”

    • จากในบทความ Anthropic เพิ่งระดมเพิ่มได้อีก 1.3 หมื่นล้านดอลลาร์ และนับตั้งแต่ก่อตั้งก็ได้รับเงินลงทุนรวมเกิน 2.7 หมื่นล้านดอลลาร์แล้ว
      ต่อให้ยอดชดเชยจะสูงมาก ก็ยังถือว่าน้อยเมื่อเทียบกับเงินทุนที่ระดมมา

    • ฟังดูเหมือนล้อเล่น แต่จริง ๆ ผมคิดว่านี่เป็นการพิตช์นักลงทุนที่ยอดเยี่ยม
      การจัดการความเสี่ยงแฝงจากประเด็นทางกฎหมายช่วยเพิ่มมูลค่าของบริษัท
      โดยเฉพาะเมื่อความไม่แน่นอนทางกฎหมายถูกคลี่คลาย ก็ยิ่งเพิ่มความน่าลงทุนเมื่อเทียบกับบริษัทอื่นในอุตสาหกรรมเดียวกัน

    • พูดตรง ๆ ผมคิดว่าระบบมันทำงานแบบนี้แหละ
      โอกาสหรือความได้เปรียบแต่ละอย่างล้วนขึ้นอยู่กับว่ามันทำกำไรให้ทุนเดิมได้หรือไม่
      ถ้ามีข้ออ้างที่ฟังสมเหตุสมผลพอสำหรับการเคลื่อนย้ายเงิน รายละเอียดปลีกย่อยก็ไม่สำคัญนักในมุมของทุน
      เมื่อเงินเคลื่อนแล้ว สิ่งที่เหลือก็แค่สร้างเรื่องเล่าที่ทุกฝ่ายพอจะยอมรับได้
      การยอมความครั้งนี้ก็เป็นการสร้างเรื่องเล่าว่า “การเทรนนั้นโอเค ปัญหาคือข้อมูลเถื่อน” ซึ่งทั้งสองฝ่ายอยู่กับมันได้
      ดูเหมือนแรงจูงใจหลักคืออยากหลีกเลี่ยงไม่ให้มีคำพิพากษาที่สร้างบรรทัดฐานว่า AI training นั้นผิดกฎหมายในตัวมันเอง

    • Anthropic ต้องการใช้กลยุทธ์เลี่ยงกฎเกณฑ์และเดินเกมให้เร็ว
      ไม่มีใครบังคับให้ทำแบบนั้น

  • ถ้าเป็นผู้เขียน มีข้อมูลและขั้นตอนให้ตรวจสอบได้ว่างานของตัวเองถูกรวมอยู่หรือไม่
    วิธีค้นหาชื่อนักเขียนในชุดข้อมูล LibGen
    ลงทะเบียนข้อมูลติดต่อในเว็บไซต์ทางการของข้อตกลงยอมความ

  • ในมุมของ AI โอเพนซอร์ส ถือว่าน่าเสียดายมาก
    การใช้ข้อมูลละเมิดลิขสิทธิ์เพื่อเทรนก็ควรถือเป็น fair use ด้วย
    ไม่เช่นนั้นก็จะเหลือแค่บริษัทยักษ์ใหญ่ที่มีเงินแบบ Anthropic เท่านั้นที่จ่ายเงินก้อนโตให้สำนักพิมพ์เพื่อพัฒนา AI ได้ และก็แทบไม่มีทางเลยที่จะซื้อหนังสือหลายพันล้านเล่มมาใช้ในการเทรน

    • นี่เป็นเพียงการยอมความ ไม่ใช่บรรทัดฐานและไม่ใช่การยอมรับว่าทำผิด
      ท้ายที่สุดก็เป็นความจริงอยู่ดีว่ามีแต่บริษัทใหญ่เท่านั้นที่พอจะลงทุนตรงในวิศวกรราคาแพงและ GPU หลายหมื่นตัวได้
      ในทางปฏิบัติ ชุมชน LLM แบบรากหญ้าก็คงไม่ได้อ่อนไหวกับความชอบด้วยกฎหมายของชุดเทรนมากนัก

    • fair use ไม่ได้ตัดสินจากวิธีที่ได้ข้อมูลมา แต่ตัดสินจากสิ่งที่ทำหลังจาก “เข้าถึงอย่างชอบด้วยกฎหมาย” แล้ว
      ถ้าเข้าถึงอย่างไม่ชอบด้วยกฎหมาย ก็ไม่สามารถเริ่มถกเรื่อง fair use ได้เลย

    • การถกเถียงนี้ดูเหมือนตั้งอยู่บนสมมติฐานว่าการฝึกโมเดลเป็นสิทธิอย่างหนึ่งโดยตัวมันเอง

    • ผมสงสัยว่าถ้าซื้อหนังสือทุกเล่มที่ต้องการแล้วเอามาเทรนโมเดลจริง ๆ จะมีค่าใช้จ่ายเท่าไร

  • มีอย่างหนึ่งที่นึกขึ้นมาได้ คือสงสัยว่าจะมีทางทำให้คอนเทนต์ที่เผยแพร่บนเว็บใช้ฟรีได้เฉพาะสำหรับมนุษย์ แต่ถ้า AI crawler เข้ามาใช้จะถือเป็นการละเมิดแบบข้อมูลเถื่อนและโดนลงโทษเหมือนคดีนี้ได้หรือไม่

    • สำหรับคำถามแรก น่าจะทำได้ด้วยการตั้งกำแพงล็อกอินและขั้นตอนให้ยอมรับสัญญา แต่รายละเอียดของข้อสัญญา เช่น จำนวนค่าเสียหายจริง คงต้องให้ทนายตรวจ

    • เอาจริง ๆ ผมไม่ค่อยอยากแนะนำวิธีนี้
      เพราะแม้แต่เครื่องมืออัตโนมัติอย่าง user script ก็อาจเสี่ยงเข้าข่ายละเมิดได้เหมือนกัน

    • อาจมีวิธีติดระบบ CAPTCHA ที่อาจถูกมองว่าเป็นมาตรการคุ้มครองตาม DMCA
      และอาจให้บริการคอนเทนต์เดียวกันผ่าน API แบบเสียเงินได้ด้วย

    • ผมคิดว่าทั้งในทางกฎหมายและทางเทคนิคมันทำไม่ได้

    • น่าจะลองทำได้อยู่บ้าง แต่ลิขสิทธิ์มีข้อยกเว้นหลากหลายมากจนซับซ้อนสุด ๆ
      ตัวอย่างเช่น ต่อให้ใส่เงื่อนไขว่า “ใช้อะไรก็ได้ทั้งหมด ยกเว้นงานวิชาการ” ก็ไม่ได้หมายความว่ามหาวิทยาลัยจะมีหน้าที่ต้องทำตามเสมอไป
      ถ้าศาลเคยตัดสินไปแล้วว่า LLM training เป็น transformative use การใส่ข้อห้ามว่า “ห้ามใช้เพื่อเทรน LLM เท่านั้น” ก็ไม่ได้ทำให้บังคับใช้ได้แรงขึ้นเป็นพิเศษ
      มันก็เหมือนนักดนตรีประกาศว่า “เพลงของฉันต้องฟังแบบเต็มเพลงเท่านั้น ห้าม sampling” ซึ่งก็ไม่ได้มีผลอะไร
      เป้าหมายของลิขสิทธิ์คือ “ส่งเสริมความก้าวหน้าของวิทยาศาสตร์และศิลปะที่เป็นประโยชน์” และการรับประกันการเข้าถึงของแวดวงวิชาการถูกให้ความสำคัญมากกว่าการควบคุมของผู้เขียนรายบุคคล
      หนังสือเรียนก็มีลิขสิทธิ์เหมือนกัน และถ้ามีข้อยกเว้น fair use ทางวิชาการจริง การทำสำเนาก็อาจทำได้อย่างเสรี แต่ในทางปฏิบัติก็ไม่ได้ถูกปฏิบัติตามอย่างชัดเจน ซึ่งยิ่งทำให้สับสน

  • ในมุมมองระดับนานาชาติ ผมสงสัยว่ามาตรการลงโทษทางกฎหมายหรือการยอมความจะมีผลในแต่ละประเทศอย่างไร และในประเทศอื่นจะยังมีคดีใหม่หรือบทลงโทษเพิ่มเติมได้หรือไม่

  • สำหรับวงการ AI จีน เรื่องนี้ดูเหมือนเป็นผลดีอย่างมาก
    บริษัทฝั่งตะวันตกจะยิ่งถูกจำกัดเรื่องการเก็บและฝึกข้อมูล ขณะที่ AI จากจีนหรือประเทศอื่นอาจอยู่ในสถานะที่ใช้ข้อมูลได้มากกว่าและมีคุณภาพดีกว่ามาก