ในมุมของ AI โอเพนซอร์ส ถือว่าน่าเสียดายมาก
การใช้ข้อมูลละเมิดลิขสิทธิ์เพื่อเทรนก็ควรถือเป็น fair use ด้วย
ไม่เช่นนั้นก็จะเหลือแค่บริษัทยักษ์ใหญ่ที่มีเงินแบบ Anthropic เท่านั้นที่จ่ายเงินก้อนโตให้สำนักพิมพ์เพื่อพัฒนา AI ได้ และก็แทบไม่มีทางเลยที่จะซื้อหนังสือหลายพันล้านเล่มมาใช้ในการเทรน
สำหรับวงการ AI จีน เรื่องนี้ดูเหมือนเป็นผลดีอย่างมาก
บริษัทฝั่งตะวันตกจะยิ่งถูกจำกัดเรื่องการเก็บและฝึกข้อมูล ขณะที่ AI จากจีนหรือประเทศอื่นอาจอยู่ในสถานะที่ใช้ข้อมูลได้มากกว่าและมีคุณภาพดีกว่ามาก
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ดูบทความผ่าน archive.ph
อยากย้ำให้ชัดว่าประเด็นนี้ไม่ได้อยู่ที่การเทรนโมเดลโดยตรง
ตัวการเทรนเองเข้าข่ายการใช้งานโดยชอบธรรม (fair use) แต่ปัญหาคือการคัดลอกหนังสือแบบละเมิดลิขสิทธิ์ ซึ่ง Anthropic ทำพลาดในกระบวนการรวบรวมข้อมูล
การซื้อหนังสือมือสองมาสแกนแล้วใช้เทรนนั้นโอเค
Rainbows End เป็นนิยายที่ล้ำยุคในหลายมิติ
สำหรับความเห็นที่ว่าการซื้อหนังสือมือสองมาสแกนเพื่อเทรนนั้นโอเค ผมคิดว่าไม่น่ามีบริษัทไหนทำแบบนั้นจริง
เมื่อมีเงิน VC ระดับหลายพันล้านดอลลาร์เป็นเดิมพัน ใครจะมานั่งค่อย ๆ ซื้อหนังสือทีละเล่มแล้วสแกน
ทุกคนย่อมเลือกยอมจ่ายค่าปรับ และระดับค่าปรับก็ยังห่างไกลจากการเป็นแรงยับยั้ง
เหมือนตอน Uber เริ่มทำธุรกิจโดยไม่มีใบอนุญาตแท็กซี่ แล้วค่อยใช้เงินลงทุนฝ่าค่าปรับกับล็อบบี้ทีหลัง
สำหรับ Anthropic การกวาดเอา PDF และ ePUB ที่ไม่มี DRM มาใช้ย่อมเร็วและมีประสิทธิภาพกว่าการไปทำไลเซนส์กับสำนักพิมพ์ทีละรายมาก
กรณีนี้เป็นเพียงการยอมความ จึงไม่ใช่บรรทัดฐานทางกฎหมายและไม่ใช่การยอมรับว่าผิดกฎหมาย
ยังไม่มีอะไรถูกตัดสินแน่ชัดในครั้งนี้ ทั้งเรื่องที่ว่าการเทรนเป็น fair use หรือการสแกนทำได้หรือไม่
ประเด็นเหล่านี้ยังต้องให้คนอื่นไปต่อสู้กันต่อในอนาคต
เห็นด้วยว่า Rainbows End เป็นนิยายที่มองอนาคตไว้ได้จริง
เป็นหนังสือที่ยอดเยี่ยมมากสำหรับคนที่ชอบอ่าน และ Vernor Vinge ผู้เขียนก็เป็นคนที่ทำให้คำว่า
singularityแพร่หลายด้วยข้อมูล Rainbows End บน Goodreads
ผมมองว่าแนวคิดเรื่องต้องซื้อหนังสือมือสองก่อนถึงจะอ่านได้มันแปลก
ผมคิดว่าทุกคนควรมีสิทธิ์อ่านหนังสือทุกเล่มในห้องสมุดได้อย่างเสรี
ความรู้มีอยู่เพื่อถูกเผยแพร่ และผู้คนก็ควรเข้าถึงมันอย่างกระตือรือร้น
ผมสงสัยว่า Aaron Swartz ถ้าได้เห็นยุคนี้ที่ libgen กลายเป็นเรื่องปกติไปแล้ว จะคิดอย่างไร
ขอแชร์สรุปเงื่อนไขการยอมความ
หากจำนวนผลงานเกิน 500,000 ชิ้น จะเพิ่มอีก 3,000 ดอลลาร์ต่อผลงานที่เพิ่มขึ้นมาแต่ละชิ้น
การละเมิดที่เกิดขึ้นในอนาคต และการละเมิดจากผลลัพธ์ของ generative AI ไม่ได้ถูกยุติลงด้วยการยอมความครั้งนี้
ประเด็นสำคัญอย่างหนึ่งคือ ไม่มี “บรรทัดฐานทางกฎหมาย” เหลือไว้เลย
ถ้ามีคดีลักษณะคล้ายกันเกิดขึ้น ก็ต้องเริ่มสู้กันใหม่ตั้งแต่ต้นทั้งหมด
หลายครั้งคนก็มักเลือกยอมความแบบนี้ก็ต่อเมื่อเริ่มคิดว่าอาจจะแพ้
คล้ายกรณีที่ Google รีบยอมความแบบเสียเปรียบกับ Epic ก่อนจะมีคำพิพากษาจากศาล
การยอมความครั้งนี้ไม่ได้มีแค่เรื่องชดเชย แต่ยังรวมถึงการทำลายชุดข้อมูลด้วย
ตามบทความ Anthropic อ้างว่า “ไม่ได้ใช้ข้อมูลผิดกฎหมายดังกล่าวจริง”
ถ้ามีบริษัท generative AI รายใดเทรนและทำเชิงพาณิชย์จากข้อมูลละเมิดลิขสิทธิ์แบบนี้จริง อุตสาหกรรมทั้งวงการอาจสั่นคลอนได้
ผมสงสัยว่าจะมีกรณีแบบนี้โผล่มาอีกมากแค่ไหนในอนาคต
คิดแบบนี้แล้ว ผมสงสัยว่าแค่ซื้อหนังสือทั้งหมดตรง ๆ ไปเลยจะถูกกว่ามากหรือเปล่า
น่าแปลกใจที่มีผลงานแค่ 500,000 ชิ้น
เพราะก่อนหน้านี้ให้ความรู้สึกเหมือนมีการดาวน์โหลดหนังสือเป็นหลักล้านเล่ม
สงสัยว่านักเขียนจะเข้าร่วมได้โดยตรงหรือไม่
ถ้าเป็น “3,000 ดอลลาร์ต่อผลงานหนึ่งชิ้น” ก็ดูเหมือนเป็นดีลที่ดีมากสำหรับการขอไลเซนส์หนังสือผ่านสัญญาลิขสิทธิ์
ให้ความรู้สึกว่าเงินทุนมหาศาลที่ระดมมา สุดท้ายก็เพื่อเอาไปจ่ายให้สำนักพิมพ์
ทำให้นึกภาพการพิตช์กับนักลงทุนทำนองว่า “เราจะเตรียมงบสำหรับค่าใช้จ่ายก้อนใหญ่อย่างคดีความ”
จากในบทความ Anthropic เพิ่งระดมเพิ่มได้อีก 1.3 หมื่นล้านดอลลาร์ และนับตั้งแต่ก่อตั้งก็ได้รับเงินลงทุนรวมเกิน 2.7 หมื่นล้านดอลลาร์แล้ว
ต่อให้ยอดชดเชยจะสูงมาก ก็ยังถือว่าน้อยเมื่อเทียบกับเงินทุนที่ระดมมา
ฟังดูเหมือนล้อเล่น แต่จริง ๆ ผมคิดว่านี่เป็นการพิตช์นักลงทุนที่ยอดเยี่ยม
การจัดการความเสี่ยงแฝงจากประเด็นทางกฎหมายช่วยเพิ่มมูลค่าของบริษัท
โดยเฉพาะเมื่อความไม่แน่นอนทางกฎหมายถูกคลี่คลาย ก็ยิ่งเพิ่มความน่าลงทุนเมื่อเทียบกับบริษัทอื่นในอุตสาหกรรมเดียวกัน
พูดตรง ๆ ผมคิดว่าระบบมันทำงานแบบนี้แหละ
โอกาสหรือความได้เปรียบแต่ละอย่างล้วนขึ้นอยู่กับว่ามันทำกำไรให้ทุนเดิมได้หรือไม่
ถ้ามีข้ออ้างที่ฟังสมเหตุสมผลพอสำหรับการเคลื่อนย้ายเงิน รายละเอียดปลีกย่อยก็ไม่สำคัญนักในมุมของทุน
เมื่อเงินเคลื่อนแล้ว สิ่งที่เหลือก็แค่สร้างเรื่องเล่าที่ทุกฝ่ายพอจะยอมรับได้
การยอมความครั้งนี้ก็เป็นการสร้างเรื่องเล่าว่า “การเทรนนั้นโอเค ปัญหาคือข้อมูลเถื่อน” ซึ่งทั้งสองฝ่ายอยู่กับมันได้
ดูเหมือนแรงจูงใจหลักคืออยากหลีกเลี่ยงไม่ให้มีคำพิพากษาที่สร้างบรรทัดฐานว่า AI training นั้นผิดกฎหมายในตัวมันเอง
Anthropic ต้องการใช้กลยุทธ์เลี่ยงกฎเกณฑ์และเดินเกมให้เร็ว
ไม่มีใครบังคับให้ทำแบบนั้น
ถ้าเป็นผู้เขียน มีข้อมูลและขั้นตอนให้ตรวจสอบได้ว่างานของตัวเองถูกรวมอยู่หรือไม่
วิธีค้นหาชื่อนักเขียนในชุดข้อมูล LibGen
ลงทะเบียนข้อมูลติดต่อในเว็บไซต์ทางการของข้อตกลงยอมความ
ในมุมของ AI โอเพนซอร์ส ถือว่าน่าเสียดายมาก
การใช้ข้อมูลละเมิดลิขสิทธิ์เพื่อเทรนก็ควรถือเป็น fair use ด้วย
ไม่เช่นนั้นก็จะเหลือแค่บริษัทยักษ์ใหญ่ที่มีเงินแบบ Anthropic เท่านั้นที่จ่ายเงินก้อนโตให้สำนักพิมพ์เพื่อพัฒนา AI ได้ และก็แทบไม่มีทางเลยที่จะซื้อหนังสือหลายพันล้านเล่มมาใช้ในการเทรน
นี่เป็นเพียงการยอมความ ไม่ใช่บรรทัดฐานและไม่ใช่การยอมรับว่าทำผิด
ท้ายที่สุดก็เป็นความจริงอยู่ดีว่ามีแต่บริษัทใหญ่เท่านั้นที่พอจะลงทุนตรงในวิศวกรราคาแพงและ GPU หลายหมื่นตัวได้
ในทางปฏิบัติ ชุมชน LLM แบบรากหญ้าก็คงไม่ได้อ่อนไหวกับความชอบด้วยกฎหมายของชุดเทรนมากนัก
fair use ไม่ได้ตัดสินจากวิธีที่ได้ข้อมูลมา แต่ตัดสินจากสิ่งที่ทำหลังจาก “เข้าถึงอย่างชอบด้วยกฎหมาย” แล้ว
ถ้าเข้าถึงอย่างไม่ชอบด้วยกฎหมาย ก็ไม่สามารถเริ่มถกเรื่อง fair use ได้เลย
การถกเถียงนี้ดูเหมือนตั้งอยู่บนสมมติฐานว่าการฝึกโมเดลเป็นสิทธิอย่างหนึ่งโดยตัวมันเอง
ผมสงสัยว่าถ้าซื้อหนังสือทุกเล่มที่ต้องการแล้วเอามาเทรนโมเดลจริง ๆ จะมีค่าใช้จ่ายเท่าไร
มีอย่างหนึ่งที่นึกขึ้นมาได้ คือสงสัยว่าจะมีทางทำให้คอนเทนต์ที่เผยแพร่บนเว็บใช้ฟรีได้เฉพาะสำหรับมนุษย์ แต่ถ้า AI crawler เข้ามาใช้จะถือเป็นการละเมิดแบบข้อมูลเถื่อนและโดนลงโทษเหมือนคดีนี้ได้หรือไม่
สำหรับคำถามแรก น่าจะทำได้ด้วยการตั้งกำแพงล็อกอินและขั้นตอนให้ยอมรับสัญญา แต่รายละเอียดของข้อสัญญา เช่น จำนวนค่าเสียหายจริง คงต้องให้ทนายตรวจ
เอาจริง ๆ ผมไม่ค่อยอยากแนะนำวิธีนี้
เพราะแม้แต่เครื่องมืออัตโนมัติอย่าง user script ก็อาจเสี่ยงเข้าข่ายละเมิดได้เหมือนกัน
อาจมีวิธีติดระบบ CAPTCHA ที่อาจถูกมองว่าเป็นมาตรการคุ้มครองตาม DMCA
และอาจให้บริการคอนเทนต์เดียวกันผ่าน API แบบเสียเงินได้ด้วย
ผมคิดว่าทั้งในทางกฎหมายและทางเทคนิคมันทำไม่ได้
น่าจะลองทำได้อยู่บ้าง แต่ลิขสิทธิ์มีข้อยกเว้นหลากหลายมากจนซับซ้อนสุด ๆ
ตัวอย่างเช่น ต่อให้ใส่เงื่อนไขว่า “ใช้อะไรก็ได้ทั้งหมด ยกเว้นงานวิชาการ” ก็ไม่ได้หมายความว่ามหาวิทยาลัยจะมีหน้าที่ต้องทำตามเสมอไป
ถ้าศาลเคยตัดสินไปแล้วว่า LLM training เป็น transformative use การใส่ข้อห้ามว่า “ห้ามใช้เพื่อเทรน LLM เท่านั้น” ก็ไม่ได้ทำให้บังคับใช้ได้แรงขึ้นเป็นพิเศษ
มันก็เหมือนนักดนตรีประกาศว่า “เพลงของฉันต้องฟังแบบเต็มเพลงเท่านั้น ห้าม sampling” ซึ่งก็ไม่ได้มีผลอะไร
เป้าหมายของลิขสิทธิ์คือ “ส่งเสริมความก้าวหน้าของวิทยาศาสตร์และศิลปะที่เป็นประโยชน์” และการรับประกันการเข้าถึงของแวดวงวิชาการถูกให้ความสำคัญมากกว่าการควบคุมของผู้เขียนรายบุคคล
หนังสือเรียนก็มีลิขสิทธิ์เหมือนกัน และถ้ามีข้อยกเว้น fair use ทางวิชาการจริง การทำสำเนาก็อาจทำได้อย่างเสรี แต่ในทางปฏิบัติก็ไม่ได้ถูกปฏิบัติตามอย่างชัดเจน ซึ่งยิ่งทำให้สับสน
ในมุมมองระดับนานาชาติ ผมสงสัยว่ามาตรการลงโทษทางกฎหมายหรือการยอมความจะมีผลในแต่ละประเทศอย่างไร และในประเทศอื่นจะยังมีคดีใหม่หรือบทลงโทษเพิ่มเติมได้หรือไม่
สำหรับวงการ AI จีน เรื่องนี้ดูเหมือนเป็นผลดีอย่างมาก
บริษัทฝั่งตะวันตกจะยิ่งถูกจำกัดเรื่องการเก็บและฝึกข้อมูล ขณะที่ AI จากจีนหรือประเทศอื่นอาจอยู่ในสถานะที่ใช้ข้อมูลได้มากกว่าและมีคุณภาพดีกว่ามาก