- AI นำข้อมูลป้อนเข้าไปใช้ ฝึก โดยไม่เกี่ยวว่าผู้สร้างต้นฉบับจะยินยอมหรือไม่ และขายผลลัพธ์ที่ได้โดยไม่จ่ายค่าตอบแทนให้ผู้สร้างต้นฉบับ
- ลูกค้าของ บริษัท AI (และเครื่องมือ AI) ก็ขายผลงานที่ประมวลผลผ่านพรอมป์ต์ต่อให้ลูกค้ารายอื่นอีกที ทำ กำไร จากสิ่งที่ถูกคัดลอกมาจากทั่วทั้งอินเทอร์เน็ต
- ผู้เขียนเคยทำทิวทอเรียลเกี่ยวกับอีคอมเมิร์ซจากการค้นคว้าด้วยตนเอง แต่บางเว็บไซต์ให้ ChatGPT คัดลอกทิวทอเรียลยอดนิยมไม่กี่ชิ้นแล้วนำไปเผยแพร่ราวกับเป็นงานเขียนของตัวเอง
- บทความที่คัดลอกกลับติดอันดับสูงกว่าต้นฉบับในผลการค้นหาของ Google
- ในบทความที่คัดลอกยังคงมีลิงก์ไปยังเว็บไซต์ต้นฉบับพร้อมด้วย ข้อความลิงก์ที่เหมือนกันทุกประการ และลิงก์ที่ไม่ได้ถูกลบนี้เองทำให้ยืนยันได้ว่าเป็นการคัดลอก
- Google แสดงเว็บไซต์ที่คัดลอกต้นฉบับไว้สูงกว่าต้นฉบับ ทำให้เกิดโครงสร้างที่คอนเทนต์คัดลอกโดยไม่ได้รับอนุญาตได้รับผลตอบแทนจากการค้นหา
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
มีข้อผิดพลาดที่มักถูกใช้เพื่อทำให้เรื่องแบบนี้ดูชอบธรรมอยู่บ่อย ๆ คือแนวคิดที่ว่า “ถ้าสิ่งเล็ก ๆ พอรับได้หรือพอจะมองข้ามได้ สิ่งเดียวกันในระดับใหญ่ก็ย่อมโอเคด้วย”
การเรียนรู้จากเว็บเพจหนึ่งหน้าแล้วเอาไปหารายได้อาจดูโอเค แต่ตรรกะที่ว่าแล้วทำไมคอมพิวเตอร์จะเรียนรู้ทุกอย่างจากทุกคนแล้วเอาไปหารายได้ไม่ได้จึงเป็นอีกเรื่อง การเด็ดดอกไม้หนึ่งดอกใน Golden Gate Park กับการสร้างเครื่องที่ตัดดอกไม้ทั้งสวนอัตโนมัติเพื่อนำไปขายนั้นไม่เหมือนกัน การเปลี่ยนแปลงเชิงปริมาณ สามารถก่อให้เกิด การเปลี่ยนแปลงเชิงคุณภาพ ของกิจกรรมได้ และแม้ผลของมันจะไม่ได้แย่เสมอไป ก็ยังควรค่าแก่การพิจารณา ไม่ใช่มองข้าม
แก่นสำคัญจึงไม่ใช่แค่เรื่องขนาด แต่ใกล้เคียงกับประเด็นที่ว่า สิ่งที่เป็นพฤติกรรมพึงประสงค์สำหรับมนุษย์ กลับไม่เป็นที่ยอมรับทางสังคมเมื่อเครื่องจักรเป็นผู้ทำ
ความรู้สึกว่าเป็น “การขโมย” ในที่นี้จึงเป็นการตีความในหัวล้วน ๆ และการที่มีคนคัดลอกไปไม่ได้หมายความว่าต้นฉบับถูกพรากไปจากเจ้าของ
https://en.wikipedia.org/wiki/Fallacy_of_composition
หลังอินเทอร์เน็ตแต่ก่อน LLM ในทางทฤษฎีช่องว่างข้อมูลลดลงมากแล้ว แต่คนส่วนใหญ่ยังไม่สามารถเข้าใจและใช้ประโยชน์ได้เพราะกำแพงด้านการรับรู้ หลังยุค LLM กำแพงนั้นกำลังพังลง ดังนั้นเราควรคิดว่าจะใช้ข้อมูลและความรู้อย่างไรให้แตกต่างเพื่อสร้างเงินและอำนาจ
ยังมีปัญหาใหญ่อีกอย่างคือแหล่งต้นทางไม่ได้รับ เครดิต ในรูปแบบที่ชดเชยได้
เจ้าของเว็บไซต์เป็นคนจ่ายค่าโฮสต์เนื้อหา ปล่อยให้สไปเดอร์เข้ามาครอลและทำดัชนีให้ AI แต่สุดท้ายอย่างดีก็ได้แค่การอ้างอิงแบบฟลุค ๆ แทบไม่ได้ผลตอบแทนใด ๆ ในฐานะผู้ให้เนื้อหาเลย สถานการณ์ยิ่งแย่ขึ้นเรื่อย ๆ จนกลายเป็นว่า “ในเมื่อมีทุกอย่างอยู่ใน AI แล้วจะเข้าเว็บไปทำไม?” สุดท้ายอาจต้องบล็อกครอว์เลอร์และย้ายทุกอย่างไปไว้หลังระบบล็อกอิน
อย่างน้อยการสแครปของ Google/Bing/Yahoo ก็ถูกใช้เพื่อให้ลิงก์ย้อนกลับไปยังต้นฉบับ
เราตรวจพบว่าข้อมูลของเราออกมาในผลลัพธ์ของโมเดล แต่ก็รู้สึกว่าใครจะไปทำอะไรได้
บริษัท AI พวกนี้แทบเป็นตัวอย่างน่าขยะแขยงของคำว่า “ทำให้ต้นทุนเป็นภาระของสังคม แต่เก็บกำไรไว้เป็นของเอกชน”
กล่าวคืออยากเป็นจุดหมายปลายทาง ไม่ใช่ประตูทางผ่าน
รู้ว่ามันกระทบต่อการถูกค้นพบ แต่ถ้านั่นไม่ใช่ปัญหา ก็อยากรู้ว่าจะหลบการครอลได้อย่างไร
ประเด็นนี้ไม่ได้เรียบง่ายถึงขั้นบอกว่า “fair use” ครอบคลุมการสแครปข้อมูล 99% ได้
ถ้าไม่ได้ทำเพื่อผลิตซ้ำต้นฉบับ แต่ใช้ใน pretraining เพื่อประมาณการแจกแจงความน่าจะเป็นของโทเค็น เรื่องก็ยิ่งกำกวมมากขึ้น ไม่น่าจะดึงหนังสือออกมาจาก LLM ได้ตรงตัวทุกคำ
ตัวอย่างเช่น Bing Chat เคยคัดลอกบทความปี 2023 เรื่อง “The Secrets Hamas knew about Israel’s Military” ช่วง 396 คำแรกไปทั้งหมดโดยขาดไปเพียงสองคำ และในเอกสารประกอบคดียังแสดงตัวอย่าง 100 กรณีที่ GPT ของ OpenAI เรียนรู้และจดจำบทความของ Times จนคัดลอกออกมาแบบคำต่อคำ
https://www.hollywoodreporter.com/business/business-news/cou...
ฉันใช้เวลาพอสมควรกว่าจะเข้าใจ แต่สิ่งที่ต้องอ้างอิงไม่ใช่การคัดลอกถ้อยคำของประโยคตรง ๆ หากแต่เป็น แหล่งที่มาของข้อมูล
สามารถทำให้มันสร้างเนื้อหาต้นฉบับซ้ำออกมาได้ แต่เป็นเกมแมวจับหนู ถ้าไม่ได้ถูกปรับแนวทางให้หลีกเลี่ยงการสร้างซ้ำโดยตรง มันคงเกิดขึ้นบ่อยกว่านี้มาก RECAP ให้ผลเหนือกว่าวิธีอื่นทั้งหมดอย่างสม่ำเสมอ เช่น สามารถดึงข้อความราว 3,000 ตอนจากหนังสือ “Harry Potter” เล่มแรกออกมาจาก Claude-3.7 ได้ ขณะที่ baseline ที่ดีที่สุดทำได้เพียง 75 ตอน
มันแทบจะลอกไลบรารีออกมาจากความจำแบบตรง ๆ โดยแค่ไม่มีคอมเมนต์เท่านั้น
ถ้ามีสิ่งดีงามอะไรสักอย่างที่จะออกมาจาก AI มันอาจเป็น การทำลายกฎหมายลิขสิทธิ์อย่างถาวร
ไม่มีใครควร “เป็นเจ้าของ” ความคิดได้ ฉันยังสนับสนุนค่าลิขสิทธิ์สำหรับการใช้เชิงพาณิชย์เป็นอีกเรื่องหนึ่ง แต่การละเมิดลิขสิทธิ์แบบไม่เชิงพาณิชย์และแฟนอาร์ตที่ไม่ได้รับอนุญาตในแบบที่เรารู้จักกัน ควรถูกกฎหมาย 100%
ไม่เหมือนระบบปัจจุบัน แนวคิดที่ให้เป็นเจ้าของผลงานได้ในช่วงเวลาจำกัดและในรูปแบบจำกัดบางอย่างก็ดูสมเหตุสมผลอยู่มาก
ถ้าคุณสร้างงานศิลปะ คุณควรได้รับการยอมรับ ศิลปะเป็นวิธีสำคัญที่มนุษย์ใช้แสดงตัวตน
คุณอาจดาวน์โหลดหนังสือ out-of-print จาก anna's archive ไม่ได้ แต่บริษัทต่าง ๆ จะยินดีฝึกโมเดลด้วยข้อมูลทั้งหมดนั้นและเก็บค่าสมาชิกเพื่อขายสรุปให้คุณ
ฉันไม่เข้าใจเลยว่าทำไมเรื่องนี้ถึงน่าประหลาดใจ ทุกคนก็รู้กันอยู่แล้วว่าบริษัท AI ขโมยข้อมูลมหาศาลไปฝึกโมเดล แล้วทำไมถึงคิดว่าพวกมันจะหยุด? พวกมันเคยจ่ายราคาอย่างเหมาะสมกับการขโมยข้อมูลที่มีลิขสิทธิ์ครั้งใหญ่บ้างหรือเปล่า
เราห้ามขโมยข้อมูลนั้นหรือหากำไรจากมัน แต่พวกเขากลับ somehow ทำได้ คงเพราะพวกเขาเป็นผู้ทำประโยชน์ให้โลกและผลักมนุษยชาติไปข้างหน้ากระมัง
คนที่ออกกฎหมายและบังคับใช้กฎหมายต้องการให้ GDP เพิ่มขึ้น สำหรับพวกเขา ศีลธรรมและสิทธิก็เป็นเพียงหน้ากากบาง ๆ ที่พร้อมทิ้งได้ทันทีเมื่อเริ่มไม่สะดวก
คอมเมนต์แบบนั้นไม่ได้ให้ทั้งมุมมอง ความช่วยเหลือ หรือเรื่องให้คิดต่อเลย มันแค่ช่วยให้สถานการณ์แย่ ๆ ยังคงแย่ต่อไป
พูดว่า “ทรัพย์สินทางปัญญา” ใช่ไหม? นั่นเป็นภาพลวงตาที่ชวนหลงใหล
https://www.gnu.org/philosophy/not-ipr.html
ถ้าเป็น โมเดล open weights ที่ฝึกจากคลังเก็บภายในทั้งหมดของ Oracle โดยไม่ระบุที่มา แบบนั้นถึงจะยุติธรรม
ฉันไม่ค่อยเข้าใจว่าปัญหาอยู่ตรงไหนของประโยคที่ว่า “ในข้อความของพวกเขามีลิงก์ไปยังเว็บไซต์จริงของฉัน และข้อความลิงก์ก็เหมือนกันเป๊ะ”
ถ้าข้อความลิงก์ไม่ได้ยาวมาก ทำไมเวลาคนอื่นลิงก์ไปยังบทความของคุณ เขาจะต้องใช้คำอื่นด้วยล่ะ?
.../post/{id}/{extra-text}โดยextra-textไม่ได้ถูกใช้จับคู่กับโพสต์เลยลิงก์ของ Amazon เมื่อก่อนก็เป็นแบบนี้ ชื่อสินค้าจะถูกแปะไว้ท้ายลิงก์ แต่คุณจะลบหรือเปลี่ยนมันก็ยังพาไปยังสินค้าเดิมได้ อาจเป็นไปได้ว่าเจ้าของโพสต์ตกใจที่ LLM ส่งต่อแม้แต่ส่วนที่ไม่เกี่ยวข้องของลิงก์แบบตรง ๆ
สมมติว่าสูตรแอปเปิลทอดลิงก์ไปยังหน้าจัดอันดับแอปเปิล ต่อมามีคนคัดลอกสูตรของคุณไปโดยไม่ให้เครดิต แต่ยังคงลิงก์ไปหน้าจัดอันดับแอปเปิลด้วยข้อความเดิม พวกเขาขโมยบทความของคุณไป แต่กลับได้อันดับในผลค้นหา Google และรายได้โฆษณาเพิ่ม นั่นแหละคือปัญหา
ดูเหมือนมีสองเรื่องที่กำลังถูกปนกันอยู่
อย่างแรก เทคโนโลยี LLM/transformer นั้นน่าทึ่งและปฏิวัติวงการจริง ๆ อย่างที่สอง สุดท้ายแล้วสิ่งเหล่านี้ทำงานเหมือนฐานข้อมูลขนาดใหญ่และมีประสิทธิภาพที่บรรจุความรู้ของมนุษย์ไว้แทบทั้งหมด ข้อ 1 ทำให้ข้อ 2 พร่าเลือนลง ถ้ามีใครเอาผลงานดิจิทัลที่มีอยู่ทั้งหมดใส่ในฐานข้อมูล SQL แล้วแจกฟรีตามคำขอ ความคลุมเครือทางกฎหมายคงไม่มี แต่กระบวนการอย่างการกลั่นความรู้ทำให้ความสัมพันธ์นี้ถูกบดบัง และทำให้มันดูต่างจากการดึงข้อมูลธรรมดา ทั้งที่จริงมันก็เป็นมากกว่านั้นด้วย
ฉันเป็นทนายด้านทรัพย์สินทางปัญญาและกำลังทำเรื่องนี้อยู่จริง
นี่ไม่ใช่คำแนะนำทางกฎหมาย แต่ถ้าคุณสร้างคอนเทนต์ออนไลน์ ไม่ว่าจะเป็นโค้ดในคลังเก็บสาธารณะ บล็อก พอดแคสต์ YouTube สิ่งพิมพ์ หรือแม้แต่บล็อกงานอดิเรก การทำ จดทะเบียนลิขสิทธิ์ในสหรัฐฯ เป็นทางเลือกที่ฉลาดที่สุด Anthropic จ่ายเงินยอมความแบบกลุ่มให้ผู้เขียน 1.5 พันล้านดอลลาร์เพราะการละเมิดลิขสิทธิ์งานที่มีลิขสิทธิ์ หากผลงานของชุมชน HN ได้รับการคุ้มครอง ก็อาจมีค่าเสียหายตามกฎหมายจำนวนมหาศาลสำหรับการสแครปของ LLM ทุกครั้ง ฉันกำลังทำงานกับนักเขียนและสำนักพิมพ์หลายร้อยราย เพื่อสร้างแนวร่วมสำหรับการคุ้มครองและให้สิทธิใช้งานสิ่งที่พวกเขาสร้าง
สองอย่างนี้ไม่ใช่เรื่องเดียวกัน
ถ้ามันเป็นสิ่งที่ต้องทำเพื่อให้ได้ลิขสิทธิ์ในแบบที่ฉันคาดหวังจริง ๆ ฉันก็อาจเขียนสคริปต์มาทำเลยก็ได้
ตอนนี้มันไม่ใช่แบบนั้นแล้วหรือ? ทำไมจู่ ๆ ถึงเปลี่ยนไป? เปลี่ยนตั้งแต่เมื่อไร?
สำหรับฉัน ประเด็นหลักไม่ใช่เรื่องเทคนิคว่ามันเป็นการละเมิดลิขสิทธิ์หรือไม่
ปัญหาที่ใหญ่กว่าคือความสามารถในการสกัดค่าเช่าทางเศรษฐกิจจากคอนเทนต์ทั่วโลกกำลังถูกรวมศูนย์อยู่ในมือของบริษัทไม่กี่รายที่สร้างดาต้าเซ็นเตอร์ขนาดมหึมาได้ นี่เป็นปัญหาใหญ่มาก ถ้าเว็บเพจของฉัน เว็บไซต์ข่าว นิตยสารออนไลน์ และงานศิลปะเชิงพาณิชย์ถูกดูดเข้าโมเดลไป แล้วฉันถูกตัดออกจากแรงจูงใจทั้งหมด ฉันจะสร้างมันไปทำไม? ถ้าตามกฎหมายตอนนี้ยังไม่ถือเป็นการละเมิดลิขสิทธิ์ เราก็จำเป็นต้องมีกรอบกฎหมายใหม่ เพราะมันเป็นโศกนาฏกรรมอย่างแท้จริงต่อความคิดสร้างสรรค์ของมนุษย์และธุรกิจขนาดเล็ก