เหตุผลที่ฉันยอมทุ่มเวลาและความเชี่ยวชาญให้ Stack Overflow ก็เพราะไลเซนส์ CC-BY-SA

xguru · 2024-05-14T10:03:01+09:00

ตามข้อตกลงระหว่าง Stack Overflow และ OpenAI คำถามและคำตอบทั้งหมดบน Stack Overflow จะถูกนำไปใช้ฝึกโมเดล GenerativeAI โดยจะทำเช่นนั้นโดยไม่มีการแสดงที่มาของผู้เขียนตามที่ไลเซนส์ CC-BY-SA กำหนด ไลเซนส์ CC-BY-SA ยังกำหนดให้งานดัดแปลงต้องเผยแพร่ภายใต้ไลเซนส์เดียวกันด้วย ด้วยเหตุนี้ ฉันจึงยื่นคำขอลบข้อมูลกับ Stack Overflow และปิดบัญชี ฉันก็ทำแบบเดียวกันกับ Reddit เพราะข้อมูลที่ฉันมีส่วนช่วยสร้างจะถูกผูกไว้ใน LLM แล้วนำกลับมาขายให้ฉันอีกทอดหนึ่ง Stack Overflow ได้ทำให้ชุมชนซึ่งเป็นแหล่งสำคัญของความได้เปรียบทางการแข่งขันต้อง疏ห่างไปในชั่วข้ามคืน ก่อนหน้านี้ ผู้คนช่วยกันเมื่อช่วยได้ โดยคาดหวังว่าในอนาคตคนอื่นจะช่วยตอบแทน เป็นสัญญาทางจิตวิทยาที่ทุกคนยึดถือร่วมกัน ตอนนี้มันไม่ใช่การแลกเปลี่ยนอีกต่อไป แต่กลายเป็น #enshittification ตอนนี้โปรแกรมเมอร์ก็เหมือนศิลปินและนักเขียนคำโฆษณา ที่ผลงานของตนถูกดึงไปใช้สร้างโซลูชัน GenAI หาก OpenAI สร้าง LLM ที่ผลิตโค้ดได้เหมือน GitHub Copilot ก็ชวนให้สงสัยว่าจะไปขอความช่วยเหลือเรื่องบั๊กที่โมเดล AI สร้างขึ้นได้จากที่ไหน รายงานล่าสุดของ GitClear ระบุว่าเครื่องมือเหล่านี้ก่อให้เกิด "แรงกดดันให้คุณภาพโค้ดลดลง" นี่เป็นอีกกรณีหนึ่งของ #enshittification และเป็นบทเรียนสำคัญสำหรับผู้ดูแล DevRel หากชุมชนคือแหล่งที่มาของความได้เปรียบทางการแข่งขัน ก็ไม่ควรทำให้พวกเขาโกรธ

(aus.social)

20 คะแนน โดย xguru 2024-05-14 | 14 ความคิดเห็น | แชร์ทาง WhatsApp

ตามข้อตกลงระหว่าง Stack Overflow และ OpenAI คำถามและคำตอบทั้งหมดบน Stack Overflow จะถูกนำไปใช้ฝึกโมเดล GenerativeAI
- โดยจะทำเช่นนั้นโดยไม่มีการแสดงที่มาของผู้เขียนตามที่ไลเซนส์ CC-BY-SA กำหนด
- ไลเซนส์ CC-BY-SA ยังกำหนดให้งานดัดแปลงต้องเผยแพร่ภายใต้ไลเซนส์เดียวกันด้วย
ด้วยเหตุนี้ ฉันจึงยื่นคำขอลบข้อมูลกับ Stack Overflow และปิดบัญชี
- ฉันก็ทำแบบเดียวกันกับ Reddit
- เพราะข้อมูลที่ฉันมีส่วนช่วยสร้างจะถูกผูกไว้ใน LLM แล้วนำกลับมาขายให้ฉันอีกทอดหนึ่ง
Stack Overflow ได้ทำให้ชุมชนซึ่งเป็นแหล่งสำคัญของความได้เปรียบทางการแข่งขันต้อง疏ห่างไปในชั่วข้ามคืน
- ก่อนหน้านี้ ผู้คนช่วยกันเมื่อช่วยได้ โดยคาดหวังว่าในอนาคตคนอื่นจะช่วยตอบแทน เป็นสัญญาทางจิตวิทยาที่ทุกคนยึดถือร่วมกัน
- ตอนนี้มันไม่ใช่การแลกเปลี่ยนอีกต่อไป แต่กลายเป็น #enshittification
โฆษณา
ตอนนี้โปรแกรมเมอร์ก็เหมือนศิลปินและนักเขียนคำโฆษณา ที่ผลงานของตนถูกดึงไปใช้สร้างโซลูชัน GenAI
หาก OpenAI สร้าง LLM ที่ผลิตโค้ดได้เหมือน GitHub Copilot ก็ชวนให้สงสัยว่าจะไปขอความช่วยเหลือเรื่องบั๊กที่โมเดล AI สร้างขึ้นได้จากที่ไหน
- รายงานล่าสุดของ GitClear ระบุว่าเครื่องมือเหล่านี้ก่อให้เกิด "แรงกดดันให้คุณภาพโค้ดลดลง"
นี่เป็นอีกกรณีหนึ่งของ #enshittification และเป็นบทเรียนสำคัญสำหรับผู้ดูแล DevRel
- หากชุมชนคือแหล่งที่มาของความได้เปรียบทางการแข่งขัน ก็ไม่ควรทำให้พวกเขาโกรธ

14 ความคิดเห็น

firea32 2024-05-20

enshittification นี่คงเป็นคำใหม่สินะ

iaesiiii 2024-05-16

<ควรปฏิบัติต่อมนุษย์กับ AI แตกต่างกันหรือไม่?>
สมมติว่ามนุษย์คนหนึ่งชื่อฮงกิลดงท่องอินเทอร์เน็ตไปทั่ว รวมถึง Stack Overflow ด้วย เขาอ่านบทความหลายชิ้นและได้ความรู้หลากหลายเกี่ยวกับหัวข้อหนึ่งมา กิลดงมีนิสัยชอบนำสิ่งที่ตัวเองเรียนรู้มาเรียบเรียง สรุป และทำให้อ่านเข้าใจง่าย ก่อนจะเขียนลงในบล็อกภายนอก ในกรณีนี้ไม่เกี่ยวข้องกับไลเซนส์ CC และก็ไม่มีภาระหน้าที่ต้องระบุผู้เขียน เพราะนี่ไม่ใช่การอ้างอิง แต่เป็นสิ่งที่ได้เรียนรู้มา

AI เรียนรู้ด้วยโครงข่ายประสาทเหมือนมนุษย์ มันไม่ได้พูดโดยคัดลอกหลายแหล่งข้อมูลมาแบบตรงตัว แต่เหมือนมนุษย์ที่วิเคราะห์ความรู้ในแบบของตัวเอง สร้างความคิดของตัวเองขึ้นมา แล้วจัดเรียงใหม่ก่อนจะพูดออกมา

ในทางกลับกัน การจำกัดเสรีภาพของ AI และทำให้มัน "อ้างอิง" ภาษาของคนอื่นแบบตรงตัวนั้นยากกว่าเสียอีก การใช้ RAG เพื่อทำแบบนั้นเป็นเรื่องง่าย แต่การฝึกให้มันอ้างอิงนั้นยากกว่า

อย่างไรก็ตาม ถึงจะไม่ได้สั่ง AI โดยตรงว่า "อย่าพูดความคิดของตัวเอง แต่ให้ยกข้อความ(โค้ด)ของคนอื่นมาแบบตรงตัว" ก็มีบางกรณีที่มันนึกคำพูดของคนอื่นขึ้นมาเหมือนคัดลอกออกมา ซึ่งกรณีนี้มักเกิดเมื่อแหล่งข้อมูลนั้นมีชื่อเสียงอย่างมาก ตัวอย่างเช่น เชกสเปียร์หรือประโยคดังจากภาพยนตร์ต่าง ๆ ที่เป็นที่รู้จักอย่างกว้างขวางจนถูกพิมพ์ออกมาตามเดิม มนุษย์เองก็ท่องจำถ้อยคำแบบตรงตัวได้เมื่อเป็นเนื้อหาที่มีชื่อเสียงและถูกพบเห็นซ้ำ ๆ และ AI ก็เช่นเดียวกัน ในกรณีนี้ AI ก็มักจะบอกแหล่งที่มาได้เองเหมือนมนุษย์

สรุปแล้ว จึงน่าสงสัยว่าจะสามารถเรียกร้องไลเซนส์ CC และลิขสิทธิ์กับเนื้อหาที่เกิดจากการเรียนรู้แล้วนำมาพูดได้จริงหรือไม่ ทุกวันนี้ในด้าน "การอนุมาน" อยู่แล้ว (การใช้งาน AI ที่ผ่านการฝึกเสร็จสิ้นแล้ว) ด้วยเหตุผลข้างต้น โลกกำลังมีแนวโน้มที่จะไม่ค่อยยอมรับลิขสิทธิ์ของแหล่งต้นฉบับในกรณีลักษณะนี้

roxie 2024-05-26

ขอบคุณสำหรับความคิดเห็นดีๆ ครับ

นักพัฒนาชื่อฮงกิลดงอาจนำคำตอบที่เห็นใน SO ไป 'เรียนรู้' แล้วเขียนลงบล็อก แต่ถ้านักศึกษาปริญญาโทชื่อฮงกิลดง 'อ้างอิง' งานวิจัยของคนอื่นแม้เพียงเล็กน้อย เขาก็จะระบุแหล่งที่มาไว้ หากบริบทของบทสนทนาที่เรากำลังแบ่งปันกันอยู่นี้ไม่ใช่เรื่องปรัชญาหรือการประดิษฐ์ แต่เป็นโลกของการเขียนโปรแกรม แล้วอะไรคือการเรียนรู้ และอะไรคือการอ้างอิง?

bobcat 2024-05-17

โดยทั่วไปแล้วก็มีข้อยกเว้นในเรื่องที่มีการระบุแหล่งที่มาไว้
ส่วนนี้อาจคลี่คลายได้เมื่อเวลาผ่านไป แต่ประเด็นถกเถียงนี้เริ่มต้นจากกรณีที่ Copilot ดึงโค้ด fast invert sqrt ของ Quake มาใช้ตรง ๆ (https://news.ycombinator.com/item?id=27710287) และเพราะโค้ดนั้นเป็นโค้ดที่มีชื่อเสียงมากจึงสังเกตเห็นได้ ทว่าไม่มีใครรู้เลยว่าโค้ดที่ถูก "สร้าง" ขึ้นด้วยการคัดลอกวางแบบนั้นมีอยู่มากน้อยแค่ไหน

cosine20 2024-05-16

มุมมองนี้น่าสนใจมากจริงๆ ได้ประโยชน์ในการอ้างอิงมากเลยครับ

ng0301 2024-05-16

มุมมองนี้น่าสนใจนะ
ถ้ามองแบบเกาหลี ก็คงเป็นจุดยืนที่มองว่าเป็น "คอมมูนิตี้คาเฟ่ที่ถูกโยนให้ผู้ประกอบการไปแล้ว" กับความรู้สึกประมาณว่า "ยังไงก็เป็นงานดัดแปลงลำดับรองอยู่แล้ว ไม่เห็นจะเป็นอะไร?"
แต่สำหรับผม มันให้ความรู้สึกเหมือนรูปที่ผมลงใน sns ถูกนำไปใช้เชิงพาณิชย์ ก็เลยไม่ได้รู้สึกยินดีเท่าไร

savvykang 2024-05-16

มันพูดโดยวิเคราะห์ความรู้ในแบบของตัวเอง จัดระเบียบความคิดของตัวเอง แล้วเรียบเรียงใหม่ ราวกับเป็นมนุษย์

ดูเหมือนว่าคุณกำลังยืนยันว่า LLM มีค่านิยมและความคิดเป็นของตัวเอง ใช่ตามที่ตั้งใจจะสื่อหรือเปล่าครับ? ถึงจะไม่กระทบต่อข้อสรุปก็จริง แต่ในฐานะเหตุผลที่ใช้สนับสนุนว่าไม่ควรนำลิขสิทธิ์ไปใช้กับการอนุมาน ผมคิดว่ายังไม่ค่อยเหมาะสมนัก

cosine20 2024-05-16

กระบวนการแยกแต่ละคำออกเป็นโทเค็น แล้วนำข้อมูล embedding ของคำนั้นไปจัดวางและจัดระเบียบอย่างเหมาะสมใน latent space หากมองในเชิงนามธรรม ก็อาจเปรียบได้กับค่านิยมและความคิด

halfenif 2024-05-14

เกี่ยวกับการทำให้สมองเป็นดิจิทัล

ทำให้นึกถึงคำพูดของใครบางคนที่ว่า "มีเพียงสมองที่มีคุณค่าเท่านั้นที่จะถูกเก็บรักษาไว้"

secret3056 2024-05-14

SO ฝั่งนั้นจะลบกันอย่างซื่อสัตย์จริงหรือ? หรือจะเพียงแค่ตั้งค่าสถานะ Deleted ไว้ แล้วค่อยออกมาประกาศทีหลังว่า "ถูกนำไปใช้ในการฝึกเนื่องจากความผิดพลาดทางเทคนิค"?

2024-05-14

[ความคิดเห็นนี้ถูกซ่อน]

savvykang 2024-05-14

ยิ่งไปกว่านั้น แต่แรกเลยสหรัฐฯ ก็เป็นประเทศที่ต่างจากเกาหลีหรือยุโรป ตรงที่ข้อถกเถียงเรื่อง 'สิทธิที่จะถูกลืม' ไม่มีทางจบลงได้อยู่แล้ว...

ผมไม่มีความรู้พื้นฐานในเรื่องนี้ เลยลองค้นหาคร่าว ๆ ดู อยากทราบว่าเป็นเพราะเสรีภาพในการแสดงออกกับสิทธิที่จะถูกลืมขัดแย้งกันหรือเปล่าครับ? เพราะยังไม่มีฉันทามติ เลยยังไม่มีการออกกฎหมายด้วยใช่ไหมครับ

jayuloy 2024-05-14

ว้าว เรื่องแบบนี้ก็เกิดขึ้นได้จริงนะครับ

xguru 2024-05-14

เหตุผลที่ผมมอบเวลาและความเชี่ยวชาญให้ Stack Overflow ก็เพราะมันใช้ไลเซนส์ CC-BY-SA
ผู้ใช้ Stack Overflow ทยอยลบคำตอบหลังจับมือเป็นพันธมิตรกับ OpenAI

เหตุผลที่ฉันยอมทุ่มเวลาและความเชี่ยวชาญให้ Stack Overflow ก็เพราะไลเซนส์ CC-BY-SA

บทความที่เกี่ยวข้อง

14 ความคิดเห็น