- ตามข้อตกลงระหว่าง Stack Overflow และ OpenAI คำถามและคำตอบทั้งหมดบน Stack Overflow จะถูกนำไปใช้ฝึกโมเดล GenerativeAI
- โดยจะทำเช่นนั้นโดยไม่มีการแสดงที่มาของผู้เขียนตามที่ไลเซนส์ CC-BY-SA กำหนด
- ไลเซนส์ CC-BY-SA ยังกำหนดให้งานดัดแปลงต้องเผยแพร่ภายใต้ไลเซนส์เดียวกันด้วย
- ด้วยเหตุนี้ ฉันจึงยื่นคำขอลบข้อมูลกับ Stack Overflow และปิดบัญชี
- ฉันก็ทำแบบเดียวกันกับ Reddit
- เพราะข้อมูลที่ฉันมีส่วนช่วยสร้างจะถูกผูกไว้ใน LLM แล้วนำกลับมาขายให้ฉันอีกทอดหนึ่ง
- Stack Overflow ได้ทำให้ชุมชนซึ่งเป็นแหล่งสำคัญของความได้เปรียบทางการแข่งขันต้อง疏ห่างไปในชั่วข้ามคืน
- ก่อนหน้านี้ ผู้คนช่วยกันเมื่อช่วยได้ โดยคาดหวังว่าในอนาคตคนอื่นจะช่วยตอบแทน เป็นสัญญาทางจิตวิทยาที่ทุกคนยึดถือร่วมกัน
- ตอนนี้มันไม่ใช่การแลกเปลี่ยนอีกต่อไป แต่กลายเป็น
#enshittification
- ตอนนี้โปรแกรมเมอร์ก็เหมือนศิลปินและนักเขียนคำโฆษณา ที่ผลงานของตนถูกดึงไปใช้สร้างโซลูชัน GenAI
- หาก OpenAI สร้าง LLM ที่ผลิตโค้ดได้เหมือน GitHub Copilot ก็ชวนให้สงสัยว่าจะไปขอความช่วยเหลือเรื่องบั๊กที่โมเดล AI สร้างขึ้นได้จากที่ไหน
- รายงานล่าสุดของ GitClear ระบุว่าเครื่องมือเหล่านี้ก่อให้เกิด "แรงกดดันให้คุณภาพโค้ดลดลง"
- นี่เป็นอีกกรณีหนึ่งของ
#enshittification และเป็นบทเรียนสำคัญสำหรับผู้ดูแล DevRel
- หากชุมชนคือแหล่งที่มาของความได้เปรียบทางการแข่งขัน ก็ไม่ควรทำให้พวกเขาโกรธ
14 ความคิดเห็น
enshittificationนี่คงเป็นคำใหม่สินะ<ควรปฏิบัติต่อมนุษย์กับ AI แตกต่างกันหรือไม่?>
สมมติว่ามนุษย์คนหนึ่งชื่อฮงกิลดงท่องอินเทอร์เน็ตไปทั่ว รวมถึง Stack Overflow ด้วย เขาอ่านบทความหลายชิ้นและได้ความรู้หลากหลายเกี่ยวกับหัวข้อหนึ่งมา กิลดงมีนิสัยชอบนำสิ่งที่ตัวเองเรียนรู้มาเรียบเรียง สรุป และทำให้อ่านเข้าใจง่าย ก่อนจะเขียนลงในบล็อกภายนอก ในกรณีนี้ไม่เกี่ยวข้องกับไลเซนส์ CC และก็ไม่มีภาระหน้าที่ต้องระบุผู้เขียน เพราะนี่ไม่ใช่การอ้างอิง แต่เป็นสิ่งที่ได้เรียนรู้มา
AI เรียนรู้ด้วยโครงข่ายประสาทเหมือนมนุษย์ มันไม่ได้พูดโดยคัดลอกหลายแหล่งข้อมูลมาแบบตรงตัว แต่เหมือนมนุษย์ที่วิเคราะห์ความรู้ในแบบของตัวเอง สร้างความคิดของตัวเองขึ้นมา แล้วจัดเรียงใหม่ก่อนจะพูดออกมา
ในทางกลับกัน การจำกัดเสรีภาพของ AI และทำให้มัน "อ้างอิง" ภาษาของคนอื่นแบบตรงตัวนั้นยากกว่าเสียอีก การใช้ RAG เพื่อทำแบบนั้นเป็นเรื่องง่าย แต่การฝึกให้มันอ้างอิงนั้นยากกว่า
อย่างไรก็ตาม ถึงจะไม่ได้สั่ง AI โดยตรงว่า "อย่าพูดความคิดของตัวเอง แต่ให้ยกข้อความ(โค้ด)ของคนอื่นมาแบบตรงตัว" ก็มีบางกรณีที่มันนึกคำพูดของคนอื่นขึ้นมาเหมือนคัดลอกออกมา ซึ่งกรณีนี้มักเกิดเมื่อแหล่งข้อมูลนั้นมีชื่อเสียงอย่างมาก ตัวอย่างเช่น เชกสเปียร์หรือประโยคดังจากภาพยนตร์ต่าง ๆ ที่เป็นที่รู้จักอย่างกว้างขวางจนถูกพิมพ์ออกมาตามเดิม มนุษย์เองก็ท่องจำถ้อยคำแบบตรงตัวได้เมื่อเป็นเนื้อหาที่มีชื่อเสียงและถูกพบเห็นซ้ำ ๆ และ AI ก็เช่นเดียวกัน ในกรณีนี้ AI ก็มักจะบอกแหล่งที่มาได้เองเหมือนมนุษย์
สรุปแล้ว จึงน่าสงสัยว่าจะสามารถเรียกร้องไลเซนส์ CC และลิขสิทธิ์กับเนื้อหาที่เกิดจากการเรียนรู้แล้วนำมาพูดได้จริงหรือไม่ ทุกวันนี้ในด้าน "การอนุมาน" อยู่แล้ว (การใช้งาน AI ที่ผ่านการฝึกเสร็จสิ้นแล้ว) ด้วยเหตุผลข้างต้น โลกกำลังมีแนวโน้มที่จะไม่ค่อยยอมรับลิขสิทธิ์ของแหล่งต้นฉบับในกรณีลักษณะนี้
ขอบคุณสำหรับความคิดเห็นดีๆ ครับ
นักพัฒนาชื่อฮงกิลดงอาจนำคำตอบที่เห็นใน SO ไป 'เรียนรู้' แล้วเขียนลงบล็อก แต่ถ้านักศึกษาปริญญาโทชื่อฮงกิลดง 'อ้างอิง' งานวิจัยของคนอื่นแม้เพียงเล็กน้อย เขาก็จะระบุแหล่งที่มาไว้ หากบริบทของบทสนทนาที่เรากำลังแบ่งปันกันอยู่นี้ไม่ใช่เรื่องปรัชญาหรือการประดิษฐ์ แต่เป็นโลกของการเขียนโปรแกรม แล้วอะไรคือการเรียนรู้ และอะไรคือการอ้างอิง?
โดยทั่วไปแล้วก็มีข้อยกเว้นในเรื่องที่มีการระบุแหล่งที่มาไว้
ส่วนนี้อาจคลี่คลายได้เมื่อเวลาผ่านไป แต่ประเด็นถกเถียงนี้เริ่มต้นจากกรณีที่ Copilot ดึงโค้ด fast invert sqrt ของ Quake มาใช้ตรง ๆ (https://news.ycombinator.com/item?id=27710287) และเพราะโค้ดนั้นเป็นโค้ดที่มีชื่อเสียงมากจึงสังเกตเห็นได้ ทว่าไม่มีใครรู้เลยว่าโค้ดที่ถูก "สร้าง" ขึ้นด้วยการคัดลอกวางแบบนั้นมีอยู่มากน้อยแค่ไหน
มุมมองนี้น่าสนใจมากจริงๆ ได้ประโยชน์ในการอ้างอิงมากเลยครับ
มุมมองนี้น่าสนใจนะ
ถ้ามองแบบเกาหลี ก็คงเป็นจุดยืนที่มองว่าเป็น "คอมมูนิตี้คาเฟ่ที่ถูกโยนให้ผู้ประกอบการไปแล้ว" กับความรู้สึกประมาณว่า "ยังไงก็เป็นงานดัดแปลงลำดับรองอยู่แล้ว ไม่เห็นจะเป็นอะไร?"
แต่สำหรับผม มันให้ความรู้สึกเหมือนรูปที่ผมลงใน sns ถูกนำไปใช้เชิงพาณิชย์ ก็เลยไม่ได้รู้สึกยินดีเท่าไร
> มันพูดโดยวิเคราะห์ความรู้ในแบบของตัวเอง จัดระเบียบความคิดของตัวเอง แล้วเรียบเรียงใหม่ ราวกับเป็นมนุษย์
ดูเหมือนว่าคุณกำลังยืนยันว่า LLM มีค่านิยมและความคิดเป็นของตัวเอง ใช่ตามที่ตั้งใจจะสื่อหรือเปล่าครับ? ถึงจะไม่กระทบต่อข้อสรุปก็จริง แต่ในฐานะเหตุผลที่ใช้สนับสนุนว่าไม่ควรนำลิขสิทธิ์ไปใช้กับการอนุมาน ผมคิดว่ายังไม่ค่อยเหมาะสมนัก
กระบวนการแยกแต่ละคำออกเป็นโทเค็น แล้วนำข้อมูล embedding ของคำนั้นไปจัดวางและจัดระเบียบอย่างเหมาะสมใน latent space หากมองในเชิงนามธรรม ก็อาจเปรียบได้กับค่านิยมและความคิด
เกี่ยวกับการทำให้สมองเป็นดิจิทัล
ทำให้นึกถึงคำพูดของใครบางคนที่ว่า "มีเพียงสมองที่มีคุณค่าเท่านั้นที่จะถูกเก็บรักษาไว้"
SO ฝั่งนั้นจะลบกันอย่างซื่อสัตย์จริงหรือ? หรือจะเพียงแค่ตั้งค่าสถานะ Deleted ไว้ แล้วค่อยออกมาประกาศทีหลังว่า "ถูกนำไปใช้ในการฝึกเนื่องจากความผิดพลาดทางเทคนิค"?
> ยิ่งไปกว่านั้น แต่แรกเลยสหรัฐฯ ก็เป็นประเทศที่ต่างจากเกาหลีหรือยุโรป ตรงที่ข้อถกเถียงเรื่อง 'สิทธิที่จะถูกลืม' ไม่มีทางจบลงได้อยู่แล้ว...
ผมไม่มีความรู้พื้นฐานในเรื่องนี้ เลยลองค้นหาคร่าว ๆ ดู อยากทราบว่าเป็นเพราะเสรีภาพในการแสดงออกกับสิทธิที่จะถูกลืมขัดแย้งกันหรือเปล่าครับ? เพราะยังไม่มีฉันทามติ เลยยังไม่มีการออกกฎหมายด้วยใช่ไหมครับ
ว้าว เรื่องแบบนี้ก็เกิดขึ้นได้จริงนะครับ
เหตุผลที่ผมมอบเวลาและความเชี่ยวชาญให้ Stack Overflow ก็เพราะมันใช้ไลเซนส์ CC-BY-SA
ผู้ใช้ Stack Overflow ทยอยลบคำตอบหลังจับมือเป็นพันธมิตรกับ OpenAI