มุมมอง F/OSS เชิงวัตถุนิยมประวัติศาสตร์: เราไม่ควรปฏิเสธ LLM แต่ควรทวงมันกลับคืนมา
(writings.hongminhee.org)ข้อโต้แย้งคือไม่ใช่การกัน F/OSS ออกจากการฝึก LLM แต่ต้องปลดปล่อยโมเดลที่เป็นผลลัพธ์จากการฝึก
- บทความล่าสุด 〈ว่าด้วย FLOSS และการฝึก LLM〉 (On FLOSS and training LLMs) สะท้อนความคับข้องใจของชุมชน F/OSS ได้อย่างชัดเจน — ทั้งความหยาบคายของบริษัท AI และข้อจำกัดของกฎหมาย
- แต่ยุทธศาสตร์การถอนตัวที่ผู้เขียนเสนอ เช่น บล็อก crawler, หนีออกจาก GitHub, กีดกันผู้ใช้เครื่องมือ AI กลับพลาดโอกาสสำคัญไป
ปัญหาไม่ใช่การฝึก แต่คือ enclosure
- ปัญหาที่แท้จริงไม่ใช่การเอาโค้ดของเราไปฝึก LLM ในตัวมันเอง แต่คือ ผลลัพธ์ถูกทำให้เป็นกรรมสิทธิ์ส่วนตัวในรูปแบบโมเดลปิด
- นี่ไม่ใช่ปัญหาใหม่ — แต่มันคือปัญหาเดิมที่ F/OSS ต่อสู้มาตลอด
- การยึดครองทรัพยากรส่วนรวมเป็นของเอกชน
- การผูกขาดความรู้ร่วมกัน
- การไหลของมูลค่าแบบทางเดียวจากคนหมู่มากไปสู่คนส่วนน้อย
แบบแผนทางประวัติศาสตร์ของ GPL: เทคโนโลยีใหม่ → การเอาเปรียบรูปแบบใหม่ → ไลเซนส์ใหม่
การออกไลเซนส์ F/OSS พัฒนาตัวเองมาตลอดให้สอดรับกับการเปลี่ยนแปลงทางเทคโนโลยี:
- GPLv2 (1991) — ปิดช่องการแจกจ่ายเฉพาะไบนารี → บังคับให้เปิดเผยซอร์สโค้ด
- GPLv3 (2007) — ปิดช่อง Tivoization (ฮาร์ดแวร์ล็อก) → ต้องให้ข้อมูลการติดตั้งด้วย
- AGPL (2007) — ปิดช่องโหว่ของ SaaS → ถือว่าการให้บริการผ่านเครือข่ายเป็นการเผยแพร่ด้วย
แล้วตอนนี้ล่ะ? เกิด ช่องโหว่ด้านการฝึก ขึ้นมา:
- บริษัทต่าง ๆ ใช้โค้ด F/OSS เป็นข้อมูลฝึกสำหรับโมเดลปิด
- แต่ไม่มีภาระต้องเปิดเผยโมเดลหรือระบุแหล่งที่มาของข้อมูลฝึก
- นี่คือการเอาเปรียบแบบคลาสสิก — ดูดเอามูลค่าไปโดยไม่มีหลักต่างตอบแทน
ทางออก: training copyleft อย่าง GPLv4 หรือ TGPL (Training GPL)
เงื่อนไขที่เสนอมีดังนี้:
- อนุญาตให้ฝึกได้อย่างชัดแจ้ง explicitly (สอดคล้องกับหลักเสรีภาพของ F/OSS)
- แต่ โมเดลผลลัพธ์ต้องถูกปลดปล่อย — ต้องเปิดเผย weights ภายใต้ไลเซนส์ copyleft ที่เข้ากันได้
- ต้องมีภาระในการจัดทำเอกสารข้อมูลฝึก
- โมเดลที่ผ่านการ fine-tune ก็ต้องสืบทอดภาระนี้ด้วย
- การใช้งานผ่านเครือข่าย (การให้ API) ก็ให้ถือเป็นการเผยแพร่เช่นกัน
→ เหมือนที่ GPLv3 กำหนดให้ไบนารีต้องมาพร้อมซอร์สโค้ด training copyleft ก็จะกำหนดให้ระบบที่ผ่านการฝึกต้องมาพร้อม model weights
ทำไมสิ่งนี้จึงสำคัญกว่าการถอนตัว
ปัญหาของยุทธศาสตร์การถอนตัว:
- ยอมสละสนามรบ — OpenAI/Anthropic กวาดสิ่งที่ต้องการไปเกือบหมดแล้ว การถอนตัวจะไปขัดขวางได้ก็แค่โอเพนซอร์ส LLM อย่าง Llama/Mistral
- ชี้ปัญหาผิดจุด — ปัญหาไม่ใช่ตัวเทคโนโลยี แต่คือใครใช้มันและใช้อย่างไร
- ทำให้ชุมชนแตกแยก — จะกีดกันผู้ใช้ “เครื่องมือไร้จริยธรรม” งั้นหรือ? แล้วแค่ไหนถึงจะนับว่าใช้? การทดสอบความบริสุทธิ์มีแต่ทำให้ขบวนการแตกออก
- ละทิ้งยุทธศาสตร์แกนกลางของ F/OSS — อัจฉริยภาพของ GPL คือไม่ห้ามใช้ แต่บังคับให้ส่งต่อเสรีภาพ การถอนตัวคือปรัชญาตรงข้ามโดยสิ้นเชิง
ความต่างในมุมมองต่อความเป็นจริง
- antirez (ผู้ก่อตั้ง Redis): LLM ย้อนกลับไม่ได้แล้ว → ต้องปรับตัวและเชื่อตลาดแข่งขัน
- ผู้เขียนบทความต้นฉบับ: การต่อต้านยังมีความหมาย → ถอนตัวและปิดกั้นการเข้าถึง
- บทความนี้: LLM ย้อนกลับไม่ได้แล้ว → แต่ ใครเป็นเจ้าของมันต่างหากคือประเด็นหลัก
คำถามไม่ใช่ว่าจะใช้ LLM หรือไม่ แต่คือ:
- ใครเป็นเจ้าของโมเดล?
- ใครได้ประโยชน์จากทรัพยากรส่วนรวมที่ใช้ฝึกโมเดล?
- ผลลัพธ์จากการมีส่วนร่วมของนักพัฒนา F/OSS หลายล้านคนควรถูกผูกขาดหรือไม่?
→ นี่คือคำถามว่าผลของแรงงานร่วมกันจะยังอยู่กับส่วนรวม หรือจะกลายเป็นทรัพย์สินเอกชน
ตอนนี้คือโอกาสทางประวัติศาสตร์
- ตอนนี้กำลังมีการถกเถียงกันถึงบรรทัดฐานที่จะกำกับการฝึก AI และการเปิดเผยโมเดล
- การถกเถียงในชุมชนกำลังร้อนแรง
- ในช่วงที่โมเดล AI โอเพนซอร์สเพิ่มขึ้นเรื่อย ๆ ก็ยังไม่มีข้อสรุปว่าไลเซนส์แบบใดจะถูกใช้
ถ้านักพัฒนา F/OSS ถอนตัว: อีก 5 ปีข้างหน้า บริษัทและศาลที่เป็นมิตรกับบริษัทจะเป็นผู้กำหนดบรรทัดฐานทั้งหมด → ช่องโหว่ด้านการฝึกจะถูกสถาปนา → โอเพนซอร์ส AI จะเสียเปรียบถาวร
ถ้าเราเข้าร่วม: ผลักดัน training copyleft → เผยแพร่โค้ดภายใต้ไลเซนส์ที่บังคับให้ปลดปล่อยโมเดล → เราจะเป็นผู้สร้างอนาคตเอง
บทสรุปในประโยคเดียว
สิ่งที่ต้องเปลี่ยนไม่ใช่การบล็อก crawler แต่คือกติกาของการ crawl เราไม่ควรปฏิเสธ LLM แต่ควรทวงมันกลับคืนมา
→ ในมุมมองวัตถุนิยมประวัติศาสตร์ พลังการผลิตใหม่ (LLM) เรียกร้องความสัมพันธ์ทางการผลิตแบบใหม่ (training copyleft)
→ เหมือนที่ Linus เผยแพร่ Linux ภายใต้ GPL โดยไม่ได้พูดว่า “บริษัทห้ามใช้” แต่พูดว่า “ใครก็ใช้ได้ แต่ถ้าปรับปรุงแล้วต้องแบ่งปัน”
→ เพื่อไปสู่อนาคตที่เหมือนกับโค้ดเป็นของทุกคน โมเดล AI ที่ฝึกจากมันก็ต้องเป็นของทุกคนเช่นกัน
1 ความคิดเห็น
ฉันเห็นด้วยกับเนื้อหาในบทความ แต่ถ้าถามว่าจะต้องสู้เรื่องอะไร ตั้งแต่ตรงไหน และมากน้อยแค่ไหน ก็รู้สึกมืดแปดด้านอยู่ดี