ทุกวันนี้มีวิธีขัดขวางการฝึก LLM จากภาพผลงานอย่างไรบ้าง?

(lobste.rs)

1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ผู้ใช้รายหนึ่งเล่าว่าภรรยาของเขาลังเลที่จะเผยแพร่ ภาพผลงาน ของตนทางออนไลน์ เพราะไม่ต้องการให้ถูกนำไปใช้ฝึก LLM
แก่นของคำถามคือ ปัจจุบันมีไลบรารีหรือวิธีที่ใช้งานได้จริงสำหรับการประมวลผลภาพล่วงหน้าเพื่อ ขัดขวางการฝึก LLM หรือไม่
ผู้ใช้สงสัยว่ามีเครื่องมือที่ช่วยให้เขาสร้าง เว็บไซต์แบบปรับแต่งเอง สำหรับภรรยาได้หรือไม่
เขาไม่ได้มีประสบการณ์ด้านฟรอนต์เอนด์มากนัก แต่สามารถทำเว็บไซต์ง่าย ๆ ด้วย static site generator ได้
เขาเคยใช้ Eleventy ทำเว็บไซต์ให้วงดนตรีมาก่อน จึงกำลังพิจารณาสร้างเว็บไซต์แบบ static ในลักษณะคล้ายกัน

บริบทของคำถาม

ภรรยาไม่ต้องการ อัปโหลดภาพผลงานของตัวเองขึ้นออนไลน์
- เพราะไม่ต้องการให้ภาพเหล่านั้น ถูกนำไปใช้ในการฝึก LLM
ผู้ใช้กำลังมองหาวิธีประมวลผลภาพล่วงหน้าเพื่อทำให้การฝึก LLM ทำได้ยากขึ้น

แนวทางแก้ปัญหาที่ต้องการ

เขากำลังคิดถึงการทำ เว็บไซต์แบบปรับแต่งเอง ให้ภรรยาด้วยตัวเอง
เงื่อนไขที่ต้องการคือ มีไลบรารีหรือวิธีที่สามารถประมวลผลภาพผลงานเพื่อ ขัดขวางการฝึก LLM ได้จริงหรือไม่
เงื่อนไขด้านเทคนิคของเขามีดังนี้
- มีประสบการณ์ด้านฟรอนต์เอนด์ไม่มาก
- สามารถทำเว็บไซต์ง่าย ๆ ด้วย static site generator ได้
- ก่อนหน้านี้เคยทำเว็บไซต์วงดนตรีด้วย Eleventy

1 ความคิดเห็น

GN⁺ 4 시간 전

ความคิดเห็นจาก Lobste.rs

อัปเดต: ลองดู cara ได้
เพื่อนศิลปินของผมลงผลงานไว้ที่นั่นและดูเหมือนจะพอใจ
ที่นั่นชูแนวคิด ศิลปินมาก่อน และประกาศจุดยืนต่อต้าน AI อย่างเปิดเผย อีกทั้งดูเหมือนจะมี การเชื่อมต่อกับ Glaze เพื่อป้องกันไม่ให้ภาพถูกนำไปใช้ฝึก AI ด้วย
และที่จะพูดน่าจะไม่ใช่ LLM แต่มีโอกาสสูงว่าเป็น โมเดลการแพร่กระจาย มากกว่า LLM จัดการกับข้อความ จึงอาจช่วยตอนค้นหาข้อมูลได้
ผมจำ Nightshade ได้ แต่ลองเช็กเร็ว ๆ แล้วดูเหมือนว่าจะออกมาราวปี 2023/24 และผมหาไม่เจอทั้งที่เก็บโค้ดหรือร่องรอยการบำรุงรักษา
ปัญหาของวิธีทำให้ปนเปื้อน หรือซ่อนงานศิลปะไม่ให้ LLM เข้าถึงได้ คือเราไม่รู้ว่ามันมีประสิทธิภาพแค่ไหน และอาจไม่มีทางรู้ได้เลย เพราะสุดท้ายทั้งหมดก็เข้าไปอยู่ใน กล่องดำ
ถ้าไม่ต้องการให้งานถูกเก็บเข้าสู่ LLM ก็มีทางเลือกอยู่ไม่กี่แบบ และแต่ละแบบก็มีข้อดีข้อเสีย
1. ไม่อัปโหลดขึ้นออนไลน์เลย ง่ายมาก แต่ใช้ได้ก็ต่อเมื่อไม่มีใครคนอื่นเอาไปลงออนไลน์ด้วย ถ้าเป็นหนังสือ บริษัท AI ก็อาจได้มาจากช่องทางอื่น เช่น การสแกน
2. เผยแพร่ออนไลน์เฉพาะหลังสมัครสมาชิกและล็อกอิน คนที่สนใจก็ยังเข้าถึงได้ และ LLM ทั่วไปจะเข้าถึงไม่ได้ แน่นอนว่ายังต้องอาศัยเงื่อนไขว่าไม่มีใครเอาไปโพสต์ซ้ำแบบไม่มีด่านล็อกอิน
3. วางไว้หลังระบบป้องกันครอว์เลอร์ที่แข็งแรง จะพูดถึงเครื่องมือของตัวเองก็ค่อนข้างเขิน แต่ถ้าวางอะไรอย่าง iocaine ไว้หน้าตัวเว็บไซต์ ก็กันครอว์เลอร์ได้จำนวนมาก ไม่ได้กันได้ทั้งหมด แต่กันได้มากพอจะลดโอกาสถูกเอาไปฝึกลงอย่างมาก และก็ไม่ได้สร้างกำแพงใหญ่ต่อผู้เข้าชมปกติด้วย
  อีกเรื่องสำคัญคือ ถ้าคุณอยากหลุดจากข้อมูลฝึก ก็น่าจะต้อง ไม่ให้เสิร์ชเอนจินทำดัชนี ด้วย เสิร์ชเอนจินเชิงพาณิชย์นำข้อมูลที่ทำดัชนีไว้ไปฝึก ดังนั้นถ้าค้นเจอใน Google ก็มีโอกาสสูงว่าข้อมูลเดียวกันจะเข้าไปอยู่ใน Gemini ด้วย
  สุดท้ายแล้ว ถ้าจะทำเว็บไซต์พอร์ตโฟลิโอโดยไม่มีการฝึก LLM เลย มันยากมาก แต่ถ้าแค่อยากเอางานขึ้นออนไลน์ ด่านล็อกอินหรือระบบป้องกันครอว์เลอร์ที่แข็งแรงก็ช่วยลดโอกาสถูกนำไปฝึกได้พอสมควร น่าเสียดายที่ทำให้เป็น 0 ไม่ได้ และไม่มีเครื่องมือวิเศษที่รับประกันได้ว่าจะซ่อนหรือทำให้งานเป็นพิษได้แน่นอน
ดูเหมือนภรรยาของคุณจะสัญชาตญาณถูก อย่างน้อยในที่สาธารณะ คำตอบที่ใกล้เคียงที่สุดคือ อย่าเอาขึ้นออนไลน์
- แม้จะไม่ชอบ แต่ดูเหมือนว่าสถานการณ์ของการแสดงออกเชิงสร้างสรรค์ของมนุษย์โดยรวมส่วนใหญ่จะเป็นแบบนี้
  ถ้าไม่อยากให้มันกลายเป็นเชื้อเพลิงของ เครื่องผลิตของคุณภาพต่ำ ก็แชร์ต่อสาธารณะไม่ได้
ไม่คิดว่าจะต้องพูดแบบนี้ แต่ดูเหมือนเราต้องการ DRM ที่เข้มงวดกว่านี้ ต้องเป็นระดับที่ติดตามแหล่งที่มาเข้าไปได้ถึงในตัวโมเดลเลย ซึ่งก็ยังไม่ชัดด้วยซ้ำว่าของแบบนั้นจะมีอยู่ได้ไหม
นอกเหนือจากนั้น ดูเหมือนภรรยาของคุณจะพูดถูก และการทำให้ LLM อ่านยากก็คงไม่ใช่มาตรการบรรเทาที่ใช้ได้นาน
- การมาเห็นคนในฟอรัมแฮ็กเกอร์ที่ผมชอบพูดถึงการ สนับสนุน DRM แปลว่าสถานการณ์คงหนักจริง ๆ
- โชคดีที่ DRM ใช้ไม่ได้ผล และก็ไม่มีทางใช้ได้ผล
  ต่อให้มันใช้ได้ผล ก็อย่าคาดหวังว่ามันจะถูกนำไปใช้เพื่อปกป้องสิทธิของคนที่ไม่ได้อยู่ฝ่ายอำนาจมากกว่าอยู่ดี
- ไม่ใช่เลย เราไม่ต้องการ DRM ที่เข้มงวดขึ้น
  วิธีเดียวที่จะทำสิ่งนี้ได้ แม้สุดท้ายก็ยังจะถูกเจาะอยู่ดี คือใช้ encrypted enclave บนฮาร์ดแวร์ที่ตรวจสอบยืนยันได้ ซึ่งเป็นทิศทางที่ค่อย ๆ พรากอำนาจของผู้ใช้ในการควบคุมอุปกรณ์ของตัวเองออกไปมากขึ้น
- เมื่อดูจากการที่พวกเขาเพิกเฉยต่อเรื่องลิขสิทธิ์และไลเซนส์อย่างสิ้นเชิง ก็ดูเหมือนว่าต่อให้ใส่ DRM หนาแค่ไหนก็ไม่ช่วย
  อีกทั้งเมื่อดูจากขนาดเงินที่บริษัทพวกนี้เผาในแต่ละวัน DRM ก็คงไม่ใช่อุปสรรคใหญ่เช่นกัน
  สุดท้ายมันอาจแค่ทำให้มีแต่โมเดลที่เงินหนากว่าเท่านั้นที่ได้ใช้
  แล้วแต่จะนิยาม DRM แบบไหน การ ทำให้อ่านยาก แบบนี้เองก็อาจเรียกว่า DRM ได้เหมือนกัน
ผมเคยดู Glaze เมื่อปีกว่า ๆ ก่อน และถึงกับติดต่อไปที่แล็บเพื่อถามคำถามยืนยันบางอย่าง แต่ถ้าจำไม่ผิด ผมไม่ได้รับคำตอบ
ระหว่างที่ตรวจสอบ ผมเห็นข้อจำกัดและข้อแม้เยอะมากเกินไป ตอนนี้สถานะล่าสุดเป็นอย่างไรผมไม่รู้ แต่ผมไม่ค่อยมองโลกในแง่ดีว่าวิธี ทำให้ภาพปนเปื้อน แบบทั่วไปจะใช้ได้กับโมเดลส่วนใหญ่
Glaze ใช้ได้กับบางโมเดลและในบางเงื่อนไข

ทุกวันนี้มีวิธีขัดขวางการฝึก LLM จากภาพผลงานอย่างไรบ้าง?

บริบทของคำถาม

แนวทางแก้ปัญหาที่ต้องการ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Lobste.rs