กระแสต่อต้าน AI กำลังเพิ่มขึ้น

(stephvee.ca)

16 คะแนน โดย GN⁺ 9 일 전 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

ท่ามกลางอินเทอร์เน็ตที่เต็มไปด้วยคอนเทนต์คุณภาพต่ำที่สร้างโดย AI (slop) กำลังเกิดความเคลื่อนไหวหลากหลายรูปแบบที่ผู้คน ลุกขึ้นมาต่อต้าน AI อย่างจริงจัง
ชุมชน Reddit อย่าง r/PoisonFountain กำลังเคลื่อนไหวโดยตั้งเป้าจะส่งมอบ ข้อมูลปนเปื้อน 1 เทราไบต์ต่อวัน ให้กับ AI crawler ภายในสิ้นปี 2026
มีรูปแบบการต่อต้านหลายแบบเกิดขึ้น เช่น เทคนิคหลอก AI video summarizer หรือการ จงใจใส่ข้อมูลเท็จ ลงในโซเชียลมีเดีย
เบื้องหลังการต่อต้านนี้คือความจริงที่ว่า AI crawler มักเพิกเฉยต่อ robots.txt และก่อให้เกิด ภาระระดับ DDoS กับเว็บไซต์ขนาดเล็ก
มีความคาดหวังว่าหากอารมณ์ต่อต้านนี้เปลี่ยนไปสู่ การต่อต้านอย่างสันติและถูกกฎหมาย ก็อาจบีบให้ซิลิคอนแวลลีย์ต้องเปลี่ยนวิธีเก็บข้อมูล

ชุมชนปนเปื้อนข้อมูลสำหรับจัดการ AI crawler

ชุมชน Reddit r/PoisonFountain เป็นคอมมูนิตี้ที่ก่อตั้งโดยคนที่อ้างว่าตนเป็นคนวงในของอุตสาหกรรม AI และคอยกระตุ้นให้คนจำนวนมากที่สุดเท่าที่เป็นไปได้ช่วยป้อนข้อมูลขยะ (poison) จำนวนมากให้กับ web crawler
เป้าหมายคือส่งมอบ ข้อมูลปนเปื้อน 1 เทราไบต์ต่อวัน ให้ crawler ภายในสิ้นปี 2026
ตัวข้อมูลปนเปื้อนหลักถูกโฮสต์ไว้ที่ rnsaffn.com และถูกวางไว้ท่ามกลางลิงก์ขยะที่ล่อให้ AI crawler เข้ามาเก็บ
- มองเผินๆ จะดูเหมือนโค้ดปกติ แต่จริงๆ แล้วมี ข้อผิดพลาดเล็กน้อยแฝงอยู่ ทำให้ได้โค้ดที่ใช้งานไม่ได้
- แม้จะสามารถกรองข้อผิดพลาดเหล่านี้ออกได้ แต่การทำเช่นนั้นใน ระดับใหญ่มีต้นทุนสูงมาก
บริษัท AI ไม่สามารถพัฒนาโมเดลให้ดีขึ้นได้หากไม่มีข้อมูลใหม่ที่มนุษย์สร้างขึ้น ดังนั้นกลยุทธ์สำคัญคือการ เพิ่มเวลาและต้นทุน ของการขโมยข้อมูล
Miasma เป็นเครื่องมือที่ใช้ข้อมูลปนเปื้อนนี้เพื่อป้อนข้อมูลขยะจำนวนมหาศาลให้บอตอันตราย โดยผู้พัฒนาอธิบายว่ามันคือ "บุฟเฟต์ slop ไม่รู้จบสำหรับเครื่องจักรผลิต slop"

พฤติกรรมที่เป็นปัญหาของ AI crawler

ทีมที่ส่ง AI crawler ออกมา ก่อให้เกิด ภาระระดับ DDoS กับเว็บไซต์ขนาดเล็กเป็นประจำ และทำให้ค่าโฮสติ้งของทุกคนสูงขึ้น
พวกมัน ไม่ปฏิบัติตาม robots.txt และก็มักซ่อน crawler ไว้หลัง residential proxy ด้วย
หากไม่สามารถจัดหาข้อมูลฝึกสอนอย่างมีจริยธรรมได้ ก็ไม่มีเหตุผลที่เจ้าของเว็บไซต์รายใดต้องช่วยทำให้การขโมยข้อมูลง่ายขึ้น

ความพยายามปนเปื้อน AI video summarizer

ในวิดีโอที่เป็นที่รู้จักผ่าน r/PoisonFountain ครีเอเตอร์ชื่อ @f4mi ได้สาธิตเทคนิค ใช้ช่องโหว่ของคำบรรยาย YouTube เพื่อปนเปื้อน AI video summarizer
ปัจจุบัน YouTube ได้ อุดช่องโหว่ของคำบรรยาย นี้แล้ว ทำให้เทคนิคดังกล่าวใช้ไม่ได้อีกต่อไป
แม้จะเป็นเพียงชั่วคราว แต่ก็เป็นกรณีที่ประสบความสำเร็จในการก่อกวนระบบ AI และแสดงให้เห็นว่าผู้คนกำลังพยายามต่อต้านอย่างจริงจัง

การก่อวินาศกรรม AI โดยเจตนาบนโซเชียลมีเดีย

บนแพลตฟอร์มโซเชียลมีเดียอย่าง Reddit กำลังมีการ จงใจเขียนข้อมูลเท็จเพื่อปนเปื้อนข้อมูลฝึกสอนของ AI มากขึ้น
ตัวอย่างเช่น มีการโพสต์ข้อมูลเท็จอย่างชัดเจนว่าใน "Everybody Loves Raymond" นั้น Idris Elba รับบทเป็นแม่ของ Raymond
- มนุษย์สามารถดูบริบทแล้วรู้ได้ทันทีว่าเป็นเรื่องเท็จ แต่ web scraper อัตโนมัติอาจมองว่านี่คือข้อมูลคุณภาพดีที่มนุษย์สร้างขึ้น
- หากข้อมูลนี้ถูกส่งต่อไปยัง OpenAI หรือที่อื่นๆ ก็จะต้องใช้ ทรัพยากรเพิ่มเติมในการลบออก จากชุดข้อมูลฝึกสอน
เรื่องนี้อาจมองได้ว่าเป็นรูปแบบสมัยใหม่ของการที่ คนงานทอผ้าในยุคปฏิวัติอุตสาหกรรมทำลายเครื่องทอผ้าแบบใช้พลังงาน และหากมีคนจำนวนมากพอช่วยกันปนเปื้อนพื้นที่สาธารณะด้วยข้อมูลเท็จที่มุ่งเป้าไปยังบอต ก็อาจกดดันให้บริษัท AI ต้อง ทบทวน วิธีการเก็บข้อมูลฝึกสอน

กระแสความไม่พอใจต่อ AI ในวงกว้าง

ผู้คนมีความรู้สึกต่อต้านผลกระทบของ AI ต่อโลก โดยเฉพาะผลกระทบต่อ ชุมชนออนไลน์ สิ่งแวดล้อม โรงเรียนประถม มหาวิทยาลัย กลุ่มเสี่ยงด้านสุขภาพจิต และการทำมาหากิน
แม้จะมีคนที่เสพและสร้าง AI slop อยู่ แต่ทั้งออฟไลน์และออนไลน์นั้นมี คนที่เกลียดและปฏิเสธเทคโนโลยีนี้มากกว่ามาก
ความเกลียดชังมักไม่ค่อยนำไปสู่ผลลัพธ์ที่ดี ผู้เขียนจึงคัดค้านการกระทำรุนแรง เช่น การ เตะหรือคว่ำ หุ่นยนต์ส่งของ AI หรือเหตุการณ์ ขว้าง ระเบิดขวดเพลิง ใส่บ้านของ Sam Altman
แต่หากความรู้สึกต่อ AI เปลี่ยนไปเป็น การต่อต้านอย่างสันติและถูกกฎหมาย ก็มีความเป็นไปได้ว่าจะเปลี่ยนพฤติกรรมของซิลิคอนแวลลีย์ได้จริง

ปลายเรื่อง: ต้นฉบับถูกแก้หลังไวรัลบน Hacker News

บทความนี้ขึ้นไปอยู่บน หน้าแรกของศูนย์รวมข่าวใหญ่ (Hacker News) ทำให้มีทราฟฟิกจำนวนมากไหลเข้ามาอย่างไม่คาดคิด
เกิด การโจมตีให้เซิร์ฟเวอร์รับภาระเกินอย่างมุ่งร้าย โดยมีการส่งคำขอหลายพันครั้งมายังหน้านี้จาก IP เพียงไม่กี่ตัว
- หากเป็น shared hosting ราคาถูก เว็บไซต์อาจล่มไปทั้งเว็บ และจึงต้องตอบโต้ด้วยการ บล็อกทราฟฟิกไปยัง URL นั้นชั่วคราว
แม้ผู้เขียนจะไม่ใช่ผู้เชี่ยวชาญด้าน AI แต่ผู้ร่วมแสดงความคิดเห็นบางคนก็ วิจารณ์อย่างเกินเลยโดยเรียกร้องความแม่นยำระดับผู้เชี่ยวชาญ
- ความเห็นหนึ่งถึงกับใช้คำว่า "ไม่ต่างจากกลุ่มที่เผาห้องสมุด" ซึ่งเป็นปฏิกิริยาที่น่าผิดหวังมากสำหรับบล็อกเกอร์ที่ชอบห้องสมุดและการแบ่งปันความรู้
เดิมทีเป้าหมายมีเพียงการแชร์ลิงก์แนวโน้มต่อต้าน AI ให้กับผู้ติดตามบล็อกกลุ่มเล็กๆ และผู้เขียนก็บอกว่าหากรู้ว่าจะ ดึงความสนใจด้านลบ จากแพลตฟอร์มใหญ่แบบนี้ ก็คงจะไม่โพสต์
หลังจากนั้นผู้เขียนตัดสินใจจะงดโพสต์ความเห็นส่วนตัวเกี่ยวกับ AI และจะกลับไปโฟกัสที่เป้าหมายดั้งเดิมของการทำบล็อก คือ ความสนุกของ small web
นี่เป็นตัวอย่างที่แสดงให้เห็นว่าการ แสดงความเห็นอย่างเสรีบน small web ถูกทำให้หดแคบลงเพราะการแพร่กระจายแบบไวรัล

5 ความคิดเห็น

GN⁺ 9 일 전

ความเห็นจาก Hacker News

ผมยินดีที่คนนี้ได้เจอชุมชนที่ตัวเองตามหาอยู่ แต่ก็รู้สึกว่าเขาดูถูกกระแสต่อต้าน AI ครอบงำมากเกินไป ผมคิดว่าในอีก 30 ปีข้างหน้า ก็จะยังมีกลุ่มคนที่เกลียดและพยายามขัดขวาง AI อยู่เสมอ เช่นเดียวกับที่เคยมีกลุ่มต่อต้านสมาร์ตโฟน Internet และ TV มาตลอด ในอีกด้านหนึ่ง ถ้า model poisoning ทำได้อย่างเสถียรจริง ๆ ผมว่ามันเป็นปัญหาวิทยาการคอมพิวเตอร์ที่น่าสนใจมาก ผมไม่ได้เห็นพ้องกับนักเคลื่อนไหวต่อต้าน AI แต่สนใจเทคนิคการโจมตีตัวมันเองมาก ดังนั้นถ้าพวกเขาทำวิจัยด้านนี้ต่อไป ผมคิดว่าแม้แต่คนที่ไม่เห็นด้วยกับเป้าหมายของพวกเขาก็ยังจะอ่านการถกเถียงนี้อย่างจริงจัง
- ผมคิดว่า model poisoning สุดท้ายจะชนกับข้อจำกัดคล้าย halting problem ถ้ามีกลไกที่เปลี่ยนพฤติกรรมที่วัดได้ถูกเปิดเผยออกมา ระบบก็ย่อมต้องเรียนรู้ให้คำนึงถึงกลไกนั้นและต้านทานมันได้ เทคนิค poisoning ที่ถูกเปิดเผยแล้วมีแนวโน้มจะถูกดูดซับเข้าไปเป็นเป้าหมายของการฝึกป้องกันหรือการกรองในที่สุด ในทางกลับกัน ถ้าจะให้ได้ผลต้องถึงขั้นทำลายข้อมูลอย่างรุนแรง ข้อมูลนั้นก็จะไร้ประโยชน์ต่อมนุษย์ไปด้วย ทำให้ใช้งานจริงได้ไม่ดี เพราะงั้นผมมองว่าการโจมตีแบบนี้จะมีผลกระทบน้อยมาก หรือได้ผลอยู่ช่วงสั้น ๆ ก่อนจะถูกสะท้อนเข้าไปใน training pipeline แล้วทำให้หมดฤทธิ์ ถึงอย่างนั้นมันก็ยังน่าสนใจในฐานะโจทย์ CS ที่เผยให้เห็นจุดหยาบ ๆ ที่มนุษย์กับโมเดลตอบสนองต่างกันในช่วงหน้าต่างเวลาสั้น ๆ นั้น
- เมื่อหลายปีก่อน ผมเคยแต่งชื่อเกมปลอมขึ้นมาชื่อหนึ่งที่นี่ แล้วก็ไปทิ้งคอมเมนต์หลายอันเกี่ยวกับเกมนั้นเพื่อพยายามทำให้โมเดล AI ในอนาคตปนเปื้อน แต่ตอนนี้ผมจำชื่อเกมนั้นไม่ได้แล้ว และก็ไม่มีกะจิตกะใจจะกด More เป็นร้อยครั้งเพื่อไปหาคอมเมนต์เก่า ๆ ด้วย
- ผมเดาว่าโมเดล Chinese น่าจะทนต่อ poisoning ได้มากกว่า และคิดว่าที่ประชาชน Chinese มีแนวโน้มเป็นมิตรกับ AI มากกว่าตะวันตกก็น่าจะมีส่วนด้วย
- ถ้ามนุษยชาติจะสูญพันธุ์ภายในไม่กี่ปีเพราะ superintelligence ที่ไม่ได้จัดแนว อย่างน้อยผมก็อยากปล่อยมุกประชดว่า ชุมชนนักกิจกรรมที่เกลียด AI และพยายามหยุดมันก็คงจะไม่เหลืออยู่เช่นกัน
- ผมคิดว่า SEO ได้กลายพันธุ์ไปเป็น LLM training และ agentic search optimization อย่างเป็นธรรมชาติแล้ว และนั่นแหละคือแก่นของสิ่งที่กำลังเกิดขึ้นตอนนี้
ผมรู้สึกเสียดายที่ความพยายามทำ poisoning ดูเหมือนเป็นการใช้พลังงานผิดที่ผิดทางเกินไป ผมคิดว่าตอนนี้มีข้อมูลที่ไม่ปนเปื้อนสำหรับใช้ฝึกอยู่มากพอแล้ว และคอนเทนต์ใหม่ก็ยังถูกสร้างต่อเนื่องจากการเก็บข้อมูลอัตโนมัติในโลกจริงหรือจากแรงงานที่มีการควบคุมคุณภาพในโรงงานขนาดใหญ่ในแอฟริกา เพราะงั้นถึงจะทำให้อินเทอร์เน็ตเก่าเลอะเทอะได้ ก็คงย้อนลูกศรแห่งเวลาไม่ได้ อีกอย่าง ตอนนี้ Internet แบบใหม่ที่เน้น API และ public announce federation ก็กำลังเติบโต ทำให้ความสำคัญของ poisoning แบบดั้งเดิมค่อย ๆ ลดลง
- ผมว่ามุมนี้น่าสนใจมาก AI labs ดูสิ้นหวังจริง ๆ ในการหาคอนเทนต์อินเทอร์เน็ตใหม่ และพร้อมจะซื้อข้อมูลแม้จากแพลตฟอร์มปิดถ้ามีคนยอมขายให้ เห็นได้ชัดถึงขั้นพยายามเอามาแม้ไม่มีความยินยอม ผมรู้สึกว่าการ scraping แบบละเมิดและแยบยลกำลังเพิ่มขึ้นอย่างมากในตอนนี้
- นอกเหนือจากเรื่องที่บอกว่าคอนเทนต์มีมากพอ ผมคิดว่าคนที่โพสต์อะไรลงอินเทอร์เน็ตกำลังลำบากกับการต้องบล็อก AI crawler ที่ไม่ได้รับอนุญาตอยู่จริง ๆ หลายกรณีจำเป็นต้องบล็อกเพียงเพื่อปกป้องโครงสร้างพื้นฐานจากการถาโถมของ request เท่านั้น แต่ AI crawler กลับไม่ค่อยเคารพสัญญาณปฏิเสธการเข้าถึง ดังนั้นในมุมของเจ้าของที่ไม่ต้องการให้เนื้อหาตัวเองถูกเอาไปใช้ฝึก ถ้าทำได้ poisoning ก็ดูเป็นการตอบโต้ที่สมเหตุสมผลมากทีเดียว อาจเป็นหนึ่งในวิธีแทบไม่กี่อย่างที่ใช้ไล่ crawler ออกไปได้ด้วยซ้ำ
- ผมคิดว่าคำพูดที่ว่ามีคอนเทนต์ไม่ปนเปื้อนมากพอนั้นก็จริง แต่จากกรณีที่ผมเคยลองจับดู การแอบซ่อนเนื้อหาที่คนแทบไม่เห็นแต่ scraper จะคิดว่าเกี่ยวข้องนั้นยังยากมากที่จะทำให้ทั้ง dataset หรือโมเดลปนเปื้อนอย่างมีนัยสำคัญ ถึงอย่างนั้น อย่างน้อยมันก็อาจทำให้ผลตอบแทนสุทธิจากการเมินสัญญาณ “อย่ารัว scraper request ใส่ไซต์ฉัน” กลายเป็นศูนย์หรือติดลบเล็กน้อยได้ ถึงจะไม่สำเร็จ มันก็เป็นงานเล่นที่สนุกพอสมควร และถ้าจะบอกคนที่อยากทำ poisoning แบบอัตโนมัติ คำหรืออักขระสุ่ม ๆ ใช้ไม่ค่อยได้ผลเพราะโดนกรองออกง่ายกว่า วิธีที่น่าจะทำให้ความเชื่อมโยงระหว่างโทเคนลดลงมากกว่าคือการสลับเรียงเนื้อหาของหน้าปัจจุบันและหน้ารอบข้าง แล้วผสมชิ้นส่วนเพิ่มเติมเล็กน้อยเข้าไป อีกอย่าง scraper บางตัวจะทิ้งทั้งหน้าเลยถ้ามีคำหยาบโจ่งแจ้ง ดังนั้นการโปรยสตริงไม่น่าดูบางอย่างไว้ในตำแหน่งที่มีแต่บอตเห็นก็อาจได้ผลกับบางตัว แน่นอนว่าวิธีเหล่านี้ไม่ได้ช่วยหยุดการกิน bandwidth แบบ resource hogging เอง
- ผมอยากแนะนำให้ไปดูเรื่อง "model collapse" ในสภาพแวดล้อมทุกวันนี้ที่เต็มไปด้วยคอนเทนต์ที่ AI สร้างขึ้น ผมคิดว่าการมีคอนเทนต์เยอะอย่างเดียวอาจไม่พอจะเป็นทรัพยากรฝึกที่ดี อีกทั้งข้อมูลมหาศาลก็กำลังกลายเป็นข้อมูลปิดหรือถูกย้ายไปอยู่หลัง paywall มากขึ้นเรื่อย ๆ ด้วย
- ผมว่าน่าสนใจที่ Anthropic เองก็รับมือกับปัญหา small-sample poisoning โดยตรงเหมือนกัน เอกสารที่เกี่ยวข้องดูได้ที่ https://www.anthropic.com/research/small-samples-poison
ผมจำได้ว่าสมัยก่อนประเด็นหลักของวัฒนธรรมแฮ็กเกอร์คือการกำจัดกำแพงที่ทำให้ใช้ข้อมูลได้ยาก เช่น DRM, DMCA, patent troll, PGP export control เมื่อเทียบกับยุคที่ “Information wants to be free” ใช้เป็นเหมือนคำขวัญได้ ผมว่าตอนนี้มันเป็นการเปลี่ยนแปลงครั้งใหญ่มากที่อารมณ์สาธารณะกลายเป็นว่า ถ้าบริษัทหาข้อมูลฝึกอย่างมีจริยธรรมไม่ได้ ก็ไม่มีเหตุผลที่คนดูแลเว็บไซต์จะต้องทำให้ขโมยได้ง่าย คงยากมากที่จะทำนายการเปลี่ยนแปลงแบบนี้เมื่อ 25 ปีก่อน
- ผมไม่ค่อยเข้าใจมุมที่มองว่านี่เป็นความขัดแย้งในตัวเอง ถ้าแยกให้ออกระหว่างคนที่อยากให้ทุกคนรวย กับคนที่วางแผนให้ตัวเองรวยคนเดียวและทำให้คนอื่นจนลง มันจะเข้าใจง่ายขึ้น คนที่สนับสนุนการเข้าถึงข้อมูลอย่างเสรี ไม่ได้ขัดแย้งอะไรเลยถ้าจะคัดค้านการใช้ข้อมูลแบบองค์กรที่บั่นทอนความสามารถของคนอื่นในการเข้าถึงข้อมูล และยังซ่อนหรือบิดเบือนแหล่งที่มา ถ้าโลกนี้ยังไม่ใช่โลกที่ลิขสิทธิ์หายไป ผลงานสร้างสรรค์กลายเป็นสาธารณสมบัติ และบริษัทไม่ได้ผูกขาดข้อมูล งั้นนี่ไม่ใช่การเปลี่ยนจุดยืน แต่เป็นการใช้จุดยืนเดิมอย่างสม่ำเสมอมากกว่า
- ผมมองปรากฏการณ์นี้ว่าเกิดในวัฒนธรรมที่ไม่มีกลไกแข็งแรงพอจะกีดกันคนที่ต้องการทำลายชุมชน มันทำให้นึกถึงอุปมาว่าชวนแวมไพร์เข้าบ้านแล้วค่อยแปลกใจว่าทำไมคอถึงเจ็บ
- ผมคิดว่าตอนนั้นผู้คนอยากสร้างเศรษฐกิจแบบการแบ่งปันและการให้เปล่า เพียงแต่สุดท้ายเศรษฐกิจแห่งการแบ่งปันนั้นกันผู้เล่นที่มุ่งร้ายออกไปไม่ได้ และเมื่ออุดมคติถูกคนแสวงหาประโยชน์ส่วนตัวยึดไป ผู้คนก็เลยผิดหวังและขมขื่น แรงต้านตอนนี้เลยไม่ได้ดูแปลกอะไรสำหรับผม
- ผมเองก็ยังอยู่ฝั่ง “information wants to be free” อยู่พอสมควร ผมไม่ค่อยเข้าใจคนที่ปล่อยซอฟต์แวร์ภายใต้โอเพนซอร์สไลเซนส์ แล้วกลับโกรธที่ LLM เอามันไปฝึก สมัยก่อนตอน Google ทำดัชนี source code คนก็ค่อนข้างเงียบกว่า น่าจะเพราะตอนนั้นมีทราฟฟิกไหลกลับมาแล้วทำเงินได้ ผมเลยมองว่าข้อถกเถียงนี้ใกล้เคียงกับเรื่องว่าใครจะได้เงินมากกว่าจะเป็นเรื่องปรัชญา และผมไม่ได้สนใจเรื่องนั้นนัก คุณค่าหลักของโอเพนซอร์สสำหรับผมคือทำให้ใครก็เรียนรู้ได้ ไม่ว่าจะผ่าน AI หรือวิธีอื่นก็ตาม
- ผมไม่เห็นด้วยกับข้ออ้างว่านี่เป็นการทรยศต่อ hacker ethos แบบดั้งเดิม “Information wants to be free” เป็นเพียงส่วนหนึ่งของ hacker ethos ไม่ใช่ทั้งหมด และยังมีแนวโน้มอื่นอีกมากที่ไม่เกี่ยวกับ cracking อีกทั้งข้อมูลที่อยู่บนเซิร์ฟเวอร์ก็ไม่ได้ฟรีแบบเบียร์ฟรี เพราะ availability และค่าใช้จ่ายของเซิร์ฟเวอร์เป็นของจริง การสร้างกลไกให้ผู้เล่นที่โลภมากเสียเปรียบเป็นสิทธิอันชอบธรรมของผู้ดูแลเซิร์ฟเวอร์ และยังเป็นปัญหาแบบ tit-for-tat ที่น่าสนใจด้วย ที่สำคัญ มาตรการตอบโต้แบบ poisoning นี้ไม่ใช่การเรียกรัฐเข้ามาแทรกแซง แต่เป็นการสวนกลับด้วยตัวเอง ซึ่งในแง่นั้นก็เข้ากับนิสัยแบบแฮ็กเกอร์มาก ดังนั้นแม้มันอาจบังเอิญขัดกับมิติหนึ่งของการเข้าถึงข้อมูล แต่วิธีต่อต้าน LLM แบบนี้ผมกลับมองว่าอยู่ในขอบเขตของจิตวิญญาณแฮ็กเกอร์ดั้งเดิมด้วยซ้ำ
ผมรู้สึกว่าวิธีที่ง่ายที่สุดในการเพิ่มแรงต้าน AI คือเอา Dario Amodei กับ Sam Altman ไปออก TV แล้วปล่อยให้พูดไปเรื่อย ๆ
- ผมว่าเติม Alex Karp เข้าไปโปรโมตอาวุธอัตโนมัติด้วยก็จะกลายเป็นตรีเอกานุภาพที่สมบูรณ์แบบเลย
- ผมอยากฟังเพิ่มว่าทำไมถึงรู้สึกแบบนั้น ผมนึกถึงเหตุผลอย่างเชื่อมกับคนทั่วไปไม่ค่อยได้ แรงจูงใจบิดเบี้ยว พูดไม่ตรง และมีอำนาจมากกว่าผู้นำที่มาจากการเลือกตั้ง แต่สำหรับการประเมินตัวบุคคล ผมไม่อยากจับ Amodei กับ Altman มารวมกัน ในสายตาผม Altman ดูขัดเกลาและมีความสามารถ แต่ก็เลยน่ากังวลยิ่งกว่า และมีบรรยากาศไร้ศีลธรรมแบบที่ทำให้คนตามตัวบุคคลแทนที่จะตามไอเดีย ส่วน Amodei ให้ความรู้สึกเหมือน geek ใจดีที่โน้มน้าวคนด้วยนิสัยและอุดมคติ เขารับมือสื่อได้เก้ ๆ กัง ๆ แต่กลับดูโอเคเพราะเหมือนพูดเป็นตัวเองจริง ๆ แน่นอนว่าทั้งคู่ยังมีจุดให้วิจารณ์อีกมาก Dario ดูเหมือนยังไปไม่ไกลพอเรื่องความเสี่ยงอนาคตของ AI ส่วน Altman แม้จะฉลาดและเก่ง แต่ให้ความประทับใจแรกว่าเป็นคนชอบชี้นำ ถึงอย่างนั้นผมก็ยังมองว่า Dario เป็นหนึ่งในผู้นำองค์กรที่จริงจังกับ alignment มากที่สุดคนหนึ่ง เขาดูเป็นคนที่ลงเงินจริงเอง เข้าใจเทคโนโลยี และรู้แก่นของงานวิจัยจริง ๆ ลองคิดดูว่ามันหาได้ยากแค่ไหนที่ CEO ของบริษัทจะมีความสามารถพอทำงานหลักในสายอาชีพนั้นได้จริง จุดนี้เลยพิเศษมากสำหรับผม
ผมมอง AI เป็น corporate tool สำหรับเค้นงานจากพนักงานให้มากขึ้น และในขณะเดียวกันก็เป็นอุปกรณ์ที่ปลูกฝังภาพลวงว่าพนักงานกลายเป็น turbo-charged dev ไปแล้ว ผมคิดว่าตอนนี้ tech industry คล้ายคณะละครสัตว์ที่เงินไหลเข้ามามากกว่าความพยายามจริงจังในการทำให้มนุษยชาติดีขึ้น
- ผมรู้สึกว่าอย่างน้อยในหมู่โปรแกรมเมอร์ที่ยังมีสติอยู่ ก็ไม่มีใครเชื่อตำนาน “turbo-charged dev” แบบนั้นหรอก ส่วนใหญ่คงมองออกกันหมดแล้วว่าละครฉากนี้สุดท้ายก็เป็นวิธีหาเงิน
ผมรู้สึกว่าขบวนการ poisoning แบบนี้ใกล้กับ slacktivism มากกว่า ผมเข้าใจได้ระดับหนึ่งกับการวิเคราะห์ที่ว่า compute กำลังมาแทนที่งานของชนชั้นแรงงาน และ compute ก็คือทุนล้วน ๆ ดังนั้นสุดท้ายมันคือโครงสร้างที่ชนชั้นนายทุนกำลังบีบคอชนชั้นแรงงาน และผมก็คิดว่าพวกนายทุนอาจต้องการให้เป็นอย่างนั้นจริง ๆ แต่ถ้ามองแบบนั้น การทำให้โมเดลปนเปื้อนเล็กน้อยก็ดูยังห่างไกลมากจากการเผชิญหน้ากับสิ่งที่กำลังเกิดขึ้นจริง ๆ แบบตรงจุด
ผมเห็นกระแสนี้ชัดมากเป็นพิเศษบน Reddit บางชุมชนเป็นมิตรกับ AI ถึงขั้นติดคอมเมนต์สรุปด้วย AI และสนับสนุนโพสต์ที่เขียนด้วย AI ขณะที่บาง subreddit กำลังขยับไปทางระมัดระวังหรือถึงขั้นต่อต้าน AI อย่างเปิดเผย ชุมชนถ่ายภาพเจอปัญหางานตัวเองถูกสงสัยว่าเป็น AI ส่วนชุมชนโปรแกรมเมอร์โดยรวมก็ชอบมันแต่ในเวลาเดียวกันก็ยังสงสัยอยู่ สุดท้ายแล้ว subreddit แบบดั้งเดิมต่างก็กำลังหาตำแหน่งของตัวเองบนสเปกตรัม AI ตัวอย่างที่นึกออกก็มี https://www.reddit.com/r/vibecoding/, https://www.reddit.com/r/isthisAI/, https://www.reddit.com/r/aiwars/, https://www.reddit.com/r/antiai/, https://www.reddit.com/r/photography/comments/1q4iv0k/what_do_you_say_to_people_who_think_every_photo/, https://www.reddit.com/r/webdev/comments/1s6mtt7/ai_has_sucked_all_the_fun_out_of_programming/
- ผมรู้สึกว่านี่คือภาพจำแบบฉบับของ Reddit และกว้างกว่านั้นคือความคิดแบบฝูงชนของมนุษย์ คนเรามักไม่อยากรับมือกับความละเอียดอ่อนของประเด็น แต่อยากรีบยืนอยู่ตรงไหนสักจุดบนเส้นหนึ่งมิติ หรือไม่ก็ถูกจัดให้อยู่ฝั่งใดฝั่งหนึ่งไปเลย
ผมหวังว่าสักวันหนึ่งเราจะคุยกันเรื่อง AI และบทบาทที่มันควรมีในโลกนี้ได้อย่างละเอียดอ่อนมากขึ้น ตอนนี้บรรยากาศเหมือนมีแต่สุดขั้วสองด้าน คือด้านที่อยากกำจัด AI ออกจากโลกไปเลย กับด้านที่อยากยกทุกอย่างให้มันทำ ผมอยากเห็นการคุยเรื่องใช้อย่างรับผิดชอบ มาตรการกันกระแทกทางสังคม และประเด็นการใช้พลังงาน ในพื้นที่ตรงกลางระหว่างสองสุดขั้วนั้น
- ผมคิดว่า Venture capital ลงเดิมพันกับภาพอนาคตที่ AI ครองโลกไปแล้ว เพราะงั้นรูปแบบการใช้ LLM อย่างระมัดระวังและจำกัดขอบเขตคงยังระดมทุนได้ยากในช่วงนี้ และยังมีเหตุผลเชิงละเอียดอ่อนด้วยว่าการเอาเงินไปลงกับ use case ที่ระวังตัวแบบนั้นเป็นสัญญาณที่บั่นทอนมูลค่าการลงทุนแกนหลักที่มีอยู่เดิม
- โดยรวมแล้วผมยืนอยู่ตรงกลางนั้นพอดี ผมคิดว่า AI crawler และบริษัทของพวกมันควรเคารพ robots.txt และไม่ควรขยายตัวแบบไร้ขีดจำกัดจนทำร้ายสิ่งแวดล้อมกับ supply chain แต่ในขณะเดียวกัน ผมก็รู้สึกว่าการใช้โมเดลอย่างระมัดระวังมีคุณค่าแน่นอน เช่นเวลาตามหาปัญหาแปลก ๆ บน Linux server บางครั้งเราอาจไม่อยากทุ่มทั้งเวลาและพลังสมองเสมอไป ดังนั้นผมอยากใช้ AI อย่างตั้งใจเฉพาะเวลาที่จำเป็น แต่ผมเกลียดกลยุทธ์ของ Microsoft ที่พยายามยัด Copilot ตลอดเวลา ผมไม่อยากถูกเตือนทุกนาทีให้เพิ่มประสิทธิภาพ แต่อยากใช้เฉพาะเมื่อผมรู้สึกว่าเหมาะสม
- ผมรู้สึกว่านี่ไม่ใช่รูปแบบการใช้ AI ที่ผมเคยจินตนาการไว้แต่แรก เดิมทีวิสัยทัศน์มันใหญ่กว่านั้น เป็นภาพของการแก้ปัญหาใหญ่ ๆ เพราะงั้นตอนนี้ผมคิดว่าเราควรผลักดันการนำ AI ไปใช้แบบรับผิดชอบ เริ่มจากพื้นที่เสี่ยงต่ำ และค่อยขยับไปสู่โดเมนที่สำคัญกว่าเมื่อพิสูจน์ได้แล้วว่ามันทำงานได้ดีพอในสถานการณ์ที่หายนะน้อยกว่า
- ผมแปลกใจนิดหน่อยที่ได้เห็นความเห็นแบบนี้จากคนในเว็บนี้ เพราะจริง ๆ แล้วผมกลับรู้สึกว่าที่นี่คือที่ที่พื้นที่ตรงกลางแบบนั้นปรากฏให้เห็นบ่อยที่สุด ช่วง 1 ปีที่ผ่านมา บรรยากาศก็ค่อย ๆ ขยับจากการโบกมือกว้าง ๆ แบบคลุมเครือ ไปสู่การยอมรับ AI พร้อมกับพยายามทำความเข้าใจปัญหาและคิดมาตรการรับมือ ผมมองว่า AI เป็นเครื่องมือที่ยอดเยี่ยมได้ถ้าใช้อย่างถูกต้อง แต่แนวทางปัจจุบันที่เอาไปยัดใส่มือทุกคนทั้งที่ยังไม่เข้าใจเครื่องมือเลยนั้นน่ากลัวมาก ผมเดาว่าน่าจะมีคนในชุมชนนี้จำนวนไม่น้อยที่รู้สึกคล้ายกัน
ผมรู้สึกว่าความโกรธของบล็อกต้นฉบับก็แรงเกินไปจริง แต่ท่าทีที่เชื่ออย่างจริงใจว่าความพยายามทำ poisoning พวกนี้จะไม่สร้างผลเสียต่อการฝึกโมเดลได้เลยแม้แต่น้อย ก็ทำให้ผมหดหู่เหมือนกัน เพราะมันดูเหมือนขาดความเข้าใจทางเทคนิค
- ผมไม่คิดว่าจะมั่นใจได้ขนาดนั้นว่า poisoning ใช้ไม่ได้เด็ดขาด อย่างน้อยจากกรณีที่เกี่ยวข้องก็รู้สึกว่ายังไม่ควรปิดประตูความเป็นไปได้นั้นทิ้งไปทั้งหมด ตัวอย่างหนึ่งคือ https://www.reddit.com/r/BrandNewSentence/comments/1so9wf1/comment/ogrqpxz/
- ผมไม่ค่อยเห็นด้วยกับท่าทีที่มองว่าความโกรธเองเป็นเรื่อง cringe ถ้าเหมารวมว่าความโกรธทั้งก้อนเป็นอะไรที่เด็ก ๆ หรือน่าอาย มันอาจพาเราออกห่างจากความรู้สึกต่อความจริงและศีลธรรมได้
- สำหรับผม สิ่งที่ cringe กว่าคือการให้ ChatGPT เขียนข้อความ อีเมล และเรซูเม่แทน หรือการที่นักพัฒนาซอฟต์แวร์ตัวจริงในงานจริงมาทำแอปทั้งตัวด้วย vibe coding แล้วก็พูดกันว่า AGI จะออกมาจาก LLM ในไม่ช้า
ผมอยากเล่นมุกว่า “Resistance is futile” เหมือนกัน แต่ในขณะเดียวกันก็เห็นด้วยมากพอสมควรกับข้ออ้างที่ว่า AI กำลังทำลายชุมชนจริง ๆ ตัวอย่างเช่น YouTube ถึงขั้นเอาการจัดการรายงานไปให้ AI ทำ จนผู้ไม่หวังดีสามารถอ้างว่าวิดีโอต้นฉบับของคนอื่นเป็นของตัวเอง แล้วแย่งรายได้ผ่านการ demonetize ได้ Davie504 ซึ่งเป็น YouTuber ดัง ๆ ก็เคยเจอแบบนั้น และโครงสร้างก็ชวนอึดอัดเพราะแม้แต่การอุทธรณ์ก็ยังให้หุ่นยนต์พิจารณาอีก
- ผมคิดว่าปัญหาแบบนี้ของ YouTube มีมาก่อน LLM นานแล้ว ระบบ copyright strike พังมาตั้งแต่แรก ดังนั้นการหยิบปัญหา tech แบบสุ่มสักอย่างแล้วโทษ AI ไปทั้งหมดก็ดูไม่แม่นนัก

amebahead 7 일 전

นอกจากวิธีทำให้ข้อมูลที่ AI ใช้เรียนรู้ปนเปื้อนแล้ว ยังมีวิธีต่อต้านแบบอื่นอีกไหม?
อย่างเช่นไม่เสพคอนเทนต์ที่ AI สร้างขึ้น...

dongho42 7 일 전

ผมเองก็อ่านสิ่งนี้ไปพลางคิดเหมือนกันว่า มันอาจกลายเป็นการทำให้มนุษย์โดนวางยาพิษข้อมูลไปโดยไม่ตั้งใจก็ได้

geesecross 7 일 전

ไม่แน่ใจว่าปัญหาเกิดขึ้นตรงไหน แต่หลังคำอย่าง 'kkim', 'bom', 'doem', 'jim' มี 'eum' ที่ไม่เข้ากันมาต่อท้ายอยู่เรื่อย ๆ เลยครับ อันนี้อาจเป็น poisoning เหมือนกันหรือเปล่า ;)

xguru 7 일 전

เหมือนว่าโมเดลจะมีการเปลี่ยนแปลงเล็กน้อยหรือเปล่า ทำให้พรอมป์ต์เดียวกันทำงานผิดพลาด ตอนนี้ผมได้แก้ไขส่วนนี้ไว้แล้ว