- ช่วงหลังมานี้ การเก็บข้อมูลโดยไม่ได้รับอนุญาตจากบริษัท AI ทำให้เซิร์ฟเวอร์ของ MetaBrainz รับภาระหนักเกินไป
- พวกเขา เพิกเฉยต่อกฎใน robots.txt และครอว์ลข้อมูล MusicBrainz ทีละหน้า ซึ่งเป็นวิธีที่ไม่มีประสิทธิภาพจนต้องใช้เวลาหลายร้อยปี
- พฤติกรรมแบบเดียวกันเริ่มลามไปยัง ListenBrainz API ด้วย จนต้องออกมาตรการ บังคับใช้โทเคนยืนยันตัวตนและปิดบาง API เพื่อปกป้องบริการ
- LB Radio ใช้งานได้เฉพาะผู้ใช้ที่ล็อกอินแล้ว และเมื่อเรียก API ก็ต้องมี Authorization header
- มาตรการเหล่านี้ถูกอธิบายว่าเป็น การตอบสนองที่จำเป็นเพื่อรักษาการเข้าถึงของผู้ใช้ปกติ
ปัญหาเซิร์ฟเวอร์โอเวอร์โหลดจาก AI scraper
- ช่วงหลายเดือนที่ผ่านมา ทีม MetaBrainz กำลังรับมือกับ การครอว์ลโดยไม่ได้รับอนุญาตเพื่อเก็บข้อมูลไปฝึกโมเดล AI
- บริษัท AI บางแห่ง เมินมารยาทพื้นฐานของอินเทอร์เน็ตอย่าง robots.txt แล้วดูดข้อมูลออกไป
- พวกเขาเข้าถึงข้อมูล MusicBrainz ด้วยวิธี ส่งคำขอทีละหน้า ซึ่งไม่มีประสิทธิภาพกว่าการดาวน์โหลดทั้งหมดและทำให้เซิร์ฟเวอร์รับภาระเพิ่ม
- วิธีการเช่นนี้ ไร้ประสิทธิภาพถึงขั้นต้องใช้เวลาหลายร้อยปี และท้ายที่สุดก็ รบกวนการเข้าถึงของผู้ใช้ปกติ
มาตรการปกป้อง ListenBrainz API
- AI scraper พยายามเก็บข้อมูลจาก API endpoint หลายตัวของ ListenBrainz
- ด้วยเหตุนี้จึงมีการเปลี่ยนแปลงดังต่อไปนี้:
- API
/metadata/lookup (GET และ POST) จะใช้งานได้ก็ต่อเมื่อมี Authorization token
- endpoint
mbid-mapping, mbid-mapping-release, mbid-mapping-explain ของ ListenBrainz Labs API ถูกลบออก
- เดิม API นี้มีไว้ สำหรับดีบัก และในอนาคตจะถูกแทนที่ด้วย endpoint สำหรับ mapper ตัวใหม่
- LB Radio ใช้งานได้เฉพาะผู้ใช้ที่ล็อกอินแล้ว และเมื่อเรียก API ต้องมี Authorization header
การตอบสนองฉุกเฉินเพื่อรักษาเสถียรภาพของบริการ
- MetaBrainz ระบุว่ามาตรการครั้งนี้เป็นการตัดสินใจที่ หลีกเลี่ยงไม่ได้เพื่อป้องกันภาวะโอเวอร์โหลดและคงการให้บริการตามปกติ
- ทางโครงการขออภัยที่มี การเปลี่ยนแปลงโดยไม่ได้แจ้งล่วงหน้า ซึ่งอาจทำให้ผู้ใช้ไม่สะดวก และมีแผนจะ ปรับปรุงข้อความ error หลังเสร็จสิ้นโครงการปลายปี
เสียงตอบรับจากชุมชน
- ในคอมเมนต์มีการพูดคุยต่อเกี่ยวกับ แนวทางที่ไม่มีประสิทธิภาพของ AI scraper และ โครงสร้างของเว็บสไปเดอร์แบบอัตโนมัติ
- ผู้ใช้บางรายชี้ว่าเป็น “ความไร้ความสามารถของผู้ปฏิบัติงานฝั่ง AI”
- อีกคนอธิบายว่า “เป็นเพราะครอว์ลเลอร์อัตโนมัติเพียงไล่ตามลิงก์ไปเรื่อย ๆ แล้วเก็บข้อมูล”
ความหมายโดยรวม
- มาตรการของ MetaBrainz เป็นตัวอย่างที่แสดงให้เห็นถึง ความเสียหายที่โครงการข้อมูลเปิดได้รับจากการเก็บข้อมูลของ AI
- เพื่อให้ Public API มีความยั่งยืน การเพิ่มความเข้มงวดด้านการยืนยันตัวตนและการจำกัดการเข้าถึงกำลังกลายเป็นสิ่งที่หลีกเลี่ยงไม่ได้
1 ความคิดเห็น
ความเห็นจาก Hacker News
Metabrainz เป็นฐานข้อมูลเพื่อสาธารณประโยชน์ที่ยอดเยี่ยมจริงๆ
ก่อนหน้านี้เคยมีการเขียนเรื่องนี้ไว้ในบล็อกของ EFF
ข้อมูลสาธารณะอย่าง Metabrainz นั้น ต่อให้บอต AI เอาไปก็ไม่เป็นไร แต่ปัญหาคือการขูดข้อมูลด้วยวิธีที่ไม่มีประสิทธิภาพแบบที่เกิดขึ้นตอนนี้
สุดท้ายมันคือปัญหาของความล้มเหลวในการประสานงาน Metabrainz สมมติว่าบอตมีเจตนาดี แต่บอตกลับคิดว่าเว็บกำลังซ่อนข้อมูลไว้
ต่อให้บอกว่า “เลิกเคาะ API แล้วโหลดไฟล์ tar ที่บีบอัดแบบ gzip จากตรงนี้ไปทีเดียวเลย” ก็ไม่ยอมเชื่อ
ถ้าปล่อยเป็นไฟล์ทอร์เรนต์แทน บอตอาจแชร์ข้อมูลกันได้ดีกว่าด้วยซ้ำ
เปิดให้สาธารณะมาตั้งแต่ปี 2016 แต่ตอนนี้เปิดให้เฉพาะผู้สนับสนุนแล้ว เพราะการใช้ทรัพยากรหนักเกินไป
มันเป็นโปรเจกต์งานอดิเรกราคา 60 ดอลลาร์ต่อเดือน เลยแบกรับต่อได้ลำบาก ถ้าภายหลังมีการสนับสนุนมากขึ้น ก็อาจติดตั้งโซลูชันป้องกันบอตแล้วเปิดอีกครั้ง
แต่ที่น่าตกใจคือพบว่านี่ไม่ใช่ปัญหาที่มีแค่ผม สุดท้ายมันทำให้รู้สึกว่าอินเทอร์เน็ตกำลังปิดตัวลงเรื่อยๆ
ไม่แน่ใจว่ามาตรฐานรองรับความสามารถแบบนี้หรือเปล่า
เมื่อก่อนผมก็เคยปั่นอัตราอัปโหลดเพื่อไม่ให้โดนไล่ออกจาก private tracker
การไม่สนใจเจตนาของเจ้าของเว็บเป็นแนวทางที่ผิด
ไม่ใช่ AI จริงๆ ที่อ่านหน้าเว็บแล้วตัดสินใจอะไร แต่เป็นแค่โค้ดอัตโนมัติที่ไล่ตามลิงก์แล้วขูดเอกสารเท่านั้น
AI กำลังทำลายระบบนิเวศเว็บเสรี
โฮสต์เว็บของผมระงับบัญชีไปกะทันหันเพราะทราฟฟิกจากบอตพุ่งขึ้นหนัก
สุดท้ายต้องย้ายไปโฮสต์ใหม่ แต่สำหรับคนที่ดูแลเว็บเองแบบรายย่อย สถานการณ์แบบนี้แทบไม่มีความหวัง
บริษัท AI มีทรัพยากรไม่จำกัด และไม่สนใจความเสียหายที่เกิดขึ้น
ถ้ามองแบบประชดหน่อย นี่อาจเป็นกลยุทธ์ที่ตั้งใจด้วยซ้ำ — กำจัดเว็บฟรีทิ้งไป เพื่อให้คนสุดท้ายต้องหาข้อมูลผ่านโมเดล AI เท่านั้น
ความคุ้มค่าทางเศรษฐกิจของการแบ่งปันข้อมูลกำลังพังลง
ท้ายที่สุดมูลค่าจะถูกผูกขาดโดยบริษัทไม่กี่ราย และต่อจากนั้นenshittificationก็จะเริ่มขึ้น
ผมดูแลเว็บไซต์ PTA ของโรงเรียนลูก แล้วบอตของ OpenAI ก็สุ่มขูดปฏิทินกิจกรรม
มีคำขอตั้งแต่ปี 1000 ไปจนถึงปี 3000
พอบล็อก User-Agent ไป มันถึงค่อยหยุดหลังจากนั้นราว 4 ชั่วโมง
ผมกำลังรันเว็บไซต์สแตติกกับอินสแตนซ์ cgitบน VPS Google Cloud แบบ e2-micro
ใน 160 วัน ได้รับคำขอจาก OpenAI และ Claude มากกว่า 8.5 ล้านครั้ง
เลยตั้งค่าใน lighttpd ให้คืนค่า 403 ถ้า User-Agent มีคำว่า “claude|openai” และใช้nftables จำกัดอัตราไว้
ปัญหาจริงคือบอตเน็ตที่ใช้พร็อกซีที่อยู่อาศัย มันเข้ามาแบบแกล้งทำเป็นเบราว์เซอร์ทั่วไป
ไม่แน่ใจว่า Microsoft กันไว้ หรือบล็อกผมมันไม่น่าสนใจพอสำหรับบอตกันแน่
ตอนนี้ Cloudflare มีบริการตรวจจับ AI scraperแล้ว
มันจะพาบอตที่ตรวจจับได้ไปยังหน้าเว็บที่สร้างโดย AI แบบวนลูปไม่สิ้นสุด
สุดท้ายเลยกลายเป็นว่าบุคคลที่สามเป็นคนตัดสินว่าใครเข้าถึงคอนเทนต์ของผมได้ ซึ่งทำให้ไม่สบายใจ
ผมเองก็ไม่พอใจมาก สุดท้ายเลยเอาออก
ทีม SQLite ก็เจอปัญหาคล้ายกัน
Richard Hipp ผู้ก่อตั้งวิจารณ์ว่าเป็น**“พฤติกรรมเห็นแก่ตัว”** โดยบอกว่า “ก็แค่โคลน repository ทั้งชุดไปเลยก็ได้ แต่กลับเลือกจะขูดแบบสร้างความเดือดร้อนให้คนอื่น”
ดูโพสต์ในฟอรัมที่เกี่ยวข้อง
ยิ่งเวลาผ่านไป ผมยิ่งคิดว่าการครอว์ลทั้งหมดควรถูกรวมไปไว้ในช่องทางสาธารณะร่วมกันแบบ Common Crawl
ต้องลดภาระของเซิร์ฟเวอร์ไปพร้อมกับรักษาความเปิดกว้างและความสามารถในการขูดข้อมูลของเว็บเอาไว้
เช่น อาจทำให้เป็นมาตรฐานโดยวางลิงก์ดัมพ์ข้อมูลที่มีtimestampไว้ใต้พาธ
/well-known/ผมเองก็ใช้เวลาราวหนึ่งชั่วโมงในการดาวน์โหลด แล้วหลังจากนั้นก็คิวรีจากในเครื่องเอง
แต่คนส่วนใหญ่ก็ยังไม่ใช้ดัมพ์ เพราะการขูดเว็บง่ายกว่าอยู่ดี
โดยเสนอให้หลังผ่านไประยะเวลาหนึ่ง ถ้านำข้อมูลไปบริจาคเป็น “ชุดข้อมูลแห่งชาติ” ก็ให้ใช้ฝึก AI ได้ และแบ่งรายได้คืนให้ผู้ถือลิขสิทธิ์
แบบนี้นักพัฒนา AI ผู้ถือลิขสิทธิ์ และสาธารณะก็จะได้ประโยชน์ร่วมกัน
ใช้ AI สร้างโค้ด แล้วรวบรวมรายการราคาของ VPS อัตโนมัติอะไรทำนองนั้น
เมื่อก่อนผมยังเคยขูดพาดหัวทั้งหมดจาก lowendtalk เพื่อทำเป็นชุดข้อมูลสำหรับวิเคราะห์ด้วย LLMด้วย
/llms.txtเพื่อให้ LLM ได้เฉพาะข้อมูลข้อความล้วนที่จำเป็นตัด URL ที่อยู่ เบอร์โทรศัพท์ออก และคงมาร์กอัปขั้นต่ำอย่าง
<item>กับ<subitem>ไว้เท่านั้นแต่ก็มีโอกาสที่หลายเว็บจะวางไฟล์เปล่าที่แค่ทำตามรูปแบบไว้
ทุนขนาดใหญ่กำลังทำลายเว็บเพื่อผลกำไรระยะสั้น
แต่ผมก็ยังเชื่อว่าสุดท้ายจะเกิดการปรับตัวและสมดุลขึ้น
ทุกวันนี้ไม่ใช่แค่ AI scraper เท่านั้น แต่ตัวผู้ใช้เองก็ทำการขูดข้อมูลทางอ้อมผ่านการขอให้สรุปด้วย
ตัวอย่างเช่น Firefox มีพรีวิวสรุปลิงก์ให้ได้โดยไม่ต้องคลิกลิงก์
ภาพที่เกี่ยวข้อง
สุดท้ายตัวเบราว์เซอร์ก็ต้องดึงหน้าเว็บมาเองแล้วสรุป ดังนั้นจากมุมมองของเว็บไซต์ มันก็ดูเหมือนคำขอปกติแบบเดียวกัน
ดูคำอธิบายอย่างเป็นทางการจาก Mozilla
ทุกวันนี้ scraper ใช้พูล IP ที่อยู่อาศัยเพื่อหลบการตรวจจับ
ในสถานการณ์แบบนี้ก็ไม่รู้เหมือนกันว่ามาตรการป้องกันจะใช้ได้อีกนานแค่ไหน