ทำไมเราถึงรักษาบริการดี ๆ ไว้ไม่ได้เพราะ AI scraper

(blog.metabrainz.org)

1 คะแนน โดย GN⁺ 2026-01-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ช่วงหลังมานี้ การเก็บข้อมูลโดยไม่ได้รับอนุญาตจากบริษัท AI ทำให้เซิร์ฟเวอร์ของ MetaBrainz รับภาระหนักเกินไป
พวกเขา เพิกเฉยต่อกฎใน robots.txt และครอว์ลข้อมูล MusicBrainz ทีละหน้า ซึ่งเป็นวิธีที่ไม่มีประสิทธิภาพจนต้องใช้เวลาหลายร้อยปี
พฤติกรรมแบบเดียวกันเริ่มลามไปยัง ListenBrainz API ด้วย จนต้องออกมาตรการ บังคับใช้โทเคนยืนยันตัวตนและปิดบาง API เพื่อปกป้องบริการ
LB Radio ใช้งานได้เฉพาะผู้ใช้ที่ล็อกอินแล้ว และเมื่อเรียก API ก็ต้องมี Authorization header
มาตรการเหล่านี้ถูกอธิบายว่าเป็น การตอบสนองที่จำเป็นเพื่อรักษาการเข้าถึงของผู้ใช้ปกติ

ปัญหาเซิร์ฟเวอร์โอเวอร์โหลดจาก AI scraper

ช่วงหลายเดือนที่ผ่านมา ทีม MetaBrainz กำลังรับมือกับ การครอว์ลโดยไม่ได้รับอนุญาตเพื่อเก็บข้อมูลไปฝึกโมเดล AI
- บริษัท AI บางแห่ง เมินมารยาทพื้นฐานของอินเทอร์เน็ตอย่าง robots.txt แล้วดูดข้อมูลออกไป
- พวกเขาเข้าถึงข้อมูล MusicBrainz ด้วยวิธี ส่งคำขอทีละหน้า ซึ่งไม่มีประสิทธิภาพกว่าการดาวน์โหลดทั้งหมดและทำให้เซิร์ฟเวอร์รับภาระเพิ่ม
วิธีการเช่นนี้ ไร้ประสิทธิภาพถึงขั้นต้องใช้เวลาหลายร้อยปี และท้ายที่สุดก็ รบกวนการเข้าถึงของผู้ใช้ปกติ

มาตรการปกป้อง ListenBrainz API

AI scraper พยายามเก็บข้อมูลจาก API endpoint หลายตัวของ ListenBrainz
ด้วยเหตุนี้จึงมีการเปลี่ยนแปลงดังต่อไปนี้:
- API /metadata/lookup (GET และ POST) จะใช้งานได้ก็ต่อเมื่อมี Authorization token
- endpoint mbid-mapping, mbid-mapping-release, mbid-mapping-explain ของ ListenBrainz Labs API ถูกลบออก
  - เดิม API นี้มีไว้ สำหรับดีบัก และในอนาคตจะถูกแทนที่ด้วย endpoint สำหรับ mapper ตัวใหม่
- LB Radio ใช้งานได้เฉพาะผู้ใช้ที่ล็อกอินแล้ว และเมื่อเรียก API ต้องมี Authorization header

การตอบสนองฉุกเฉินเพื่อรักษาเสถียรภาพของบริการ

MetaBrainz ระบุว่ามาตรการครั้งนี้เป็นการตัดสินใจที่ หลีกเลี่ยงไม่ได้เพื่อป้องกันภาวะโอเวอร์โหลดและคงการให้บริการตามปกติ
ทางโครงการขออภัยที่มี การเปลี่ยนแปลงโดยไม่ได้แจ้งล่วงหน้า ซึ่งอาจทำให้ผู้ใช้ไม่สะดวก และมีแผนจะ ปรับปรุงข้อความ error หลังเสร็จสิ้นโครงการปลายปี

เสียงตอบรับจากชุมชน

ในคอมเมนต์มีการพูดคุยต่อเกี่ยวกับ แนวทางที่ไม่มีประสิทธิภาพของ AI scraper และ โครงสร้างของเว็บสไปเดอร์แบบอัตโนมัติ
- ผู้ใช้บางรายชี้ว่าเป็น “ความไร้ความสามารถของผู้ปฏิบัติงานฝั่ง AI”
- อีกคนอธิบายว่า “เป็นเพราะครอว์ลเลอร์อัตโนมัติเพียงไล่ตามลิงก์ไปเรื่อย ๆ แล้วเก็บข้อมูล”

ความหมายโดยรวม

มาตรการของ MetaBrainz เป็นตัวอย่างที่แสดงให้เห็นถึง ความเสียหายที่โครงการข้อมูลเปิดได้รับจากการเก็บข้อมูลของ AI
เพื่อให้ Public API มีความยั่งยืน การเพิ่มความเข้มงวดด้านการยืนยันตัวตนและการจำกัดการเข้าถึงกำลังกลายเป็นสิ่งที่หลีกเลี่ยงไม่ได้

1 ความคิดเห็น

GN⁺ 2026-01-14

ความเห็นจาก Hacker News

Metabrainz เป็นฐานข้อมูลเพื่อสาธารณประโยชน์ที่ยอดเยี่ยมจริงๆ
ก่อนหน้านี้เคยมีการเขียนเรื่องนี้ไว้ในบล็อกของ EFF
ข้อมูลสาธารณะอย่าง Metabrainz นั้น ต่อให้บอต AI เอาไปก็ไม่เป็นไร แต่ปัญหาคือการขูดข้อมูลด้วยวิธีที่ไม่มีประสิทธิภาพแบบที่เกิดขึ้นตอนนี้
สุดท้ายมันคือปัญหาของความล้มเหลวในการประสานงาน Metabrainz สมมติว่าบอตมีเจตนาดี แต่บอตกลับคิดว่าเว็บกำลังซ่อนข้อมูลไว้
ต่อให้บอกว่า “เลิกเคาะ API แล้วโหลดไฟล์ tar ที่บีบอัดแบบ gzip จากตรงนี้ไปทีเดียวเลย” ก็ไม่ยอมเชื่อ
ถ้าปล่อยเป็นไฟล์ทอร์เรนต์แทน บอตอาจแชร์ข้อมูลกันได้ดีกว่าด้วยซ้ำ
- ผมเองก็ปิดเว็บ tvnfo.com ไปเพราะ AI scraper เหมือนกัน
  เปิดให้สาธารณะมาตั้งแต่ปี 2016 แต่ตอนนี้เปิดให้เฉพาะผู้สนับสนุนแล้ว เพราะการใช้ทรัพยากรหนักเกินไป
  มันเป็นโปรเจกต์งานอดิเรกราคา 60 ดอลลาร์ต่อเดือน เลยแบกรับต่อได้ลำบาก ถ้าภายหลังมีการสนับสนุนมากขึ้น ก็อาจติดตั้งโซลูชันป้องกันบอตแล้วเปิดอีกครั้ง
  แต่ที่น่าตกใจคือพบว่านี่ไม่ใช่ปัญหาที่มีแค่ผม สุดท้ายมันทำให้รู้สึกว่าอินเทอร์เน็ตกำลังปิดตัวลงเรื่อยๆ
- สงสัยว่าใน robots.txt มีวิธีบอกไหมว่า “ไปรับไฟล์ tar จากตรงนี้แทน”
  ไม่แน่ใจว่ามาตรฐานรองรับความสามารถแบบนี้หรือเปล่า
- ถ้าบอตใช้ทอร์เรนต์ ก็อาจปั่นสถิติการแชร์ได้เหมือนกัน
  เมื่อก่อนผมก็เคยปั่นอัตราอัปโหลดเพื่อไม่ให้โดนไล่ออกจาก private tracker
- การที่บอตมองเว็บว่าเป็นสิ่งที่เป็นปฏิปักษ์นี่เป็นปัญหาร้ายแรง
  การไม่สนใจเจตนาของเจ้าของเว็บเป็นแนวทางที่ผิด
- จริงๆ แล้ว “AI scraper” ส่วนใหญ่ก็แค่สคริปต์ครอว์ลแบบรีเคอร์ซีฟธรรมดา
  ไม่ใช่ AI จริงๆ ที่อ่านหน้าเว็บแล้วตัดสินใจอะไร แต่เป็นแค่โค้ดอัตโนมัติที่ไล่ตามลิงก์แล้วขูดเอกสารเท่านั้น
AI กำลังทำลายระบบนิเวศเว็บเสรี
โฮสต์เว็บของผมระงับบัญชีไปกะทันหันเพราะทราฟฟิกจากบอตพุ่งขึ้นหนัก
สุดท้ายต้องย้ายไปโฮสต์ใหม่ แต่สำหรับคนที่ดูแลเว็บเองแบบรายย่อย สถานการณ์แบบนี้แทบไม่มีความหวัง
บริษัท AI มีทรัพยากรไม่จำกัด และไม่สนใจความเสียหายที่เกิดขึ้น
ถ้ามองแบบประชดหน่อย นี่อาจเป็นกลยุทธ์ที่ตั้งใจด้วยซ้ำ — กำจัดเว็บฟรีทิ้งไป เพื่อให้คนสุดท้ายต้องหาข้อมูลผ่านโมเดล AI เท่านั้น
- บริการสรุปผลด้วย AI กำลังดึงทราฟฟิกออกจากเว็บอิสระไปมากกว่าครึ่ง
  ความคุ้มค่าทางเศรษฐกิจของการแบ่งปันข้อมูลกำลังพังลง
  ท้ายที่สุดมูลค่าจะถูกผูกขาดโดยบริษัทไม่กี่ราย และต่อจากนั้นenshittificationก็จะเริ่มขึ้น
ผมดูแลเว็บไซต์ PTA ของโรงเรียนลูก แล้วบอตของ OpenAI ก็สุ่มขูดปฏิทินกิจกรรม
มีคำขอตั้งแต่ปี 1000 ไปจนถึงปี 3000
พอบล็อก User-Agent ไป มันถึงค่อยหยุดหลังจากนั้นราว 4 ชั่วโมง
ผมกำลังรันเว็บไซต์สแตติกกับอินสแตนซ์ cgitบน VPS Google Cloud แบบ e2-micro
ใน 160 วัน ได้รับคำขอจาก OpenAI และ Claude มากกว่า 8.5 ล้านครั้ง
เลยตั้งค่าใน lighttpd ให้คืนค่า 403 ถ้า User-Agent มีคำว่า “claude|openai” และใช้nftables จำกัดอัตราไว้
- บอตพวกนี้ยังถือว่า “มีจรรยาบรรณ” เสียด้วยซ้ำ
  ปัญหาจริงคือบอตเน็ตที่ใช้พร็อกซีที่อยู่อาศัย มันเข้ามาแบบแกล้งทำเป็นเบราว์เซอร์ทั่วไป
- OpenAI เผยแพร่รายการ IP ของบอตอย่างเป็นทางการ แต่ Anthropic ไม่ทำแบบนั้น
- ที่น่าสนใจคือบล็อกบน GitHub ของผมไม่โดนขูดแบบนี้เลย
  ไม่แน่ใจว่า Microsoft กันไว้ หรือบล็อกผมมันไม่น่าสนใจพอสำหรับบอตกันแน่
ตอนนี้ Cloudflare มีบริการตรวจจับ AI scraperแล้ว
มันจะพาบอตที่ตรวจจับได้ไปยังหน้าเว็บที่สร้างโดย AI แบบวนลูปไม่สิ้นสุด
- แต่ถ้าจะทำแบบนี้ ทราฟฟิกทั้งหมดก็ต้องผ่าน Cloudflare
  สุดท้ายเลยกลายเป็นว่าบุคคลที่สามเป็นคนตัดสินว่าใครเข้าถึงคอนเทนต์ของผมได้ ซึ่งทำให้ไม่สบายใจ
- Cloudflare มักทำให้ผู้ใช้ VPN หรือเบราว์เซอร์ที่ไม่ค่อยพบเจอมีปัญหาในการเข้าถึง
  ผมเองก็ไม่พอใจมาก สุดท้ายเลยเอาออก
- ผมคิดว่ามันไม่เหมาะจะเป็น “บริการเพิ่มและถอด TLS”
- มีโปรเจกต์ที่เกี่ยวข้องชื่อ Poison Fountain
- ถ้า Cloudflare ครอบคลุมเว็บได้มากพอ ก็อาจเก็บค่าเข้าถึงแคชจากบริษัท AIได้
ทีม SQLite ก็เจอปัญหาคล้ายกัน
Richard Hipp ผู้ก่อตั้งวิจารณ์ว่าเป็น**“พฤติกรรมเห็นแก่ตัว”** โดยบอกว่า “ก็แค่โคลน repository ทั้งชุดไปเลยก็ได้ แต่กลับเลือกจะขูดแบบสร้างความเดือดร้อนให้คนอื่น”
ดูโพสต์ในฟอรัมที่เกี่ยวข้อง
- แต่ก็มีคนแย้งว่า การเรียกมันว่า “มุ่งร้าย” นั้นเป็นคำพูดที่เกินไป
ยิ่งเวลาผ่านไป ผมยิ่งคิดว่าการครอว์ลทั้งหมดควรถูกรวมไปไว้ในช่องทางสาธารณะร่วมกันแบบ Common Crawl
ต้องลดภาระของเซิร์ฟเวอร์ไปพร้อมกับรักษาความเปิดกว้างและความสามารถในการขูดข้อมูลของเว็บเอาไว้
เช่น อาจทำให้เป็นมาตรฐานโดยวางลิงก์ดัมพ์ข้อมูลที่มีtimestampไว้ใต้พาธ /well-known/
- MetaBrainz ใช้วิธีนี้อยู่แล้ว — เปิดให้ทั้งฐานข้อมูลเป็น tarball
  ผมเองก็ใช้เวลาราวหนึ่งชั่วโมงในการดาวน์โหลด แล้วหลังจากนั้นก็คิวรีจากในเครื่องเอง
  แต่คนส่วนใหญ่ก็ยังไม่ใช้ดัมพ์ เพราะการขูดเว็บง่ายกว่าอยู่ดี
- ผมคิดว่าเราต้องปฏิรูประบบลิขสิทธิ์
  โดยเสนอให้หลังผ่านไประยะเวลาหนึ่ง ถ้านำข้อมูลไปบริจาคเป็น “ชุดข้อมูลแห่งชาติ” ก็ให้ใช้ฝึก AI ได้ และแบ่งรายได้คืนให้ผู้ถือลิขสิทธิ์
  แบบนี้นักพัฒนา AI ผู้ถือลิขสิทธิ์ และสาธารณะก็จะได้ประโยชน์ร่วมกัน
- โดยส่วนตัวผมก็ทำการขูดข้อมูลขนาดเล็กด้วยสคริปต์ Tampermonkey
  ใช้ AI สร้างโค้ด แล้วรวบรวมรายการราคาของ VPS อัตโนมัติอะไรทำนองนั้น
  เมื่อก่อนผมยังเคยขูดพาดหัวทั้งหมดจาก lowendtalk เพื่อทำเป็นชุดข้อมูลสำหรับวิเคราะห์ด้วย LLMด้วย
- อีกทางคือทำไฟล์มาตรฐานอย่าง /llms.txt เพื่อให้ LLM ได้เฉพาะข้อมูลข้อความล้วนที่จำเป็น
  ตัด URL ที่อยู่ เบอร์โทรศัพท์ออก และคงมาร์กอัปขั้นต่ำอย่าง <item> กับ <subitem> ไว้เท่านั้น
  แต่ก็มีโอกาสที่หลายเว็บจะวางไฟล์เปล่าที่แค่ทำตามรูปแบบไว้
- จริงๆ แล้วนี่ไม่ใช่ปัญหาทางเทคนิค แต่เป็นปัญหาของโครงสร้างเศรษฐกิจ
  ทุนขนาดใหญ่กำลังทำลายเว็บเพื่อผลกำไรระยะสั้น
  แต่ผมก็ยังเชื่อว่าสุดท้ายจะเกิดการปรับตัวและสมดุลขึ้น
ทุกวันนี้ไม่ใช่แค่ AI scraper เท่านั้น แต่ตัวผู้ใช้เองก็ทำการขูดข้อมูลทางอ้อมผ่านการขอให้สรุปด้วย
ตัวอย่างเช่น Firefox มีพรีวิวสรุปลิงก์ให้ได้โดยไม่ต้องคลิกลิงก์
ภาพที่เกี่ยวข้อง
- ฟีเจอร์นี้ใช้โมเดล SmolLM2-360M ที่รันด้วย llama.cpp(wllama) แบบโลคัลในการสร้างสรุป
  สุดท้ายตัวเบราว์เซอร์ก็ต้องดึงหน้าเว็บมาเองแล้วสรุป ดังนั้นจากมุมมองของเว็บไซต์ มันก็ดูเหมือนคำขอปกติแบบเดียวกัน
  ดูคำอธิบายอย่างเป็นทางการจาก Mozilla
- ปัญหามีอยู่สามข้อ
  1. การครอว์ลที่ไร้จริยธรรมของบริษัท AI
  2. คำขอสรุปแบบมีเอเจนต์เป็นตัวกลางจากผู้ใช้
  3. เอเจนต์พวกนี้ไม่มีประสิทธิภาพกว่ามนุษย์แต่เร็วกว่าอย่างมาก
- แต่ไม่ใช่ว่าผู้ใช้ถูก “ฝึก” ให้ทำแบบนี้ แค่เพราะLLM ใช้งานได้ดีจริงๆคนเลยใช้มัน
ทุกวันนี้ scraper ใช้พูล IP ที่อยู่อาศัยเพื่อหลบการตรวจจับ
- เลยอดสงสัยไม่ได้ว่า ISP ที่ให้บริการพูล IP แบบนี้กำลังสร้างโมเดลรายได้ใหม่หรือเปล่า
- แถมตอนนี้ยังมีบอตที่รันเบราว์เซอร์จริงจำนวนมาก ซึ่งผ่าน Cloudflare CAPTCHA ได้ด้วย
  ในสถานการณ์แบบนี้ก็ไม่รู้เหมือนกันว่ามาตรการป้องกันจะใช้ได้อีกนานแค่ไหน

ทำไมเราถึงรักษาบริการดี ๆ ไว้ไม่ได้เพราะ AI scraper

ปัญหาเซิร์ฟเวอร์โอเวอร์โหลดจาก AI scraper

มาตรการปกป้อง ListenBrainz API

การตอบสนองฉุกเฉินเพื่อรักษาเสถียรภาพของบริการ

เสียงตอบรับจากชุมชน

ความหมายโดยรวม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News