1 คะแนน โดย GN⁺ 2026-01-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ช่วงหลังมานี้ การเก็บข้อมูลโดยไม่ได้รับอนุญาตจากบริษัท AI ทำให้เซิร์ฟเวอร์ของ MetaBrainz รับภาระหนักเกินไป
  • พวกเขา เพิกเฉยต่อกฎใน robots.txt และครอว์ลข้อมูล MusicBrainz ทีละหน้า ซึ่งเป็นวิธีที่ไม่มีประสิทธิภาพจนต้องใช้เวลาหลายร้อยปี
  • พฤติกรรมแบบเดียวกันเริ่มลามไปยัง ListenBrainz API ด้วย จนต้องออกมาตรการ บังคับใช้โทเคนยืนยันตัวตนและปิดบาง API เพื่อปกป้องบริการ
  • LB Radio ใช้งานได้เฉพาะผู้ใช้ที่ล็อกอินแล้ว และเมื่อเรียก API ก็ต้องมี Authorization header
  • มาตรการเหล่านี้ถูกอธิบายว่าเป็น การตอบสนองที่จำเป็นเพื่อรักษาการเข้าถึงของผู้ใช้ปกติ

ปัญหาเซิร์ฟเวอร์โอเวอร์โหลดจาก AI scraper

  • ช่วงหลายเดือนที่ผ่านมา ทีม MetaBrainz กำลังรับมือกับ การครอว์ลโดยไม่ได้รับอนุญาตเพื่อเก็บข้อมูลไปฝึกโมเดล AI
    • บริษัท AI บางแห่ง เมินมารยาทพื้นฐานของอินเทอร์เน็ตอย่าง robots.txt แล้วดูดข้อมูลออกไป
    • พวกเขาเข้าถึงข้อมูล MusicBrainz ด้วยวิธี ส่งคำขอทีละหน้า ซึ่งไม่มีประสิทธิภาพกว่าการดาวน์โหลดทั้งหมดและทำให้เซิร์ฟเวอร์รับภาระเพิ่ม
  • วิธีการเช่นนี้ ไร้ประสิทธิภาพถึงขั้นต้องใช้เวลาหลายร้อยปี และท้ายที่สุดก็ รบกวนการเข้าถึงของผู้ใช้ปกติ

มาตรการปกป้อง ListenBrainz API

  • AI scraper พยายามเก็บข้อมูลจาก API endpoint หลายตัวของ ListenBrainz
  • ด้วยเหตุนี้จึงมีการเปลี่ยนแปลงดังต่อไปนี้:
    • API /metadata/lookup (GET และ POST) จะใช้งานได้ก็ต่อเมื่อมี Authorization token
    • endpoint mbid-mapping, mbid-mapping-release, mbid-mapping-explain ของ ListenBrainz Labs API ถูกลบออก
      • เดิม API นี้มีไว้ สำหรับดีบัก และในอนาคตจะถูกแทนที่ด้วย endpoint สำหรับ mapper ตัวใหม่
    • LB Radio ใช้งานได้เฉพาะผู้ใช้ที่ล็อกอินแล้ว และเมื่อเรียก API ต้องมี Authorization header

การตอบสนองฉุกเฉินเพื่อรักษาเสถียรภาพของบริการ

  • MetaBrainz ระบุว่ามาตรการครั้งนี้เป็นการตัดสินใจที่ หลีกเลี่ยงไม่ได้เพื่อป้องกันภาวะโอเวอร์โหลดและคงการให้บริการตามปกติ
  • ทางโครงการขออภัยที่มี การเปลี่ยนแปลงโดยไม่ได้แจ้งล่วงหน้า ซึ่งอาจทำให้ผู้ใช้ไม่สะดวก และมีแผนจะ ปรับปรุงข้อความ error หลังเสร็จสิ้นโครงการปลายปี

เสียงตอบรับจากชุมชน

  • ในคอมเมนต์มีการพูดคุยต่อเกี่ยวกับ แนวทางที่ไม่มีประสิทธิภาพของ AI scraper และ โครงสร้างของเว็บสไปเดอร์แบบอัตโนมัติ
    • ผู้ใช้บางรายชี้ว่าเป็น “ความไร้ความสามารถของผู้ปฏิบัติงานฝั่ง AI”
    • อีกคนอธิบายว่า “เป็นเพราะครอว์ลเลอร์อัตโนมัติเพียงไล่ตามลิงก์ไปเรื่อย ๆ แล้วเก็บข้อมูล”

ความหมายโดยรวม

  • มาตรการของ MetaBrainz เป็นตัวอย่างที่แสดงให้เห็นถึง ความเสียหายที่โครงการข้อมูลเปิดได้รับจากการเก็บข้อมูลของ AI
  • เพื่อให้ Public API มีความยั่งยืน การเพิ่มความเข้มงวดด้านการยืนยันตัวตนและการจำกัดการเข้าถึงกำลังกลายเป็นสิ่งที่หลีกเลี่ยงไม่ได้

1 ความคิดเห็น

 
GN⁺ 2026-01-14
ความเห็นจาก Hacker News
  • Metabrainz เป็นฐานข้อมูลเพื่อสาธารณประโยชน์ที่ยอดเยี่ยมจริงๆ
    ก่อนหน้านี้เคยมีการเขียนเรื่องนี้ไว้ในบล็อกของ EFF
    ข้อมูลสาธารณะอย่าง Metabrainz นั้น ต่อให้บอต AI เอาไปก็ไม่เป็นไร แต่ปัญหาคือการขูดข้อมูลด้วยวิธีที่ไม่มีประสิทธิภาพแบบที่เกิดขึ้นตอนนี้
    สุดท้ายมันคือปัญหาของความล้มเหลวในการประสานงาน Metabrainz สมมติว่าบอตมีเจตนาดี แต่บอตกลับคิดว่าเว็บกำลังซ่อนข้อมูลไว้
    ต่อให้บอกว่า “เลิกเคาะ API แล้วโหลดไฟล์ tar ที่บีบอัดแบบ gzip จากตรงนี้ไปทีเดียวเลย” ก็ไม่ยอมเชื่อ
    ถ้าปล่อยเป็นไฟล์ทอร์เรนต์แทน บอตอาจแชร์ข้อมูลกันได้ดีกว่าด้วยซ้ำ

    • ผมเองก็ปิดเว็บ tvnfo.com ไปเพราะ AI scraper เหมือนกัน
      เปิดให้สาธารณะมาตั้งแต่ปี 2016 แต่ตอนนี้เปิดให้เฉพาะผู้สนับสนุนแล้ว เพราะการใช้ทรัพยากรหนักเกินไป
      มันเป็นโปรเจกต์งานอดิเรกราคา 60 ดอลลาร์ต่อเดือน เลยแบกรับต่อได้ลำบาก ถ้าภายหลังมีการสนับสนุนมากขึ้น ก็อาจติดตั้งโซลูชันป้องกันบอตแล้วเปิดอีกครั้ง
      แต่ที่น่าตกใจคือพบว่านี่ไม่ใช่ปัญหาที่มีแค่ผม สุดท้ายมันทำให้รู้สึกว่าอินเทอร์เน็ตกำลังปิดตัวลงเรื่อยๆ
    • สงสัยว่าใน robots.txt มีวิธีบอกไหมว่า “ไปรับไฟล์ tar จากตรงนี้แทน”
      ไม่แน่ใจว่ามาตรฐานรองรับความสามารถแบบนี้หรือเปล่า
    • ถ้าบอตใช้ทอร์เรนต์ ก็อาจปั่นสถิติการแชร์ได้เหมือนกัน
      เมื่อก่อนผมก็เคยปั่นอัตราอัปโหลดเพื่อไม่ให้โดนไล่ออกจาก private tracker
    • การที่บอตมองเว็บว่าเป็นสิ่งที่เป็นปฏิปักษ์นี่เป็นปัญหาร้ายแรง
      การไม่สนใจเจตนาของเจ้าของเว็บเป็นแนวทางที่ผิด
    • จริงๆ แล้ว “AI scraper” ส่วนใหญ่ก็แค่สคริปต์ครอว์ลแบบรีเคอร์ซีฟธรรมดา
      ไม่ใช่ AI จริงๆ ที่อ่านหน้าเว็บแล้วตัดสินใจอะไร แต่เป็นแค่โค้ดอัตโนมัติที่ไล่ตามลิงก์แล้วขูดเอกสารเท่านั้น
  • AI กำลังทำลายระบบนิเวศเว็บเสรี
    โฮสต์เว็บของผมระงับบัญชีไปกะทันหันเพราะทราฟฟิกจากบอตพุ่งขึ้นหนัก
    สุดท้ายต้องย้ายไปโฮสต์ใหม่ แต่สำหรับคนที่ดูแลเว็บเองแบบรายย่อย สถานการณ์แบบนี้แทบไม่มีความหวัง
    บริษัท AI มีทรัพยากรไม่จำกัด และไม่สนใจความเสียหายที่เกิดขึ้น
    ถ้ามองแบบประชดหน่อย นี่อาจเป็นกลยุทธ์ที่ตั้งใจด้วยซ้ำ — กำจัดเว็บฟรีทิ้งไป เพื่อให้คนสุดท้ายต้องหาข้อมูลผ่านโมเดล AI เท่านั้น

    • บริการสรุปผลด้วย AI กำลังดึงทราฟฟิกออกจากเว็บอิสระไปมากกว่าครึ่ง
      ความคุ้มค่าทางเศรษฐกิจของการแบ่งปันข้อมูลกำลังพังลง
      ท้ายที่สุดมูลค่าจะถูกผูกขาดโดยบริษัทไม่กี่ราย และต่อจากนั้นenshittificationก็จะเริ่มขึ้น
  • ผมดูแลเว็บไซต์ PTA ของโรงเรียนลูก แล้วบอตของ OpenAI ก็สุ่มขูดปฏิทินกิจกรรม
    มีคำขอตั้งแต่ปี 1000 ไปจนถึงปี 3000
    พอบล็อก User-Agent ไป มันถึงค่อยหยุดหลังจากนั้นราว 4 ชั่วโมง

  • ผมกำลังรันเว็บไซต์สแตติกกับอินสแตนซ์ cgitบน VPS Google Cloud แบบ e2-micro
    ใน 160 วัน ได้รับคำขอจาก OpenAI และ Claude มากกว่า 8.5 ล้านครั้ง
    เลยตั้งค่าใน lighttpd ให้คืนค่า 403 ถ้า User-Agent มีคำว่า “claude|openai” และใช้nftables จำกัดอัตราไว้

    • บอตพวกนี้ยังถือว่า “มีจรรยาบรรณ” เสียด้วยซ้ำ
      ปัญหาจริงคือบอตเน็ตที่ใช้พร็อกซีที่อยู่อาศัย มันเข้ามาแบบแกล้งทำเป็นเบราว์เซอร์ทั่วไป
    • OpenAI เผยแพร่รายการ IP ของบอตอย่างเป็นทางการ แต่ Anthropic ไม่ทำแบบนั้น
    • ที่น่าสนใจคือบล็อกบน GitHub ของผมไม่โดนขูดแบบนี้เลย
      ไม่แน่ใจว่า Microsoft กันไว้ หรือบล็อกผมมันไม่น่าสนใจพอสำหรับบอตกันแน่
  • ตอนนี้ Cloudflare มีบริการตรวจจับ AI scraperแล้ว
    มันจะพาบอตที่ตรวจจับได้ไปยังหน้าเว็บที่สร้างโดย AI แบบวนลูปไม่สิ้นสุด

    • แต่ถ้าจะทำแบบนี้ ทราฟฟิกทั้งหมดก็ต้องผ่าน Cloudflare
      สุดท้ายเลยกลายเป็นว่าบุคคลที่สามเป็นคนตัดสินว่าใครเข้าถึงคอนเทนต์ของผมได้ ซึ่งทำให้ไม่สบายใจ
    • Cloudflare มักทำให้ผู้ใช้ VPN หรือเบราว์เซอร์ที่ไม่ค่อยพบเจอมีปัญหาในการเข้าถึง
      ผมเองก็ไม่พอใจมาก สุดท้ายเลยเอาออก
    • ผมคิดว่ามันไม่เหมาะจะเป็น “บริการเพิ่มและถอด TLS”
    • มีโปรเจกต์ที่เกี่ยวข้องชื่อ Poison Fountain
    • ถ้า Cloudflare ครอบคลุมเว็บได้มากพอ ก็อาจเก็บค่าเข้าถึงแคชจากบริษัท AIได้
  • ทีม SQLite ก็เจอปัญหาคล้ายกัน
    Richard Hipp ผู้ก่อตั้งวิจารณ์ว่าเป็น**“พฤติกรรมเห็นแก่ตัว”** โดยบอกว่า “ก็แค่โคลน repository ทั้งชุดไปเลยก็ได้ แต่กลับเลือกจะขูดแบบสร้างความเดือดร้อนให้คนอื่น”
    ดูโพสต์ในฟอรัมที่เกี่ยวข้อง

    • แต่ก็มีคนแย้งว่า การเรียกมันว่า “มุ่งร้าย” นั้นเป็นคำพูดที่เกินไป
  • ยิ่งเวลาผ่านไป ผมยิ่งคิดว่าการครอว์ลทั้งหมดควรถูกรวมไปไว้ในช่องทางสาธารณะร่วมกันแบบ Common Crawl
    ต้องลดภาระของเซิร์ฟเวอร์ไปพร้อมกับรักษาความเปิดกว้างและความสามารถในการขูดข้อมูลของเว็บเอาไว้
    เช่น อาจทำให้เป็นมาตรฐานโดยวางลิงก์ดัมพ์ข้อมูลที่มีtimestampไว้ใต้พาธ /well-known/

    • MetaBrainz ใช้วิธีนี้อยู่แล้ว — เปิดให้ทั้งฐานข้อมูลเป็น tarball
      ผมเองก็ใช้เวลาราวหนึ่งชั่วโมงในการดาวน์โหลด แล้วหลังจากนั้นก็คิวรีจากในเครื่องเอง
      แต่คนส่วนใหญ่ก็ยังไม่ใช้ดัมพ์ เพราะการขูดเว็บง่ายกว่าอยู่ดี
    • ผมคิดว่าเราต้องปฏิรูประบบลิขสิทธิ์
      โดยเสนอให้หลังผ่านไประยะเวลาหนึ่ง ถ้านำข้อมูลไปบริจาคเป็น “ชุดข้อมูลแห่งชาติ” ก็ให้ใช้ฝึก AI ได้ และแบ่งรายได้คืนให้ผู้ถือลิขสิทธิ์
      แบบนี้นักพัฒนา AI ผู้ถือลิขสิทธิ์ และสาธารณะก็จะได้ประโยชน์ร่วมกัน
    • โดยส่วนตัวผมก็ทำการขูดข้อมูลขนาดเล็กด้วยสคริปต์ Tampermonkey
      ใช้ AI สร้างโค้ด แล้วรวบรวมรายการราคาของ VPS อัตโนมัติอะไรทำนองนั้น
      เมื่อก่อนผมยังเคยขูดพาดหัวทั้งหมดจาก lowendtalk เพื่อทำเป็นชุดข้อมูลสำหรับวิเคราะห์ด้วย LLMด้วย
    • อีกทางคือทำไฟล์มาตรฐานอย่าง /llms.txt เพื่อให้ LLM ได้เฉพาะข้อมูลข้อความล้วนที่จำเป็น
      ตัด URL ที่อยู่ เบอร์โทรศัพท์ออก และคงมาร์กอัปขั้นต่ำอย่าง <item> กับ <subitem> ไว้เท่านั้น
      แต่ก็มีโอกาสที่หลายเว็บจะวางไฟล์เปล่าที่แค่ทำตามรูปแบบไว้
    • จริงๆ แล้วนี่ไม่ใช่ปัญหาทางเทคนิค แต่เป็นปัญหาของโครงสร้างเศรษฐกิจ
      ทุนขนาดใหญ่กำลังทำลายเว็บเพื่อผลกำไรระยะสั้น
      แต่ผมก็ยังเชื่อว่าสุดท้ายจะเกิดการปรับตัวและสมดุลขึ้น
  • ทุกวันนี้ไม่ใช่แค่ AI scraper เท่านั้น แต่ตัวผู้ใช้เองก็ทำการขูดข้อมูลทางอ้อมผ่านการขอให้สรุปด้วย
    ตัวอย่างเช่น Firefox มีพรีวิวสรุปลิงก์ให้ได้โดยไม่ต้องคลิกลิงก์
    ภาพที่เกี่ยวข้อง

    • ฟีเจอร์นี้ใช้โมเดล SmolLM2-360M ที่รันด้วย llama.cpp(wllama) แบบโลคัลในการสร้างสรุป
      สุดท้ายตัวเบราว์เซอร์ก็ต้องดึงหน้าเว็บมาเองแล้วสรุป ดังนั้นจากมุมมองของเว็บไซต์ มันก็ดูเหมือนคำขอปกติแบบเดียวกัน
      ดูคำอธิบายอย่างเป็นทางการจาก Mozilla
    • ปัญหามีอยู่สามข้อ
      1. การครอว์ลที่ไร้จริยธรรมของบริษัท AI
      2. คำขอสรุปแบบมีเอเจนต์เป็นตัวกลางจากผู้ใช้
      3. เอเจนต์พวกนี้ไม่มีประสิทธิภาพกว่ามนุษย์แต่เร็วกว่าอย่างมาก
    • แต่ไม่ใช่ว่าผู้ใช้ถูก “ฝึก” ให้ทำแบบนี้ แค่เพราะLLM ใช้งานได้ดีจริงๆคนเลยใช้มัน
  • ทุกวันนี้ scraper ใช้พูล IP ที่อยู่อาศัยเพื่อหลบการตรวจจับ

    • เลยอดสงสัยไม่ได้ว่า ISP ที่ให้บริการพูล IP แบบนี้กำลังสร้างโมเดลรายได้ใหม่หรือเปล่า
    • แถมตอนนี้ยังมีบอตที่รันเบราว์เซอร์จริงจำนวนมาก ซึ่งผ่าน Cloudflare CAPTCHA ได้ด้วย
      ในสถานการณ์แบบนี้ก็ไม่รู้เหมือนกันว่ามาตรการป้องกันจะใช้ได้อีกนานแค่ไหน