2 คะแนน โดย GN⁺ 2024-07-31 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แนะนำ en.osm.town

  • en.osm.town เป็นส่วนหนึ่งของเครือข่ายสังคมแบบกระจายศูนย์ที่ใช้ Mastodon เป็นพื้นฐาน
  • เป็นชุมชนอิสระของ OpenStreetMap และได้รับการสนับสนุนเงินทุนจาก OpenStreetMap Foundation
  • สถิติเซิร์ฟเวอร์: ผู้ใช้งานที่แอ็กทีฟ 257 คน

ประเด็นสำคัญ

  • Grant Slater เสนอให้บริษัท AI เลิกสแครปข้อมูล OpenStreetMap แบบลับ ๆ และหันมาบริจาค $10,000 แทน
  • หากบริจาค $50,000 ก็อาจให้บริการอัปเดตแบบสตรีมมิงเรียลไทม์ได้ด้วย
  • Bart Louwers กล่าวว่าการสแครป OpenStreetMap เป็นเรื่องที่พบได้บ่อย
  • wikiyu แย้งว่าการใช้ข้อมูล planet.osm มีประสิทธิภาพมากกว่า
  • Josua วิจารณ์ว่า AI กำลังเรียนรู้ด้วยวิธีที่ไม่มีประสิทธิภาพ
  • Juan Luis ระบุว่า Read the Docs ก็ประสบปัญหาการใช้งาน AI crawler ในทางที่ผิดคล้ายกัน
  • Simon Poole มองว่าวิธีที่สมเหตุสมผลกลับอาจทำลายภาพลักษณ์ของบริษัท AI
  • Michał ตั้งข้อสังเกตว่าอาจมีผู้รับเหมาจากบางประเทศได้รับมอบหมายให้ดาวน์โหลดข้อมูล OSM
  • leadingzero วิจารณ์ว่าข้อกำหนดด้านไลเซนส์ของ OSM ไม่ได้ถูกบังคับใช้อย่างเหมาะสม
  • Grant Slater กล่าวว่าตนได้สร้าง GitHub repository สำหรับติดตามแอตทริบิวต์ของไทล์
  • Guillaume Rischard ระบุว่าเพิ่งจัดการปัญหาทางกฎหมายในเยอรมนีได้ไม่นานนี้
  • Adderall girl grindset (Jes) เสนอให้บล็อก AI crawler

สรุปโดย GN⁺

  • บทความนี้กล่าวถึงปัญหาของบริษัท AI ที่สแครปข้อมูล OpenStreetMap
  • มีการเสนอทั้งวิธีใช้ข้อมูล OpenStreetMap อย่างมีประสิทธิภาพ และแนวทางเข้าถึงข้อมูลผ่านการบริจาค
  • มีการอภิปรายถึงปัญหาการใช้งาน AI crawler ในทางที่ผิดและวิธีรับมือ
  • โครงการที่มีฟังก์ชันคล้ายกัน ได้แก่ Google Maps และ Bing Maps

1 ความคิดเห็น

 
GN⁺ 2024-07-31
ความเห็นจาก Hacker News
  • บอตครอว์เลอร์ AI เพิกเฉยต่อ robots.txt ไม่ใช้ public API และไม่ปฏิบัติตามภาระโหลดช่วงพีก ทำให้ต้นทุนโครงสร้างพื้นฐานเพิ่มขึ้น
  • ประธาน OpenStreetMap Foundation ระบุว่าสามารถดาวน์โหลดข้อมูล OpenStreetMap แบบจำนวนมากได้ฟรี และแนะนำให้ใช้วิธีนั้นแทนการสแครป
    • การสแครปสร้างภาระสูงต่อทรัพยากรที่มีผู้บริจาคให้ และยังต้องเสียเวลาและแรงในการบล็อก IP ที่สแครปอีกด้วย
    • การเคารพทรัพยากรและเวลาช่วยให้บริการยังคงให้ใช้ฟรีได้
  • สามารถตั้งค่าอินสแตนซ์ OpenStreetMap ได้ภายใน 10 นาที ซึ่งทำได้ด้วยคำสั่ง docker run ง่าย ๆ
    • การทำดัชนีใช้เวลา แต่ก็ไม่ได้ยาวนานเมื่อเทียบกับทรัพยากรที่ใช้
  • เคยต้องการข้อมูล OSM แต่ไม่เข้าใจวิธีเข้าถึงข้อมูลอย่างถูกต้อง
    • ต้องดาวน์โหลดไฟล์ขนาดใหญ่ระดับ 100GB และต้องใช้ฟอร์แมตกับไลบรารีที่ไม่ชัดเจน
    • ข้อมูลกระจัดกระจาย และ HTTP API ก็มีข้อจำกัดหรือถูกจำกัดอัตราใช้งาน
    • สุดท้ายจึงใช้โครงการฟรีที่ให้ข้อมูล OSM ที่แปลงไว้ล่วงหน้าแล้ว
  • OP แสดงปฏิกิริยาเชิงประชดหลังจากจำกัดและบล็อกครอว์เลอร์ที่สแครปเว็บไซต์และ mapping API อย่างหนักหน่วง
    • ข้อมูล OpenStreetMap ดาวน์โหลดได้ฟรี และมีให้ผ่าน AWS S3 กับทอร์เรนต์
    • หากเพิ่งเริ่มต้น ควรใช้ข้อมูล extract ของพื้นที่ขนาดเล็กก่อน
  • หากนำ planet.osm ขึ้นทอร์เรนต์และอนุญาตให้สแครปผ่านทอร์เรนต์เท่านั้น ก็จะช่วยกระจายภาระของเครือข่ายได้
  • การที่ครอว์เลอร์ AI เรียกทุก revision ของทุกไฟล์ผ่านเว็บอินเทอร์เฟซนั้นไม่มีประสิทธิภาพ
    • สิ่งนี้ทำให้สิ้นเปลืองพลังงานและทรัพยากร
  • มีข้อเสนอให้ทำ honeypot สำหรับบริษัท AI เพื่อสร้างคอนเทนต์ไร้ความหมายแบบลูปไม่รู้จบ
  • น่าเสียดายที่โครงการอย่าง CommonCrawl ยังไม่สามารถทำให้หลายบริษัทไม่ต้องสแครปเซิร์ฟเวอร์เองได้
    • เพราะพวกเขาอยากเข้ามาเยี่ยมบ่อยกว่าเดิม หรือใช้เงินทุน VC จำนวนมากเพื่อสร้างความประทับใจให้นักลงทุน
  • มีคำถามว่าบริษัท AI กำลังสแครปอะไรจาก OSM อยู่