การค้นหาของ Google ถูกโจมตีด้วยสแปมครั้งใหญ่จนรับมือแทบไม่ไหว
- ผลการค้นหาของ Google ถูกโจมตีด้วยสแปมในช่วงไม่กี่วันที่ผ่านมา จนอยู่ในสภาพที่แทบควบคุมไม่ได้ทั้งหมด
- มีหลายโดเมนที่ติดอันดับสำหรับคีย์เวิร์ดนับแสนคำ ทำให้ขนาดของการโจมตีนี้อาจครอบคลุมวลีคีย์เวิร์ดหลายล้านรายการ
อัลกอริทึมของ Google ถูกนำไปใช้ประโยชน์ได้อย่างไร
- ดูเหมือนว่าเว็บสแปมกำลังอาศัยช่องโหว่อย่างน้อย 3 จุดในวิธีที่ Google ใช้จัดอันดับเว็บไซต์
- คำค้นหาที่เว็บสแปมติดอันดับมักมีการแข่งขันต่ำ จึงจัดอันดับได้ง่าย
- มีทั้งช่องจากอัลกอริทึมการค้นหาแบบโลคัล คีย์เวิร์ดแบบ long-tail และโอกาสที่โดเมนจดทะเบียนใหม่สามารถใช้ได้
- เว็บไซต์ใหม่มีข้อได้เปรียบตรงที่ในช่วงเวลาสั้น ๆ ระหว่างที่ Google กำลังทำความเข้าใจเว็บไซต์ อัลกอริทึมอาจปล่อยให้พวกมันติดอันดับสำหรับคำค้นหาได้
ลิงก์ช่วยให้ Google หาเว็บสแปมเจอ
- ผู้เขียนทราบเรื่องนี้จากโพสต์ของ Bill Hartzer ที่ใช้เครื่องมือแบ็กลิงก์ของ Majestic เปิดเผยเครือข่ายลิงก์ของเว็บสแปมหลายแห่ง
- แม้จะทุ่มแรงไปมากในการสร้างเครือข่ายแบ็กลิงก์ แต่ลิงก์ไม่ใช่ปัจจัยที่รับผิดชอบโดยตรงต่ออันดับสูง
- ลิงก์ช่วยให้ Google ค้นพบและครอว์ลเว็บสแปมใหม่ ๆ ก่อนที่สุดท้ายจะนำไปจัดอันดับ
สแปมที่ควบคุมไม่ได้ใน Google SERPs
- หลายเว็บไซต์ติดอันดับสำหรับวลี long-tail ที่จัดอันดับได้ง่าย และวลีที่มีองค์ประกอบของการค้นหาแบบโลคัล
- แนวคิด long-tail มีมานานเกือบ 20 ปีแล้ว และเป็นที่รู้จักแพร่หลายจากหนังสือ "The Long Tail" ที่ตีพิมพ์ในปี 2006
- เว็บสแปมสามารถติดอันดับในวลีที่มีการแข่งขันต่ำ และใช้จุดนี้ดันคีย์เวิร์ดได้เป็นแสนคำในเวลาอันสั้น
หน้าสแปมมีหน้าตาอย่างไร
- ไม่สามารถเข้าชมหน้าสแปมโดยตรงผ่านเบราว์เซอร์ได้
- เว็บสแปมจะรีไดเร็กต์อัตโนมัติไปยังโดเมนอื่น
- มีการใช้ Rich Results Tester ของ Google เพื่อเข้าชมเว็บสแปมและบันทึก HTML ของหน้าเว็บ
โดเมนเดียวติดอันดับมากกว่า 300,000 คีย์เวิร์ด
- สเปรดชีตที่ Bill ส่งมามีรายชื่อวลีคีย์เวิร์ดที่เว็บสแปมแห่งหนึ่งติดอันดับอยู่
- เว็บสแปมแห่งหนึ่งติดอันดับสำหรับวลีคีย์เวิร์ดมากกว่า 300,000 รายการ
ทำไมเทคนิคสแปมนี้จึงได้ผล
- การค้นหาแบบโลคัลใช้อัลกอริทึมที่แตกต่างจากอัลกอริทึมแบบไม่ใช่โลคัล
- อัลกอริทึมการค้นหาแบบโลคัลยืดหยุ่นมากกว่าเพื่อให้เว็บไซต์ประเภทโลคัลสามารถติดอันดับได้
- Google รับรู้ปัญหาสแปมนี้มาตั้งแต่อย่างน้อยวันที่ 19 ธันวาคม โดยยืนยันได้จากทวีตของ Danny Sullivan
ความเห็นของ GN⁺
- ประเด็นสำคัญที่สุดของบทความนี้คือ ผลการค้นหาของ Google เปราะบางต่อการโจมตีสแปมขนาดใหญ่ ซึ่งอาจกระทบต่อความน่าเชื่อถือของเสิร์ชเอนจิน
- เหตุที่การโจมตีสแปมนี้ได้ผล เพราะมันอาศัยจุดอ่อนเฉพาะในอัลกอริทึมของ Google และตอกย้ำว่า Google จำเป็นต้องปรับปรุงอัลกอริทึมต่อไป
- สิ่งที่ทำให้บทความนี้น่าสนใจไม่ใช่แค่ด้านเทคนิค แต่ยังแสดงให้เห็นว่าบริษัทเทคโนโลยีรายใหญ่อย่าง Google ก็ยังเผชิญปัญหาที่ไม่คาดคิดได้เช่นกัน
7 ความคิดเห็น
ในหน้าเว็บรายงานสแปมของ Google ตอนที่จะแจ้งสแปมเว็บเอกสาร หากเป็นโดเมนอย่าง
abc.abc.uk/trashasdaให้แจ้งเป็นabc.ukและให้นำabc.abc.uk/sitemap.xmlไปใส่ในคำค้นที่ทำให้ทราบปัญหาได้อย่างชัดเจนแล้วจึงรายงาน ดูเหมือนว่าเว็บไซต์นี้เป็นเว็บที่ถูกทำเป็นโซลูชันไว้แล้ว และมีโครงสร้างที่เมื่อผู้ใช้ทั่วไปเข้าถึง จะสร้างหน้าอนุพันธ์ขึ้นมาใหม่ทันที วิธีรับมือที่ถูกต้องคือช่วยกันรายงานอย่างจริงจัง และเมื่อมีการกดจากฝั่ง Google มากเท่าไร ก็จะมีการสร้างหน้าสแปมขึ้นมาใหม่อีก อีกทั้งยังมีกระบวนการทำให้บอตเข้าไปเข้าถึงผ่านgoogle.com/url,image.google.com/url,naver redirectเป็นต้น แล้วพาไปยังหน้าสแปมที่ถูกสร้างขึ้นมาอีกครั้ง ดังนั้นอย่ากดเข้าไป ให้คัดลอกเฉพาะลิงก์ไปแจ้งรายงานก็พอ ตราบใดที่อัลกอริทึมรีไดเร็กต์ที่ระบุเป็นgoogle.com/urlยังไม่ถูกยกเลิก ปัญหาปัจจุบันนี้ก็น่าจะยังคงเกิดขึ้นต่อไป(สแปม, รายงานหน้าเว็บสแปม)
หากคุณรายงานหน้าเว็บที่เข้าข่ายโซลูชันสแปมข้างต้น
ในช่องทั้งหมด 5 ช่อง ควรใส่โดเมนหลักในช่องแรก และใส่รายการเอกสารที่แตกออกมาจากโดเมนนั้นใน URL เพิ่มเติมอีก 4 ช่อง และแนะนำให้ใส่ sitemap ของโดเมนนั้นลงไปในคำค้นหาด้วย เมื่อเปิด sitemap จะเห็นว่ามันใช้กลยุทธ์สร้างหน้าอย่าง
/new/asdasdทันทีที่มีการเข้าถึง ดังนั้นพอเขียนรายงานแล้ว สุดท้ายเมื่อ Google เข้าไปตรวจดูก็จะยิ่งทำให้มีการสร้างหน้าเพิ่มเติมที่หนีการตรวจสอบขึ้นมาอีก เป็นพวกที่วางแผนมาอย่างละเอียด จึงควรรายงานเป็นตัวโดเมนไปเลยสำหรับกรณีของผม
(เปลี่ยน h เป็น x และ / เป็น |)
xttp:||baddomain.com
xttp:||baddomain.com/blogs
xttp:||baddomain.com/blogs/asdasd1
xttp:||baddomain.com/asdasd1
xttp:||baddomain.com/asdasd2
จากนั้นก็เขียนรายงานแบบนี้แล้วส่งไป
ถ้าเป็นพวกที่เริ่มเน่ามาตั้งแต่ซับโดเมน ก็ใช้
site:*baddomain.comแล้วเขียนรายงานด้วยคีย์เวิร์ดแบบนี้ส่งไป
หลังจากนั้น ถ้าตัวเว็บไซต์เองเป็นสแปมเต็มตัว ผมก็ส่งรายงานเว็บไซต์ฟิชชิงไปพร้อมกันด้วย
ซอฟต์แวร์ของเว็บไซต์สแปมเหล่านี้น่าขันตรงที่มีการเชื่อมต่อกับ tag manager และแม้จะมีการใช้เว็บไซต์อย่าง https://picsum.photos ก็ยังถูกทำดัชนีได้ตามปกติอยู่ดี ซึ่งก็หมายความว่า Google ไม่ได้ตรวจสอบนั่นเอง แม้ว่าจะเกินขอบเขตของกิจกรรมสแปมตามปกติไปแล้ว แต่ถ้ายังอยู่ในสภาพที่มีทั้งหน้าเว็บสแปมและโฆษณา AdWords ติดอยู่ ต่อให้รายงานไปก็ยิ่งมีเอกสารลูกที่ถูกสร้างขึ้นอย่างรวดเร็วตามจำนวนทราฟฟิกจากโฆษณา ประเด็นที่ชวนขนลุกคือเว็บไซต์สแปมเหล่านี้ยังใช้งาน tag manager ได้อย่างปกตินั่นเอง
ผมส่งรายงานสแปมมาเป็นเดือนแล้ว ถ้าช่วยรายงานเป็นเอกสารสแปม เอกสารหลอกลวง พร้อมกันกับแจ้งผ่านหน้ารายงานเว็บไซต์ฟิชชิง จะจัดการได้เร็วขึ้น หน้านั้นก็ควรใส่ด้วย แต่ถ้าเป็นโดเมนระดับบนสุดอย่าง
abc.abc.ukควรกรอกเป็นabc.ukจึงจะช่วยจัดการตัวโดเมนเองได้ นี่กลายเป็นงานการบ้านประจำวันของเหล่าเว็บมาสเตอร์ไปแล้วก่อนหน้านี้ก็เห็นได้ชัดอยู่แล้วว่าคุณภาพของผลการค้นหาของ Google โดยรวมแย่ลง และถ้าถูกโจมตีอย่างหนักในช่วงเวลาสั้น ๆ แบบนี้ ก็ยิ่งทำให้หลายคนไม่สามารถเชื่อถือผลการค้นหาของ Google ได้มากขึ้นแน่นอน
ความเห็นจาก Hacker News
เว็บไซต์สแปมตรวจสอบที่อยู่ IP ของ Googlebot
ประสบการณ์ของผู้ใช้ที่เปลี่ยนไปใช้เสิร์ชเอนจิน Kagi
การเพิ่มขึ้นของเว็บไซต์ที่ให้ข้อความจำนวนมากเกินจำเป็นเพื่อตอบคำถามง่าย ๆ
ข้อสังเกตเกี่ยวกับคุณภาพผลการค้นหาของ Google ที่ลดลง
การตั้งคำถามต่อเสิร์ชเอนจิน
การชี้ให้เห็นถึงการเปลี่ยนอัลกอริทึมของเสิร์ชเอนจิน Google
ข้อกล่าวอ้างว่า Google ละทิ้งการค้นหาแบบออร์แกนิก
การชี้ให้เห็นถึงข้อจำกัดของเสิร์ชเอนจิน Google
การแชร์ประสบการณ์การย้ายไปใช้ Bing
การวิจารณ์พฤติกรรมของ Google ในฐานะบริษัทโฆษณา