1 คะแนน โดย GN⁺ 2023-12-24 | 7 ความคิดเห็น | แชร์ทาง WhatsApp

การค้นหาของ Google ถูกโจมตีด้วยสแปมครั้งใหญ่จนรับมือแทบไม่ไหว

  • ผลการค้นหาของ Google ถูกโจมตีด้วยสแปมในช่วงไม่กี่วันที่ผ่านมา จนอยู่ในสภาพที่แทบควบคุมไม่ได้ทั้งหมด
  • มีหลายโดเมนที่ติดอันดับสำหรับคีย์เวิร์ดนับแสนคำ ทำให้ขนาดของการโจมตีนี้อาจครอบคลุมวลีคีย์เวิร์ดหลายล้านรายการ

อัลกอริทึมของ Google ถูกนำไปใช้ประโยชน์ได้อย่างไร

  • ดูเหมือนว่าเว็บสแปมกำลังอาศัยช่องโหว่อย่างน้อย 3 จุดในวิธีที่ Google ใช้จัดอันดับเว็บไซต์
  • คำค้นหาที่เว็บสแปมติดอันดับมักมีการแข่งขันต่ำ จึงจัดอันดับได้ง่าย
  • มีทั้งช่องจากอัลกอริทึมการค้นหาแบบโลคัล คีย์เวิร์ดแบบ long-tail และโอกาสที่โดเมนจดทะเบียนใหม่สามารถใช้ได้
  • เว็บไซต์ใหม่มีข้อได้เปรียบตรงที่ในช่วงเวลาสั้น ๆ ระหว่างที่ Google กำลังทำความเข้าใจเว็บไซต์ อัลกอริทึมอาจปล่อยให้พวกมันติดอันดับสำหรับคำค้นหาได้

ลิงก์ช่วยให้ Google หาเว็บสแปมเจอ

  • ผู้เขียนทราบเรื่องนี้จากโพสต์ของ Bill Hartzer ที่ใช้เครื่องมือแบ็กลิงก์ของ Majestic เปิดเผยเครือข่ายลิงก์ของเว็บสแปมหลายแห่ง
  • แม้จะทุ่มแรงไปมากในการสร้างเครือข่ายแบ็กลิงก์ แต่ลิงก์ไม่ใช่ปัจจัยที่รับผิดชอบโดยตรงต่ออันดับสูง
  • ลิงก์ช่วยให้ Google ค้นพบและครอว์ลเว็บสแปมใหม่ ๆ ก่อนที่สุดท้ายจะนำไปจัดอันดับ

สแปมที่ควบคุมไม่ได้ใน Google SERPs

  • หลายเว็บไซต์ติดอันดับสำหรับวลี long-tail ที่จัดอันดับได้ง่าย และวลีที่มีองค์ประกอบของการค้นหาแบบโลคัล
  • แนวคิด long-tail มีมานานเกือบ 20 ปีแล้ว และเป็นที่รู้จักแพร่หลายจากหนังสือ "The Long Tail" ที่ตีพิมพ์ในปี 2006
  • เว็บสแปมสามารถติดอันดับในวลีที่มีการแข่งขันต่ำ และใช้จุดนี้ดันคีย์เวิร์ดได้เป็นแสนคำในเวลาอันสั้น

หน้าสแปมมีหน้าตาอย่างไร

  • ไม่สามารถเข้าชมหน้าสแปมโดยตรงผ่านเบราว์เซอร์ได้
  • เว็บสแปมจะรีไดเร็กต์อัตโนมัติไปยังโดเมนอื่น
  • มีการใช้ Rich Results Tester ของ Google เพื่อเข้าชมเว็บสแปมและบันทึก HTML ของหน้าเว็บ

โดเมนเดียวติดอันดับมากกว่า 300,000 คีย์เวิร์ด

  • สเปรดชีตที่ Bill ส่งมามีรายชื่อวลีคีย์เวิร์ดที่เว็บสแปมแห่งหนึ่งติดอันดับอยู่
  • เว็บสแปมแห่งหนึ่งติดอันดับสำหรับวลีคีย์เวิร์ดมากกว่า 300,000 รายการ

ทำไมเทคนิคสแปมนี้จึงได้ผล

  • การค้นหาแบบโลคัลใช้อัลกอริทึมที่แตกต่างจากอัลกอริทึมแบบไม่ใช่โลคัล
  • อัลกอริทึมการค้นหาแบบโลคัลยืดหยุ่นมากกว่าเพื่อให้เว็บไซต์ประเภทโลคัลสามารถติดอันดับได้
  • Google รับรู้ปัญหาสแปมนี้มาตั้งแต่อย่างน้อยวันที่ 19 ธันวาคม โดยยืนยันได้จากทวีตของ Danny Sullivan

ความเห็นของ GN⁺

  • ประเด็นสำคัญที่สุดของบทความนี้คือ ผลการค้นหาของ Google เปราะบางต่อการโจมตีสแปมขนาดใหญ่ ซึ่งอาจกระทบต่อความน่าเชื่อถือของเสิร์ชเอนจิน
  • เหตุที่การโจมตีสแปมนี้ได้ผล เพราะมันอาศัยจุดอ่อนเฉพาะในอัลกอริทึมของ Google และตอกย้ำว่า Google จำเป็นต้องปรับปรุงอัลกอริทึมต่อไป
  • สิ่งที่ทำให้บทความนี้น่าสนใจไม่ใช่แค่ด้านเทคนิค แต่ยังแสดงให้เห็นว่าบริษัทเทคโนโลยีรายใหญ่อย่าง Google ก็ยังเผชิญปัญหาที่ไม่คาดคิดได้เช่นกัน

7 ความคิดเห็น

 
devstudyman7 2024-03-09

ในหน้าเว็บรายงานสแปมของ Google ตอนที่จะแจ้งสแปมเว็บเอกสาร หากเป็นโดเมนอย่าง abc.abc.uk/trashasda ให้แจ้งเป็น abc.uk และให้นำ abc.abc.uk/sitemap.xml ไปใส่ในคำค้นที่ทำให้ทราบปัญหาได้อย่างชัดเจนแล้วจึงรายงาน ดูเหมือนว่าเว็บไซต์นี้เป็นเว็บที่ถูกทำเป็นโซลูชันไว้แล้ว และมีโครงสร้างที่เมื่อผู้ใช้ทั่วไปเข้าถึง จะสร้างหน้าอนุพันธ์ขึ้นมาใหม่ทันที วิธีรับมือที่ถูกต้องคือช่วยกันรายงานอย่างจริงจัง และเมื่อมีการกดจากฝั่ง Google มากเท่าไร ก็จะมีการสร้างหน้าสแปมขึ้นมาใหม่อีก อีกทั้งยังมีกระบวนการทำให้บอตเข้าไปเข้าถึงผ่าน google.com/url, image.google.com/url, naver redirect เป็นต้น แล้วพาไปยังหน้าสแปมที่ ถูกสร้างขึ้น มาอีกครั้ง ดังนั้นอย่ากดเข้าไป ให้คัดลอกเฉพาะลิงก์ไปแจ้งรายงานก็พอ ตราบใดที่อัลกอริทึมรีไดเร็กต์ที่ระบุเป็น google.com/url ยังไม่ถูกยกเลิก ปัญหาปัจจุบันนี้ก็น่าจะยังคงเกิดขึ้นต่อไป

 
devstudyman7 2024-03-09

หากคุณรายงานหน้าเว็บที่เข้าข่ายโซลูชันสแปมข้างต้น
ในช่องทั้งหมด 5 ช่อง ควรใส่โดเมนหลักในช่องแรก และใส่รายการเอกสารที่แตกออกมาจากโดเมนนั้นใน URL เพิ่มเติมอีก 4 ช่อง และแนะนำให้ใส่ sitemap ของโดเมนนั้นลงไปในคำค้นหาด้วย เมื่อเปิด sitemap จะเห็นว่ามันใช้กลยุทธ์สร้างหน้าอย่าง /new/asdasd ทันทีที่มีการเข้าถึง ดังนั้นพอเขียนรายงานแล้ว สุดท้ายเมื่อ Google เข้าไปตรวจดูก็จะยิ่งทำให้มีการสร้างหน้าเพิ่มเติมที่หนีการตรวจสอบขึ้นมาอีก เป็นพวกที่วางแผนมาอย่างละเอียด จึงควรรายงานเป็นตัวโดเมนไปเลย

 
devstudyman7 2024-03-09

สำหรับกรณีของผม
(เปลี่ยน h เป็น x และ / เป็น |)

xttp:||baddomain.com
xttp:||baddomain.com/blogs
xttp:||baddomain.com/blogs/asdasd1
xttp:||baddomain.com/asdasd1
xttp:||baddomain.com/asdasd2

จากนั้นก็เขียนรายงานแบบนี้แล้วส่งไป

ถ้าเป็นพวกที่เริ่มเน่ามาตั้งแต่ซับโดเมน ก็ใช้ site:*baddomain.com
แล้วเขียนรายงานด้วยคีย์เวิร์ดแบบนี้ส่งไป

หลังจากนั้น ถ้าตัวเว็บไซต์เองเป็นสแปมเต็มตัว ผมก็ส่งรายงานเว็บไซต์ฟิชชิงไปพร้อมกันด้วย

 
devstudyman7 2024-03-09

ซอฟต์แวร์ของเว็บไซต์สแปมเหล่านี้น่าขันตรงที่มีการเชื่อมต่อกับ tag manager และแม้จะมีการใช้เว็บไซต์อย่าง https://picsum.photos ก็ยังถูกทำดัชนีได้ตามปกติอยู่ดี ซึ่งก็หมายความว่า Google ไม่ได้ตรวจสอบนั่นเอง แม้ว่าจะเกินขอบเขตของกิจกรรมสแปมตามปกติไปแล้ว แต่ถ้ายังอยู่ในสภาพที่มีทั้งหน้าเว็บสแปมและโฆษณา AdWords ติดอยู่ ต่อให้รายงานไปก็ยิ่งมีเอกสารลูกที่ถูกสร้างขึ้นอย่างรวดเร็วตามจำนวนทราฟฟิกจากโฆษณา ประเด็นที่ชวนขนลุกคือเว็บไซต์สแปมเหล่านี้ยังใช้งาน tag manager ได้อย่างปกตินั่นเอง

 
devstudyman7 2024-03-09

ผมส่งรายงานสแปมมาเป็นเดือนแล้ว ถ้าช่วยรายงานเป็นเอกสารสแปม เอกสารหลอกลวง พร้อมกันกับแจ้งผ่านหน้ารายงานเว็บไซต์ฟิชชิง จะจัดการได้เร็วขึ้น หน้านั้นก็ควรใส่ด้วย แต่ถ้าเป็นโดเมนระดับบนสุดอย่าง abc.abc.uk ควรกรอกเป็น abc.uk จึงจะช่วยจัดการตัวโดเมนเองได้ นี่กลายเป็นงานการบ้านประจำวันของเหล่าเว็บมาสเตอร์ไปแล้ว

 
aobamisaki 2023-12-24

ก่อนหน้านี้ก็เห็นได้ชัดอยู่แล้วว่าคุณภาพของผลการค้นหาของ Google โดยรวมแย่ลง และถ้าถูกโจมตีอย่างหนักในช่วงเวลาสั้น ๆ แบบนี้ ก็ยิ่งทำให้หลายคนไม่สามารถเชื่อถือผลการค้นหาของ Google ได้มากขึ้นแน่นอน

 
GN⁺ 2023-12-24
ความเห็นจาก Hacker News
  • เว็บไซต์สแปมตรวจสอบที่อยู่ IP ของ Googlebot

    • หากยืนยันว่าเป็น Googlebot ก็จะแสดงเนื้อหาในหน้านั้น
    • ผู้เยี่ยมชมรายอื่นจะถูกรีไดเรกต์ไปยังโดเมนอื่นที่มีเนื้อหาน่าสงสัย
    • ในอดีต Google ไม่อนุญาตให้เว็บไซต์แสดงเนื้อหาต่างกันระหว่าง Googlebot กับผู้ใช้ทั่วไป และหากฝ่าฝืนจะถูกลงโทษอย่างหนัก
    • แม้นโยบายนี้จะหายไปแล้ว แต่หากเครื่องมืออัตโนมัติทำงานได้ดี มันก็ยังอาจมีประโยชน์อยู่
  • ประสบการณ์ของผู้ใช้ที่เปลี่ยนไปใช้เสิร์ชเอนจิน Kagi

    • บางครั้งก็หาผลการค้นหาที่ดีได้ยาก แต่ใน Google เองผลลัพธ์ก็ไม่ได้ดีกว่าเสมอไป
    • ผู้ใช้ปรับแต่งผลการค้นหาให้ตรงกับความชอบส่วนตัวด้วยการ 'boost' และ 'pin' โดเมน
    • ยังใช้บริการอื่นของ Google อย่าง Gmail และ Google Maps อยู่ แต่ไม่ใช้การค้นหาอีกต่อไป
  • การเพิ่มขึ้นของเว็บไซต์ที่ให้ข้อความจำนวนมากเกินจำเป็นเพื่อตอบคำถามง่าย ๆ

    • คำตอบจริงอยู่ที่ด้านล่างของหน้า
    • ดูเผิน ๆ เหมือนเกี่ยวข้อง แต่จริง ๆ แล้วเป็นเนื้อหาทั่วไป
  • ข้อสังเกตเกี่ยวกับคุณภาพผลการค้นหาของ Google ที่ลดลง

    • ไม่แน่ชัดว่าแนวโน้มนี้เริ่มตั้งแต่เมื่อไร แต่อาจไม่ได้รับความสนใจมากพอมานานแล้ว
    • การโจมตีด้วยสแปมอาจเป็นขั้นตอนสุดท้ายก็ได้
  • การตั้งคำถามต่อเสิร์ชเอนจิน

    • แนวคิดของเสิร์ชเอนจินแบบวัตถุประสงค์เดียวที่อาศัยการครอลเว็บอาจกำลังหายไป
    • การแทนที่ Google ด้วยหลายระบบที่เหมาะกับแต่ละจุดประสงค์อาจดีกว่า
    • ตัวอย่างเช่น คำถามทางเทคนิคให้ค้นหาใน StackOverflow และ Github โดยตรง การค้นหาสถานที่ในพื้นที่ให้ค้นหาในฐานข้อมูลที่เชื่อถือได้ เป็นต้น
    • เสิร์ชเอนจินอาจพัฒนาไปในทิศทางที่ใช้ LLM (โมเดลภาษาขนาดใหญ่) เพื่อเดาประเภทการค้นหา แล้วพาไปยังการค้นหาเฉพาะทางที่ผ่านการคัดสรร
  • การชี้ให้เห็นถึงการเปลี่ยนอัลกอริทึมของเสิร์ชเอนจิน Google

    • Google เปลี่ยนอัลกอริทึมเป็นครั้งคราว ซึ่งส่งผลต่ออันดับของเว็บไซต์
    • การเปลี่ยนแปลงเหล่านี้อาจทำให้ผลลัพธ์คุณภาพต่ำขึ้นมาอยู่ด้านบนสำหรับบางคำค้น
    • ในอดีต การติดตามและพูดคุยเรื่องอัปเดตอัลกอริทึมเหล่านี้ในเว็บไซต์สาย SEO เป็นเรื่องสำคัญ
  • ข้อกล่าวอ้างว่า Google ละทิ้งการค้นหาแบบออร์แกนิก

    • แม้แต่ผู้ใช้ที่เชี่ยวชาญ SEO ก็ยังเข้าใจได้ยากว่าทำไมผลการค้นหาของ Google จึงถูกจัดอันดับแบบนั้น
    • Google ทำให้ผลลัพธ์แบบเสียเงินมีคุณค่ามากขึ้น เพื่อชักจูงให้ผู้ใช้คลิกโฆษณาแบบเสียเงิน
  • การชี้ให้เห็นถึงข้อจำกัดของเสิร์ชเอนจิน Google

    • มีประโยชน์เมื่อกำลังมองหาสิ่งที่เฉพาะเจาะจง แต่กรณีอื่น ๆ จะใช้ Bing, ChatGPT, Phind เป็นต้น
    • เกมของผู้ใช้รายหนึ่งขึ้นเป็นผลลัพธ์ลำดับต้น ๆ ใน Bing และเสิร์ชเอนจินอื่น แต่ใน Google กลับมีเว็บไซต์โฆษณาสแปมนำหน้า
  • การแชร์ประสบการณ์การย้ายไปใช้ Bing

    • หลังจาก Bing พัฒนาด้วยการใช้ ChatGPT ก็เริ่มใช้ Bing แทน Google
    • แม้จะไม่สมบูรณ์แบบ แต่เมื่อเทียบกับ Google แล้วให้ผลลัพธ์ที่น่าพอใจกว่า
  • การวิจารณ์พฤติกรรมของ Google ในฐานะบริษัทโฆษณา

    • สร้างบัญชี Gmail ใหม่และไม่ได้บอกใครเลย แต่ก็ยังได้รับอีเมลสแปม
    • การคาดเดาว่า Google ขายรายชื่อที่อยู่อีเมลของตัวเองก็ถือว่าสมเหตุสมผล