วิเคราะห์เอกสาร API ของ Google Search ที่หลุดออกมา
(sparktoro.com)- ไม่นานมานี้ผู้เขียนได้รับอีเมลจากแหล่งข่าวนิรนามว่าเอกสาร Search API ของ Google จำนวนมากรั่วไหลออกมา
- อดีตพนักงาน Google ได้ยืนยันความถูกต้องของเอกสาร และยังมีข้อมูลเพิ่มเติมจากการพูดคุยกับอดีตพนักงาน Google บางราย
ข้ออ้างสำคัญ
- Google ปฏิเสธมาโดยตลอดว่าไม่ได้ใช้สัญญาณผู้ใช้ที่อิงจากการคลิก แต่เอกสารที่รั่วไหลออกมาหักล้างเรื่องนี้
- เอกสารยังขัดแย้งกับคำกล่าวของ Google ที่ว่าไม่ได้ประเมิน subdomain แยกต่างหาก ไม่มี sandbox สำหรับเว็บไซต์ใหม่ และไม่ได้พิจารณาอายุโดเมน
- ตั้งแต่ช่วงแรก ทีมค้นหาของ Google ต้องการ ข้อมูล clickstream (URL ทั้งหมดที่ผู้ใช้เข้าชมจากเบราว์เซอร์) ของผู้ใช้เว็บจำนวนมากเพื่อปรับปรุงคุณภาพผลการค้นหา
- ระบบ NavBoost ที่ถูกอ้างถึงโดย DoJ เคยเก็บข้อมูลจาก Google Toolbar PageRank และเป็นแรงจูงใจสำคัญที่ทำให้ Google พัฒนาเบราว์เซอร์ Chrome เพื่อให้ได้ข้อมูล clickstream มากขึ้น
- NavBoost วิเคราะห์จำนวนการค้นหาของคีย์เวิร์ดหนึ่ง ๆ จำนวนคลิกในผลการค้นหา รวมถึง short click และ long click เพื่อ ประเมินเจตนาของผู้ใช้ และหากมีการคลิกวิดีโอหรือรูปภาพจำนวนมาก ก็จะกระตุ้นฟีเจอร์วิดีโอหรือรูปภาพสำหรับคิวรีที่เกี่ยวข้องกับ NavBoost
- การใช้ข้อมูลคลิก: Google ใช้ประวัติ cookie, ข้อมูล Chrome ของผู้ใช้ที่ล็อกอินอยู่ และการตรวจจับแพตเทิร์น เพื่อป้องกัน click spam ทั้งแบบ manual และอัตโนมัติ และนำการคลิกกับการมีส่วนร่วมของผู้ใช้ไปสะท้อนในผลการค้นหา
- การประเมินคุณภาพเว็บไซต์: ข้อมูล NavBoost ถูกใช้เพื่อประเมินคุณภาพโดยรวมของเว็บไซต์ (เรียกว่า Panda) และใช้ปรับอันดับขึ้นหรือลงตามผลประเมิน
- NavBoost ยังใช้ข้อมูลคลิกโดย พิจารณาข้อมูลภูมิศาสตร์ด้วย โดยประเมินแยกตามระดับประเทศและรัฐ/จังหวัด
- มีการใช้ whitelist กับผลการค้นหาเกี่ยวกับโควิด-19 และการเลือกตั้ง เพื่อแสดงบางเว็บไซต์เป็นลำดับต้น ๆ
การตรวจสอบความน่าเชื่อถือของเอกสาร
- บางส่วนสอดคล้องกับข้อมูลที่ปรากฏในคดี Google/DOJ แต่ส่วนใหญ่เป็นข้อมูลใหม่
- แหล่งข่าวนิรนามเปิดเผยตัวตนเมื่อวันที่ 5/28 และเขาคือ Erfan Azimi (ผู้เชี่ยวชาญ SEO)
- การยืนยันจากอดีตพนักงาน Google: จากอดีตพนักงาน Google สามคน มีสองคนยืนยันความน่าเชื่อถือของเอกสาร
- การตรวจทานทางเทคนิค: Mike King ผู้เชี่ยวชาญด้าน technical SEO ได้ตรวจทานเอกสารและยืนยันความน่าเชื่อถือ
Google API Contents Warehouse ?
- จุดประสงค์ของเอกสาร API นี้: เป็นเอกสารที่ช่วยให้ทีมงาน Google เข้าใจองค์ประกอบข้อมูลที่สามารถนำไปใช้ในโปรเจกต์ได้
- ช่องทางการรั่วไหล: เอกสารถูกเปิดสาธารณะบน GitHub ชั่วคราว และรั่วไหลออกมาในช่วงเวลานั้น
สิ่งที่ค้นพบสำคัญ
#1: Navboost และการใช้ข้อมูลคลิก
- การกรองข้อมูลคลิก: Google กรองข้อมูลคลิกที่จะนำมาพิจารณาในระบบจัดอันดับ และวัดระยะเวลาของการคลิกกับจำนวนการแสดงผล
- Google มีวิธีคัดกรองคลิกที่ไม่ต้องการให้นำเข้าระบบจัดอันดับ และรวมเฉพาะคลิกที่ต้องการนำมาคิด
- ดูเหมือนว่าจะวัดระยะเวลาของการคลิก (เช่น ผู้ค้นหาคลิกผลการค้นหาแล้วไม่พอใจกับคำตอบที่เจอ จึงกดย้อนกลับอย่างรวดเร็ว) และจำนวนครั้งที่แสดงผล
#2: การใช้ clickstream ของเบราว์เซอร์ Chrome
- ข้อมูล clickstream จาก Chrome: Google ใช้ข้อมูลการคลิกจากเบราว์เซอร์ Chrome เพื่อกำหนด Sitelinks (URL ยอดนิยมของเว็บไซต์นั้น)
#3: whitelist สำหรับการท่องเที่ยว โควิด และการเมือง
- การมีอยู่ของ whitelist: มีการแสดงโดเมนบางแห่งเป็นลำดับต้น ๆ ในผลการค้นหาที่เกี่ยวกับการท่องเที่ยว โควิด และการเลือกตั้ง
#4: การใช้ฟีดแบ็กจากผู้ประเมินคุณภาพ
- ข้อมูลจากผู้ประเมินคุณภาพ: มีความเป็นไปได้ว่าคะแนนประเมินจากผู้ประเมินคุณภาพจะถูกนำมาใช้โดยตรงในระบบค้นหา
#5: ใช้ข้อมูลคลิกในการกำหนดน้ำหนักอันดับของลิงก์
- การจัดหมวดหมู่ดัชนีลิงก์: ใช้ข้อมูลคลิกเพื่อจัดประเภทดัชนีลิงก์เป็นคุณภาพสูง ปานกลาง และต่ำ
ประเด็นสำคัญสำหรับนักการตลาด
- ความสำคัญของแบรนด์: Google ให้น้ำหนักกับแบรนด์ใหญ่ในการจัดอันดับมากกว่า
- ความสำคัญที่ลดลงขององค์ประกอบ E-E-A-T: ปัจจัยด้านประสบการณ์ ความเชี่ยวชาญ ความมีอำนาจ และความน่าเชื่อถือที่ SEO บางรายเน้น อาจไม่ได้ถูกนำไปใช้ในการจัดอันดับโดยตรง
- Experience, Expertise, Authoritativeness, Trustworthiness
- เจตนาของผู้ใช้และแพตเทิร์นการคลิก เป็นปัจจัยจัดอันดับที่สำคัญกว่าคอนเทนต์และลิงก์
- ความสำคัญของ ปัจจัยจัดอันดับแบบดั้งเดิม เช่น PageRank และ anchor text กำลังลดลง
- ความยากของ SEO: สำหรับธุรกิจขนาดกลางและเล็ก รวมถึงครีเอเตอร์/ผู้เผยแพร่รายใหม่ การแข่งขันกับแบรนด์ใหญ่ในด้าน SEO ยากขึ้นมาก
3 ความคิดเห็น
งั้นลองบล็อกไม่ให้ปุ่มย้อนกลับทำงานไปเลยดีไหม 555
พอเห็นเอกสารที่ถูกแผ่ออกมาตรงหน้า ทั้งที่ก่อนหน้านี้ก็พอเดา ๆ ได้อยู่แล้ว แต่ก็ถึงกับสติแตกเลย...
Navboost พอจะยอมรับได้อยู่บ้าง...
แต่ไวต์ลิสต์นี่ช็อกจริง ๆ จะเรียกว่าไวต์ลิสต์ให้ดูดีไปอย่างนั้นเอง ที่จริงมันคือนโยบายเลือกปฏิบัติแบบโจ่งแจ้งชัด ๆ
เอกสาร Google Content API Warehouse ที่รั่วไหล
https://hexdocs.pm/google_api_content_warehouse/0.4.0/…