1 คะแนน โดย GN⁺ 2023-12-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ไม่สามารถสรุปเนื้อหาสำหรับคำขอนี้ได้ เนื่องจากเนื้อหาบทความที่ให้มาคือข้อความแสดงข้อผิดพลาด "403 Forbiddennginx" ซึ่งไม่ใช่เนื้อหาจริงของบทความ แต่เป็นรหัสสถานะ HTTP ที่บ่งชี้ว่าไม่มีสิทธิ์เข้าถึง โดยทั่วไปข้อผิดพลาดนี้เกิดขึ้นเมื่อเว็บเซิร์ฟเวอร์เข้าใจคำขอแล้ว แต่ไม่มีสิทธิ์ในการดำเนินการตามคำขอนั้น

ความเห็นของ GN⁺

  • ข้อผิดพลาด "403 Forbidden" เป็นปัญหาที่นักพัฒนาเว็บหรือผู้ดูแลระบบคุ้นเคย ซึ่งอาจเกิดจากการตั้งค่าสิทธิ์หรือความผิดพลาดในการกำหนดค่าเซิร์ฟเวอร์
  • ข้อความแสดงข้อผิดพลาดนี้หมายความว่าเซิร์ฟเวอร์ปฏิเสธการเข้าถึงเมื่อผู้ใช้พยายามเข้าสู่ส่วนใดส่วนหนึ่งของเว็บไซต์
  • ข้อผิดพลาดลักษณะนี้เกี่ยวข้องอย่างใกล้ชิดกับความปลอดภัยของเว็บ และเป็นฟังก์ชันสำคัญที่ช่วยป้องกันไม่ให้ผู้ใช้เข้าถึงข้อมูลที่ละเอียดอ่อนได้โดยไม่มีสิทธิ์ที่เหมาะสม

1 ความคิดเห็น

 
GN⁺ 2023-12-23
ความคิดเห็นบน Hacker News
    • นี่เป็นวิธีการสุ่มตัวอย่างที่ฉลาดมาก และขอปรบมือให้ผู้เขียน ตอนที่ทำงานอยู่ที่ Pew ผมเคยพยายามทำแผนที่ YouTube ด้วยการสำรวจแบบสุ่มผ่านเอนด์พอยต์ "วิดีโอที่เกี่ยวข้อง" ของ API และหลังจากผ่านไปหนึ่งปีก็ดูเหมือนว่าจะถึงจุดอิ่มตัวแล้ว แต่ขนาดที่อธิบายไว้ที่นี่บ่งชี้ว่ายังมีส่วนหางยาวที่หลบอยู่ใต้เรดาร์ หลังจากที่เราเผยแพร่งานวิจัยได้ไม่นาน Google ก็เริ่มปิดกั้น API แทบจะในทันที แต่ก็ดีใจที่เห็นผู้คนยังคงทำวิจัยต่อด้วยการสแครปแบบเก่า การวิเคราะห์ของเราทำในระดับช่องและมุ่งเน้นเฉพาะช่องยอดนิยม แต่ก็น่าสนใจที่ตัวเลขบางส่วนของ TubeStats ค่อนข้างใกล้เคียงกับสิ่งที่เราพบ (เช่น การกระจายของภาษา)*
    • ชื่นชมวิธีการสุ่มตัวอย่างที่ชาญฉลาด และแชร์ประสบการณ์ทำวิจัยลักษณะคล้ายกันที่ Pew
    • Google จำกัดการเข้าถึง API แต่ยังมองในแง่ดีที่งานวิจัยผ่านการสแครปยังดำเนินต่อไป
    • กล่าวถึงความคล้ายกันระหว่างงานวิจัยของตนกับข้อมูลของ TubeStats
    • นี่น่าสนใจในฐานะวิธีโจมตีแบบบรรเทาปัญหาสำหรับปัญหารถถังเยอรมัน ทางแก้ที่เหมาะที่สุดน่าจะเป็นการขยาย address space เพื่อป้องกันไม่ให้การสุ่มตัวอย่างแบบสุ่มจริงสามารถเก็บข้อมูลได้มากพอที่จะไปถึงข้อสรุปที่มีนัยสำคัญทางสถิติ อาจมีวิธีแก้ที่ดีอื่น ๆ ด้วยเช่นกัน แต่การสุ่มตัวอย่างที่เป็นแบบสุ่มจริงจะจำกัดแนวทางเช่นนี้ได้*
    • อ้างอิงปัญหารถถังเยอรมัน พร้อมเสนอการขยาย address space เพื่อป้องกันการเก็บข้อมูล
    • ขอแนะนำให้ลองดูชุดข้อมูล "YouTube dislikes" ชุดข้อมูลนี้ถูกสร้างขึ้นจากความพยายามเก็บถาวรข้อมูลก่อนที่ฟีเจอร์ dislike จะถูกถอดออก คุณสามารถใช้มันเพื่อค้นหาวิดีโอที่มีข้อถกเถียงมากที่สุด วิดีโอยอดนิยมที่มีคำอธิบายเป็นบางภาษา และอื่น ๆ ได้*
    • ให้ข้อมูลเกี่ยวกับความเป็นไปได้ในการวิเคราะห์โดยใช้ชุดข้อมูล YouTube dislikes
    • ผมพยายามจะหาว่า YouTube มีข้อมูลอยู่มากแค่ไหน แต่ไม่เจอตัวเลขนั้น ผมสมมติความยาววิดีโอเฉลี่ยที่ 500 วินาที บิตเรต 400 KB/s และคำนวณได้ 2.7 เอกซะไบต์จากฐานวิดีโอ 1.3 พันล้านรายการ นี่น่าจะเป็นค่าประมาณที่ต่ำกว่าปริมาณสตอเรจที่ YouTube ต้องใช้ เมื่อคำนึงถึงว่ามันเก็บวิดีโอยอดนิยมไว้ในหลายดาต้าเซ็นเตอร์ และจัดเก็บในรูปแบบ VP9 และ AV1 ด้วย เป็นไปได้ว่า YouTube จะบีบอัดวิดีโอที่ไม่ค่อยนิยม หรือทรานส์โค้ดตามต้องการจากฟอร์แมตอื่น ซึ่งอาจทำให้ค่าประมาณสูงขึ้น แต่ผมไม่คิดว่าเป็นแบบนั้น*
    • ให้ค่าประมาณของปริมาณข้อมูล YouTube และคาดเดาเกี่ยวกับวิธีการจัดเก็บ
    • Google เคยถามเรื่องปัญหาการสเกลของ YouTube สำหรับบางตำแหน่งงาน บ่อยครั้งมันจะต่อไปสู่คำถามเรื่องความซับซ้อนแบบบิ๊กโอของการซิงก์ข้อมูลล็อกในโครงสร้างพื้นฐานแบบกระจายที่เติบโตขึ้นเรื่อย ๆ ผลลัพธ์ออกมาเป็นฟังก์ชันบิ๊กโอ O(f(n)) ที่ซับซ้อนจนแทบอธิบายไม่ได้ สนุกดี*
    • กล่าวถึงปัญหาความสามารถในการสเกลของ YouTube จากประสบการณ์สัมภาษณ์งานกับ Google
    • ผลลัพธ์ประกอบของบทความนี้คือเว็บไซต์นี้: TubeStats.org*
    • ให้ลิงก์เว็บไซต์ที่เกี่ยวข้องกับบทความ
    • ใหญ่มาก เมื่อคืนนี้ผมได้รับการแจ้งเตือนให้ อัปเดตแอป YouTube บนโทรศัพท์ ปัญหาคือนั่นเป็นเวอร์ชันสุดท้ายที่จะรันบนโทรศัพท์ผม อย่างน้อยบนเว็บก็ยังใช้งานได้*
    • แชร์ประสบการณ์ส่วนตัวเกี่ยวกับขนาดของแอป YouTube และปัญหาการอัปเดต
    • ชุดข้อมูลนี้น่าสนุก งานวิจัยทำให้เกิดความเข้าใจคลาดเคลื่อนเล็กน้อยเกี่ยวกับสถิติระดับช่อง: ถ้าไม่ปรับจำนวนผู้ติดตามใหม่เพื่อแก้อคติของการสุ่มตัวอย่าง คุณควรถ่วงน้ำหนักด้วยประมาณ ~1/# สำหรับจำนวนวิดีโอต่อช่อง เพราะความน่าจะเป็นที่ช่องหนึ่งจะปรากฏนั้นแปรผันตามจำนวนวิดีโอสาธารณะของช่องนั้น*
    • อธิบายความเป็นไปได้ของความเข้าใจผิดเกี่ยวกับสถิติระดับช่อง และวิธีการสุ่มตัวอย่าง
    • ฟังก์ชันการสุ่มตัวอย่างสมมติว่าทุก "รหัสพื้นที่" มีจำนวนหมายเลขที่ใช้ได้เท่ากันหรือไม่? สำหรับบางไซต์ขนาดใหญ่ (เช่น Twitter เป็นต้น) ชาร์ดที่เก็บข้อมูลซึ่งถูกเรียกขอบ่อยกว่านี้อาจมีความหนาแน่นต่ำกว่ามาก ตัวอย่างเช่น รหัสพื้นที่ที่มี Justin Bieber อาจมีหมายเลขน้อยกว่า เรื่องนี้อาจทำให้ผลลัพธ์บิดเบี้ยวได้มาก*
    • ตั้งคำถามต่อวิธีการสุ่มตัวอย่าง และชี้ให้เห็นผลกระทบจากความหนาแน่นของชาร์ดข้อมูลที่ต่างกัน
    • นี่คือสิ่งที่ดีที่สุดที่ผมเคยเห็น Redditmap.social*
    • แสดงความชื่นชมต่อเว็บไซต์หนึ่ง