YouTube มีขนาดใหญ่แค่ไหน?

(ethanzuckerman.com)

1 คะแนน โดย GN⁺ 2023-12-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

หากไม่มี ตัวหาร สำหรับประเมินภาพรวมของทั้งแพลตฟอร์ม ผลการวิจัยเรื่องข้อมูลเท็จหรืออิทธิพลของระบบแนะนำก็อาจขาดบริบทได้ง่าย ทีมวิจัยจึงพยายามประเมินขนาดทั้งหมดของ YouTube ด้วยการสุ่มตัวอย่าง
วิดีโอ ID ของ YouTube มีความยาว 11 ตัวอักษร และมี address space ที่เป็นไปได้ 2^64 ค่า จึงแทบเป็นไปไม่ได้ที่จะหาวิดีโอที่ใช้ได้ด้วยการสุ่มใส่ URL แบบตรง ๆ
ทีมวิจัยใช้วิธี “drunk dialing” และเทคนิคเพิ่มประสิทธิภาพเพื่อเก็บวิดีโอสุ่มจริงได้ มากกว่า 10,000 รายการ ตลอดหลายเดือน และประเมินว่าปัจจุบัน YouTube มีวิดีโอประมาณ 13.325 พันล้านรายการ
จากการวิเคราะห์ตัวอย่าง พบว่าในปี 2023 เพียงปีเดียวมีการอัปโหลดวิดีโอ มากกว่า 4 พันล้านรายการ และยอดดูค่ามัธยฐานอยู่ที่ 39 ครั้ง แสดงให้เห็นว่า long tail ของ YouTube มีขนาดใหญ่มาก
Tubestats พยายามอัปเดตการประเมินขนาดต่อเนื่อง แต่ก็ยังมี ข้อจำกัดด้านจริยธรรม เรื่องการไม่เปิดเผย URL ของวิดีโอที่แม้จะเป็นสาธารณะ แต่ในทางปฏิบัติแทบไม่มีใครค้นพบ

ปัญหาเรื่องตัวหารที่ทำให้งานวิจัย YouTube ยากขึ้น

งานวิจัยโซเชียลมีเดียมักมุ่งไปที่การค้นหาปรากฏการณ์ที่มองเห็นได้ชัด เช่น ข้อมูลเท็จหรือคำพูดแสดงความเกลียดชัง แต่หากไม่รู้ว่าสิ่งเหล่านี้คิดเป็นสัดส่วนเท่าไรในทั้งแพลตฟอร์ม การประเมินขนาดก็จะคลาดเคลื่อนได้
- ตัวอย่างเช่น สามารถนับจำนวนผลลัพธ์จากคำค้นอย่าง “white genocide” หรือ “ivermectin” ได้
- รายงานข้อมูลเท็จเรื่อง COVID ของ Avaaz เมื่อเดือนสิงหาคม 2020 นับยอดดูรวมได้ 3.8 พันล้านครั้ง ตลอด 1 ปี แต่หากไม่มีตัวหารที่เป็นยอดดูของทั้งแพลตฟอร์ม ก็ยากจะตัดสินว่าตัวเลขนี้ใหญ่หรือเล็ก
Reddit และ Twitter เคยเปิดให้เข้าถึงข้อมูลที่ช่วยประเมินภาพรวมของทั้งแพลตฟอร์มได้อยู่ช่วงหนึ่ง
- Reddit มี Pushshift ที่ทำให้สามารถเก็บโพสต์ทั้งหมดได้ จึงเปรียบเทียบขนาดรายชุมชนได้
- หลังจากปิดการเข้าถึงสาธารณะของ Pushshift ในฤดูร้อนปี 2023, Redditmap.social จึงใช้ได้เฉพาะข้อมูลที่สร้างไว้ก่อนหน้านั้นในปีนั้น
- Twitter เคยมี research API ที่ให้ตัวอย่างทวีต 1 ใน 10 หรือ 1 ใน 100 ของทั้งหมด แต่ภายหลังก็ปิดการเข้าถึง และเรียกเก็บค่าใช้จ่ายสูงสำหรับการเข้าถึงที่น้อยลง

YouTube ได้ตัวอย่างที่เป็นตัวแทนได้ยาก

YouTube เป็นแพลตฟอร์มขนาดใหญ่ที่แทบทุกคนบนอินเทอร์เน็ตใช้งาน
- ตามข้อมูลของ Pew, วัยรุ่น 93% ใช้ YouTube
- บริการที่ใกล้เคียงที่สุดคือ TikTok 63% และ Snapchat 60%
แม้จะมี API ที่มีเอกสารประกอบ แต่ก็ไม่มีวิธีที่ดีในการได้ ตัวอย่างสุ่มที่เป็นตัวแทน ของ YouTube ทั้งหมด
งานวิจัย YouTube ที่มีอยู่เดิมพึ่งพาอยู่หลัก ๆ สองวิธี
- เก็บวิดีโอทั้งหมดจากช่องผู้ใช้ที่เลือกมาแล้วนำมาวิเคราะห์
- เริ่มจากวิดีโอหนึ่ง แล้วไล่เก็บวิดีโอแนะนำต่อ ๆ ไป
ทั้งสองวิธีใช้กับงานวิจัยที่มีความหมายได้ แต่ยังไม่เพียงพอสำหรับการสร้างตัวอย่างวิดีโอของ YouTube ทั้งหมดหรือคำนวณขนาดของแพลตฟอร์ม

การสุ่มยิง URL แบบ “drunk dialing”

Jason Baumgartner เสนอวิธีสุ่มยิง URL โดยใช้ InnerTube ซึ่งเป็น API ไม่เป็นทางการของ YouTube
วิดีโอ ID ใน URL ของ YouTube คือ สตริงยาว 11 ตัวอักษร ที่ต่อท้าย watch?v=
- 10 ตัวแรกอาจเป็น a-z, A-Z, 0-9, _, -
- ตัวสุดท้ายเลือกได้จากเพียง 16 ค่า
- จำนวนที่อยู่ YouTube ที่เป็นไปได้มี 2^64 ค่า หรือประมาณ 18.4 quintillion
ต่อให้สมมติว่า YouTube มีวิดีโอ 1 พันล้านรายการ ความน่าจะเป็นที่ URL สุ่มหนึ่งรายการจะใช้ได้ก็อยู่ที่ราว 1 ใน 18.4 พันล้าน
ทีมวิจัยเรียกวิธีนี้ว่า “drunk dialing” และ Jason Baumgartner ก็พบวิธีอ้อมที่เพิ่มประสิทธิภาพได้ราว 32,000 เท่า
Kevin Zheng เขียนสคริปต์สำรวจและเก็บวิดีโอ YouTube แบบสุ่มจริงได้ มากกว่า 10,000 รายการ ตลอดหลายเดือน

ขนาดและการกระจายตัวของ YouTube จากตัวอย่างสุ่ม

ปัจจุบันค่าประมาณขนาดของ YouTube อยู่ที่ 13.325 พันล้านวิดีโอ และมีการอัปเดตทุกไม่กี่สัปดาห์ที่ tubestats.org
การดูอายุของวิดีโอสุ่มช่วยให้คำนวณอัตราการเติบโตของ YouTube ได้
- มีการประเมินว่าในปี 2023 เพียงปีเดียว มีวิดีโอถูกโพสต์ลง YouTube มากกว่า 4 พันล้านรายการ
การกระจายของยอดดูมีลักษณะ long tail อย่างชัดเจน
- ยอดดูค่ามัธยฐานของวิดีโอ YouTube คือ 39 ครั้ง
- YouTube ชอบแนะนำวิดีโอที่มียอดดูเกิน 10,000 ครั้ง
- วิดีโอที่มียอดดูเกิน 10,000 ครั้งมีเพียงประมาณ 4% ของชุดข้อมูล แต่กินสัดส่วนยอดดูรวมของ YouTube จำนวนมาก
วิดีโอสุ่มที่เก็บมาได้ยังถูกใช้เพื่อประเมินการกระจายของภาษา
- Kevin Zheng เชื่อมสคริปต์ค้นหากับระบบตรวจจับภาษาหลายระบบ
- ค่าประมาณนี้พอปกป้องได้ แต่ยังไม่สมบูรณ์แบบ

dash method ที่มีประสิทธิภาพมากกว่า

การสำรวจ URL แบบสุ่มครอบคลุม address space ทั้งหมด จึงใช้เป็นเกณฑ์อ้างอิงเพื่อตรวจสอบความเป็นสุ่มของวิธีสุ่มตัวอย่างแบบอื่นได้
ทีมวิจัยมองว่าหากวิธีสร้างรายการวิดีโอแบบอื่นให้ผลใกล้เคียงกับการสำรวจแบบสุ่ม ก็อาจถือว่า “สุ่มได้อย่างสมเหตุสมผล”
วิธีที่ Jia Zhou และคณะค้นพบในปี 2011 ทำงานเป็นวิธีเก็บตัวอย่างที่มีประสิทธิภาพยิ่งกว่า
- สร้าง สตริง 5 ตัวอักษร ที่มีอักขระหนึ่งตัวเป็นขีดกลาง
- ระบบ autocomplete ของ YouTube จะเติม URL ให้สมบูรณ์ และหากมีอยู่จริงก็จะคืนวิดีโอที่ตรงกัน
ปัจจุบัน Kevin Zheng ใช้ dash method นี้ในการ query YouTube เป็นระยะเพื่อดูแลแดชบอร์ด Tubestats

วิดีโอ long tail และข้อจำกัดด้านจริยธรรม

ตัวอย่างสุ่มไม่ได้มีแค่ครีเอเตอร์ที่ประสบความสำเร็จ แต่ยังใช้ดูได้ด้วยว่าผู้สร้างในปลายล่างของ long tail ของสื่อที่ผู้ใช้สร้างขึ้น ใช้เครื่องมือเหล่านี้อย่างไร
วิดีโอส่วนใหญ่ที่เก็บมาได้มีผู้ชมเพียงไม่กี่สิบคน
- หากเปิดเผย URL ก็อาจทำให้วิดีโอที่แม้จะเป็น “สาธารณะ” แต่แทบไม่มีใครมองเห็น ถูกนำไปสู่การตรวจสอบจากสาธารณะ
- ดังนั้นงานวิจัยจึงไม่ใส่รายการ URL ของวิดีโอที่ค้นพบไว้ในบทความ
Ryan McGrady เป็นผู้นำการดูวิดีโอสุ่ม 1,000 รายการด้วยตนเองและทำการ coding แบบ manual
งานวิจัยที่เกี่ยวข้องตีพิมพ์ใน Journal of Quantitative Description และการแนะนำผลจากการ coding แบบ manual ถูกรวบรวมไว้ใน บทความของ Ryan

เหตุผลที่ต้องการดูแล Tubestats ต่อไป

ทีมวิจัยมีแผนจะดูแล Tubestats ต่อไปให้นานที่สุดเท่าที่ทำได้
เป็นไปได้ว่า YouTube อาจคัดค้านทรัพยากรนี้หรือวิธีการสร้างมัน
แพลตฟอร์มสื่อขนาดใหญ่ที่ผู้ใช้สร้างเนื้อหาเองเป็นส่วนสำคัญของพื้นที่สาธารณะดิจิทัล ดังนั้นควรมีการเปิดเผย ข้อมูลระดับสูง อย่างสม่ำเสมอ ว่าบนแพลตฟอร์มมีอะไรอยู่ ใครเป็นผู้สร้าง และเข้าถึงใครบ้าง

1 ความคิดเห็น

GN⁺ 2023-12-23

ความคิดเห็นจาก Hacker News

วิธีสุ่มตัวอย่างฉลาดมากจริง ๆ ขอปรบมือให้ผู้เขียน ตอนอยู่ที่ Pew เคยพยายามทำแผนที่ YouTube ด้วยการทำ random walk ตาม endpoint "related videos" ของ YouTube API และหลังผ่านไปประมาณ 1 ปีดูเหมือนจะถึงจุดอิ่มตัวแล้ว แต่เมื่อดูขนาดที่ออกมาจากงานนี้ ดูเหมือนว่ายังมี long tail ที่ยาวพอสมควรซ่อนอยู่ใต้เรดาร์
ทันทีที่เผยแพร่งานวิจัย Google ก็เริ่มล็อก API แทบจะในทันที แต่ก็ดีใจที่ยังมีคนทำวิจัยต่อด้วย การสแครป แบบเก่า ๆ อยู่ ตอนนั้นการวิเคราะห์อยู่ในระดับช่องและโฟกัสเฉพาะช่องยอดนิยม แต่ก็น่าสนใจที่ตัวเลขบางส่วนของ TubeStats ค่อนข้างใกล้เคียงกับสิ่งที่เราพบ เช่น การกระจายของภาษา: https://www.pewresearch.org/internet/2019/07/25/a-week-in-th...
- ถ้าคิดถึงการที่บอตของ Google กวาดเว็บไม่หยุดและกระหน่ำเว็บไซต์จนแทบล่ม การที่ Google ล็อก API ก็ดู ย้อนแย้ง พอสมควร
- ด้วยวิธีนี้น่าจะค้นพบวิดีโอประเภท วิดีโอสาธารณะแบบจำกัดบางส่วน ที่ไม่ได้ถูกลิงก์จากระบบแนะนำได้ด้วย
- เทคนิคนี้ไม่ใช่ของใหม่ เป็นวิธีที่นักชีววิทยาใช้ในการนับจำนวนปลาในทะเลสาบ
  เช่น จับปลา 100 ตัวมาติดเครื่องหมาย รอหนึ่งสัปดาห์ แล้วจับปลาอีก 100 ตัวมานับว่ามีปลาที่ติดเครื่องหมายอยู่กี่ตัว
- ดูเหมือนว่า YouTube จะล็อก API หลังจาก สแกนดัล Cambridge Analytica
นี่เป็นวิธีที่น่าสนใจในการเจาะมาตรการบรรเทาปัญหา German tank problem https://en.m.wikipedia.org/wiki/German_tank_problem
ทางออกที่เหมาะที่สุดน่าจะเป็นการขยาย address space ให้ใหญ่พอจนตัวอย่างแบบสุ่มไม่สามารถรวบรวมข้อมูลมากพอที่จะได้ข้อสรุปที่มีนัยสำคัญทางสถิติได้ คงมีทางออกดี ๆ อื่นที่พยายามเปลี่ยนการกระจายในหลายรูปแบบ แต่ถ้าเป็นตัวอย่างสุ่มจริง ๆ การรับมือในทิศทางนั้นก็น่าจะมีข้อจำกัด
- ในบทความไม่เห็นพูดถึง แต่สิ่งนี้ขึ้นอยู่กับสมมติฐานว่าเป็น การแจกแจงสม่ำเสมอแบบไม่ต่อเนื่อง เราไม่รู้ว่า Google เล่นอะไรกับตัวระบุไว้บ้าง
- ไม่เข้าใจว่าตัวอย่างสุ่มจะแก้การกระจายแบบเป็นกลุ่มได้อย่างไร การประมาณไม่ได้อาศัยสมมติฐานเรื่องความต่อเนื่องหรือ?
  เช่น ถ้าที่อยู่มีตั้งแต่ /v=0x00 ถึง 0xff แต่ในความเป็นจริงใช้เฉพาะ f0 ถึง ff ถ้าสมมติว่าวิดีโอกระจายแบบสุ่ม ค่าประมาณก็จะไม่เอนเอียงผิดตลอดหรือ?
  กล่าวคือเหมือนนำตัวกรองตามใจไปใช้กับพื้นที่ที่ระบุที่อยู่ได้ แล้วค่อยจัดสรรที่อยู่ ตัวอย่างสุ่มแบบเดียวกันก็จะคลาดเคลื่อนไปในระดับเดียวกัน แต่ผมไม่รู้ ความเบาบาง ที่ผมใช้เป็นตัวกรอง
ชุดข้อมูล "YouTube dislikes" ก็น่าลองดู: https://clickhouse.com/docs/en/getting-started/example-datas...
ที่ชื่อนี้เพราะเป็นงานเก็บถาวรที่พยายามรวบรวมข้อมูลก่อนฟีเจอร์ไม่ชอบจะถูกลบ สามารถใช้ค้นหาวิดีโอที่ก่อข้อถกเถียงมากที่สุด หรือวิดีโอยอดนิยมที่มีคำอธิบายในภาษาหนึ่ง ๆ ได้
- YouTube เป็นแพลตฟอร์มที่ใหญ่และเปิดสาธารณะมาก จนแทบจะเป็น สินค้าสาธารณะ ดังนั้นสถิติเช่นจำนวนไม่ชอบจึงสำคัญ
  ในบทความก็กล่าวว่า “YouTube อาจคัดค้านทรัพยากรนี้หรือวิธีที่ใช้สร้างมันขึ้นมา หากจะโต้แย้ง เราเชื่อว่าข้อมูลระดับสูงเช่นนี้ควรถูกเผยแพร่เป็นประจำสำหรับแพลตฟอร์มสื่อที่ผู้ใช้สร้างเนื้อหารายใหญ่ทุกแห่ง แพลตฟอร์มเหล่านี้เป็นหนึ่งในส่วนที่สำคัญที่สุดของพื้นที่สาธารณะดิจิทัล และเราต้องการข้อมูลมากกว่านี้มากเกี่ยวกับสิ่งที่อยู่ในนั้น ใครเป็นผู้สร้าง และเข้าถึงใครบ้าง”
  รัฐบาลควรกำกับให้แพลตฟอร์มเปิดเผยสถิติเหล่านี้ เพื่อให้หน่วยงานสถิติสามารถรวบรวมได้
- ผู้เขียนคอมเมนต์นี้คือ CEO ของ ClickHouse
ผมอยากรู้ว่า YouTube มีข้อมูลอยู่มากแค่ไหน แต่ไม่มีตัวเลขนั้นให้เห็น ลองคำนวณคร่าว ๆ จากสถิติที่มี พบว่าความยาววิดีโอเฉลี่ยอยู่ราว 500 วินาที
ถ้าตั้ง bitrate ไว้ที่ 400KB/s และจำนวนวิดีโอ 13 พันล้านรายการ จะได้ 2.7 เอ็กซาไบต์ ค่า 400KB/s นี้เป็นค่าที่ได้จากวิดีโอ FHD 24~30fps ไม่กี่รายการที่ดาวน์โหลดเอง จึงเป็นการประมาณที่หยาบมาก YouTube น่าจะเข้ารหัสช่วงที่มีปริมาณข้อมูลเชิงรับรู้น้อยด้วย bitrate ที่ต่ำกว่า และวิดีโอก็มีทั้งความละเอียดกับเฟรมเรตที่ต่างกัน อีกทั้งการกระจายตัวของสิ่งเหล่านี้ก็เปลี่ยนไปตามประวัติของบริการด้วย ถ้าสมมติว่าวิดีโอทั้งหมดเป็น 4K ที่ bitrate 1.5MB/s ก็จะเป็น 10 เอ็กซาไบต์
การประมาณนี้เป็นการตีพื้นที่จัดเก็บที่ YouTube ต้องใช้ไว้ค่อนข้างต่ำ เพราะวิดีโอยอดนิยมจะถูกเก็บไว้ในหลาย data center และเก็บทั้งแบบ VP9 กับ AV1 ในทางกลับกัน ถ้าบีบอัดวิดีโอที่ไม่เป็นที่นิยมหรือ transcode แบบ on-demand จากฟอร์แมตอื่น การประมาณนี้ก็อาจสูงเกินไปได้ แต่ดูแล้วโอกาสเป็นแบบนั้นต่ำ
- การประมาณพื้นที่จัดเก็บนั้นมีโอกาสสูงที่จะคลาดเคลื่อนในระดับ หลักเดียวของจำนวนหลัก
  400KB/s หรือ 3.2Mbps ที่ใช้กันบ่อยในการเข้ารหัสวิดีโอ ถือว่าค่อนข้างต่ำสำหรับคุณภาพต้นฉบับ FHD หรือการอัปโหลด 1080p ตัวเลขของวิดีโอ 4K ค่อนข้างใกล้กับการอัปโหลดต้นฉบับเฉลี่ยมากกว่า
  ยังต้องคำนึงด้วยว่า YouTube บีบอัดอย่างน้อยด้วย codec วิดีโอสองตัวคือ H.264 และ VP9 สำหรับแต่ละ codec จะมีทุกความละเอียดตั้งแต่ 320p ไปจนถึง 1080p ขึ้นไป ตามคุณภาพการอัปโหลดต้นฉบับ วิดีโอยอดนิยมและวิดีโอ 4K จำนวนมากก็ถูกเข้ารหัสเป็น AV1 ด้วย บางรายการยังมี HEVC สำหรับวิดีโอ 360 องศาแบบ surround ด้วย อ่านไม่ผิดหรอก YouTube มี H.265 HEVC
  และทั้งหมดนี้ยังไม่รวมการทำสำเนาหรือการเก็บซ้ำเลย ต่อให้ยอดรวมเกิน 100EB ได้ง่าย ๆ ก็ไม่น่าแปลกใจ เท่ากับ Dropbox 100 แห่งในปี 2020
- อีกด้านหนึ่ง ไม่ใช่ว่า “มีแค่สองฟอร์แมตหรือ?” ยังมีอย่าง H.264 อีก และความละเอียดก็อาจมีหลายระดับ นอกจากนี้อาจมีหรือเคยมีข้อผูกพันตามสัญญาที่ต้องให้บริการความละเอียดบางระดับในฟอร์แมตบางแบบเสมอ
  แต่อีกด้านหนึ่ง ก็อาจมีวิดีโอจำนวนมากที่มียอดเข้าชมต่ำอย่างเหลือเชื่อด้วย และอีกด้านหนึ่งก็ควรนึกด้วยว่า YouTube ถึงขั้นต้องทำชิป transcode ของตัวเอง พูดง่าย ๆ คือมันซับซ้อน
  เมื่อ 10 ปีก่อนผมรู้คำตอบของคำถามนี้ และเคยช่วยคนดูแล storage ลดต้นทุน เพิ่งทราบเมื่อไม่กี่วันก่อนว่า R.L. หนึ่งในคนเหล่านั้นเสียชีวิตเมื่อเดือนกุมภาพันธ์ปีนี้ RIP
- ลืม overhead ของ replication และ erasure coding ไปแล้ว 10 เอ็กซาไบต์บอกตรง ๆ ว่าดูต่ำมาก ตอนนี้น่าจะใกล้ 50~100EB มากกว่า
- ตอนที่คำนวณจากตัวเลขรายงานประจำปีของเวลาที่อัปโหลดต่อหนึ่งนาทีในปี 2013 เนื้อหาอยู่ที่ 375PB และเพิ่มขึ้นวันละ 185TB โดยมีอัตราเติบโตปีละ 70%
  การคำนวณนี้ไม่รวมไฟล์เข้ารหัสหลายชุดหรือการเก็บต้นฉบับ
- ยังต้องคำนึงด้วยว่า YouTube เก็บสำเนาต้นฉบับที่อัปโหลดไว้อย่างถาวร ต้นฉบับอาจเป็นไฟล์ที่ใหญ่กว่าก็ได้
มีเว็บไซต์ที่ลิงก์ไว้ร่วมกับผลลัพธ์ของบทความนี้: https://tubestats.org/
Google เคยถาม คำถามด้าน scalability เกี่ยวกับ YouTube ในการสัมภาษณ์บางตำแหน่งอยู่บ้าง โดยมากจะนำไปสู่ปัญหาการซิงก์ข้อมูล log ในโครงสร้างพื้นฐานแบบกระจายที่ขยายตัวขึ้นเรื่อย ๆ และมักได้ผลลัพธ์แนว Big-O(f(n)) ที่น่าขันจนแทบอธิบายเป็นคำพูดไม่ได้
ที่มา: เคยสัมภาษณ์กับ Google มาหลายครั้ง
ผู้เขียนเขียนว่าใช้ “cheats” ขึ้นอยู่กับว่าสิ่งนี้ทำอะไร สมมติฐาน iid ที่ว่าตัวอย่างเป็นอิสระกันอาจพังได้
ถ้าคล้ายกับ snowball sampling ก็อาจได้อัตราความสำเร็จที่ “สูงเกินจริง” และทำให้ตัวเลขพองขึ้น มีประโยคว่า “Jason พบ cheat บางอย่างที่ทำให้วิธีนี้มีประสิทธิภาพขึ้นประมาณ 32,000 เท่า ดังนั้น ‘การโทร’ ของเราจึงต่อสายติดบ่อยขึ้นมาก”
- อ่านบทความให้จบก็พอ
  เขียนไว้ว่า “Jia Zhou และคณะค้นพบในปี 2011 และมีประสิทธิภาพกว่าวิธีไร้เดียงสาของเรามาก ถ้าสร้างสตริงห้าตัวอักษรที่มีตัวหนึ่งเป็นขีดกลาง YouTube จะ autocomplete URL นั้น และถ้ามีอยู่จริงก็จะแสดงวิดีโอที่ตรงกันออกมา”
- มีความเป็นไปได้สูงว่าใน URL มี checksum อยู่ จึงตรวจจับการพิมพ์ผิดได้โดยไม่ต้องเข้าถึงวิดีโอจริง
  แม้ไม่รู้ว่า checksum ถูกสร้างอย่างไร ก็สามารถลองค่าทั้งหมดกับตัวอย่างหนึ่งจากพื้นที่ ID จริงได้
- cheat นั้นน่าจะเป็นวิธีใช้บางอย่างอย่าง playlist API ที่คืนค่าผลลัพธ์แยกตามวิดีโอว่ามีอยู่หรือไม่
  เช่นเรียก API เพื่อสร้าง playlist ที่มี ID x, x+1, x+2, ... แล้วดึงรายการกลับมา ก็จะมีเฉพาะ x+2 ซึ่งเป็น ID ที่ถูกจัดสรรแล้วอยู่ในรายการ
- ถ้าตัวอย่างถูกบิดเบือน ข้อมูลคงดูเรียบร้อยแบบนั้นไม่ได้ ผมคิดว่าถ้า Google ทำอะไรที่น่าสนใจจริง ๆ มันคงไม่จบแค่บิดเบือนไปเล็กน้อย
- เห็นด้วย
  สำหรับมือใหม่ด้านสถิติอย่างผม จำเป็นต้องมีการพิสูจน์ว่าต่อให้ใช้ cheat กับ autocomplete ความเป็นอิสระของตัวอย่างก็ไม่เสีย และยังรักษาการสุ่มตัวอย่างให้เป็นแบบสุ่มที่สุดเท่าที่ทำได้
  สถานการณ์ที่โทรสุ่มตอนเมา แล้วทุกครั้งมีคนคอยช่วยเหมือนโอเปอเรเตอร์ให้ต่อสายไปหาใครสักคนได้แม้กดเบอร์ผิด ดูไม่เหมือนการสุ่ม
  แต่ผมยังไม่ได้อ่าน paper 85 หน้า อาจพูดถึงไว้ในนั้นก็ได้
เป็น dataset ที่น่าสนุก paper ทำให้เกิดความเข้าใจคลาดเคลื่อนเล็กน้อยเกี่ยวกับสถิติของช่อง
ตามที่ผมเข้าใจ เมื่อดูจำนวนผู้ติดตาม เขาไม่ได้ reweight เพื่อแก้ sampling bias ถ้าตัวอย่างเป็นเพียงส่วนเล็ก ๆ ของประชากรทั้งหมด ความน่าจะเป็นที่ช่องหนึ่งจะปรากฏจะเป็นสัดส่วนกับจำนวนวิดีโอสาธารณะของช่องนั้น ดังนั้นควรถ่วงน้ำหนักประมาณ 1/จำนวนวิดีโอต่อช่อง
- ผมก็เห็นจุดนั้นเหมือนกัน การที่ผู้ติดตาม 1 ล้านคน อยู่ที่เปอร์เซ็นไทล์ 98 ดูไม่น่าเป็นไปได้มาก และไม่น่าจะไม่ใช่เปอร์เซ็นไทล์ 99.999
สำหรับคนที่สงสัย วิธีประเมินของพวกเขาคร่าว ๆ คือแบบนี้
สมมติช่วงของค่า และสมมติฟังก์ชันความน่าจะเป็นที่ยุติธรรมสำหรับการสุ่มตัวอย่างจากช่วงนั้น ขนาดที่ประเมินได้คืออัตราที่สุ่มเจอคูณด้วยช่วงค่าทั้งหมด
- ผมอ่านผ่าน ๆ แล้ว ถ้าเป็นแบบนั้นก็มีสมมติฐานค่อนข้างเยอะ
  สมมติว่าช่วงของค่าที่เป็นไปได้นั้นถูกต้อง ถ้าเป็นรูปแบบที่เพิ่ม 1 ให้กับตัวอักษร 10 ตัวในช่วงหนึ่ง ก็เท่ากับแทนวงกลมขนาดมหึมาวงหนึ่งที่อาจมีวิดีโออยู่
  ทั้งหมดอยู่ที่การกระจายตัวของ identifier หรือวิดีโอที่ valid ถ้า YouTube ใส่ข้อจำกัดหรือความเอนเอียงบางอย่างใน ID ที่เราไม่รู้ ID วิดีโอที่มีอยู่จริงอาจเป็นวงกลมที่เล็กกว่าอยู่ในวงความเป็นไปได้ขนาดใหญ่นั้น และอาจไม่ได้กระจายสม่ำเสมอทั่วทั้งหมด อาจมีการกระจุกตัวด้วย ถ้าอย่างนั้นเพื่อให้ได้ silhouette ของความเอนเอียงนั้น หรือดูคร่าว ๆ ว่าสุ่มจริงไหม ก็น่าจะต้องสุ่มตัวอย่างเหมือนปาลูกดอกลงใน space เช่นด้วยการแจกแจงแบบ Poisson
  แล้วจากนั้นจึงค่อยประเมินขนาดได้ สิ่งที่พวกเขาทำคือแบบนั้นหรือเปล่า? แล้วไม่มีใครลองถาม YouTube ตรง ๆ หรือ?
วิธีนี้ป้องกันได้ง่ายมาก แค่ส่งคืน วิดีโอแบบสุ่ม สำหรับตัวระบุที่ไม่มีอยู่จริงในสัดส่วนหนึ่งก็พอ เติมความสุ่มลงไปอีกเล็กน้อยก็เพียงพอแล้ว
นี่แหละคือความเสี่ยงที่มาพร้อมกับการอธิบายวิธีการ
- ถ้าอย่างนั้น ดูเหมือนว่าจะทำให้ใช้งานจริงได้ยากมากโดยไม่ทำลาย เงื่อนไขคงที่ จำนวนมากทั่วทั้งระบบ
  เช่น เงื่อนไขอย่าง ID วิดีโอต้องไม่เปลี่ยนแปลง และวิดีโอหนึ่งรายการต้องถูกแทนด้วย ID วิดีโอที่ไม่ซ้ำกันเพียงรายการเดียวเท่านั้น
- ถ้าวิดีโอโผล่ออกมาจาก ID ที่สร้างแบบสุ่ม ก็แค่ query ซ้ำทันทีแล้วดูว่าเป็นวิดีโอเดียวกับก่อนหน้าหรือไม่
  ถ้าไม่เหมือนกัน ก็ทิ้งผลลัพธ์นั้นไปและถือว่า ID ที่สร้างขึ้นนั้นจริง ๆ แล้วไม่มีอยู่ ถ้าเหมือนกัน ก็รู้ได้ว่าเป็น ID จริง
  ตราบใดที่ URL วิดีโอ YouTube ไม่เปลี่ยนแปลง วิธีนี้ก็สามารถต้านการบล็อกที่กล่าวถึงข้างต้นได้
- อย่างไรก็ตาม ถ้า YouTube ไม่ประกาศว่าทำแบบนั้น เราก็จะไม่รู้ว่าวิธีนั้นถูกทำให้ใช้ไม่ได้แล้วหรือไม่ ยิ่งไปกว่านั้น วิดีโออื่นนั้นก็จะมี UID เดิมของตัวเองอยู่แล้ว ดังนั้นในทางทฤษฎี เราอาจรู้ได้ด้วยว่ามันถูกทำซ้ำขึ้นมาเพื่อขัดขวางการวัดแบบนี้หรือไม่
- แค่นึกภาพว่าต้องดีบัก ข้อผิดพลาดในโปรดักชัน ในระบบแบบนั้นก็ยากแล้ว
- ID วิดีโอเป็นแบบเรียงลำดับภายในโดเมนที่ใช้งานได้ หรือกระจัดกระจายอย่างสมบูรณ์? มีจุดร่วมอะไรในบรรดา ID วิดีโอที่รู้ว่ายังใช้งานอยู่ ซึ่งอาจช่วยให้ไล่ตรวจความเป็นไปได้ระดับ quintillion ได้ง่ายขึ้นหรือไม่?

YouTube มีขนาดใหญ่แค่ไหน?

ปัญหาเรื่องตัวหารที่ทำให้งานวิจัย YouTube ยากขึ้น

YouTube ได้ตัวอย่างที่เป็นตัวแทนได้ยาก

การสุ่มยิง URL แบบ “drunk dialing”

ขนาดและการกระจายตัวของ YouTube จากตัวอย่างสุ่ม

dash method ที่มีประสิทธิภาพมากกว่า

วิดีโอ long tail และข้อจำกัดด้านจริยธรรม

เหตุผลที่ต้องการดูแล Tubestats ต่อไป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News