- บทความเกี่ยวกับความไม่แม่นยำของ n-grams ใน Google Ngram Viewer
- ผู้เขียนชี้ว่า ความถี่ของคำภาษาอังกฤษทั่วไปที่ Ngram แสดงนั้นไม่ได้สะท้อนการใช้งานจริงในศตวรรษที่ 20 อย่างแม่นยำ
- ผู้เขียนและ Talia Felix ใช้ Google Books ในการวิจัย แต่พบว่ามันเป็นฐานข้อมูลที่ประกอบขึ้นอย่างผิดพลาดและมีข้อผิดพลาดที่ซ่อนอยู่มากมาย
- คำอธิบายของหนึ่งในข้อผิดพลาดที่ Ngram รับทอดมาจาก Google Books ในสูตรของมัน ซึ่งทำให้ดูเหมือนว่าคำภาษาอังกฤษจำนวนมากมีการใช้งานลดลงตลอดศตวรรษที่ 20 แล้วกลับมาฟื้นอีกครั้งในทศวรรษ 1980
- ข้อผิดพลาดนี้เกิดจากคลังข้อมูลของ Google Books ที่ส่วนใหญ่เป็นงานวิชาการ ซึ่งวารสารวิทยาศาสตร์และวิชาการสมัยใหม่มีแนวโน้มใช้คำชุดจำกัดซ้ำๆ
- การใช้คำบางคำมากเกินไปในงานเขียนเชิงวิชาการทำให้ความถี่ของคำอื่นๆ ดูต่ำกว่าความเป็นจริงอย่างผิดเพี้ยน จนเกิด "ช่วงขาลง" กลางศตวรรษที่ 20 ใน Ngram ของแทบทุกคำ
- ข้อผิดพลาดอื่นๆ ได้แก่ Google Books ไม่สามารถรับรู้ความเป็นคำเดียวกันในกรณีการสะกดแปรผันและรูปพหูพจน์ได้
- ผู้เขียนระบุว่าไฟล์จำนวนมากใน Google Books ถูกระบุวันที่ผิด ซึ่งยิ่งบั่นทอนความแม่นยำของข้อมูล
- แม้จะมีความไม่แม่นยำเหล่านี้ Ngrams ก็ยังถูกใช้อยู่ เพราะบนโลกออนไลน์รูปภาพชนะและคำพูดเป็นฝ่ายแพ้
- ผู้เขียนแนะนำให้ผู้อ่านมอง Ngrams ว่าเป็นสิ่งประดับและชวนเล่น มากกว่าจะเป็นภาพแทนการใช้คำอย่างแม่นยำ
- ผู้เขียนสรุปว่า แม้โลกจะชอบความจริงแบบ Ngram ผู้อ่านก็ยังฉลาดไปได้มากกว่านั้น
1 ความคิดเห็น
ความเห็นจาก Hacker News