1 คะแนน โดย GN⁺ 2023-09-27 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • บทความเกี่ยวกับความไม่แม่นยำของ n-grams ใน Google Ngram Viewer
  • ผู้เขียนชี้ว่า ความถี่ของคำภาษาอังกฤษทั่วไปที่ Ngram แสดงนั้นไม่ได้สะท้อนการใช้งานจริงในศตวรรษที่ 20 อย่างแม่นยำ
  • ผู้เขียนและ Talia Felix ใช้ Google Books ในการวิจัย แต่พบว่ามันเป็นฐานข้อมูลที่ประกอบขึ้นอย่างผิดพลาดและมีข้อผิดพลาดที่ซ่อนอยู่มากมาย
  • คำอธิบายของหนึ่งในข้อผิดพลาดที่ Ngram รับทอดมาจาก Google Books ในสูตรของมัน ซึ่งทำให้ดูเหมือนว่าคำภาษาอังกฤษจำนวนมากมีการใช้งานลดลงตลอดศตวรรษที่ 20 แล้วกลับมาฟื้นอีกครั้งในทศวรรษ 1980
  • ข้อผิดพลาดนี้เกิดจากคลังข้อมูลของ Google Books ที่ส่วนใหญ่เป็นงานวิชาการ ซึ่งวารสารวิทยาศาสตร์และวิชาการสมัยใหม่มีแนวโน้มใช้คำชุดจำกัดซ้ำๆ
  • การใช้คำบางคำมากเกินไปในงานเขียนเชิงวิชาการทำให้ความถี่ของคำอื่นๆ ดูต่ำกว่าความเป็นจริงอย่างผิดเพี้ยน จนเกิด "ช่วงขาลง" กลางศตวรรษที่ 20 ใน Ngram ของแทบทุกคำ
  • ข้อผิดพลาดอื่นๆ ได้แก่ Google Books ไม่สามารถรับรู้ความเป็นคำเดียวกันในกรณีการสะกดแปรผันและรูปพหูพจน์ได้
  • ผู้เขียนระบุว่าไฟล์จำนวนมากใน Google Books ถูกระบุวันที่ผิด ซึ่งยิ่งบั่นทอนความแม่นยำของข้อมูล
  • แม้จะมีความไม่แม่นยำเหล่านี้ Ngrams ก็ยังถูกใช้อยู่ เพราะบนโลกออนไลน์รูปภาพชนะและคำพูดเป็นฝ่ายแพ้
  • ผู้เขียนแนะนำให้ผู้อ่านมอง Ngrams ว่าเป็นสิ่งประดับและชวนเล่น มากกว่าจะเป็นภาพแทนการใช้คำอย่างแม่นยำ
  • ผู้เขียนสรุปว่า แม้โลกจะชอบความจริงแบบ Ngram ผู้อ่านก็ยังฉลาดไปได้มากกว่านั้น

1 ความคิดเห็น

 
GN⁺ 2023-09-27
ความเห็นจาก Hacker News
  • พาดหัวบทความที่ว่า "ผู้ที่โหยหาความแน่นอน ย่อมโหยหาคำโกหก" ได้จุดประเด็นถกเถียงเกี่ยวกับความต้องการความแน่นอนในกำหนดการของโครงการ
  • บทความวิจารณ์การใช้ ngrams ในอัลกอริทึมสมัยใหม่ โดยอ้างว่าสิ่งเหล่านี้เป็นผลผลิตของเทคโนโลยีที่ไม่น่าเชื่อถือและไร้ความรู้
  • คำวิจารณ์ต่อ ngrams ถูกมองว่าเป็นคำเตือนในยุคที่ generative AI ซึ่งโดยแก่นแท้แล้วเป็นตัวทำนายแบบ ngram กำลังเข้ามาครอบงำมากขึ้นเรื่อย ๆ
  • ความเห็นบางส่วนตั้งข้อสงสัยต่อความถูกต้องของข้ออ้างของผู้เขียนเกี่ยวกับสถิติ ngram โดยชี้ถึงการขาดหลักฐานและการตีความกราฟที่ชวนให้เข้าใจผิด
  • มีการเน้นย้ำถึงปัญหาพื้นฐานของการวิเคราะห์ข้อมูล ว่าการวิเคราะห์จะดีได้มากเท่ากับคุณภาพของข้อมูล และการประเมินคุณภาพข้อมูลนั้นทำได้ยาก
  • ความเห็นบางส่วนวิจารณ์ทั้งพาดหัวของบทความและแนวโน้มการทำ clickbait ในสิ่งพิมพ์ทางวิทยาศาสตร์
  • มีการพูดถึงการใช้ Google Ngram โดยบางคนโต้แย้งว่าสิ่งที่ผิดไม่ใช่ตัวมันเอง แต่เป็นการนำสถิติของมันไปใช้นอกบริบท
  • บทความถูกวิจารณ์ว่ากราฟไม่ได้ใส่ค่า 0 ไว้บนแกนตั้ง ทำให้ความผันผวนเพียงเล็กน้อยดูรุนแรงเกินจริงได้
  • มีการอภิปรายกันว่า การสร้างภาพตัวแทนของอดีตนั้นเป็นไปไม่ได้ เนื่องจากมีการสูญเสียข้อมูลโดยเนื้อแท้อยู่แล้ว