เหตุผลที่ wordfreq ไม่อัปเดตอีกต่อไป
Generative AI ทำให้ข้อมูลปนเปื้อน
- หลังปี 2021 เป็นต้นมา ไม่มีข้อมูลที่น่าเชื่อถือเกี่ยวกับการใช้ภาษาของมนุษย์
- Open Web (OSCAR) ซึ่งเคยเป็นหนึ่งในแหล่งข้อมูลของ wordfreq ตอนนี้เต็มไปด้วยข้อความไร้ความหมายที่สร้างโดยโมเดลภาษาขนาดใหญ่
- หากนำข้อความเหล่านี้มารวมในข้อมูล ความถี่ของคำจะบิดเบือน
- ตัวอย่างเช่น ChatGPT หมกมุ่นกับคำว่า "delve" จนทำให้ความถี่ของคำนั้นสูงผิดปกติ
ข้อมูลที่เคยฟรีกลายเป็นของแพง
- wordfreq เคยเก็บข้อมูลการใช้ภาษาแบบบทสนทนาจาก Twitter และ Reddit
- ข้อมูลจาก Twitter ไม่เคยเสถียรมาตั้งแต่แรก และตอนนี้ Twitter ก็หายไปและถูกแทนที่ด้วย X
- Reddit ก็หยุดให้บริการคลังข้อมูลสาธารณะ และตอนนี้ขายข้อมูลในราคาที่มีเพียง OpenAI เท่านั้นที่จ่ายไหว
ไม่อยากมีส่วนร่วมในวงการนี้อีกต่อไป
- wordfreq เคยเป็นประโยชน์ต่อภาษาศาสตร์คอร์ปัสและเครื่องมือประมวลผลภาษาธรรมชาติ
- แต่ตอนนี้วงการประมวลผลภาษาธรรมชาติกำลังถูก Generative AI กลืนกิน
- แทบเป็นไปไม่ได้ที่จะหางานวิจัย NLP ที่ไม่พึ่งพาข้อมูลแบบปิดซึ่งถูกควบคุมโดย OpenAI และ Google
- ตอนนี้เครื่องมือเก็บรวบรวมข้อความถูกใช้เป็นหลักเพื่อฝึก Generative AI ซึ่งก่อให้เกิดปัญหาการละเมิดลิขสิทธิ์
- จึงไม่อยากมีส่วนร่วมกับงานที่อาจถูกสับสนว่าเกี่ยวข้องกับ Generative AI
สรุปโดย GN⁺
- wordfreq เป็นโครงการที่อิงกับข้อมูลภาษาจนถึงปี 2021
- หลังการมาของ Generative AI ความน่าเชื่อถือของข้อมูลลดลง และแหล่งข้อมูลหลักอย่าง Twitter และ Reddit ก็กลายเป็นแบบเสียเงิน จึงหยุดการอัปเดต
- เมื่อวงการประมวลผลภาษาธรรมชาติถูก Generative AI กลืนกิน ผู้เขียนจึงระบุว่าไม่ต้องการมีส่วนร่วมในวงการนี้อีกต่อไป
- โครงการทางเลือกที่มีฟังก์ชันคล้ายกัน แนะนำเครื่องมือทดแทนอย่าง Google Ngram Viewer
1 ความคิดเห็น
ความเห็นจาก Hacker News