1 คะแนน โดย GN⁺ 2024-09-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เหตุผลที่ wordfreq ไม่อัปเดตอีกต่อไป

Generative AI ทำให้ข้อมูลปนเปื้อน

  • หลังปี 2021 เป็นต้นมา ไม่มีข้อมูลที่น่าเชื่อถือเกี่ยวกับการใช้ภาษาของมนุษย์
  • Open Web (OSCAR) ซึ่งเคยเป็นหนึ่งในแหล่งข้อมูลของ wordfreq ตอนนี้เต็มไปด้วยข้อความไร้ความหมายที่สร้างโดยโมเดลภาษาขนาดใหญ่
  • หากนำข้อความเหล่านี้มารวมในข้อมูล ความถี่ของคำจะบิดเบือน
  • ตัวอย่างเช่น ChatGPT หมกมุ่นกับคำว่า "delve" จนทำให้ความถี่ของคำนั้นสูงผิดปกติ

ข้อมูลที่เคยฟรีกลายเป็นของแพง

  • wordfreq เคยเก็บข้อมูลการใช้ภาษาแบบบทสนทนาจาก Twitter และ Reddit
  • ข้อมูลจาก Twitter ไม่เคยเสถียรมาตั้งแต่แรก และตอนนี้ Twitter ก็หายไปและถูกแทนที่ด้วย X
  • Reddit ก็หยุดให้บริการคลังข้อมูลสาธารณะ และตอนนี้ขายข้อมูลในราคาที่มีเพียง OpenAI เท่านั้นที่จ่ายไหว

ไม่อยากมีส่วนร่วมในวงการนี้อีกต่อไป

  • wordfreq เคยเป็นประโยชน์ต่อภาษาศาสตร์คอร์ปัสและเครื่องมือประมวลผลภาษาธรรมชาติ
  • แต่ตอนนี้วงการประมวลผลภาษาธรรมชาติกำลังถูก Generative AI กลืนกิน
  • แทบเป็นไปไม่ได้ที่จะหางานวิจัย NLP ที่ไม่พึ่งพาข้อมูลแบบปิดซึ่งถูกควบคุมโดย OpenAI และ Google
  • ตอนนี้เครื่องมือเก็บรวบรวมข้อความถูกใช้เป็นหลักเพื่อฝึก Generative AI ซึ่งก่อให้เกิดปัญหาการละเมิดลิขสิทธิ์
  • จึงไม่อยากมีส่วนร่วมกับงานที่อาจถูกสับสนว่าเกี่ยวข้องกับ Generative AI

สรุปโดย GN⁺

  • wordfreq เป็นโครงการที่อิงกับข้อมูลภาษาจนถึงปี 2021
  • หลังการมาของ Generative AI ความน่าเชื่อถือของข้อมูลลดลง และแหล่งข้อมูลหลักอย่าง Twitter และ Reddit ก็กลายเป็นแบบเสียเงิน จึงหยุดการอัปเดต
  • เมื่อวงการประมวลผลภาษาธรรมชาติถูก Generative AI กลืนกิน ผู้เขียนจึงระบุว่าไม่ต้องการมีส่วนร่วมในวงการนี้อีกต่อไป
  • โครงการทางเลือกที่มีฟังก์ชันคล้ายกัน แนะนำเครื่องมือทดแทนอย่าง Google Ngram Viewer

1 ความคิดเห็น

 
GN⁺ 2024-09-19
ความเห็นจาก Hacker News
  • เว็บถูกทำให้ปนเปื้อนด้วยกฎ SEO ของ Google ปัญหาคือการเขียนแบบย่อหน้า短 ๆ การย้ำคีย์เวิร์ด และการโฟกัสที่การทำให้ถูกจัดทำดัชนีมากกว่าความอ่านง่าย
    • ML/LLM เป็นสาเหตุของการปนเปื้อนลำดับที่สอง ส่วนสาเหตุแรกคือการเขียนเพื่อบอตขององค์กร
  • ในปี 2023 ได้สร้าง LowBackgroundSteel.ai ขึ้นมาเพื่อใช้เป็นที่รวบรวมชุดข้อมูลที่ยังไม่ปนเปื้อน
    • มีแผนจะเพิ่ม Wordfreq และขอให้ส่งข้อมูลไปที่ Tumblr
  • เข้าใจความผิดหวังที่มีต่อชุมชน NLP แต่ไม่ใช่ทุกคนจะเป็นแบบนั้น
    • ปัญหาเว็บปนเปื้อนไม่ใช่เรื่องใหม่ เคยมีทั้งฟาร์มสแปมที่พยายามปั่น PageRank
    • เว็บของแต่ละยุคต้องการเทคโนโลยีเพื่อเอาชนะปัญหาของยุคนั้น
    • การเสพคอนเทนต์ที่สร้างอัตโนมัติแบบที่ George Orwell คาดการณ์ไว้ใน 1984 ได้กลายเป็นความจริงแล้ว แต่เทคโนโลยีนี้ก็สามารถถูกใช้ในทางที่ดีได้เช่นกัน
  • คิดว่าเว็บตายไปแล้ว เพราะ AI ทำให้การหาข้อมูลที่มีประโยชน์ใช้เวลานานขึ้น
    • ใช้เวลามากกว่า 10 นาทีเพื่อหาหูฟังไร้สายรุ่นหนึ่ง เว็บไซต์ต่าง ๆ เต็มไปด้วยขยะ
    • สำหรับโน้ตบุ๊กเก่า การท่องเว็บไซต์สมัยใหม่ที่มีกราฟิกหนัก ๆ เป็นเรื่องยาก
    • เกลียดทุกอย่างทั้งเว็บ เว็บเบราว์เซอร์ เว็บดีไซน์ SEO การค้นหา โฆษณา ฯลฯ และกำลังมองหาวิธีซื้อของโดยไม่ต้องใช้เว็บ
  • แชร์ลิงก์ Google Trends พร้อมพูดถึงข้อเท็จจริงน่าขำว่า ผลการค้นหาคำว่า "delve" ไม่ได้เพิ่มขึ้น
  • คิดว่าหลังปี 2021 ก็ไม่มีข้อมูลที่เชื่อถือได้เกี่ยวกับการใช้ภาษาของมนุษย์อีกแล้ว
    • ฝั่งข้อความได้ผ่านจุดวิกฤตไปแล้ว แต่ตอนนี้วิดีโอกำลังอยู่ในช่วงสำคัญ
    • โดยเฉพาะเด็กเล็กแยกได้ยากว่าอะไรจริงอะไรปลอม เทคโนโลยีมีอยู่แล้ว แต่คอนเทนต์วิดีโอส่วนใหญ่ยังไม่ได้รับผลกระทบมากนัก
  • เห็นด้วยกับความเห็นที่ว่าเว็บเต็มไปด้วยขยะที่ LLM สร้างขึ้น
    • หลายกรณีเป็นการสร้างคอนเทนต์ไร้ค่าเพื่อทำ SEO
  • ถ้า AGI กลายเป็นของราคาถูกและเข้าถึงได้ งานส่วนใหญ่ก็น่าจะถูกทำโดย AI
    • การปฏิวัติ AI ควรเริ่มจากสาขาที่ใกล้กับรากของ AI มากที่สุด
  • หนังสือกระดาษที่พิมพ์ก่อนปี 2020 อาจกลายเป็นทรัพย์สินที่มีค่า
    • อินเทอร์เน็ตจะเต็มไปด้วยขยะ และแม้แต่หนังสือกระดาษยุคใหม่ก็จะถูกตั้งข้อสงสัย
    • หนังสือที่ AI เขียนจะถูกแพ็กเกจให้มีมนุษย์เป็นผู้เขียน
  • นักเขียนที่ตกงานเพราะ AI ควรถูกจ้างโดย AI hyperscaler
    • แต่ผลงานของพวกเขาต้องไม่มีประโยคที่ AI สร้างขึ้น