เหตุผลที่ wordfreq หยุดอัปเดต

(github.com/rspeer)

1 คะแนน โดย GN⁺ 2024-09-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

wordfreq คือสแนปช็อตการใช้ภาษาที่สังเกตได้จากแหล่งออนไลน์หลายแห่งจนถึงปี 2021 และถูกแช่แข็งไว้ที่เวอร์ชันล่าสุด เพราะการอัปเดตข้อมูลหลังจากนั้นอาจทำให้คุณภาพแย่ลงแทน
หลังปี 2021 เว็บสาธารณะเต็มไปด้วย ข้อความที่ AI สร้างขึ้น ซึ่งดูเหมือนงานเขียนของมนุษย์ ทำให้การวัดความถี่ของคำโดยอ้างอิงจากการใช้ภาษาจริงของมนุษย์ทำได้ยาก
ข้อมูลเดิมก็มีสแปมอยู่เช่นกัน แต่โดยรวมยังระบุและจัดการได้ ขณะที่ผลลัพธ์จาก Generative AI สามารถดันความถี่ของคำบางคำให้สูงผิดปกติได้ เช่นกรณีคำว่า “delve” ของ ChatGPT
การเข้าถึงข้อมูลจาก Twitter และ Reddit ซึ่งเคยเป็นแหล่งสำคัญของภาษาพูดคุย หายไปหรือมีราคาแพงขึ้น และข้อมูลย้อนหลังของ Twitter ก็ไม่สามารถแจกจ่ายภายนอกได้ตามเงื่อนไขการเผยแพร่
เมื่อวงการประมวลผลภาษาธรรมชาติเอนเอียงไปพึ่งพา Generative AI และข้อมูลปิด นักพัฒนาจึงไม่ต้องการให้ wordfreq ช่วยเหลือ Generative AI หรือถูกเข้าใจผิดว่าเป็นงานประเภทนั้น

ภาคผนวกเดือนกันยายน 2024

เอกสารเรื่องการหยุดอัปเดต wordfreq ได้รับความสนใจมาก และนักพัฒนามองว่าผู้คนโดยรวมเข้าใจจุดยืนของตน
ไม่ได้หยุดทำงานกับไลบรารีโอเพนซอร์สทั้งหมด และยังคงทำงานต่อกับ ftfy เครื่องมือแก้ไข Unicode อเนกประสงค์
การแช่แข็งข้อมูลไม่จำเป็นต้องเป็นจุดจบที่เลวร้าย
- หลายคนใช้งาน wordfreq ได้อย่างมีประโยชน์ และเวอร์ชันล่าสุดจะไม่หายไป
- ไม่อัปเดตต่อเพราะประเมินว่าการอัปเดตอาจทำให้ข้อมูลแย่ลง
- เมื่อเวลาผ่านไปข้อมูลจะล้าสมัย แต่จะไม่แย่ลงอย่างแข็งขัน

สแนปช็อตการใช้ภาษาจนถึงปี 2021

ข้อมูลของ wordfreq คือ สแนปช็อตการใช้ภาษา ที่พบได้จากแหล่งออนไลน์หลายแห่งจนถึงปี 2021
เหตุผลที่ไม่อัปเดตอีกต่อไปเกิดจากปัจจัยร่วมกัน ได้แก่ การปนเปื้อนของข้อมูล ต้นทุนการเข้าถึง และการเปลี่ยนแปลงของวงการประมวลผลภาษาธรรมชาติ

เว็บสาธารณะที่ปนเปื้อนด้วย Generative AI

ผู้พัฒนาประเมินว่าหลังปี 2021 เป็นเรื่องยากที่จะได้ ข้อมูลที่เชื่อถือได้ เกี่ยวกับภาษาที่มนุษย์ใช้งานจริง
เว็บสาธารณะซึ่งเคยเป็นหนึ่งในแหล่งข้อมูลของ wordfreq ถูกใช้งานผ่าน OSCAR
ปัจจุบันเว็บในความหมายกว้างมีข้อความที่สร้างโดยโมเดลภาษาขนาดใหญ่อยู่มาก หากรวมข้อความเหล่านี้เข้าไป ความถี่ของคำจะถูกบิดเบือน
แหล่งข้อมูลเดิมก็มีสแปมอยู่เช่นกัน แต่หลายกรณียังจัดการและระบุได้
โมเดลภาษาขนาดใหญ่สร้างข้อความที่ดูเหมือนภาษาที่มีเจตนาจริง และผลลัพธ์เหล่านั้นกระจายไปในหลายที่
ตามบทความเกี่ยวกับ delveของ Philip Shapira, ChatGPT ใช้คำว่า “delve” อย่างย้ำคิดย้ำทำในแบบที่ต่างจากวิธีที่มนุษย์เคยใช้ และดันความถี่โดยรวมขึ้นไปในระดับ order of magnitude

ข้อมูลภาษาสนทนาที่หายไปหรือแพงขึ้น

wordfreq ไม่ได้จัดการเฉพาะคำในสิ่งพิมพ์ทางการเท่านั้น แต่ยังเก็บการใช้ภาษาที่ใกล้เคียงภาษาสนทนามากขึ้น โดยเฉพาะจาก Twitter และ Reddit
Twitter และ X
- ฐานข้อมูลจาก Twitter ไม่มั่นคงมาตั้งแต่แรก
- แม้ในช่วงที่ Twitter อนุญาตให้เข้าถึงบางส่วนของ “firehose” ได้ฟรี ข้อกำหนดการใช้งานก็ไม่อนุญาตให้แจกจ่ายข้อมูลที่เก็บรวบรวมออกไปนอก Luminoso
- wordfreq มีค่าความถี่ที่สร้างจากข้อมูลนั้นเป็นอินพุต แต่ข้อมูลที่เก็บรวบรวมเองไม่ใช่ทรัพย์สินของนักพัฒนา และไม่ได้ถือครองไว้อีกต่อไป
- ปัจจุบัน Twitter หายไปแล้ว API สาธารณะถูกปิด และไซต์ถูกแทนที่ด้วย X
- แม้ X จะให้ฟีดข้อมูลดิบ นักพัฒนาก็ประเมินว่าจะไม่พบข้อมูลที่มีคุณค่า
Reddit
- Reddit ก็หยุดให้บริการคลังข้อมูลสาธารณะเช่นกัน
- ปัจจุบัน Reddit ขายคลังข้อมูล และผู้พัฒนาระบุว่าราคานั้นอยู่ในระดับที่มีเพียง OpenAI เท่านั้นที่จ่ายได้

เหตุผลที่ต้องการเว้นระยะจาก Generative AI

เดิมที wordfreq อยู่ตรงจุดตัดระหว่าง ภาษาศาสตร์คลังข้อมูล กับงานที่ช่วยเครื่องมือประมวลผลภาษาธรรมชาติ
สาขา “natural language processing” ที่นักพัฒนารู้จักหาได้ยากขึ้นในปัจจุบัน และมองว่า Generative AI กำลังกลืนพื้นที่นั้นไป
เทคนิคอื่น ๆ ยังคงมีอยู่ แต่ Generative AI ดึงความสนใจและเงินทุนส่วนใหญ่ไป
นักพัฒนาประเมินว่างานวิจัย NLP ที่ไม่พึ่งพา ข้อมูลปิด ซึ่ง OpenAI และ Google ควบคุมอยู่นั้นพบเห็นได้ยาก
งานรวบรวมข้อความจำนวนมากในหลายภาษาแบบ wordfreq เคยถูกมองว่าสมเหตุสมผลพอสมควรในอดีต
ปัจจุบันเครื่องมือรวบรวมข้อความถูกใช้เป็นหลักในการฝึก Generative AI และนักพัฒนามองว่าการที่ผู้คนตอบสนองเชิงป้องกันต่อเรื่องนี้เป็นสิ่งชอบธรรม
หากมีการรวบรวมข้อความทั้งหมดจากหนังสือ บทความ เว็บไซต์ และโพสต์สาธารณะ นักพัฒนามองว่ามีความเป็นไปได้สูงที่วัตถุประสงค์คือการสร้าง เครื่องลอกเลียนผลงาน ที่อ้างคำพูดของผู้ใช้ว่าเป็นของตนเอง

บทสรุปของการหยุดอัปเดต

นักพัฒนาไม่ต้องการทำงานที่อาจถูกเข้าใจผิดว่าเกี่ยวข้องกับ Generative AI หรืออาจช่วยเหลือ Generative AI
นักพัฒนาระบุว่า OpenAI และ Google ควรรวบรวมข้อมูลของตนเองโดยตรง และหวังว่าพวกเขาจะต้องจ่ายค่าตอบแทนในราคาที่แพงมาก
wordfreq จะไม่ถูกอัปเดตอีกต่อไป แต่เวอร์ชันล่าสุดที่มีอยู่จะยังคงได้รับการคงไว้

1 ความคิดเห็น

GN⁺ 2024-09-19

ความคิดเห็นจาก Hacker News

โดยรวมเห็นด้วย แต่เว็บก็ถูกปนเปื้อนด้วย กฎ SEO แบบไม่เป็นทางการของ Google อยู่แล้ว
ด้วยย่อหน้าที่มีแค่ประโยคเดียว การทำซ้ำคีย์เวิร์ด และแนวทางที่ให้ความสำคัญกับ “ความสามารถในการถูกทำดัชนี” มากกว่าความอ่านง่าย เว็บจึงไม่ใช่แหล่งข้อมูลที่เหมาะสำหรับการวิเคราะห์แบบนี้มาตั้งแต่ก่อนยุค LLM แล้ว
ในฐานะข้อมูลสำหรับฝึกก็เช่นกัน สุดท้าย LLM เติบโตมาจากการกินข้อความที่เขียนเพื่อ Googlebot ไม่ใช่ข้อความที่เขียนเพื่อมนุษย์ ML/LLM คือการปนเปื้อนของงานเขียนรอบที่สอง ส่วนรอบแรกคือช่วงที่มนุษย์เริ่มเขียนเพื่อบอตของบริษัท แทนที่จะเขียนเพื่อมนุษย์คนอื่น
- สแปมบล็อกส่วนใหญ่เขียนโดยมนุษย์ และแม้จะแย่ด้วยเหตุผลอื่น แต่ก็ดูใช้ได้สำหรับการวัด ความถี่ของคำ พื้นฐานในข้อความที่มนุษย์เขียน
  ความถี่คงมีอคติ แต่ข้อความส่วนใหญ่ก็เป็นแบบนั้น และในตำราซ่อมคาร์บูเรเตอร์ คำว่า “carburetor” ย่อมปรากฏมากกว่าค่าฐานมากอยู่แล้ว
  ถ้ามีส่วนผสมที่ดีของหนังสือ บทความข่าว และบล็อกหลากหลายประเภท ก็ถือว่าโอเค ในทางกลับกัน เนื้อหาจาก LLM นั้นใกล้เคียงกับ งูกินหางตัวเอง คือพยายามสร้างโมเดลสถิติการกระจายคำขึ้นมาใหม่จากเอาต์พุตของโมเดลการกระจายคำ
- ถึงจุดหนึ่งก็ต้องยอมรับด้วยว่าการใช้ภาษาแบบใดแบบหนึ่งเป็น คุณลักษณะของสื่อเอง ที่เรากำลังนับความถี่ของคำอยู่
  หนังสือพิมพ์ นวนิยาย อีเมลถึงหัวหน้า ฯลฯ ต่างก็มีสไตล์เฉพาะของตัวเองในเรื่องความยาวประโยคและย่อหน้า การทำซ้ำที่ไม่จำเป็น และการให้ความสำคัญกับตัวชี้วัดอื่นนอกเหนือจากความอ่านง่าย
  อย่างน้อยถ้าเป็นข้อความที่มนุษย์เขียนโดยคำนึงถึงความเป็นไปได้ว่าจะมีมนุษย์คนอื่นอ่าน ก็ถือได้ว่าเป็นการใช้ภาษาที่ชอบธรรมกว่าข้อความที่เครื่องสร้างขึ้นมาก
- เรื่องนี้ให้ความรู้สึกเหมือน Eternal September ครั้งที่สอง และมีขนาดใหญ่กว่ามาก
  ไม่รู้ว่าอินเทอร์เน็ตจะทนเรื่องนี้ได้อีกนานแค่ไหน และการใช้งานของฉันก็ลดลงอย่างเห็นได้ชัดแม้เทียบกับปี 2018 ตอนนี้หาสิ่งที่น่าอ่านได้ยากเกินไป สุดท้ายเลยมาใช้เวลาอยู่ที่นี่เยอะ
- ถึงอย่างนั้นก็ไม่ได้สุดโต่งเท่าที่บอกเป็นนัยไว้ ข้อมูลฝึกจะถูกถ่วงน้ำหนักด้วย ตัวชี้วัดคุณภาพ และงานเขียนของนักข่าวหรือผู้ร่วมเขียน Wikipedia จะมีน้ำหนักมากกว่าสูตรบราวนี่ของป้าหรือสแปมบล็อกองค์กร
- ก่อน Google ก็มี Altavista และสมัยนั้นการยัดคีย์เวิร์ดซ้ำเป็นร้อยครั้งด้วยตัวอักษรสีขาวบนพื้นหลังสีขาวไว้ท้ายหน้าก็พบได้บ่อยมาก
  สแปม SEO ไม่ใช่เรื่องใหม่ แค่รูปแบบเปลี่ยนไปเท่านั้น
ในปี 2023 ผมสร้าง https://lowbackgroundsteel.ai/ เป็นพื้นที่รวบรวมแหล่งอ้างอิงชุดข้อมูลที่ยังไม่ถูกปนเปื้อน
ตั้งใจจะเพิ่ม wordfreq ด้วย ดังนั้นถ้ามีแหล่งข้อมูลก็ส่งมาทาง Tumblr ได้เลย
- ขอแสดงความยินดีกับการ “เปิดตัว” ผมเองก็เก็บงานเบื้องหลังไว้อยู่พักหนึ่ง เพราะตั้งใจจะทำเว็บแบบนี้แทบจะเป๊ะ ๆ เลย สงสัยว่าคุณจะกำหนดวันตัดสินไว้ตรงไหน
  รายการที่มีประโยชน์ที่ผมทำไว้ระหว่างค้นคว้ามีดังนี้: ปี 2017 การคิดค้นสถาปัตยกรรม Transformer, มิถุนายน 2018 GPT-1, กุมภาพันธ์ 2019 GPT-2, มิถุนายน 2020 GPT-3, มีนาคม 2022 GPT-3.5, พฤศจิกายน 2022 ChatGPT
  น่าจะดีถ้าเพิ่ม คลังเก็บ kiwix ที่เก่ากว่าวันตัดสินที่กำหนดไว้ด้วย หาได้จาก Internet Archive และมี Wikipedia, Stack Overflow, Wikisource, Wikibooks รวมถึงวิกิหลายเวอร์ชัน
- ชื่อฉลาดดี ชอบอุปมานี้
- ผมว่ามันตรงข้ามกับสิ่งที่ผู้เขียนต้องการพอดี ผู้เขียนไม่อยากเป็นส่วนหนึ่งของความวุ่นวายนี้อีกต่อไป
  การรวบรวมแหล่งข้อมูลแบบนี้มีแต่จะทำให้ บริษัทเทคโนโลยีขนาดใหญ่ กวาดข้อมูลไปได้ง่ายขึ้นมาก
- เผื่อเป็นข้อมูล ชุดข้อมูล DebateSum และ OpenDebateEvidence/OpenCaseList ของผม ในรูปแบบปัจจุบัน สิ้นสุดอย่างช้าที่สุดในปี 2022 ดังนั้นเข้าข่ายนี้
- ไม่แน่ใจว่าควรเชื่อถือเว็บที่ปนเปื้อนด้วยกราฟิก AI ได้ไหม /s
น่าเสียดายที่ OP ผิดหวังกับ ชุมชนประมวลผลภาษาธรรมชาติ ที่ผมสังกัดอยู่ และแม้ว่านี่จะเป็นกระแสตามแฟชั่นที่เกือบถึงจุดพีกของความร้อนแรงแล้ว ผมก็อยากบอกว่า “พวกเราไม่ได้เป็นแบบนั้นกันทั้งหมด”
ปัญหาเว็บถูกปนเปื้อนด้วยเนื้อหาประดิษฐ์เป็นประเด็นที่มาได้ถูกเวลา และเคยมีตัวอย่างก่อนหน้านี้อย่างฟาร์มสแปมที่พยายามปั่น PageRank
ดังนั้นรายการเว็บไซต์คุณภาพสูงที่มนุษย์คัดสรรเอง หรือที่เรียกว่า “เว็บขนาดเล็ก” อาจกลับมามีคุณค่าใหม่
เว็บแต่ละยุคจำเป็นต้องมีเทคโนโลยีเพื่อก้าวข้ามกลไกเชิงปรปักษ์ของยุคนั้น ๆ และเว็บในปัจจุบันก็ไม่ใช่ข้อยกเว้น
ตอนที่ Eric Arthur Blair เขียน 1984 ด้วยนามปากกา “George Orwell” เขาคาดการณ์ถึงสถานการณ์ที่สาธารณชนบริโภคเนื้อหาที่สร้างขึ้นอัตโนมัติจนห่างไกลจากการคิดเชิงวิพากษ์ ตอนนี้สิ่งนั้นกำลังเกิดขึ้น แต่เทคโนโลยีที่ถูกวิจารณ์ก็สามารถถูกใช้ในทางที่ดีได้ และทีมวิจัย NLP ของผมก็พยายามทำเช่นนั้นอยู่ ท้ายที่สุดแล้วฝ่ายดีจะชนะ
- เว็บขนาดเล็ก ที่ “ดีงาม” เคยชนะจริง ๆ บ้างไหม?
  ไม่ว่าจะเป็น IRC, Usenet, Reddit, Facebook, Geocities, Yahoo, webring หรือระบบคอนเทนต์ใด ๆ พอไปถึงการใช้งานกระแสหลัก ก็ดูเหมือนจะถูกปนเปื้อนด้วยเสียงรบกวน
  ทางเลือกที่เล็กและคัดสรรแล้ว สุดท้ายถ้าโตพอก็กลายเป็นเหยื่อของความสำเร็จของตัวเองและถูกสแปมยึดครอง
  มันเป็นการแข่งขันสะสมอาวุธระหว่างคุณภาพกับปริมาณอยู่เสมอ และสุดท้ายผู้คัดสรรก็ไล่ตามปริมาณมหาศาลไม่ทัน
- คนที่หลีกเลี่ยงการคิดเชิงวิพากษ์ก็ทำแบบนั้นอยู่แล้ว และจะยังทำต่อไป ไม่ว่าจะมีคอนเทนต์ AI หรือไม่ก็ตาม
- ความคิดที่ว่า “ท้ายที่สุดฝ่ายดีจะชนะ” เป็นสิ่งอันตราย เพราะอาจทำให้เราผัดผ่อน การลงมือทำอย่างเด็ดขาด ซึ่งมีแนวโน้มว่าจำเป็นเพื่อให้เรื่องแบบนั้นเกิดขึ้นจริง
- ออกนอกเรื่องเล็กน้อย แต่ Marx ก็ทำนายไว้ในปี 1894 ว่าคริปโตเคอร์เรนซีและ NFT จะมีอยู่จริง https://www.marxists.org/archive/marx/works/1894-c3/ch25.htm
  มันประหลาดที่เรายังคงข้าม “เส้นแดง” แบบนี้กันไปเรื่อย ๆ อย่างไม่รู้สึกรู้สา เหมือนมีมที่นักเขียน SF บอกว่า “ผมสร้าง Torment Nexus ขึ้นมาเป็นเรื่องเตือนใจ” แต่บริษัทเทคโนโลยีกลับบอกว่า “เราสร้าง Torment Nexus จากนวนิยาย SF คลาสสิกเรื่อง ‘อย่าสร้าง Torment Nexus’ ขึ้นมาแล้ว”
- แล้วถ้าหนทางที่ฝ่ายดีจะชนะคือการปฏิเสธ เทคโนโลยีและความเชื่อที่เปลี่ยนไปในทางทำลายล้าง ล่ะ?
พูดแบบฟันธงก็คือ เว็บตายแล้ว ต้องขอบคุณ “AI” ตอนนี้การค้นหาเพื่อหาอะไรที่มีประโยชน์ใช้เวลามากกว่าปี 2005 เสียอีก
เว็บไซต์ที่หาเจอก็ส่วนใหญ่เป็นขยะ
ตัวอย่างเช่น แค่จะหาหูฟังไร้สายชื่อดังรุ่นหนึ่ง ทั้งที่รู้อยู่แล้วว่าบริษัทคือใคร เว็บไซต์บริษัทคืออะไร และร้านขายอยู่ไหน ก็ยังต้องใช้เวลาอย่างน้อย 10 นาที เพราะมันถูกฝังอยู่ใต้สารพัดของรก ๆ
แล็ปท็อปของผมเป็น i7 8 คอร์, RAM 16GB ที่ “เก่า” แล้ว แต่ยังรับมือเว็บไซต์ “สมัยใหม่” ที่มีกราฟิกเยอะ ๆ แทบไม่ไหว เว็บไซต์ยุคก่อนเรียบง่ายและทำงานได้ดี ทำให้ค้นหาสินค้าและซื้อได้เร็ว แต่เมื่อคืนแค่ใส่ของลงตะกร้าแล้วจ่ายเงินก็ทรมานจริง ๆ
ผมเกลียดเว็บ เบราว์เซอร์ เว็บดีไซน์ SEO การค้นหา โฆษณา และของถูก ๆ ห่วย ๆ ทั้งหมดที่พ่วงมาด้วย จบแล้ว ถ้ามีวิธีซื้ออะไรโดยไม่ต้องใช้เว็บ ผมก็จะทำแบบนั้น ไม่ได้เกลียดเทคโนโลยีทั้งหมดหรอก แต่เว็บตอนนี้กลายเป็นไข่เน่าไปแล้ว
- เมื่อก่อนใน Amazon สามารถค้นหารีวิวและ Q&A ได้โดยตรงจากช่องค้นหา และมีประโยชน์มาก
  ตอนนี้ช่องค้นหานั้นจะส่งคำค้นไปยัง LLM ก่อน ให้รอ 10–15 วินาที แล้วแสดงสรุปไร้ประโยชน์ว่า “รีวิวบางส่วนพูดแบบนั้นแบบนี้”
  จากนั้นถึงจะกดปุ่มเพื่อดูรายการในรีวิวจริงและคำถามจริงที่มีคำที่ผมค้นหาได้ นี่น่าจะทำให้ผมเลิกใช้ Amazon เลย ถ้ายังมีวิธีค้นหาโดยตรงอยู่ก็ช่วยบอกที
- โดยรวมแล้วแทบไม่มีอะไรให้แย้ง
  เมื่อก่อนค้นหา derailleur hanger ของจักรยาน Trek ผลลัพธ์แรกก็คือสิ่งที่ต้องการ ตอนนี้ต้องผ่านโฆษณา 5 รายการที่บอกให้ซื้อจักรยานใหม่ ลิงก์บุคคลที่สามที่เสียหนึ่งลิงก์ และถ้าโชคดี ลิงก์หน้าชิ้นส่วนนั้นจะโผล่อยู่ท้ายหน้าแรก
  การทำให้เว็บกลายเป็นขยะ เป็นเรื่องจริง
- ดูเหมือนว่าแล็ปท็อปจะล้าสมัยสุด ๆ แล้ว ควรซื้อแล็ปท็อปรุ่นใหม่จาก Amazon ที่รับภาระ SEO สมัยใหม่ไหว
  สินค้าแนะนำคือ LEEZWOO 15.6" Laptop - 16GB RAM 512GB SSD PC Laptop, Quad-Core N95 Processor Up to 3.1GHz, Laptop Computers with Touch ID, WiFi, BT4.2, for Students/Business
  ชื่ออ่านลื่นไหลมากเลยว่าไหม
- มีสตาร์ทอัพที่ขายการค้นหาที่ดีกว่าเป็นผลิตภัณฑ์ ฟีเจอร์หลักคือคุณจ่ายเงินเพื่อใช้ จึงไม่ใช่คุณที่เป็นสินค้า https://kagi.com/welcome
- ตลอด 10 ปีที่ผ่านมา ผมค่อย ๆ ถอยตัวเองออกจากเว็บ ช่วงนี้ส่วนใหญ่ทำ แอปออฟไลน์ ด้วยเทคโนโลยีเนทีฟ
  ความสามารถแบบนั้นยังคงอยู่ แค่ถอยฉากไปพักหนึ่งเพราะเคยถูกแถบเครื่องมือและมัลแวร์ปนเปื้อนหนักเกินไป และตอนนี้มัลแวร์ไปอยู่อีกฝั่งแล้ว แอปเนทีฟเลยกลับมาเท่อีกครั้ง แค่ต้องรู้ว่าจะมองหาได้ที่ไหน
  ป้ายหน้าร้านของผมอยู่ที่นี่: https://akkartik.name/freewheeling-apps
  อย่างไรก็ตาม “เว็บ” ที่พูดถึงตรงนี้ดูเหมือนจะหมายถึงเฉพาะสิ่งที่เข้าถึงได้ผ่านเสิร์ชเอนจินเท่านั้น ยังมีเว็บแบบเก่าอยู่ นั่นคือเว็บที่ไม่ได้เป็นบริการรวมศูนย์ที่มีผู้ใช้หลายพันล้านคน แต่ขับเคลื่อนผ่านความสัมพันธ์และชื่อเสียง เหมือนลิงก์ข้างบน หรือเว็บไซต์ที่มีการดูแลอย่างกล้าหาญที่เรากำลังใช้อยู่ตอนนี้
ผมเห็นด้วยกับคำพูดที่ว่า “ผมคิดว่าไม่มีใครมีข้อมูลที่น่าเชื่อถือเกี่ยวกับการใช้ภาษาของมนุษย์หลังปี 2021”
ข้อความผ่านจุดเปลี่ยนมาได้สักพักแล้ว แต่สำหรับวิดีโอ ตอนนี้รู้สึกเหมือนเป็น จุดแบ่งน้ำ
โดยเฉพาะเด็กเล็ก ๆ จะมีสัญชาตญาณว่าอะไรจริงหรือไม่จริงค่อนข้างอ่อน ถ้าถามว่าคนในวิดีโอเป็นคนจริงไหม ตอนนี้ผมยังตอบได้ค่อนข้างมั่นใจ แต่ความมั่นใจลดลงทุกวัน
เทคโนโลยีพร้อมแล้วอย่างชัดเจน และแม้คอนเทนต์วิดีโอส่วนใหญ่ยังไม่ได้รับผลกระทบ แต่คิดว่าอีกไม่นานจะเปลี่ยนไป
- มีโจทย์ท้าทายแบบนี้: https://www.nytimes.com/interactive/2024/09/09/technology/ai-video-deepfake-runway-kling-quiz.html
  https://www.nytimes.com/interactive/2024/01/19/technology/artificial-intelligence-image-generators-faces-quiz.html
  อาจจะไม่ค่อยยุติธรรมนักตรงที่เปรียบเทียบตัวอย่างที่คัดมาอย่างดี แต่แม้แต่ผู้เชี่ยวชาญก็คงผ่านการทดสอบแบบนี้ได้ไม่มาก เทคโนโลยีเดินหน้าอย่างเดียว และดูเหมือนความเร็วก็เพิ่มขึ้นด้วย
  สิ่งที่น่าทึ่งคือ ความเร็วของความก้าวหน้า มนุษยชาติอยู่มาเกือบ 3 ล้านปี, โฮโมเซเปียนส์ราว 300,000 ปี, เมือง·เกษตรกรรม·อารยธรรมราว 10,000 ปี, โลหะราว 4,000 ปี, การปฏิวัติอุตสาหกรรม 500 ปี, ประชาธิปไตย 200 ปี, คอมพิวติ้งราว 50–100 ปี
  ระยะห่างระหว่างการปฏิวัติกำลังสั้นลงเกือบแบบเอ็กซ์โปเนนเชียล
  ถ้าเทียบโลกปัจจุบันกับวัยเด็กของผม หนึ่งในปฏิวัติที่เรายังอยู่ระหว่างการทำใจยอมรับคือการผลิตอัตโนมัติ ไป AliExpress จะเห็นว่าของจำนวนมากแทบจะฟรี ผมซื้อที่ชาร์จ 5 พอร์ต 120W ด้วยเงินเทียบเท่าเวลาไม่ถึง 2 นาทีของผม และเวลาที่ใช้หามันยังสั้นกว่าเวลาที่ใช้หาเงินด้วยซ้ำ
  ผมก็ไม่ค่อยรู้ว่าทั้งหมดนี้จะไปจบที่ไหน
- ตอนนี้ผมไม่มั่นใจแล้วว่าตัวเองระบุคนจริงได้
  แม้เป็นคนจริง ผมก็มักทำเครื่องหมายว่า “คล้ายของปลอม” เมื่อพวกเขารับรูปแบบพฤติกรรมของครีเอเตอร์บน TikTok, Instagram, YouTube มาใช้
  หนวดเคราของผมก็หงอกแล้วเหมือนกัน แต่ในวิดีโอพรีเซนต์ปี 2020 ผมก็ล้อ หน้าแบบรูปปก YouTube ไว้แล้ว AI จับแพตเทิร์นพฤติกรรมที่ “กึ่งมนุษย์” แบบนี้ได้เร็วและแรงมาก
  มีวิดีโอที่ผู้หญิงวัยรุ่นสองคนออกมาเป็นคู่ ๆ แล้วถือป้าย “This is real”/“This is not real” แพร่ไปทั่ว ซึ่งทั้งคู่อาจโกหกทั้งหมดก็ได้ และผมแยกไม่ออก ทุกคนมีแพตเทิร์นพฤติกรรมที่ดู “แปลก” นิด ๆ แต่ก็สอดคล้องกับวิดีโออินฟลูเอนเซอร์จำนวนน้อยที่ผมเคยเห็น
- ผลงานที่แย่ดูออกได้ แต่จะรู้ได้อย่างไรว่าเราไม่ได้ถูกผลงานที่ดีหลอกอยู่
- ผมไม่เคยคิดเรื่องนั้นมาก่อนเลย ถ้ามนุษย์สูญเสียความสามารถในการแยกคอนเทนต์ AI ออกจากความจริง ก็น่ากลัวนะ
คำพูดที่ว่า “ตอนนี้ทั้งเว็บเต็มไปด้วยสล็อปที่โมเดลภาษาขนาดใหญ่สร้างขึ้น ไม่มีใครเขียนมันขึ้นมา และมันก็ไม่ได้สื่ออะไรเลย” นั้นยุติธรรมและแม่นยำ
ต่อให้มองในกรณีที่ดีที่สุด คนที่รันโมเดลก็ไม่ใช่คนเขียนข้อความนั้น และสลัดคำเหล่านั้นก็สื่อสิ่งที่คนนั้นตั้งใจจะพูดไม่ได้
ในหลายกรณี คอนเทนต์ถูกเทออกมาเพื่อ SEO ล้วน ๆ โดยไม่มีเจตนาว่าจะมีคุณค่าต่อใครเลย
- ประโยคนั้นโดนใจฉันมาก และทรงพลังมาก
บางที หนังสือกระดาษ ก่อนปี 2020 อาจกลายเป็นสินค้ามีค่าในอีก 10–20 ปีข้างหน้า
ในเวลาที่อินเทอร์เน็ตเต็มไปด้วยสล็อป และแม้แต่หนังสือกระดาษในยุคนั้นก็ยังถูกตั้งข้อสงสัย
แล้วก็จะมีมนุษย์ที่เป็น talking head แสร้งทำเป็นผู้เขียนหนังสือที่ AI ฉลาดมาก ๆ เขียนขึ้นมาอีก เรากำลังทำอะไรกันอยู่กันแน่
- ก็คงเพื่อค้ำจุน “นักการกุศล” ชื่อดังอย่าง Sam Altman หรือ Mark Zuckerberg นั่นแหละ เพราะที่นี่ก็มีคนจำนวนมากมองพวกเขาเป็นฮีโร่
- เคยคิดว่าการกองหนังสือไว้เยอะ ๆ แล้วแทบไม่อ่านเป็นอาการป่วยทางจิตอะไรสักอย่าง แต่ตอนนี้คงต้องทำให้มากขึ้นแล้ว
- หรืออาจเป็น AI talking head ที่แสร้งทำเป็นผู้เขียนหนังสือที่ AI เขียนก็ได้ https://youtu.be/pAPGRGTqIgI
  คำเตือน: AI ข้อมูลเท็จที่รัฐสนับสนุน
ฉันรู้สึกซับซ้อนมากกับปัญหานี้
ด้านหนึ่ง ฉันเห็นด้วยกับ Robyn Speer อย่างเต็มที่ เว็บแบบเปิดตายไปแล้ว และเว็บอยู่ในสภาพที่น่าเศร้าจริง ๆ เมื่อไม่กี่วันก่อนฉันตัดสินใจเอาบล็อกส่วนตัวไปลงบน gopher เพราะบน gopher มีขยะน้อยกว่ามากเท่านั้นเอง และแน่นอนว่าไม่ได้หมายความว่า gopher คือคำตอบ
แต่เมื่อไม่กี่สัปดาห์ก่อน ฉันต้องส่งไฟล์วิดีโอให้คุณตาของภรรยาที่อายุ 97 ปี อยู่ต่างประเทศ และไม่ได้ใช้คอมพิวเตอร์หรือโทรศัพท์มือถือ สุดท้ายจึงยืนยันได้ว่าเขามีเครื่องเล่น DVD และฉันใช้ x264 เพื่อแปลงวิดีโอ 4K HDR สมัยใหม่ให้เป็นรูปแบบที่เล่นได้บนเครื่องเล่น DVD เก่า ๆ แทบทุกเครื่อง พร้อมพยายามรักษาคุณภาพภาพไว้ให้มากที่สุด
ปัญหาคือ x264 ไม่มีเอกสารประกอบ ต่างจาก x265 ที่มีผู้สนับสนุนองค์กรซึ่งจ่ายเงินให้เขียนเอกสารดี ๆ ได้ ส่วน x264 แทบจะเป็นสิ่งที่สมาชิกฟอรัม doom9 พัฒนาขึ้นด้วยการลองผิดลองถูก มีแฟล็กเข้าใจยากเป็นร้อย ๆ ตัว และบางตัวก็ทำงานไม่เหมือนเมื่อ 20 ปีก่อน
ฉันอาจไปไล่อ่านเธรดอายุ 20 ปีของ doom9 เป็นสิบ ๆ เธรดเพื่อหาว่าแต่ละแฟล็กทำอะไร แต่ในความเป็นจริงฉันถาม LLM ในกรณีนี้คือ Claude
Claude ไม่ได้สมบูรณ์แบบ และเอาแฟล็กของ ffmpeg บางตัวมาปนกับแฟล็กของ x264 แต่เมื่อรวมกับการค้นหาแบบดั้งเดิมและการลองผิดลองถูก ฉันก็ทำงานเสร็จได้ในประมาณ 30 นาที คุณภาพผลลัพธ์ก็ค่อนข้างน่าพอใจ และเล่นได้บนเครื่องเล่น DVD ที่เก่ามากด้วย
ถ้าเป็นก่อนยุค LLM ฉันคงไม่จ้างผู้เชี่ยวชาญ x264 มาทำงานนี้ คงใช้เวลาเพิ่มอีกหลายชั่วโมง หรือที่เป็นไปได้มากกว่าคือชายวัย 97 ปีคนนั้นคงไม่ได้ดูเหลนสาวเต้น วิดีโอนั้นว่ากันว่าทำให้เขายิ้มกว้างมาก
LLM ก็เป็นเพียงเครื่องมือเหมือนทุกสิ่งก่อนหน้านี้ ไม่ได้ดีหรือชั่วโดยเนื้อแท้ สิ่งสำคัญคือเราทำอะไรและใช้อย่างไร
- ซอฟต์แวร์เขียน DVD ส่วนใหญ่ในสมัยก่อนมี การแปลงวิดีโอ เป็นฟีเจอร์พื้นฐานไม่ใช่หรือ?
  ถ้าเป็นยุคนั้นก็คงใช้ Nero Burning ROM หรือ Handbrake คุณภาพอาจไม่ได้ปรับแต่งให้ถึงระดับที่ต้องการ แต่สำหรับสายตาคนอายุ 97 ก็คงได้วิดีโอที่ดูได้พอสมควร
เราในฐานะมนุษย์ทำให้อินเทอร์เน็ตปนเปื้อนด้วย AI มากเกินไปจนแทบใช้งานไม่ได้แล้วหรือ?
ในความคิดฉัน อินเทอร์เน็ตอาจมองได้ว่าเป็นสภาพแวดล้อมธรรมชาติแบบเดียวกับโลก เพราะเป็นพื้นที่ที่ผู้คนแบ่งปัน พบปะ และพูดคุยกัน
น่าทึ่งที่หลังจากทำให้สภาพแวดล้อมธรรมชาติปนเปื้อนแล้ว ตอนนี้เรายัง ทำให้อินเทอร์เน็ตปนเปื้อน อีกด้วย
- ถ้ายังไม่เป็นเช่นนั้น ก็จะเป็นในเร็ว ๆ นี้แน่นอน คงมีคนที่กำลังจัดการปัญหานี้อยู่บ้าง แต่ฉันคิดว่าเรากำลังมาถึงช่วงเวลา feedback loop ที่ใกล้มากแล้ว
  ข้อมูลส่วนใหญ่ที่มนุษย์บันทึกไว้ถูกทำให้เป็นดิจิทัลแล้ว และส่วนมากในนั้นกำลังสร้างคอนเทนต์ที่ไม่ใช่มนุษย์ด้วยความเร็วมหาศาล เท่ากับเราได้ฉีดสัญญาณรบกวนมหาศาลเข้าไปในข้อมูลที่เราสามารถใช้ได้
  ฉันไม่รู้ว่าคำตอบคือคอนเทนต์มนุษย์ที่มากขึ้น หรือคอนเทนต์สร้างใหม่ แต่ช่วงเปลี่ยนผ่านนี้จะสร้างความท้าทายในระยะกลาง
  ฉันอยากเชื่อว่ายุคที่ใน LLM ยิ่งมีโทเคนมากยิ่งดีนั้นกำลังผ่านพ้นไป และจะมุ่งไปสู่การใช้ข้อมูลเดิมให้ดีขึ้น แต่ในความเป็นจริงเรากำลังยืนอยู่หน้าจุดเปลี่ยนสำคัญ
- ยังมีชุมชนเล็ก ๆ แบบปิดที่มีคุณค่ามากอยู่ ที่ที่กำลังโพสต์อยู่นี้ก็เป็นหนึ่งในนั้น
  แต่โดยพื้นฐานแล้ว อินเทอร์เน็ตแบบเปิดตอนนี้ไร้ประโยชน์ไปแล้ว และสาเหตุรากฐานคือ โมเดลธุรกิจที่พึ่งพาโฆษณา
- โศกนาฏกรรมของทรัพยากรร่วมทำลายทุกสิ่งรอบตัว
- ใช่ ที่นี่ยังมีแนวทางเชิงปฏิบัติในการทำให้อินเทอร์เน็ตกลายเป็นบ่อโสโครกที่ใหญ่ขึ้นด้วย https://www.youtube.com/watch?v=endHz0jo9Ck
  ตอนนี้ดูเหมือนจะเป็นกฎธรรมชาติไปแล้วว่าเทคโนโลยีใหม่ใด ๆ ล้วนลงเอยด้วย การขยายผล SEO AI กลายเป็น Degelman M34 Manure Spreader ของอินเทอร์เน็ตไปแล้ว https://degelman.com/products/manure-spreaders
- เป็นอุปมาที่ดี โชคดีที่ออนไลน์นั้นการสร้าง “อสังหาริมทรัพย์” จากความว่างเปล่าง่ายกว่า เพียงแต่พื้นที่มีค่าบางส่วนอย่าง Twitter และ Reddit ก็สูญเสียไปในระดับหนึ่งแล้ว
สำหรับนักเขียนที่กำลังจะตกงานหรือว่างงานไปแล้ว และแทบจะไม่มีทางได้งานจากผลงานแบบเดิมอีกต่อไป ผู้ประกอบการ AI รายใหญ่ระดับยักษ์ ควรต้องจ่ายเงินให้พวกเขาเขียนอะไรก็ได้
เงื่อนไขมีเพียงข้อเดียว คือในผลงานนั้นต้องไม่มีประโยคใดแม้แต่ประโยคเดียวที่สร้างด้วย AI
ตอนแรกจะบอกว่า “รัฐบาลควรเป็นคนจ่าย” แต่แบบนั้นคือการผลักภาระความสูญเสียให้สังคม ซึ่งเราก็เคยเจอมามากพอแล้วในอดีต
- มีบริษัทอยู่หลายแห่งที่ทำเรื่องแบบนั้นอยู่แล้ว ผมเองก็รับงานสัญญาเป็นครั้งคราวกับบางแห่ง และบางครั้งค่าตอบแทนก็สูงกว่าระดับที่นักเขียนทั่วไปจะคาดหวังได้จากที่อื่นมาก
  แต่ถึงอย่างนั้น นักเขียนส่วนใหญ่ไม่เคยหาเลี้ยงชีพด้วยการเขียนอยู่แล้ว อุปสรรคในการเริ่มเขียนต่ำเกินไป คนที่ชอบเขียนก็มีมากเกินไป และคนส่วนใหญ่แทบไม่อ่านหนังสือ
- ใครเป็นคนโปรแกรมเทป? https://en.wikipedia.org/wiki/Profession_(novella)
- บริษัท AI กำลังจ้างคนแบบนั้นจริง ๆ เพื่อสร้าง ข้อมูลฝึกสอน แบบปรับแต่งเฉพาะ
- ผู้คนทำเสียงรบกวนและรับเงินกันมานานกว่า 10 ปีแล้ว ใส่ขยะเข้าไปก็ได้ขยะออกมา เรื่องนี้จริงเสมอ
  การหาคำถัดไปเป็นปัญหาที่แก้ได้แล้ว ความคิดใหม่ ๆ มนุษย์สามารถแก้ได้ และอีกไม่นาน AI ก็อาจทำได้เช่นกัน แต่การเพิ่มขยะเข้าไปในข้อมูลมากขึ้นไม่ได้ช่วยให้ดีขึ้น
- เคยอ่านประวัติศาสตร์อเมริกาบ้างไหม lol

เหตุผลที่ wordfreq หยุดอัปเดต

ภาคผนวกเดือนกันยายน 2024

สแนปช็อตการใช้ภาษาจนถึงปี 2021

เว็บสาธารณะที่ปนเปื้อนด้วย Generative AI

ข้อมูลภาษาสนทนาที่หายไปหรือแพงขึ้น

Twitter และ X

Reddit

เหตุผลที่ต้องการเว้นระยะจาก Generative AI

บทสรุปของการหยุดอัปเดต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News