อินเทอร์เน็ตกับข้อมูลขยะที่เต็มไปด้วย AI

(aftermath.site)

6 คะแนน โดย GN⁺ 2024-01-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การค้นหาบนอินเทอร์เน็ตเคยง่ายถึงขั้นมีวลี “let me Google that for you” ใช้กันได้ แต่ตอนนี้กลับมีสถานการณ์ที่ต้องไปถามยืนยันกับคนอีกครั้งมากขึ้น เพราะมีทั้งข้อมูลที่ AI สร้างขึ้นและผลการค้นหาที่ผิดพลาด
Google แสดง สแนปช็อต ของหน้าเว็บอยู่ในผลการค้นหาแทนลิงก์ และถึงขั้นแสดงข้อมูลผิดอย่างคำตอบ AI ของ Quora ที่บอกว่า “ไข่สามารถละลายได้”
คุณภาพการค้นหาที่ลดลงไม่ได้เป็นแค่ปัญหาคำตอบจาก AI เท่านั้น แต่ยังสั่นคลอนบริบทของการค้นหาเองด้วย ดังเช่นกรณีค้นหาไซนัสอักเสบแล้วได้ผลลัพธ์เกี่ยวกับการอักเสบของอวัยวะเพศชาย
ผู้ใช้ Twitter รายหนึ่งเผยวิธี ขโมยทราฟฟิก โดยส่งออก URL ที่ถูกจัดทำดัชนีของเว็บคู่แข่ง แล้วใช้ AI สร้างบทความคล้ายกันอย่างรวดเร็วเพื่อแซงผลการค้นหาบน Google
ข้อครหาว่า Sports Illustrated ใช้ AI เขียนบทความและตั้งชื่อผู้เขียนปลอม แสดงให้เห็นว่าการผลิตคอนเทนต์เพื่อหวังการมองเห็นในการค้นหาและรายได้โฆษณาสามารถบั่นทอนความเชื่อมั่นของผู้อ่านได้อย่างไร

วิธีที่ Google Search ดันคำตอบผิดขึ้นมาอยู่ข้างหน้า

ในอดีต ความน่าเชื่อถือของการค้นหาสูงมากจนถึงขั้นสามารถเยาะเย้ยคนที่มาถามคำถามออนไลน์ว่า “ไปหาใน Google เองสิ” และวลี “let me Google that for you” ก็ถูกใช้ในบริบทนั้น
ตอนนี้ในอินเทอร์เน็ตมีข้อมูลขยะที่สร้างโดย AIมากขึ้น ทำให้ยากขึ้นที่จะตรวจสอบข้อมูลจากผลการค้นหาเพียงอย่างเดียว และมีโอกาสสูงขึ้นที่จะต้องกลับไปถามคนอีกครั้ง
Google ไม่ได้แสดงแค่ลิงก์เว็บไซต์ แต่แสดงบางส่วนของหน้าเว็บในรูปแบบ สแนปช็อต ในดรอปดาวน์ ทำให้ผู้ใช้อ่านผลลัพธ์ได้โดยไม่ต้องคลิก
- วิธีนี้อาจทำให้ผู้ใช้เห็นข้อมูลผิดก่อนที่จะได้ตรวจสอบบริบทของต้นฉบับ
- ในเดือนกันยายน 2023 มีกรณีที่ Google ดึงคำตอบที่ AI สร้างบน Quora มาแสดง และบอกผิดว่าไข่สามารถละลายได้
ยังมีการพบซ้ำได้ว่าการค้นหาไซนัสอักเสบกลับคืนผลลัพธ์เกี่ยวกับการอักเสบของอวัยวะเพศชาย แสดงให้เห็นว่าความเกี่ยวข้องของผลการค้นหาเองก็เริ่มสั่นคลอน

กรณีที่คอนเทนต์ AI เข้ายึดพื้นที่ผลการค้นหา

ผู้ใช้ Twitter รายหนึ่งอ้างว่าได้ทำ “heist” ทราฟฟิกอินเทอร์เน็ตเพื่อแซงหน้าเว็บไซต์หนึ่งในผลการค้นหาของ Google
- ตรวจสอบดัชนีเว็บไซต์ของเว็บเป้าหมาย
- ส่งออก URL ของบทความ
- ใช้ AI เขียนบทความอย่างรวดเร็วโดยอิงจาก URL เหล่านั้น
- งานแก้ไขชื่อหน้าเว็บด้วยตัวเองถูกอธิบายว่าเป็น “ทางเลือก”
Sports Illustrated ถูกตั้งข้อสงสัยหลังการรายงานของ Futurism ว่ามีบทความหลายชิ้นเขียนโดย AI และใช้บุคคลที่ไม่มีตัวตนเป็นผู้เขียน
- เมื่อ Futurism ขอความเห็น คอนเทนต์ดังกล่าวก็ถูกลบออก
- ต่อมา Sports Illustrated ระบุว่าบทความเหล่านั้นเขียนโดยบุคคลที่สาม ไม่ใช่งานที่ AI สร้างขึ้น และผู้เขียนใช้ชื่อปากกา
- คำชี้แจงนี้ไม่ได้อธิบายว่าทำไมบทความจึงถูกลบหลังจากสื่อเข้ามาสอบถาม
- และยังมีข้อเท็จจริงคงอยู่ที่ Sports Illustrated เคยเปิดเผยต่อสาธารณะในบทความของ Wall Street Journal เมื่อเดือนกุมภาพันธ์ 2023 ว่าจะใช้ AI สร้างคอนเทนต์และไอเดียบทความ
อินเทอร์เน็ตกำลังเข้าใกล้การเป็นพื้นที่ที่เครื่องสื่อสารกับเครื่องมากกว่าจะเป็นคลังที่มนุษย์ใช้แลกเปลี่ยนข้อมูลกัน
วลี “let me Google that for you” ใช้ไม่ได้เหมือนเดิมอีกต่อไป และความเป็นไปได้ที่จะเจอข้อมูลผิดหรือของปลอมทั้งหมดในผลการค้นหาก็เพิ่มขึ้น
ผู้มีอำนาจตัดสินใจด้านงบประมาณของ Sports Illustrated ถูกวิจารณ์ว่าสนใจการปั่นผลการค้นหาบน Google และหารายได้จากโฆษณามากกว่าการรับใช้ผู้อ่านอย่างเหมาะสม

1 ความคิดเห็น

GN⁺ 2024-01-12

ความคิดเห็นจาก Hacker News

การแพร่หลายของ LLM ทำให้เราสูญเสียฮิวริสติกที่เคยใช้ได้ไปหนึ่งอย่าง เมื่อก่อนเราเห็น ข้อความที่สะกดคำและใช้ไวยากรณ์เละเทะ ก็กรองโพสต์ไร้ค่าออกได้อย่างรวดเร็ว แต่กับขยะที่ AI สร้างขึ้น วิธีนี้ใช้ไม่ได้เลย
ความสามารถในการใช้ภาษาสมบูรณ์แบบ และยังดีกว่าคนส่วนใหญ่เสียอีก ทำให้ใคร ๆ ก็สร้างข้อความที่ดูน่าเชื่อถือได้ทันที ไม่ต้องจ้าง copywriter แบบพวกสแปมเมอร์ SEO สมัยก่อนอีกแล้ว กรณีที่ curl ต้องปวดหัวกับรายงานบั๊ก AI ปลอมเป็นตัวอย่างที่ดี: https://news.ycombinator.com/item?id=38845878
นี่ยังเป็นแค่จุดเริ่มต้น และมันจะเลวร้ายลงมาก จนอาจถึงวันที่แยก เมล็ดข้าวกับแกลบ ออกจากกันไม่ได้
- ควรบริจาคให้ archive.org มากขึ้น Wayback Machine อาจกลายเป็นวิธีเดียวในการตัดสิ่งที่เกิดขึ้นหลังราวปี 2020 ออก แล้วหา data ที่มีประโยชน์บนอินเทอร์เน็ตได้
- กระแสต่าง ๆ เป็นวัฏจักร search engine เคยดีกว่ามากในการค้นพบเว็บไซต์ที่ถูกลิงก์ถึง แต่เมื่อผู้คนเล่นเกม SEO และปล่อยบทความปลอมกับลิงก์ไขว้กันออกมามหาศาล ทุกคนก็พูดซ้ำแต่ถ้อยคำเดิม ๆ จนคุณภาพการค้นหาดิ่งลง
  ถ้าจะเคี้ยวความคิดเดิมซ้ำไปมา ก็ไม่มีเหตุผลที่จะไม่ทำให้เป็นระบบอัตโนมัติ สุดท้ายคนก็ลืมไปด้วยซ้ำว่าบทความดี ๆ เดิมทีมาจากไหน เช่น LLM มาแทน Stack Overflow และ Stack Overflow มาแทนเอกสารทางเทคนิค อะไรทำนองนั้น เมื่อ cost การผลิตแทบเป็นศูนย์ ก็ไม่มีใครสนใจคุณภาพ จนเมื่อเบื่อหน่ายมากพอ พฤติกรรมก็น่าจะแกว่งกลับไปสู่อีกฝั่ง เป็นเว็บที่คัดกรองด้วยปากต่อปากอีกครั้ง
- ตอนมัธยมผมเคยทำ SEO copywriting ผลลัพธ์ของ ChatGPT แทบจะอยู่ระดับเดียวกับบทความที่ผมทำตอนนั้น แก่นของงานคือใส่คีย์เวิร์ดเฉพาะ แล้วเขียนบทความให้ข้อมูลแบบตื้น ๆ ที่เกี่ยวข้องกับสิ่งที่ต้องการขายนิดหน่อย
  เมื่อเวลาผ่านไป อาจเกิดเอฟเฟกต์แปลก ๆ แบบกระแสน้ำวนกับ intelligence ของ AI ตอนนี้ถ้าถามคำถามสไตล์ Stack Overflow กับ ChatGPT ก็จะได้คำตอบสไตล์ Stack Overflow ทันที แต่ความจริงและความถูกต้องแทบเหมือนการเสี่ยงโชค ต่อไปถ้าผู้คนพึ่งพามันมากขึ้นและโพสต์บน Stack Overflow น้อยลง แหล่งข้อมูลที่ AI ใช้เรียนรู้อาจค่อย ๆ แห้งลง เหลือเพียงลูปเหนียว ๆ ที่บางครั้งก็ถูกต้อง ยิ่งเทคโนโลยีพัฒนา ปัญหานี้ก็อาจยิ่งหนักขึ้น และตอนนั้นมันอาจไปเรียนรู้จาก เอกสารทางเทคนิค แทน
- การสะกดคำและไวยากรณ์ไม่ดีอาจเป็นแค่ งานเขียนของคนที่ไม่ใช่เจ้าของภาษา ก็ได้
- จริงเลย ผมเคยคิดถึงอินเทอร์เน็ตก่อนที่ ClosedAI จะทำมันพัง แต่ตอนนี้ถึงขั้นอยากกลับไปใช้ อินเทอร์เน็ตปี 2020 แล้ว
  งานวิจัย LLM ดูเหมือนจะนำไปสู่การล่มสลายของสังคมได้หลายทาง เพื่อนผมกำลังเรียนปริญญาโท ทุกคนใช้ ChatGPT เขียนคำตอบกันหมด และรูปแบบการใช้ถ้อยคำระมัดระวังทางการเมืองแล้วสรุปตอนท้ายมันชัดเจนเกินไปจริง ๆ อยากให้โดนไล่ออกไปเลย
เห็นด้วยกับหัวข้อ แต่ไม่คิดว่าอินเทอร์เน็ต เปลี่ยนไปมากนักเมื่อเทียบกับก่อน GPT-4, 3, 2 บทความในหัวข้อทั่วไปที่เด็กฝึกงานหรือผู้ช่วยเสมือนจากอินเดียเขียน ส่วนใหญ่ก็แย่พอ ๆ กับงานที่ AI สร้าง และแยกออกได้ไม่ง่ายอยู่แล้ว
การที่ search engine ทุกวันนี้จัดอันดับโดยให้ความสำคัญกับ authority มากกว่าความตรงกันของ query กับข้อความบนเว็บเพจก็ไม่ได้ช่วยอะไร ผู้คนแทบไม่ใช้เว็บกันมากแล้ว แต่อยู่ในแอป และกรณีที่ท่องเว็บเพจบนมือถือก็มักมีแค่ตอน “กูเกิล” คำถามเท่านั้น แม้แต่ตอนนั้นก็มักไม่ลงลึกเกินหนึ่งขั้น แล้วกลับไปสู่ประสบการณ์ในแอป
เว็บแย่มานานแล้วและยิ่งแย่ลง แต่ไม่นานมันอาจไม่สำคัญอีกต่อไป ผู้อ่านเหมือนกบในน้ำที่ค่อย ๆ เดือด และตอนนี้อุณหภูมิพุ่งขึ้นจนเพิ่งรู้ตัวว่ากำลังเกิดอะไรขึ้น
ถ้า “เว็บ” จะยังเหลืออยู่ต่อไป ผมคิดว่าไม่ใช่แค่ต้องย้ายไปยังชั้น anonymization ใหม่ แต่ยังต้องมี การแลกเปลี่ยนเงินบ่อยครั้ง เพื่อทำให้การผลิตวัสดุคุณภาพต่ำจำนวนมากทำได้ยากขึ้น ถ้าคนทั่วไป 90% ไม่อยากจ่ายเงิน ก็เชิญกินกากต่อไป ผมใช้เปรียบเทียบกบต้มเพื่อสื่อว่าปริมาณสแปมเพิ่มขึ้นอย่างมาก
- เห็นด้วยอย่างยิ่ง สแปมเมอร์ SEO ทำลายเว็บสาธารณะไปแล้วเมื่อหลายปีก่อน และ Google ก็ทำเต็มที่เพื่อให้สิ่งนั้นเกิดขึ้นได้เพื่อรายได้จากโฆษณา
- คุณพลาดตัวแปรสำคัญคือ ปริมาณ เด็กฝึกงานหรือคอนเทนต์จ้างข้างนอกก็มีอยู่จริง แต่ถึงอย่างไรก็ยังเป็นขยะที่มนุษย์ใช้เวลาทำขึ้นมา
  ตอนนี้ปัจจัยที่เคยจำกัดปริมาณขยะเหล่านั้นหายไปแล้ว
- คอนเทนต์บนเว็บไหลเข้าสู่โซเชียลมีเดีย ข่าว และ e-book ที่กลายเป็น “หนังสือ” สร้างกระแสน้ำวนไร้รูปของข้อมูลที่ถูกบิดเบือน
  ถ้าน้ำเสียไหลเข้าแหล่งน้ำประปา ก็ไม่มีใครปลอดภัย จะอุ่นใจเพียงเพราะใช้ก๊อกน้ำที่อยู่ไกลจากต้นน้ำไม่ได้
- เห็นด้วยว่าคอนเทนต์คุณภาพต่ำมีมาตลอด แต่ปัญหาตอนนี้คือ ขนาดของข้อมูลชวนเข้าใจผิด ที่สามารถสร้างได้
  ปริมาณเพิ่มขึ้นหรือกำลังเพิ่มขึ้นเรื่อย ๆ ทำให้ตอนนี้การหาสิ่งที่ถูกกฎหมายและทำมาอย่างเหมาะสมยากขึ้นมาก มุมมองเรื่องแอปน่าสนใจดี
- สงสัยว่า AI รุ่นถัดไปจะคัดกรองเว็บได้ดีแค่ไหน
  ถ้าผู้เผยแพร่ทุกคนถูก AI ประเมินโดยอัตโนมัติในด้าน ความสามารถในการคาดการณ์, อคติ, ความถูกต้องของข้อเท็จจริง บนกรอบเวลา 1 ปี, 2 ปี, 5 ปี จะเป็นอย่างไร
ไม่คิดว่าจะต้องพูดแบบนี้ แต่ในสถานการณ์ที่ clearnet เปราะบางขนาดนี้ การที่ข้อมูลทั้งหมดถูก กักเป็นไซโลอยู่ใน Discord ก็ดูไม่ได้แย่นัก ถ้าไม่ถูกจัดทำดัชนีโดยเสิร์ชเอนจิน โอกาสที่จะไปโผล่อยู่ข้าง ๆ เศษขยะจาก AI หรือถูกใช้เป็นข้อมูลฝึกก็แทบไม่มี
อนาคตของอินเทอร์เน็ตสุดท้ายแล้วคือมนุษย์ เครื่องจักรนั้นแม้แต่งานพื้นฐานที่เคยทำได้ดีก็เชื่อถือไม่ได้อีกต่อไป และเพราะเลือกทางที่ทำงานซับซ้อนไม่ได้ จึงทิ้งประสิทธิภาพของงานพื้นฐานไปด้วย
- พลวัตพื้นฐานที่ทำลายเทคโนโลยีทุกอย่างคือ การพาณิชย์มากเกินไป ในยุคนี้ โฆษณาได้ทำลายแรงจูงใจของอินเทอร์เน็ต โดยเฉพาะเว็บ ไปอย่างสิ้นเชิง
  ในยุคค้าปลีกออนไลน์ ธุรกรรมและโมเดลธุรกิจยังโปร่งใส แต่ในเศรษฐกิจโฆษณาและความสนใจที่อยู่เบื้องหลัง ทุกอย่างพร่าเลือนและบิดเบี้ยว แทบทุกฝ่ายสมคบกันสร้างรายได้จากเวลาว่างและความสนใจของผู้คน บังคับให้บริโภค แล้วฆ่าพวกเขาอย่างสนุกสนาน
  ผมเข้าทำงานที่ Google ในปี 2010 และออกมาในปี 2019 รายได้ต่อปีในปี 2010 อยู่ราว 30,000 ล้านดอลลาร์ และปีที่แล้วอยู่ที่ 300,000 ล้านดอลลาร์ นับตั้งแต่ก่อตั้งมา Google เติบโตปีละ 20% ค่อนข้างสม่ำเสมอ ดังนั้นถ้าจะให้ถึงเป้าในปี 2024 ก็ต้องมีรายได้ใหม่ 60,000 ล้านดอลลาร์ เท่ากับต้องหารายได้เพิ่มให้ได้เท่ากับ Google ในปี 2010 สองบริษัท ภายในปีเดียว ทั้งที่ Google ในปี 2010 ใช้เวลาสร้างถึง 12 ปี ซึ่งฟังไม่สมเหตุสมผลเลย
- ขอคัดค้านอย่างแรง ผมตอบคำถามเกี่ยวกับการย้ายถิ่นฐานออนไลน์มานานแล้ว และบ่อยครั้งมีคนมาคอมเมนต์ในเธรดเมื่อหลายปีก่อน หรือส่งข้อความส่วนตัวมาถามเรื่องนั้น กล่าวคือ คอนเทนต์สาธารณะ ช่วยคนจำนวนมากได้เมื่อเวลาผ่านไป
  ตรงกันข้าม เนื้อหาในกลุ่ม Facebook แบบปิดมีอายุใช้งานอย่างมากก็ไม่กี่วัน ถ้าเป้าหมายคือการแบ่งปันความรู้ที่มีประโยชน์ให้ผู้ชมกว้างที่สุดเท่าที่เป็นไปได้ กลุ่ม Discord ถือเป็นการถอยหลังครั้งใหญ่
- ถ้า Discord เริ่มขายข้อมูลนั้นให้บริษัท AI เรื่องก็เปลี่ยนไปไม่ใช่หรือ
- ไม่เข้าใจว่าการถูกใช้เป็นข้อมูลฝึกเกี่ยวข้องกับปัญหานี้อย่างไร ประเด็นหลักคือความสามารถในการแยกแยะระหว่าง เศษขยะจาก AI กับข้อมูลที่ถูกต้อง
- Discord ก็ค้นหาได้: https://www.answeroverflow.com/
ทางออกคือ ความแท้จริง และมีเพียงคอนเทนต์ที่ลงลายเซ็นเท่านั้นที่ให้สิ่งนั้นได้ เรารับอะไรตามหน้าฉากไม่ได้อีกแล้ว เพราะมันอาจถูกสร้างขึ้นหรือปลอมแปลงก็ได้
เมื่อใคร ๆ ก็โพสต์อะไรก็ได้ และ AI โพสต์ได้มากกว่าจนท่วมมนุษย์ เราจำเป็นต้องพึ่งพาชื่อเสียงและความแท้จริงเพื่อรู้ว่าใครเผยแพร่อะไรและกำลังพูดอะไร จึงจะคัดกรองได้ เว็บแห่งความเชื่อใจเคยถูกลองมาแล้ว แต่ไม่เคยหลุดพ้นจากมุมที่ถูกมองว่าเป็นของพวกเพี้ยนสวมหมวกฟอยล์ อาจถึงเวลาลองอีกครั้ง
- คอนเทนต์ที่ลงลายเซ็นไม่ได้รับประกันเลยว่าเนื้อหานั้นเขียนหรือแก้ไขโดยมนุษย์ ด้วยความเสี่ยงที่กุญแจจะถูกขโมย แม้แต่การรับประกันว่าคนที่ลงลายเซ็นเป็นผู้โพสต์จริงก็ยังไม่มี
  การตรวจสอบความแท้จริงของคอนเทนต์ดิจิทัลเป็นไปไม่ได้ทั้งในทางกายภาพ ปรัชญา และเทคนิค ที่พรมแดนระหว่างโลกแอนะล็อกกับโลกดิจิทัล ย่อมมีช่องให้หลอกได้เสมอ
  นี่เป็นเหตุผลเดียวกับที่บล็อกเชนไม่สามารถถูกใช้กับการรับรองซัพพลายเชนได้สำเร็จ เราตรวจสอบได้ว่าสินค้าหมายเลข 523 มีแฮชที่ถูกต้องติดอยู่ แต่พิสูจน์ไม่ได้ว่าแฮชนั้นถูกนำไปใช้กับสินค้าหมายเลข 523 ของจริง ไม่ใช่ของปลอม
- ผมมองว่าเกมจริง ๆ คือ ระบบตัวตนที่พิสูจน์ได้ เมื่อระบบตัวตนที่รองรับการรับรอง (attestation) ถาโถมเข้ามา ไม่ว่า AI จะให้ผลลัพธ์คุณภาพสูงหรือผลิตขยะล้วน ๆ ออกมาเป็นจำนวนมากก็ไม่สำคัญแล้ว
  ในกรณีหลัง จะเป็นชัยชนะครั้งใหญ่ของเจ้าของแพลตฟอร์มอย่าง Apple, Google, Microsoft (ผ่าน TPM) เพราะพวกเขาสามารถพิสูจน์ได้ว่าผู้ใช้ “ไม่ใช่บอต” อีก 5 ปีข้างหน้า ก็ไม่น่าแปลกใจถ้าการมีส่วนร่วมทางออนไลน์อย่างมีความหมายจำเป็นต้องมีความสัมพันธ์กับหนึ่งในสามรายนี้
  ต่อให้ AI “ล้มเหลว” ก็ยังมีเหตุผลให้ผลักดันต่อไป เพราะสามารถย้ายผู้ใช้อินเทอร์เน็ตจำนวนมากไปสู่โมเดลสมัครสมาชิกเพื่อยืนยันตัวตนและการรับรองได้ ถ้าไม่จ่ายเงิน คอนเทนต์จะถูกถือโดยปริยายว่าเป็นขยะที่สร้างขึ้นมาและจะไม่ถูกแสดง
  ฝั่งองค์กรอาจเกิดโครงสร้างที่ทำให้ระบบ SSL และ code signing แบบเดิมดูเหมือนงานการกุศลเลยทีเดียว อาจนำสิ่งอย่าง BIMI ไปใช้กับคอนเทนต์ที่โพสต์ทั้งหมด และคิดเงินต่อรายการก็ได้ ยิ่งจ่ายมากก็ยิ่ง “เชื่อถือได้” มากขึ้นในลักษณะการแบ่งระดับราคา สุดท้ายผมกลัวว่าตัวตนและการยืนยันตัวตนของบริการภาครัฐจะตกไปอยู่กับบริษัทเอกชนอย่าง Google หรือ Apple และตัวตนจริงจะถูกผูกกับการรับรองของบริษัทเหล่านั้น
  1. https://www.w3.org/TR/webauthn/#sctn-defined-attestation-for...
  2. https://bimigroup.org/
- ถามด้วยความสงสัยจริง ๆ ว่าสิ่งนี้แก้ปัญหาอย่างไร ผมก็สร้างบทความขยะขึ้นมาเป็นกอง แล้วลงลายเซ็นโพสต์ได้เหมือนกัน
  แม้ที่อย่าง Apple หรือ Google จะให้บริการรับรองผู้ใช้ แต่การ สร้างขยะ AI โดยอัตโนมัติแล้วลงลายเซ็น ก็ยังเป็นไปได้ไม่ใช่หรือ
- ถ้าทางออกคือความแท้จริง คนที่เชื่อว่าโลกแบนจำนวนไม่น้อยก็ดูเหมือนจะเชื่ออย่าง จริงใจ มากทีเดียว
- ส่วนที่บ้าที่สุดคือ Jaron Lanier เคยพูดเรื่องนี้ไว้แล้วเมื่อ 20 ปีก่อน หรืออาจจะก่อนหน้านั้นด้วยซ้ำ
คอนเทนต์ที่สร้างโดย LLM แค่เร่งให้เร็วขึ้นเท่านั้น แต่นี่เป็นปัญหาเก่าอยู่แล้ว เมื่อ Google มุ่งหนักไปทางเพิ่มรายได้โฆษณาและอำนาจครอบงำเทคโนโลยีโฆษณา และ SEO ระบาดไปทั่วผลการค้นหา LMGTFY ก็ตายไปแล้ว
ทุกวันนี้ค่อนข้างยากที่จะได้ข้อมูลข้อเท็จจริงที่ไม่เอนเอียงจากการถามแบบเรียบ ๆ เท่านั้น ดังนั้นจึงพยายามหาใน Reddit ก่อน นี่ก็ไม่ใช่ยาครอบจักรวาล และในช่วงไม่กี่ปีที่ผ่านมาก็เต็มไปด้วยคอนเทนต์โฆษณาแฝง แต่เธรดเก่า ๆ จากยุคที่ Reddit ยังได้รับความนิยมน้อยกว่าและปั่นยากกว่า หรือเธรดในชุมชนเล็ก ๆ มักเป็นตัวเลือกที่ใช้ได้
- เคยเจอว่า Google หาเพจเอกสารของคลาส ThreeJS บางคลาสไม่เจอด้วยคีย์เวิร์ดไหนเลย สุดท้ายเลยย้ายไปใช้ Kagi
  ต้องวาง URL ของเพจนั้นเอง ถึงจะโผล่ขึ้นมาเป็นผลลัพธ์บนสุด
  Kagi หาเจอตั้งแต่ครั้งแรกด้วยแค่ชื่อคลาส เสิร์ชแบบเสียเงินคือทางออก และแรงจูงใจจากโฆษณาขัดแย้งกับการค้นหา ตั้ง Kagi เป็นเสิร์ชเริ่มต้นในแถบที่อยู่แล้วดีมาก
- สิ่งที่ต้องจำไว้เสมอคือ Google Search ไม่ได้ให้ผลการค้นหา แต่สร้างหน้าเว็บที่ปรับแต่งอย่างละเอียดให้เข้ากับบับเบิลของผู้ใช้ Facebook กับ Twitter ก็เหมือนกัน เพียงแต่อัลกอริทึมต่างกัน
  Google Search ไม่ได้คืนผลลัพธ์เดียวกันให้คนแต่ละคนแม้จะค้นคำเดียวกัน สิ่งนี้ต่างจากเสิร์ชเอนจินในอดีตอย่าง AltaVista หรือ ElasticSearch และแม้ยังถูกเรียกว่าเสิร์ชเอนจิน ก็มีเหตุผลเพียงพอที่จะไม่ปฏิบัติกับมันเหมือนเสิร์ชเอนจิน มันใกล้เคียงกำแพงขยะส่วนบุคคลเพื่อโฆษณาแบบเจาะจงมากกว่า
- คิดจริง ๆ หรือว่าสแปมเมอร์ตอนนี้ไม่ได้ใช้ AI เขียนโพสต์ใน Reddit
แก่พอที่จะจำยุคที่อินเทอร์เน็ตเต็มไปด้วย ขี้หมาออร์แกนิก ได้
- มนุษย์คือ เครื่องผลิตคำไร้สาระ ต้นตำรับ AI แค่ทำสิ่งที่มนุษย์ทำมาตลอดเท่านั้น
- ถึงเวลาทิ้ง Google แล้วกลับไปใช้ webring
- ทุกวันนี้ก็ยังมีพ่อค้าแม่ขายคำไร้สาระแบบออร์แกนิกที่มีงานฝีมืออยู่ แต่แพง
- หมายถึงสแปมคำตอบที่ขูดมาจาก Stack Overflow อะไรทำนองนั้นหรือเปล่า นั่นมันราว ๆ ปีที่แล้วไม่ใช่เหรอ ตอนนี้แทบไม่ใช้ Google แล้ว แค่ถาม Bing chat เอา
- อย่างน้อยโพสต์ไร้สาระของมนุษย์ก็ยังสนุก
ท้ายที่สุดโฆษณามีอยู่เพื่อหาเงิน และตราบใดที่บอทยังไม่มีบัตรเครดิต เงินนั้นก็มาจากมนุษย์ ถ้าในบางพื้นที่จู่ ๆ “การมีส่วนร่วม” หรือทราฟฟิกเพิ่มขึ้น แต่ไม่เปลี่ยนเป็นการใช้จ่ายของมนุษย์ บริษัทอย่าง Google ก็น่าจะสังเกตเห็นใน กำไรขาดทุน
Google จะเริ่มตอบสนองเมื่อปัญหานี้ใหญ่พอในงบประมาณ การปลดพนักงานในวงการเทคโนโลยีที่ได้ยินจากหลายบริษัท รวมถึงเรื่องของ Google ในเธรด HN อื่นวันนี้ อาจเป็นสัญญาณบอกทิศทางลม
- AI ไม่ได้บริโภคคอนเทนต์ แต่มันสร้างคอนเทนต์ ถ้าผู้คนถูกโฆษณาหรือคอนเทนต์ที่ AI สร้างหลอกให้ซื้อสินค้าปลอมหรือคุณภาพต่ำได้ง่าย นั่นก็จะยังคง ดันรายได้ของ Google ต่อไป
  เหตุผลเดียวที่ Google ไม่ชอบการปั่น SEO คือเว็บไซต์สามารถยึดพื้นที่บนสุดของการค้นหาได้โดยไม่ต้องจ่ายโปรโมชัน ส่วนคุณภาพสินค้านั้นไม่สำคัญ
  มันจะเป็นปัญหาก็ต่อเมื่อเกิด การล่มสลายของความเชื่อมั่น ที่ผู้คนเจอสินค้าแย่ ๆ มากเกินไปจนไม่เชื่อถือเว็บไซต์หรือผลการค้นหาที่เคยเชื่ออีกต่อไป เพราะงานของฉัน ฉันเห็นโฆษณายาตลาดสีเทาบน Instagram เยอะมาก แต่รู้ว่ามันไม่ได้ผ่านการตรวจสอบจาก FDA และส่วนใหญ่เป็นยาหลอกลวง หรือสารเคมีเพื่อการวิจัยที่ปลอมตัวเป็น Amanita Muscaria, Delta-8 THC เลยไม่สนใจ
- Google อาจสังเกตเห็นได้ แต่เพราะสิ่งที่มนุษย์เลิกใช้เงินด้วยไม่ใช่ Google จึงไม่มีแรงจูงใจให้จ่ายเงินเพื่อหยุดมัน
  บริษัทที่ลงโฆษณากับ Google อาจรู้สึกถึง ROI โฆษณาที่ลดลง แต่ส่วนใหญ่จะมองว่าไม่มีตัวเลือกอื่น จึงต้องใช้เวลาอีกนานกว่าจะออกจาก Google ถ้าต้องรอจนเรื่องนี้กระทบกำไรขาดทุนของ Google ก็กลัวว่าอินเทอร์เน็ตจะเปลี่ยนไปเป็นอะไร
- ดูเหมือนจะมองการใช้จ่ายด้าน ad tech ใจดีเกินไป ผู้เล่นรายใหญ่ที่สุดกำลังทำเรื่องแบบนั้นเองอยู่แล้ว
- เป็นมุมมองที่น่าสนใจ แต่ Google จะยังไม่โดนกระทบจนกว่าผู้ลงโฆษณาจะตัดสินว่ากำลังเสียเงินไปกับโฆษณาออนไลน์เปล่า ๆ
  มีบางหัวข้อที่ควรแห้งเหือดไปแล้ว แต่บางทีการฉ้อโกงอาจกำลังหล่อเลี้ยงเครื่องจักรโฆษณาในส่วนนั้นอยู่ เรื่องอย่างฟิตเนสหรือลดน้ำหนักแทบใช้ Google ไม่ได้เลย ตอนรีโนเวตบ้านก็พบว่าวัสดุก่อสร้าง โดยเฉพาะสี กลายเป็นสิ่งที่ค้นหาไม่ได้ สุดท้ายการไปที่ร้านแล้วถามเอาเป็นวิธีเดียวที่จะได้ข้อมูลและคำแนะนำที่เชื่อถือได้
  Google ยังใช้ได้ในหลายด้าน แต่สิ่งที่ทำได้ดีจริง ๆ คือโฆษณาสินค้า ถ้ามีของที่อยากซื้อ เครื่องยนต์โฆษณาของ Google จะหาให้ เพียงแต่ต้องรู้ให้ชัดว่าต้องการอะไร
- ทำไมจะไม่เปลี่ยนเป็นการใช้จ่ายของมนุษย์ล่ะ ถ้าโฆษณาก็จริงและผู้เข้าชมก็จริง คอนเทนต์จะจริงหรือไม่ก็ไม่สำคัญ
  กลับกัน ยิ่งหน้าเว็บทั่วไปและน่าเบื่อมากเท่าไร ผู้คนก็อาจยิ่งมีแนวโน้มคลิกโฆษณามากขึ้น
ก่อนที่ “AI” จะยึดครอง ก็เต็มไปด้วย คำไร้สาระที่มนุษย์สร้างตามที่ SEO ต้องการ อยู่แล้ว ดังนั้นสิ่งที่สูญเสียไปจริง ๆ ในช่วงไม่กี่ปีที่ผ่านมาก็ไม่ได้มากขนาดนั้น ผมเข้าวงการมานานกว่า 10 ปีมากแล้ว และพูดแบบนี้มาเกือบนานพอ ๆ กัน
- ถ้าเป็นเรื่องจริง ก็ต้องสรุปว่าข่าวและประวัติศาสตร์ทั้งหมดในช่วง 10 ปีที่ผ่านมาเป็น คำไร้สาระที่มนุษย์สร้าง ด้วย ไม่ได้บอกว่าผิด แต่ต้องเดินตามความเชื่อของตัวเองไปจนถึงข้อสรุปด้วย
ไม่มีความต่าง การค้นเว็บไร้ประโยชน์มาเกิน 15 ปีแล้ว ตอนนี้แย่กว่าเดิมแค่นิดเดียวมาก ๆ แต่ก่อนหน้านี้สถานการณ์ก็เป็นแบบว่า ถ้าถามอะไรสักอย่าง ผลลัพธ์แรก ๆ ก็เต็มไปด้วยหน้า marketing หรือไม่ก็พาไปเจอขยะการตลาดผิวเผินในรูปแบบ “บล็อก”
ไม่อยากฝากคำตอบของคำถามอย่างวิธีขัดส้วมไว้กับคนที่อาชีพคือ “สร้างคอนเทนต์” หรือ “ทำบล็อกหาเงิน” ความต่างระหว่างตัวอย่างในบทความกับผลลัพธ์เมื่อ 10 ปีก่อนมีแค่ว่า อย่างแรกผิดอย่างชัดเจน ส่วนอย่างหลังเป็นเนื้อหาที่ถ้าไม่ได้ทำงานในสาขานั้น ก็คงต้องใช้เวลาหลายวันกว่าจะโต้แย้งได้
ถ้าเคยอ่าน Anathem แล้ว ในฐานะ Ita งานของเราก็คือการกรองขยะใน Reticulum อยู่แล้ว ตอนนี้ก็แค่ลงมือทำเท่านั้น
https://en.wikipedia.org/wiki/Anathem
https://anathem.fandom.com/wiki/Ita
https://anathem.fandom.com/wiki/Reticulum
- นึกถึงข้อความใน Anathem ที่บอกว่าในยุคแรก ๆ ของ Reticulum มันรกไปด้วยข้อมูลที่มีข้อบกพร่อง ล้าสมัย หรือชวนให้เข้าใจผิดอย่างโจ่งแจ้ง จนแทบไร้ประโยชน์ ดังนั้น การกรองขยะ จึงกลายเป็นเรื่องสำคัญ
  บริษัทต่าง ๆ จงใจทำให้บ่อน้ำสกปรกเพื่อจะขายผลิตภัณฑ์ที่ใช้กรองขยะนั้น และสิ่งที่พวกเขาสร้างไม่ใช่ตัวอักษรสุ่ม ๆ แต่เป็น “ขยะที่ทำมาอย่างดี” คือเอกสารหน้าตาดีที่มีประโยคจริงซึ่งตรวจสอบได้ 100 ประโยค แทรกด้วย 1 ประโยคที่ผิดแบบแนบเนียน ช่วงแรกต้องจ้างคนมาทำ แต่เมื่อกองทัพเริ่มสนใจ โปรแกรม “Artificial Inanity” ก็พัฒนาขึ้น แล้วแพร่ไปสู่ภาคธุรกิจและบอตเน็ต
  ชอบคำว่า Artificial Inanity ในฐานะคำอธิบาย LLM
- คิดมาตั้งแต่เกือบ 25 ปีก่อนแล้วว่านั่นแหละคืออนาคต ดูข้อ #5: https://ymlibrary.com/download/Topics/Self/Work-School/Work-...

อินเทอร์เน็ตกับข้อมูลขยะที่เต็มไปด้วย AI

วิธีที่ Google Search ดันคำตอบผิดขึ้นมาอยู่ข้างหน้า

กรณีที่คอนเทนต์ AI เข้ายึดพื้นที่ผลการค้นหา

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News