1 คะแนน โดย GN⁺ 2025-10-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ตาม สมมติฐาน LLM Brain Rot หาก LLM ได้รับการสัมผัสกับข้อความเว็บที่มีคุณภาพต่ำอย่างต่อเนื่อง จะเกิดการเสื่อมถอยของความสามารถเชิงสติปัญญา
  • จาก ผลการทดลอง พบว่าการฝึกต่อด้วยข้อมูลคุณภาพต่ำทำให้ LLM มีอาการลดลงในด้าน การอนุมาน, ความเข้าใจบริบทข้อความยาว, และความปลอดภัย พร้อมกับการเพิ่มขึ้นของ “คุณลักษณะมืด”
  • เมื่อสัดส่วน ข้อมูลขยะ (Junk data) เพิ่มขึ้น อาการลดลงของความสามารถเชิงสติปัญญายิ่งรุนแรง
  • ในการวิเคราะห์ความผิดพลาด สัญญาณหลักที่พบคือการ ข้ามกระบวนการคิด (ยกเว้นขั้นตอนการอธิบายเหตุผล)
  • การปรับจูนด้วยข้อมูลคุณภาพสูง สามารถฟื้นฟูได้บางส่วน แต่การกู้คืนอย่างสมบูรณ์ทำได้ยาก

ภาพรวมการวิจัย

  • การวิจัยนี้ได้เสนอและยืนยัน สมมติฐาน LLM Brain Rot Hypothesis (สมมติฐาน brain rot)
  • สังเกตเชิงทดลองว่าการที่ LLM (โมเดลภาษาแผนกใหญ่) ได้รับการสัมผัสกับข้อความเว็บคุณภาพต่ำ (junk) อย่างต่อเนื่อง ทำให้ความสามารถเชิงสติปัญญาลดลงในระยะยาวหรือไม่
  • เพื่อแยกสาเหตุและยืนยันผลกระทบ สร้างข้อมูลปนเปื้อน (junk) และชุดควบคุมจากชุดข้อมูลต้นฉบับของ Twitter/X โดยใช้สองวิธี: M1: เกณฑ์การมีส่วนร่วม, M2: เกณฑ์คุณภาพตามความหมาย
  • ทั้งสองวิธีถูกปรับให้จำนวนโทเค็นและเงื่อนไขการฝึกเท่ากัน เพื่อกำหนดเฉพาะการเปลี่ยนแปลงคุณภาพข้อมูลให้เป็นตัวแปรอิสระ

ผลการทดลองหลัก

  • เมื่อลงการฝึกต่อ (pre-training) ของ LLM ทั้ง 4 ตัวด้วยข้อมูลคุณภาพต่ำ จะเห็นการลดลงของความสามารถเชิงสติปัญญาอย่างชัดเจนจากตัวชี้วัด การอนุมาน, ความเข้าใจความสัมพันธ์ระยะยาว, และ ความปลอดภัย
    • พร้อมกับผลการเพิ่มขึ้นของคะแนน “คุณลักษณะมืด” (เช่น psychopathy, narcissism)
  • ตัวอย่างเช่น ในการตั้งค่า M1 ค่าดัชนี ARC-Challenge แบบ Chain Of Thoughts ลดจาก 74.9 → 57.2 และ RULER-CWE ลดจาก 84.4 → 52.3 แสดงให้เห็นว่าคะแนนลดลงชัดเมื่อสัดส่วนข้อมูลขยะสูงขึ้น
  • เมื่อ เพิ่มสัดส่วนข้อมูลขยะแบบค่อยเป็นค่อยไป จะเห็นปรากฏการณ์ "dose-response" หรือการเสื่อมถอยของความสามารถเชิงสติปัญญาเพิ่มขึ้นตามปริมาณข้อมูลที่เสื่อมคุณภาพ

การวิเคราะห์สาเหตุของข้อผิดพลาด

  • แนวโน้มการ ข้ามการคิด (thought-skipping) ปรากฏเป็นรูปแบบการเสื่อมหลัก
    • LLM ยิ่งข้ามหรือเลี่ยงขั้นตอนการอธิบายเหตุผลมากขึ้น ทำให้เกิดความผิดพลาดมากขึ้น
  • การฟื้นฟูบางส่วน: หากปรับ tuning ตามคำสั่ง (instruction tuning) และฝึกซ้ำด้วยข้อมูลคุณภาพสูง จะสามารถฟื้นฟูการเสื่อมเชิงสติปัญญาได้มาก แต่การกลับสู่ระดับ baseline ทำได้ยาก ซึ่งชี้ว่าเป็นการเปลี่ยนแปลงที่เกิดจาก representation (การแทนค่า) ไม่ใช่ความไม่สอดคล้องของรูปแบบ
  • ความนิยมมากกว่าสไตล์: ความนิยมของทวีต (ตัวชี้วัดที่ไม่อิงความหมาย) ใน M1 เป็นสัญญาณที่เด่นชัดขึ้นสำหรับการวัดผลกระทบจากการเกิด brain rot

สรุปและนัยสำคัญ

  • ยืนยันในหลายมุมมองว่าปัจจัยหลักที่ทำให้ LLM สูญเสียความสามารถคือ คุณภาพของข้อมูล
  • กำหนดแนวคิดใหม่ว่าการ คิวเรตข้อมูล (data curation) ในการฝึกต่อเนื่องของ LLM ควรถูกมองเป็นประเด็น “ความปลอดภัยของขั้นตอนการฝึก"
  • แนะนำให้มีการตรวจ "สุขภาพเชิงสติปัญญา" อย่างสม่ำเสมอสำหรับ LLM ที่กำลังให้บริการอยู่

1 ความคิดเห็น

 
GN⁺ 2025-10-22
ความคิดเห็นจาก Hacker News
  • การเปรียบคำว่า “Brain Rot” กับปัญหาการคัดสรรข้อมูลของ LLM ดูเหมือนจะโอ้อวดเกินไปนิดหนึ่ง และจริงๆ อาจเป็นไปได้ว่าผู้เขียนเองก็เริ่มตกหลุมการคิดแบบ LLM แล้ว

    • รู้สึกเหมือนประโยคที่เขียนโดย LLM ตัวจริง โดยเฉพาะการใช้ em dash (—) ซ้ำถึงสองครั้งเพื่อสรุปรายการแบบนี้ สไตล์แบบนี้ผู้อ่าน HN คงรับรู้ได้ทันที
    • แท้จริงแล้วคนที่ดูแลทรัพยากรบุคคลก็ใช้โทนนี้มานานก่อนยุค LLM แล้ว เช่นตรวจว่า OKR เป็นระเบียบไหม, โตขึ้นผ่านการรีวิว 360 องศากับเพื่อนร่วมงานหรือไม่, เช็กเป้าหมายรายวันและคุยกับผู้จัดการแบบ 1:1 นี่คือโทนแบบ HR จริงๆ
    • ถ้าสื่อสารความหมายได้ชัดเจนแล้ว ใช้ LLM ช่วยเขียนก็ไม่เห็นมีปัญหาอะไร ในอนาคตไม่ว่าจะใครพูดอย่างไร LLM ก็จะเป็นเครื่องมือเขียนที่ขาดไม่ได้อยู่ดี
    • ยิ่งใช้ LLM มากก็ยิ่งรู้สึกว่าความสามารถสมองตัวเองถดถอยมากขึ้น พอใช้วิธีป้อนข้อความนานๆ จนพึ่ง autocomplete อย่างเดียว ก็มีความรู้สึกลืมคำขณะเขียนเอง สุดท้ายความสำคัญอยู่ที่การป้อนข้อมูลคุณภาพสูงให้ LLM ซึ่งเป็นแก่นสำคัญ หลาย startup ที่เป็น agent ก็กำลังพยายามใส่ความรู้เชิงโดเมนและเวิร์กโฟลว์คุณภาพดีเข้าโมเดลขนาดใหญ่
    • น่าเสียดายที่มีการวิจัยเฉพาะ “brain rot” ของ LLM แต่ละเลย brain rot ของมนุษย์ หากมนุษย์ใส่ใจสุขอนามัยทางความคิดมากกว่านี้ สังคมออนไลน์ตอนนี้อาจสุขภาพดีขึ้นมากแล้ว
  • หากสงสัยว่าข้อมูลฝึกของ LLM คืออะไร แนะนำให้สุ่มดึงข้อมูล Common Crawl มาดูด้วยตัวเอง (ประมาณ 100MB) https://data.commoncrawl.org/crawl-data/CC-MAIN-2025-38/segments/1757047532641.17/wet/CC-MAIN-20250905112101-20250905142101-00000.warc.wet.gz
    เมื่ออ่านดู ผมพบข้อมูลที่มีปัญหาหลายอย่างที่พูดไม่ค่อยดีได้เองแน่ๆ แน่นอนว่าจริงๆ แล้วขั้นตอนการกรองก่อนใช้งานน่าจะตัดสิ่งเหล่านี้ออก แต่บางโมเดล base/text อย่าง Llama เคยให้ผลลัพธ์ที่น่าตกใจไปแล้วด้วย จึงยังเหลือคำถามว่าการกรองทำอย่างละเอียดพอหรือยัง

    • Karpathy ก็พูดไม่นานมานี้ว่าตัวอย่างจาก Common Crawl เป็นขยะไร้ประโยชน์ ที่นั่นข้อมูลระดับสูงอย่างบทความ WSJ ค่อนข้างหายากมาก และการใช้ข้อมูลแบบนั้นในการฝึกแทบเป็นเรื่องมหัศจรรย์
    • เห็นว่าผู้ให้บริการ AI รายใหญ่ในที่สุดก็จะคัดกรองข้อมูลเสี่ยงด้วยตัวจำแนกและฟิลเตอร์รุ่นใหม่ๆ แต่ถ้ายังไม่ถึงจุดสมบูรณ์ ก็ยังควบคุมการตอบสนองต่อความเสี่ยงด้วย RLHF สุดท้ายการกรองชุดข้อมูลและการจัดหา data คุณภาพสูงแบบเสียเงินจึงเป็นจุดต่างจากโอเพ่นซอร์สและเป็นเกณฑ์การเข้าถึงขั้นต่ำได้
  • สังเกตว่าการใส่ข้อมูลขยะเข้าไปแล้วผลลัพธ์แย่ลงเป็นข้อค้นพบใหม่ไม่รู้สึกเลย และก็ไม่ได้ประหลาดใจมาก

    • อย่างไรก็ตามก็มีการทำการทดลองเพื่อแก้ไขความเสื่อม และในมุมการวิจัย การทดสอบสมมติฐานด้วยตัวเองสำคัญมาก การแจ้งความรุนแรงของประเด็นนี้ให้ผู้วิจัยรับรู้ได้ชัดที่สุดก็คืองานตีพิมพ์
    • เนื่องจากมีข่าวลือว่าอะไรๆ ก็เรียนรู้ได้ จึงต้องมีงานวิจัยจริงๆ เพื่อทดสอบมัน
  • ประเด็นใหญ่สองข้อที่ paper นี้ชี้คือ

    • “การข้ามความคิด (thought-skipping)” ซึ่งเป็นปัญหาหลัก คือมักละเว้นขั้นตอนกลางในการให้เหตุผล
    • “ตัวชี้วัดความนิยม (popularity)” มีความสัมพันธ์กับ brain rot มากกว่าความยาวข้อความ คือทวีตที่มีความนิยมสูงเป็นสัญญาณ brain rot ที่ชัดกว่า ถือว่าปรากฏการณ์แบบนี้แม้จะไม่ใช่เรื่องน่าประหลาดใจ เนื่องจากวัฒนธรรมสาธารณะมักสรุปเร็วโดยข้ามการให้หลักฐาน หากฝึกจากฟีดแบบ Twitter โมเดลก็คงเปลี่ยนไปในทางเดียวกัน จึงควรมีชุดควบคุมที่ไม่พึ่งข้อมูลโซเชียลมีเดียอย่างน้อยหนึ่งเซ็ต
  • ขณะอ่านแล้วรู้สึกว่าบรรยากาศเหมือนทุกคนรู้กันแล้วว่า training data แย่ แต่ไม่ค่อยมีใครให้ความสำคัญจริงจัง การกินข้อมูลเละๆ แล้วเสื่อมแล้วทำตัวหน้าตกใจใหม่ๆ นั้นดูเหมือนเป็นข้อมูลที่ใครๆ ก็รู้แล้ว

  • ไม่เห็นด้วยกับการเปรียบ “cognitive hygiene” เพราะ LLM ไม่มีความสามารถด้านความรู้ความคิด จึงไม่ใช่ metaphor ที่แม่นยำ แก่นปัญหาคือผู้ให้ข้อมูลป้อนข้อมูลคุณภาพต่ำทั้งข้อมูลอันตรายและข้อมูลละเมิดลิขสิทธิ์เข้ามา

    • การพูดว่ามีการเสื่อมสติปัญญาก็ไม่ตรงเช่นกัน เพราะนี่ไม่ใช่การคิดจริง แต่เป็นการจำลองให้เหมือนว่าคิดได้มากที่สุด
  • ข้อความ brain rot อาจมีอันตรายได้ แต่วิดีโอ brain rot ถึงจะน่ากังวล แต่มีความหนาแน่นความหมายสูงและอาจเป็นจุดที่เพิ่มประสิทธิภาพได้ด้วยซ้ำ (ดู วิดีโอวิเคราะห์ brain rot ของเยอรมนี), เช่นเดียวกับงานศิลปะของ Svankmajer ก็เป็น “proto-brainrot” ที่ทำให้คนหลงใหลและนั่งคิดทบทวนได้เหมือนอยู่ในพิพิธภัณฑ์ ความสับสนเรื่องคำศัพท์ก็สำคัญเหมือนกัน ในความเป็นจริงปัญหาคือความต่างระหว่างเนื้อหาหยาบๆ กับเนื้อหาที่มีความหมายลึกซึ้ง

    • งานวิจัยจริงพบว่าวิดีโอ brain rot สำหรับเด็กไม่ค่อยให้ผลดี บทความเกี่ยวกับ Cocomelon และข่าวอื่นๆ การผลิตที่มีการออกแบบรอบคอบอาจอยู่ห่างจากสเปกตรัม brain rot
    • ในมุมนี้การใช้ AI เป็นเครื่องมือชักจูงผู้คน (ไม่ว่าจะจงใจหรือไม่ ศิลปะก็เป็นการชี้นำแบบหนึ่งอยู่แล้ว) เป็นความเสี่ยงที่สำคัญกว่าการประมวลผลข้อมูลเชิงเทคนิค LLM สร้าง brain rot และการออกแบบโมเดลเพื่อเอาใจคนจึงน่ากังวลมากขึ้น และการ anthropomorphization ที่ค่อยๆ ทำให้ดูเหมือนมนุษย์มากขึ้นก็ยิ่งน่าขนลุก
  • สุดท้ายเหมือนเอา “garbage in, garbage out” มาปรับใหม่เป็นการพูดใหม่ แต่แทบเหมือนแค่พาดหัวคลิกเบตเท่านั้น

    • โดยทั่วไป GIGO (garbage in, garbage out) ใช้ได้กับการฝึก LLM โดยตรงเหมือนเดิม ข้อที่ควรสังเกตใน paper นี้คือ
      • การที่ pretraining ที่มีคุณภาพไม่ดี ไม่ว่าจะปรับด้วย post-training (post-training) แค่ไหน ก็ไม่สามารถลบรอยย่นบางอย่างได้ ตัวอย่างเช่น แม้เชิงไวยกรณ์จะแข็งแรงพอสมควร ยังอาจฝังนิสัยแฝงที่เลวร้ายเช่นการข้ามการอนุมานไว้แล้ว
      • การกำหนดว่าอะไรคือ “ข้อมูลไม่ดี” ก็ไม่ใช่ง่าย และ heuristic ที่ยึดการมีส่วนร่วมของผู้ใช้กลับกลายเป็นตัวจับคู่การจัดหมวดหมู่เนื้อหา LLM ได้ดีกว่ามากในบางกรณี
    • Attention is all you need
    • การจินตนาการให้ ChatGPT ถูกเผชิญกับ meme วงการ brain rot หรือ meme “Skibidi Toilet” น่าขำพอสมควร
    • วิธีการฝึก LLM ในตอนนี้ไม่ว่าดีหรือตแร่ก็เป็นการกินข้อมูลดีและข้อมูลขยะจำนวนมหาศาลผสมกันอยู่เสมอ แม้ดูธรรมดา แต่การยกประเด็นนี้ขึ้นมาใหม่ก็ยังทันสถานการณ์
    • ซึ่งก็คือมีขั้นตอนต่อเนื่องเพิ่มขึ้นมาอีกชั้นหนึ่ง
  • ใช้ metaphor อย่าง “brain rot”, “thought-skipping”, “primary lesion”, “cognitive declines” ในงานวิจัยวิศวกรรมคอมพิวเตอร์ไม่เหมาะสม โดยการเปรียบเทียบนี้ไม่แม่นเท่านั้นแต่ยังเสี่ยงแปะคุณสมบัติแบบมนุษย์ใส่โมเดลคอมพิวเตอร์ อีกอย่างถ้าบรรยากาศงานวิจัยถูกครอบด้วยคำเหล่านี้ก็อาจทำให้การแยกเรื่องซับซ้อนมากขึ้น

  • อ่าน paper นี้แล้วนึกถึงผลกระทบระยะยาวต่อเด็กเจเนอเรชันอัลฟ่าที่ยืนอยู่ในโลกสื่อ

    • ทำไมต้องมองแค่ผลกับเด็กๆ เท่านั้น