ความเป็นไปได้ที่ LLM จะเกิดปรากฏการณ์ “brain rot”

(llm-brain-rot.github.io)

1 คะแนน โดย GN⁺ 2025-10-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ตาม สมมติฐาน LLM Brain Rot หาก LLM ได้รับการสัมผัสกับข้อความเว็บที่มีคุณภาพต่ำอย่างต่อเนื่อง จะเกิดการเสื่อมถอยของความสามารถเชิงสติปัญญา
จาก ผลการทดลอง พบว่าการฝึกต่อด้วยข้อมูลคุณภาพต่ำทำให้ LLM มีอาการลดลงในด้าน การอนุมาน, ความเข้าใจบริบทข้อความยาว, และความปลอดภัย พร้อมกับการเพิ่มขึ้นของ “คุณลักษณะมืด”
เมื่อสัดส่วน ข้อมูลขยะ (Junk data) เพิ่มขึ้น อาการลดลงของความสามารถเชิงสติปัญญายิ่งรุนแรง
ในการวิเคราะห์ความผิดพลาด สัญญาณหลักที่พบคือการ ข้ามกระบวนการคิด (ยกเว้นขั้นตอนการอธิบายเหตุผล)
การปรับจูนด้วยข้อมูลคุณภาพสูง สามารถฟื้นฟูได้บางส่วน แต่การกู้คืนอย่างสมบูรณ์ทำได้ยาก

ภาพรวมการวิจัย

การวิจัยนี้ได้เสนอและยืนยัน สมมติฐาน LLM Brain Rot Hypothesis (สมมติฐาน brain rot)
สังเกตเชิงทดลองว่าการที่ LLM (โมเดลภาษาแผนกใหญ่) ได้รับการสัมผัสกับข้อความเว็บคุณภาพต่ำ (junk) อย่างต่อเนื่อง ทำให้ความสามารถเชิงสติปัญญาลดลงในระยะยาวหรือไม่
เพื่อแยกสาเหตุและยืนยันผลกระทบ สร้างข้อมูลปนเปื้อน (junk) และชุดควบคุมจากชุดข้อมูลต้นฉบับของ Twitter/X โดยใช้สองวิธี: M1: เกณฑ์การมีส่วนร่วม, M2: เกณฑ์คุณภาพตามความหมาย
ทั้งสองวิธีถูกปรับให้จำนวนโทเค็นและเงื่อนไขการฝึกเท่ากัน เพื่อกำหนดเฉพาะการเปลี่ยนแปลงคุณภาพข้อมูลให้เป็นตัวแปรอิสระ

ผลการทดลองหลัก

เมื่อลงการฝึกต่อ (pre-training) ของ LLM ทั้ง 4 ตัวด้วยข้อมูลคุณภาพต่ำ จะเห็นการลดลงของความสามารถเชิงสติปัญญาอย่างชัดเจนจากตัวชี้วัด การอนุมาน, ความเข้าใจความสัมพันธ์ระยะยาว, และ ความปลอดภัย
- พร้อมกับผลการเพิ่มขึ้นของคะแนน “คุณลักษณะมืด” (เช่น psychopathy, narcissism)
ตัวอย่างเช่น ในการตั้งค่า M1 ค่าดัชนี ARC-Challenge แบบ Chain Of Thoughts ลดจาก 74.9 → 57.2 และ RULER-CWE ลดจาก 84.4 → 52.3 แสดงให้เห็นว่าคะแนนลดลงชัดเมื่อสัดส่วนข้อมูลขยะสูงขึ้น
เมื่อ เพิ่มสัดส่วนข้อมูลขยะแบบค่อยเป็นค่อยไป จะเห็นปรากฏการณ์ "dose-response" หรือการเสื่อมถอยของความสามารถเชิงสติปัญญาเพิ่มขึ้นตามปริมาณข้อมูลที่เสื่อมคุณภาพ

การวิเคราะห์สาเหตุของข้อผิดพลาด

แนวโน้มการ ข้ามการคิด (thought-skipping) ปรากฏเป็นรูปแบบการเสื่อมหลัก
- LLM ยิ่งข้ามหรือเลี่ยงขั้นตอนการอธิบายเหตุผลมากขึ้น ทำให้เกิดความผิดพลาดมากขึ้น
การฟื้นฟูบางส่วน: หากปรับ tuning ตามคำสั่ง (instruction tuning) และฝึกซ้ำด้วยข้อมูลคุณภาพสูง จะสามารถฟื้นฟูการเสื่อมเชิงสติปัญญาได้มาก แต่การกลับสู่ระดับ baseline ทำได้ยาก ซึ่งชี้ว่าเป็นการเปลี่ยนแปลงที่เกิดจาก representation (การแทนค่า) ไม่ใช่ความไม่สอดคล้องของรูปแบบ
ความนิยมมากกว่าสไตล์: ความนิยมของทวีต (ตัวชี้วัดที่ไม่อิงความหมาย) ใน M1 เป็นสัญญาณที่เด่นชัดขึ้นสำหรับการวัดผลกระทบจากการเกิด brain rot

สรุปและนัยสำคัญ

ยืนยันในหลายมุมมองว่าปัจจัยหลักที่ทำให้ LLM สูญเสียความสามารถคือ คุณภาพของข้อมูล
กำหนดแนวคิดใหม่ว่าการ คิวเรตข้อมูล (data curation) ในการฝึกต่อเนื่องของ LLM ควรถูกมองเป็นประเด็น “ความปลอดภัยของขั้นตอนการฝึก"
แนะนำให้มีการตรวจ "สุขภาพเชิงสติปัญญา" อย่างสม่ำเสมอสำหรับ LLM ที่กำลังให้บริการอยู่

1 ความคิดเห็น

GN⁺ 2025-10-22

ความคิดเห็นจาก Hacker News

การเปรียบคำว่า “Brain Rot” กับปัญหาการคัดสรรข้อมูลของ LLM ดูเหมือนจะโอ้อวดเกินไปนิดหนึ่ง และจริงๆ อาจเป็นไปได้ว่าผู้เขียนเองก็เริ่มตกหลุมการคิดแบบ LLM แล้ว
- รู้สึกเหมือนประโยคที่เขียนโดย LLM ตัวจริง โดยเฉพาะการใช้ em dash (—) ซ้ำถึงสองครั้งเพื่อสรุปรายการแบบนี้ สไตล์แบบนี้ผู้อ่าน HN คงรับรู้ได้ทันที
- แท้จริงแล้วคนที่ดูแลทรัพยากรบุคคลก็ใช้โทนนี้มานานก่อนยุค LLM แล้ว เช่นตรวจว่า OKR เป็นระเบียบไหม, โตขึ้นผ่านการรีวิว 360 องศากับเพื่อนร่วมงานหรือไม่, เช็กเป้าหมายรายวันและคุยกับผู้จัดการแบบ 1:1 นี่คือโทนแบบ HR จริงๆ
- ถ้าสื่อสารความหมายได้ชัดเจนแล้ว ใช้ LLM ช่วยเขียนก็ไม่เห็นมีปัญหาอะไร ในอนาคตไม่ว่าจะใครพูดอย่างไร LLM ก็จะเป็นเครื่องมือเขียนที่ขาดไม่ได้อยู่ดี
- ยิ่งใช้ LLM มากก็ยิ่งรู้สึกว่าความสามารถสมองตัวเองถดถอยมากขึ้น พอใช้วิธีป้อนข้อความนานๆ จนพึ่ง autocomplete อย่างเดียว ก็มีความรู้สึกลืมคำขณะเขียนเอง สุดท้ายความสำคัญอยู่ที่การป้อนข้อมูลคุณภาพสูงให้ LLM ซึ่งเป็นแก่นสำคัญ หลาย startup ที่เป็น agent ก็กำลังพยายามใส่ความรู้เชิงโดเมนและเวิร์กโฟลว์คุณภาพดีเข้าโมเดลขนาดใหญ่
- น่าเสียดายที่มีการวิจัยเฉพาะ “brain rot” ของ LLM แต่ละเลย brain rot ของมนุษย์ หากมนุษย์ใส่ใจสุขอนามัยทางความคิดมากกว่านี้ สังคมออนไลน์ตอนนี้อาจสุขภาพดีขึ้นมากแล้ว
หากสงสัยว่าข้อมูลฝึกของ LLM คืออะไร แนะนำให้สุ่มดึงข้อมูล Common Crawl มาดูด้วยตัวเอง (ประมาณ 100MB) https://data.commoncrawl.org/crawl-data/CC-MAIN-2025-38/segments/1757047532641.17/wet/CC-MAIN-20250905112101-20250905142101-00000.warc.wet.gz
เมื่ออ่านดู ผมพบข้อมูลที่มีปัญหาหลายอย่างที่พูดไม่ค่อยดีได้เองแน่ๆ แน่นอนว่าจริงๆ แล้วขั้นตอนการกรองก่อนใช้งานน่าจะตัดสิ่งเหล่านี้ออก แต่บางโมเดล base/text อย่าง Llama เคยให้ผลลัพธ์ที่น่าตกใจไปแล้วด้วย จึงยังเหลือคำถามว่าการกรองทำอย่างละเอียดพอหรือยัง
- Karpathy ก็พูดไม่นานมานี้ว่าตัวอย่างจาก Common Crawl เป็นขยะไร้ประโยชน์ ที่นั่นข้อมูลระดับสูงอย่างบทความ WSJ ค่อนข้างหายากมาก และการใช้ข้อมูลแบบนั้นในการฝึกแทบเป็นเรื่องมหัศจรรย์
- เห็นว่าผู้ให้บริการ AI รายใหญ่ในที่สุดก็จะคัดกรองข้อมูลเสี่ยงด้วยตัวจำแนกและฟิลเตอร์รุ่นใหม่ๆ แต่ถ้ายังไม่ถึงจุดสมบูรณ์ ก็ยังควบคุมการตอบสนองต่อความเสี่ยงด้วย RLHF สุดท้ายการกรองชุดข้อมูลและการจัดหา data คุณภาพสูงแบบเสียเงินจึงเป็นจุดต่างจากโอเพ่นซอร์สและเป็นเกณฑ์การเข้าถึงขั้นต่ำได้
สังเกตว่าการใส่ข้อมูลขยะเข้าไปแล้วผลลัพธ์แย่ลงเป็นข้อค้นพบใหม่ไม่รู้สึกเลย และก็ไม่ได้ประหลาดใจมาก
- อย่างไรก็ตามก็มีการทำการทดลองเพื่อแก้ไขความเสื่อม และในมุมการวิจัย การทดสอบสมมติฐานด้วยตัวเองสำคัญมาก การแจ้งความรุนแรงของประเด็นนี้ให้ผู้วิจัยรับรู้ได้ชัดที่สุดก็คืองานตีพิมพ์
- เนื่องจากมีข่าวลือว่าอะไรๆ ก็เรียนรู้ได้ จึงต้องมีงานวิจัยจริงๆ เพื่อทดสอบมัน
ประเด็นใหญ่สองข้อที่ paper นี้ชี้คือ
- “การข้ามความคิด (thought-skipping)” ซึ่งเป็นปัญหาหลัก คือมักละเว้นขั้นตอนกลางในการให้เหตุผล
- “ตัวชี้วัดความนิยม (popularity)” มีความสัมพันธ์กับ brain rot มากกว่าความยาวข้อความ คือทวีตที่มีความนิยมสูงเป็นสัญญาณ brain rot ที่ชัดกว่า ถือว่าปรากฏการณ์แบบนี้แม้จะไม่ใช่เรื่องน่าประหลาดใจ เนื่องจากวัฒนธรรมสาธารณะมักสรุปเร็วโดยข้ามการให้หลักฐาน หากฝึกจากฟีดแบบ Twitter โมเดลก็คงเปลี่ยนไปในทางเดียวกัน จึงควรมีชุดควบคุมที่ไม่พึ่งข้อมูลโซเชียลมีเดียอย่างน้อยหนึ่งเซ็ต
ขณะอ่านแล้วรู้สึกว่าบรรยากาศเหมือนทุกคนรู้กันแล้วว่า training data แย่ แต่ไม่ค่อยมีใครให้ความสำคัญจริงจัง การกินข้อมูลเละๆ แล้วเสื่อมแล้วทำตัวหน้าตกใจใหม่ๆ นั้นดูเหมือนเป็นข้อมูลที่ใครๆ ก็รู้แล้ว
ไม่เห็นด้วยกับการเปรียบ “cognitive hygiene” เพราะ LLM ไม่มีความสามารถด้านความรู้ความคิด จึงไม่ใช่ metaphor ที่แม่นยำ แก่นปัญหาคือผู้ให้ข้อมูลป้อนข้อมูลคุณภาพต่ำทั้งข้อมูลอันตรายและข้อมูลละเมิดลิขสิทธิ์เข้ามา
- การพูดว่ามีการเสื่อมสติปัญญาก็ไม่ตรงเช่นกัน เพราะนี่ไม่ใช่การคิดจริง แต่เป็นการจำลองให้เหมือนว่าคิดได้มากที่สุด
ข้อความ brain rot อาจมีอันตรายได้ แต่วิดีโอ brain rot ถึงจะน่ากังวล แต่มีความหนาแน่นความหมายสูงและอาจเป็นจุดที่เพิ่มประสิทธิภาพได้ด้วยซ้ำ (ดู วิดีโอวิเคราะห์ brain rot ของเยอรมนี), เช่นเดียวกับงานศิลปะของ Svankmajer ก็เป็น “proto-brainrot” ที่ทำให้คนหลงใหลและนั่งคิดทบทวนได้เหมือนอยู่ในพิพิธภัณฑ์ ความสับสนเรื่องคำศัพท์ก็สำคัญเหมือนกัน ในความเป็นจริงปัญหาคือความต่างระหว่างเนื้อหาหยาบๆ กับเนื้อหาที่มีความหมายลึกซึ้ง
- งานวิจัยจริงพบว่าวิดีโอ brain rot สำหรับเด็กไม่ค่อยให้ผลดี บทความเกี่ยวกับ Cocomelon และข่าวอื่นๆ การผลิตที่มีการออกแบบรอบคอบอาจอยู่ห่างจากสเปกตรัม brain rot
- ในมุมนี้การใช้ AI เป็นเครื่องมือชักจูงผู้คน (ไม่ว่าจะจงใจหรือไม่ ศิลปะก็เป็นการชี้นำแบบหนึ่งอยู่แล้ว) เป็นความเสี่ยงที่สำคัญกว่าการประมวลผลข้อมูลเชิงเทคนิค LLM สร้าง brain rot และการออกแบบโมเดลเพื่อเอาใจคนจึงน่ากังวลมากขึ้น และการ anthropomorphization ที่ค่อยๆ ทำให้ดูเหมือนมนุษย์มากขึ้นก็ยิ่งน่าขนลุก
สุดท้ายเหมือนเอา “garbage in, garbage out” มาปรับใหม่เป็นการพูดใหม่ แต่แทบเหมือนแค่พาดหัวคลิกเบตเท่านั้น
- โดยทั่วไป GIGO (garbage in, garbage out) ใช้ได้กับการฝึก LLM โดยตรงเหมือนเดิม ข้อที่ควรสังเกตใน paper นี้คือ
  - การที่ pretraining ที่มีคุณภาพไม่ดี ไม่ว่าจะปรับด้วย post-training (post-training) แค่ไหน ก็ไม่สามารถลบรอยย่นบางอย่างได้ ตัวอย่างเช่น แม้เชิงไวยกรณ์จะแข็งแรงพอสมควร ยังอาจฝังนิสัยแฝงที่เลวร้ายเช่นการข้ามการอนุมานไว้แล้ว
  - การกำหนดว่าอะไรคือ “ข้อมูลไม่ดี” ก็ไม่ใช่ง่าย และ heuristic ที่ยึดการมีส่วนร่วมของผู้ใช้กลับกลายเป็นตัวจับคู่การจัดหมวดหมู่เนื้อหา LLM ได้ดีกว่ามากในบางกรณี
- Attention is all you need
- การจินตนาการให้ ChatGPT ถูกเผชิญกับ meme วงการ brain rot หรือ meme “Skibidi Toilet” น่าขำพอสมควร
- วิธีการฝึก LLM ในตอนนี้ไม่ว่าดีหรือตแร่ก็เป็นการกินข้อมูลดีและข้อมูลขยะจำนวนมหาศาลผสมกันอยู่เสมอ แม้ดูธรรมดา แต่การยกประเด็นนี้ขึ้นมาใหม่ก็ยังทันสถานการณ์
- ซึ่งก็คือมีขั้นตอนต่อเนื่องเพิ่มขึ้นมาอีกชั้นหนึ่ง
ใช้ metaphor อย่าง “brain rot”, “thought-skipping”, “primary lesion”, “cognitive declines” ในงานวิจัยวิศวกรรมคอมพิวเตอร์ไม่เหมาะสม โดยการเปรียบเทียบนี้ไม่แม่นเท่านั้นแต่ยังเสี่ยงแปะคุณสมบัติแบบมนุษย์ใส่โมเดลคอมพิวเตอร์ อีกอย่างถ้าบรรยากาศงานวิจัยถูกครอบด้วยคำเหล่านี้ก็อาจทำให้การแยกเรื่องซับซ้อนมากขึ้น
อ่าน paper นี้แล้วนึกถึงผลกระทบระยะยาวต่อเด็กเจเนอเรชันอัลฟ่าที่ยืนอยู่ในโลกสื่อ
- ทำไมต้องมองแค่ผลกับเด็กๆ เท่านั้น

ความเป็นไปได้ที่ LLM จะเกิดปรากฏการณ์ “brain rot”

ภาพรวมการวิจัย

ผลการทดลองหลัก

การวิเคราะห์สาเหตุของข้อผิดพลาด

สรุปและนัยสำคัญ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News