- ตาม สมมติฐาน LLM Brain Rot หาก LLM ได้รับการสัมผัสกับข้อความเว็บที่มีคุณภาพต่ำอย่างต่อเนื่อง จะเกิดการเสื่อมถอยของความสามารถเชิงสติปัญญา
- จาก ผลการทดลอง พบว่าการฝึกต่อด้วยข้อมูลคุณภาพต่ำทำให้ LLM มีอาการลดลงในด้าน การอนุมาน, ความเข้าใจบริบทข้อความยาว, และความปลอดภัย พร้อมกับการเพิ่มขึ้นของ “คุณลักษณะมืด”
- เมื่อสัดส่วน ข้อมูลขยะ (Junk data) เพิ่มขึ้น อาการลดลงของความสามารถเชิงสติปัญญายิ่งรุนแรง
- ในการวิเคราะห์ความผิดพลาด สัญญาณหลักที่พบคือการ ข้ามกระบวนการคิด (ยกเว้นขั้นตอนการอธิบายเหตุผล)
- การปรับจูนด้วยข้อมูลคุณภาพสูง สามารถฟื้นฟูได้บางส่วน แต่การกู้คืนอย่างสมบูรณ์ทำได้ยาก
ภาพรวมการวิจัย
- การวิจัยนี้ได้เสนอและยืนยัน สมมติฐาน LLM Brain Rot Hypothesis (สมมติฐาน brain rot)
- สังเกตเชิงทดลองว่าการที่ LLM (โมเดลภาษาแผนกใหญ่) ได้รับการสัมผัสกับข้อความเว็บคุณภาพต่ำ (junk) อย่างต่อเนื่อง ทำให้ความสามารถเชิงสติปัญญาลดลงในระยะยาวหรือไม่
- เพื่อแยกสาเหตุและยืนยันผลกระทบ สร้างข้อมูลปนเปื้อน (junk) และชุดควบคุมจากชุดข้อมูลต้นฉบับของ Twitter/X โดยใช้สองวิธี: M1: เกณฑ์การมีส่วนร่วม, M2: เกณฑ์คุณภาพตามความหมาย
- ทั้งสองวิธีถูกปรับให้จำนวนโทเค็นและเงื่อนไขการฝึกเท่ากัน เพื่อกำหนดเฉพาะการเปลี่ยนแปลงคุณภาพข้อมูลให้เป็นตัวแปรอิสระ
ผลการทดลองหลัก
- เมื่อลงการฝึกต่อ (pre-training) ของ LLM ทั้ง 4 ตัวด้วยข้อมูลคุณภาพต่ำ จะเห็นการลดลงของความสามารถเชิงสติปัญญาอย่างชัดเจนจากตัวชี้วัด การอนุมาน, ความเข้าใจความสัมพันธ์ระยะยาว, และ ความปลอดภัย
- พร้อมกับผลการเพิ่มขึ้นของคะแนน “คุณลักษณะมืด” (เช่น psychopathy, narcissism)
- ตัวอย่างเช่น ในการตั้งค่า M1 ค่าดัชนี ARC-Challenge แบบ Chain Of Thoughts ลดจาก 74.9 → 57.2 และ RULER-CWE ลดจาก 84.4 → 52.3 แสดงให้เห็นว่าคะแนนลดลงชัดเมื่อสัดส่วนข้อมูลขยะสูงขึ้น
- เมื่อ เพิ่มสัดส่วนข้อมูลขยะแบบค่อยเป็นค่อยไป จะเห็นปรากฏการณ์ "dose-response" หรือการเสื่อมถอยของความสามารถเชิงสติปัญญาเพิ่มขึ้นตามปริมาณข้อมูลที่เสื่อมคุณภาพ
การวิเคราะห์สาเหตุของข้อผิดพลาด
- แนวโน้มการ ข้ามการคิด (thought-skipping) ปรากฏเป็นรูปแบบการเสื่อมหลัก
- LLM ยิ่งข้ามหรือเลี่ยงขั้นตอนการอธิบายเหตุผลมากขึ้น ทำให้เกิดความผิดพลาดมากขึ้น
- การฟื้นฟูบางส่วน: หากปรับ tuning ตามคำสั่ง (instruction tuning) และฝึกซ้ำด้วยข้อมูลคุณภาพสูง จะสามารถฟื้นฟูการเสื่อมเชิงสติปัญญาได้มาก แต่การกลับสู่ระดับ baseline ทำได้ยาก ซึ่งชี้ว่าเป็นการเปลี่ยนแปลงที่เกิดจาก representation (การแทนค่า) ไม่ใช่ความไม่สอดคล้องของรูปแบบ
- ความนิยมมากกว่าสไตล์: ความนิยมของทวีต (ตัวชี้วัดที่ไม่อิงความหมาย) ใน M1 เป็นสัญญาณที่เด่นชัดขึ้นสำหรับการวัดผลกระทบจากการเกิด brain rot
สรุปและนัยสำคัญ
- ยืนยันในหลายมุมมองว่าปัจจัยหลักที่ทำให้ LLM สูญเสียความสามารถคือ คุณภาพของข้อมูล
- กำหนดแนวคิดใหม่ว่าการ คิวเรตข้อมูล (data curation) ในการฝึกต่อเนื่องของ LLM ควรถูกมองเป็นประเด็น “ความปลอดภัยของขั้นตอนการฝึก"
- แนะนำให้มีการตรวจ "สุขภาพเชิงสติปัญญา" อย่างสม่ำเสมอสำหรับ LLM ที่กำลังให้บริการอยู่
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
การเปรียบคำว่า “Brain Rot” กับปัญหาการคัดสรรข้อมูลของ LLM ดูเหมือนจะโอ้อวดเกินไปนิดหนึ่ง และจริงๆ อาจเป็นไปได้ว่าผู้เขียนเองก็เริ่มตกหลุมการคิดแบบ LLM แล้ว
หากสงสัยว่าข้อมูลฝึกของ LLM คืออะไร แนะนำให้สุ่มดึงข้อมูล Common Crawl มาดูด้วยตัวเอง (ประมาณ 100MB) https://data.commoncrawl.org/crawl-data/CC-MAIN-2025-38/segments/1757047532641.17/wet/CC-MAIN-20250905112101-20250905142101-00000.warc.wet.gz
เมื่ออ่านดู ผมพบข้อมูลที่มีปัญหาหลายอย่างที่พูดไม่ค่อยดีได้เองแน่ๆ แน่นอนว่าจริงๆ แล้วขั้นตอนการกรองก่อนใช้งานน่าจะตัดสิ่งเหล่านี้ออก แต่บางโมเดล base/text อย่าง Llama เคยให้ผลลัพธ์ที่น่าตกใจไปแล้วด้วย จึงยังเหลือคำถามว่าการกรองทำอย่างละเอียดพอหรือยัง
สังเกตว่าการใส่ข้อมูลขยะเข้าไปแล้วผลลัพธ์แย่ลงเป็นข้อค้นพบใหม่ไม่รู้สึกเลย และก็ไม่ได้ประหลาดใจมาก
ประเด็นใหญ่สองข้อที่ paper นี้ชี้คือ
ขณะอ่านแล้วรู้สึกว่าบรรยากาศเหมือนทุกคนรู้กันแล้วว่า training data แย่ แต่ไม่ค่อยมีใครให้ความสำคัญจริงจัง การกินข้อมูลเละๆ แล้วเสื่อมแล้วทำตัวหน้าตกใจใหม่ๆ นั้นดูเหมือนเป็นข้อมูลที่ใครๆ ก็รู้แล้ว
ไม่เห็นด้วยกับการเปรียบ “cognitive hygiene” เพราะ LLM ไม่มีความสามารถด้านความรู้ความคิด จึงไม่ใช่ metaphor ที่แม่นยำ แก่นปัญหาคือผู้ให้ข้อมูลป้อนข้อมูลคุณภาพต่ำทั้งข้อมูลอันตรายและข้อมูลละเมิดลิขสิทธิ์เข้ามา
ข้อความ brain rot อาจมีอันตรายได้ แต่วิดีโอ brain rot ถึงจะน่ากังวล แต่มีความหนาแน่นความหมายสูงและอาจเป็นจุดที่เพิ่มประสิทธิภาพได้ด้วยซ้ำ (ดู วิดีโอวิเคราะห์ brain rot ของเยอรมนี), เช่นเดียวกับงานศิลปะของ Svankmajer ก็เป็น “proto-brainrot” ที่ทำให้คนหลงใหลและนั่งคิดทบทวนได้เหมือนอยู่ในพิพิธภัณฑ์ ความสับสนเรื่องคำศัพท์ก็สำคัญเหมือนกัน ในความเป็นจริงปัญหาคือความต่างระหว่างเนื้อหาหยาบๆ กับเนื้อหาที่มีความหมายลึกซึ้ง
สุดท้ายเหมือนเอา “garbage in, garbage out” มาปรับใหม่เป็นการพูดใหม่ แต่แทบเหมือนแค่พาดหัวคลิกเบตเท่านั้น
ใช้ metaphor อย่าง “brain rot”, “thought-skipping”, “primary lesion”, “cognitive declines” ในงานวิจัยวิศวกรรมคอมพิวเตอร์ไม่เหมาะสม โดยการเปรียบเทียบนี้ไม่แม่นเท่านั้นแต่ยังเสี่ยงแปะคุณสมบัติแบบมนุษย์ใส่โมเดลคอมพิวเตอร์ อีกอย่างถ้าบรรยากาศงานวิจัยถูกครอบด้วยคำเหล่านี้ก็อาจทำให้การแยกเรื่องซับซ้อนมากขึ้น
อ่าน paper นี้แล้วนึกถึงผลกระทบระยะยาวต่อเด็กเจเนอเรชันอัลฟ่าที่ยืนอยู่ในโลกสื่อ