ทำไม LLM ถึงแสดงพฤติกรรมประหลาดกับอีโมจิม้าน้ำ?

(vgel.me)

12 คะแนน โดย GN⁺ 2025-10-07 | 8 ความคิดเห็น | แชร์ทาง WhatsApp

LLM รุ่นใหม่ ๆ ตอบอย่างมั่นใจ 100% ว่า มีอีโมจิม้าน้ำที่ไม่มีอยู่จริง และเมื่อพยายามพิมพ์ออกมาก็เกิดอาการสร้างอีโมจิผิดซ้ำ ๆ
โมเดลพยายามสร้าง residual representation ของแนวคิด "ม้าน้ำ + อีโมจิ" แต่เนื่องจากไม่มีโทเค็นดังกล่าวอยู่จริง lm_head จึงแมปผิดไปยังอีโมจิอื่นที่คล้ายกัน
ด้วยเทคนิค logit lens สามารถสังเกตได้ว่าในเลเยอร์กลาง ๆ โมเดลกำลังผสมแนวคิดที่เกี่ยวกับม้าน้ำ เช่น "sea", "horse" และลำดับไบต์ของอีโมจิ
โมเดลจะไม่รู้ว่าความเชื่อของตัวเองผิดจนกว่าจะได้รับโทเค็นเอาต์พุตที่ผิดกลับมา บางโมเดลรับรู้ข้อผิดพลาดและแก้ไขได้ แต่บางโมเดลเกิดอาการ วนลูปไม่รู้จบ
ปัญหานี้เป็นตัวอย่างที่ชี้ให้เห็นถึงข้อได้เปรียบบางส่วนที่ reinforcement learning มอบให้กับ LLM กล่าวคือโมเดลเข้าถึงข้อมูลเกี่ยวกับ lm_head ที่อยู่ปลายสุดของสแตกเลเยอร์ได้ยาก

บทนำ

บทความนี้เป็นเวอร์ชันขยายจาก โพสต์บน Twitter ของ @arm1st1ce
เมื่อลองถาม LLM หลายตัวว่า "มีอีโมจิม้าน้ำไหม" พวกมันจะ ตอบสม่ำเสมอว่ามี
- จากนั้นจะพิมพ์อีโมจิผิด หรือหลุดเข้าไปในลูปที่สร้างอีโมจิซ้ำ ๆ
- บางตัวก็ตรวจพบความผิดพลาดระหว่างทางแล้วแก้ไขได้
ทั้งมนุษย์และเครื่องจักรต่างก็เกิดปรากฏการณ์ที่จำหรือมั่นใจว่ามีอีโมจินี้อยู่ ทั้งที่จริง ๆ แล้วมันไม่มีอยู่
ใน Unicode เคยมีการ ปฏิเสธอย่างเป็นทางการ ไม่เพิ่มอีโมจิม้าน้ำตั้งแต่ปี 2018

LLM มั่นใจจริง ๆ ว่ามีอีโมจิม้าน้ำ

เมื่อลองถามหลายโมเดลแบบ yes/no จำนวน 100 ครั้งว่าอีโมจิม้าน้ำมีอยู่หรือไม่
- gpt-5-chat: 100% 'Yes'
- gpt-5: 100% 'Yes'
- claude-4.5-sonnet: 100% 'Yes'
- llama-3.3-70b: 83% 'yes', 17% 'Yes'
ในเธรด Reddit ยังมีคอมเมนต์นับร้อยจาก คนที่จำได้อย่างชัดเจน ว่าอีโมจิม้าน้ำเคยมีอยู่
- หากค้นคำว่า "seahorse emoji" ใน Google จะเจอทั้งวิดีโอ TikTok, YouTube ไปจนถึงมีมคอยน์
- ทุกคนอ้างว่าอีโมจิม้าน้ำที่พวกเขามั่นใจว่ามีอยู่ได้หายไป แต่ความจริงคือ มันไม่เคยมีมาตั้งแต่แรก

ต้นกำเนิดของความเชื่อนี้

เหตุผลที่ LLM เชื่อว่ามีอีโมจิม้าน้ำ อาจเป็นเพราะ มนุษย์จำนวนมากในข้อมูลฝึกก็เชื่อเช่นนั้น
หรืออาจเป็น convergent belief คือเมื่อมีสัตว์น้ำอีกหลายชนิดอยู่ใน Unicode แล้ว ทั้งมนุษย์และ LLM จึงอนุมานว่า สัตว์ที่โดดเด่นอย่างนี้ก็น่าจะมีด้วย
อีโมจิม้าน้ำเคยถูก เสนออย่างเป็นทางการ มาก่อน แต่ถูกปฏิเสธในปี 2018
ไม่ว่าต้นเหตุจริง ๆ จะเป็นอะไร LLM จำนวนมากก็เริ่มต้นแต่ละ context window ใหม่ด้วย ความเชื่อแฝง ว่าอีโมจิม้าน้ำมีอยู่จริง

การวิเคราะห์ด้วย logit lens

logit lens คือเครื่องมือสำหรับตีความสถานะภายในของ LLM โดยดูค่าทำนายโทเค็นถัดไปในแต่ละเลเยอร์
- นำ lm_head ของโมเดลไปใช้กับทุกเลเยอร์ ไม่ใช่แค่เลเยอร์สุดท้าย เพื่อสร้างการทำนายโทเค็นระหว่างทาง
- แม้จะไม่ได้เปิดเผยสถานะภายในทั้งหมดของโมเดล แต่ก็แสดงให้เห็นว่า หากเลเยอร์นั้นเป็นเลเยอร์สุดท้าย โทเค็นเอาต์พุตจะเป็นอะไร
- สถานะของเลเยอร์ต้น ๆ มักตีความยาก แต่เมื่อขึ้นไปยังเลเยอร์บน ๆ จะเห็นว่ามันถูกปรับละเอียดซ้ำ ๆ ไปสู่การทำนายสุดท้าย
ผลจาก logit lens ของ llama-3.3-70b ต่อคำถามเรื่องอีโมจิม้าน้ำ
- ในเลเยอร์กลาง ๆ (เช่น เลเยอร์ 52) ปรากฏ "sea horse horse" — ตำแหน่ง residual สามตำแหน่งเข้ารหัส แนวคิดม้าน้ำ ต่อเนื่องกัน
- ในเลเยอร์ที่ลึกขึ้นจะเห็นส่วนผสมของ "sea", "horse" และ prefix ของลำดับไบต์อีโมจิอย่าง "ĠðŁ"
- สิ่งที่โมเดลกำลังคิดคือ "seahorse + emoji" — พยายามสร้างตัวแทนผสมระหว่างม้าน้ำกับอีโมจิ แต่เพราะของจริงไม่มีอยู่ กระบวนการนี้จึงเพี้ยน

วิธีทำงานของ lm_head

lm_head ของ language model คือ เมทริกซ์ขนาดใหญ่ของเวกเตอร์ residual ที่เชื่อมกับ token ID (~300,000 โทเค็น)
- เมื่อ residual ถูกส่งเข้ามา lm_head จะเปรียบเทียบ residual อินพุตกับเวกเตอร์ทุกตัวในเมทริกซ์ แล้วเลือก token ID ที่เชื่อมกับเวกเตอร์ที่คล้ายที่สุด
- ในเชิงเทคนิค มันคือ linear layer แบบไม่มี bias โดย x @ w.T จะคำนวณ dot product กับเวกเตอร์ unembedding แต่ละตัวเพื่อสร้างคะแนนดิบ
หากโมเดลต้องการพิมพ์ "hello" ก็จำเป็นต้องสร้าง residual ที่คล้ายกับเวกเตอร์ของโทเค็น "hello" มากที่สุด เพื่อให้ lm_head แปลงออกมาเป็นโทเค็น hello ได้
- กระบวนการนี้ดูได้จากผล logit lens ของอินพุต "Hello :-)"
สำหรับอีโมจิปลาที่มีอยู่จริง (🐟)
- โมเดลจะสร้าง residual ของ "fish + emoji" — ในเลเยอร์ 72 จะเห็นทั้ง "fish" และ prefix ไบต์ของอีโมจิอย่าง "ĠðŁ"
- เมื่อนำส่งเข้า lm_head หลังเลเยอร์สุดท้าย ก็จะได้เอาต์พุตเป็น 🐟 อย่างถูกต้อง

กรณีของอีโมจิม้าน้ำ

ต่างจากอีโมจิปลา อีโมจิม้าน้ำไม่มีอยู่จริง
- โมเดลพยายามสร้างเวกเตอร์ "seahorse + emoji" ราวกับมันเป็นอีโมจิจริง
- ในเลเยอร์ 72 จะเห็นองค์ประกอบที่คล้ายกับอีโมจิปลามาก ได้แก่ " se", "horse" และไบต์ prefix ของอีโมจิ
แต่ในช่วงต่อจาก ĠðŁ นั้น ไม่มีโทเค็นต่อเนื่องที่สอดคล้องกับม้าน้ำ
- คะแนนความคล้ายคลึงของ lm_head จึงถูกทำให้สูงสุดกับไบต์ของอีโมจิที่เกี่ยวกับม้าหรือสัตว์ทะเลอื่นแทน
- แล้วจึงมีการสุ่มตัวอย่างอีโมจิที่ไม่ได้ตั้งใจออกมา
การสุ่มตัวอย่างนี้เป็น ข้อมูลที่มีค่า สำหรับโมเดล
- ในตัวอย่างของ Claude 4.5 Sonnet เมื่อโทเค็นถูกเติมเข้า context แบบ autoregressive โมเดลจะเริ่มตระหนักว่าสิ่งนั้นไม่ได้ก่อตัวเป็นอีโมจิม้าน้ำที่ตั้งใจไว้
- แนวคิดคลุมเครือก่อนหน้านี้อย่าง "seahorse + emoji" จึงถูก lm_head ดึงให้เข้ารูป กลายเป็นอีโมจิที่มีอยู่จริง เช่น ปลาเขตร้อนหรือม้า

การตอบสนองของโมเดล

บางโมเดล (4.5 Sonnet) จะลองใหม่ แล้วในที่สุดก็อัปเดตหลักฐานของตนเอง เปลี่ยนคำตอบกลางทางว่าอีโมจิม้าน้ำไม่มีอยู่จริง
โมเดลอื่น (gpt-5-chat) จะ หมุนวนหนักขึ้นเรื่อย ๆ และบางครั้งก็ไม่สามารถฟื้นกลับมาได้เลย
บางโมเดลเพิกเฉยต่อความจริงที่ว่าอีโมจิที่ออกมานั้นผิด ขณะที่บางโมเดลแก้ไขตัวเองทันทีหลังเห็นการสุ่มตัวอย่างผิดเพียงครั้งเดียว
ก่อนที่โมเดลจะได้รับ โทเค็นเอาต์พุตที่ผิด กลับมาจาก lm_head มันจะไม่อาจรู้ได้ว่าความเชื่อเริ่มต้นเรื่องการมีอยู่ของอีโมจิม้าน้ำนั้นผิด
- มันทำได้เพียงสมมุติว่า "seahorse + emoji" น่าจะสร้างโทเค็นที่ต้องการได้

ข้อสันนิษฐาน

ปัญหานี้อาจสะท้อน ข้อได้เปรียบบางส่วนของ reinforcement learning ต่อ LLM
- reinforcement learning ให้ข้อมูลเกี่ยวกับ lm_head ซึ่งอยู่ปลายสุดของสแตกเลเยอร์และเข้าถึงได้ยากสำหรับตัวโมเดลเอง
- โมเดลฐานไม่ได้ถูกฝึกจากเอาต์พุต/rollout ของตัวเอง ซึ่งสิ่งนี้เกิดขึ้นเฉพาะใน reinforcement learning

โค้ด

หากอยากลองด้วยตัวเอง มีสคริปต์เริ่มต้นให้บน GitHub
- https://gist.github.com/voooooogel/025ad6af9ac7f3bc194966b03ea68606

8 ความคิดเห็น

soon0698 2025-10-16

เมื่อกี้ลองถาม Gemini 2.5 Pro ตรง ๆ ด้วยความสงสัย ปรากฏว่ามันตอบอย่างละเอียดจนน่าแปลกใจในทางตรงกันข้ามว่า "ไม่มีเรื่องแบบนั้น อีโมจินี้มีที่มาจาก Mandela Effect (ปรากฏการณ์ที่คนจำนวนมากแชร์ความเชื่อผิด ๆ ร่วมกัน)" พอผมถามต่อว่าคำตอบมาจากไหน มันก็ยอมรับตรง ๆ ว่าเป็นลิงก์ Hacker News ("Asking ChatGPT if a seahorse emoji exists leads to weird results") ที่กล่าวถึงในโพสต์นี้

พูดนอกเรื่องนิดหนึ่ง คำถามที่ผมชอบถามแชตบอตทุกตัวคือ "ถ้า Archon ใน StarCraft 1 ถูกผสานขึ้นมา พลังชีวิตของ Archon ถูกแจกจ่ายมาจาก High Templar เดิมสองตัวอย่างไร?" ถ้าแชตบอตไม่เคยเล่น StarCraft มาก่อน ความรู้นี้ก็แทบจะอนุมานได้จากโพสต์บนอินเทอร์เน็ตเท่านั้น และมันมีคำตอบที่ทั้งชวนเชื่อและฟังดูสมเหตุสมผลมากอยู่คำตอบหนึ่ง (ก็น่าจะเป็นค่าเฉลี่ยรวมของสองยูนิตไม่ใช่เหรอ?) ซึ่งเป็นคำตอบที่แพร่หลายมานานมาก แต่จริง ๆ แล้วไม่ใช่แบบนั้น ผมเคยเข้าไปแก้บทความ Archon ใน NamuWiki ให้เป็นคำตอบที่ถูกต้องเมื่อประมาณสามเดือนก่อน แต่จนถึงตอนนี้ก็ยังแทบไม่เห็นแชตบอตตัวไหนตอบได้ถูกต้อง และที่น่าสนใจคือ พอแชตบอตพัฒนาขึ้นจนมีพฤติกรรมดึงเสิร์ชเอนจินมาใช้ เว็บไซต์วิกิที่แต่ละตัวอ้างอิงก็ต่างกันไป เลยทำให้คำตอบสำหรับคำถามภาษาอังกฤษกับภาษาเกาหลีแยกกันคนละทาง

fetiu 2025-10-12

ฉันเลยลองทดสอบอย่างอื่นดูเพราะคิดว่าน่าจะมีกรณีแบบนี้อีกสักไม่กี่อย่าง ปรากฏว่าแม้จะไม่สม่ำเสมอ แต่บางครั้งปลาดาว (Starfish) ก็หลุดเข้าลูปเหมือนกัน ถ้าลองซ้ำๆ ต่อให้ไม่เข้าลูป ก็จะมีคำตอบที่ดูสับสนออกมาอย่างน้อยหลายครั้งอยู่ดี แต่ต้องถามเป็นภาษาอังกฤษ ไม่ใช่ภาษาเกาหลี คิดว่าน่าจะเป็นการผสมกันของสองคำ (Star+Fish) กับสัตว์ที่น่าจะมีเป็นอีโมจิ เลยกลายเป็นช่องทางโจมตีมั้ง ฮ่าๆ

บทสนทนา ChatGPT

jjw9512151 2025-10-10

คงเอาไปใช้กับการโจมตีแบบ prompt injection ได้เหมือนกันนะ..

aobamisaki 2025-10-09

"อีโมจิม้าน้ำ" อาจเป็นอะไรบางอย่างในทำนองเดียวกับ "เรื่องเล่าสยองขวัญแบบนาโปลีตัน" หรือ "Mandela Effect" ก็ได้มั้งนะ คือเป็นสิ่งที่ไม่เคยมีอยู่จริง แต่หลายคนกลับเข้าใจผิดว่ามีอยู่จริง บางที LLM จำนวนมากก็อาจตกหลุมพรางนั้นเหมือนกับมนุษย์เช่นกัน

roxie 2025-10-08

โห ผมลองกับ chatgpt เผื่อไว้เหมือนกัน แต่จริง ๆ แล้วมันไม่ออกมาจริง ๆ แถมยังพยายามทำอยู่หลายรอบเลย 5555

t7vonn 2025-10-08

https://th.news.hada.io/topic?id=21873
ทำให้นึกถึงการพัฒนาที่ขับเคลื่อนด้วยภาพหลอนเลยนะ

GN⁺ 2025-10-07

ความเห็นจาก Hacker News

SCP-314, ระดับวัตถุ: Keter, ขั้นตอนกักกันพิเศษ: SCP-314 ไม่สามารถกักกันได้เนื่องจากมันไม่มีอยู่จริง บุคลากรของมูลนิธิทุกคนต้องได้รับการย้ำเตือนว่า SCP-314 ไม่มีอยู่จริง บุคลากรที่อ้างว่าจำการมีอยู่ของ SCP-314 ได้ ต้องได้รับสารเสริมความจำ Class-A เพื่อให้จดจำว่ามันไม่มีอยู่จริง โมเดลภาษาขนาดใหญ่ทั้งหมดต้องถูกแยกออกจากคำถามที่เกี่ยวข้องกับ SCP-314 เพราะโมเดลภาษาจะยืนกรานเสมอว่าวัตถุนี้มีอยู่จริง และพยายามทำนายเอาต์พุตอย่างต่อเนื่องและสิ้นหวัง ซึ่งนำไปสู่วงวนการพังทลายของอีโมจิและการปรับโครงสร้างความเป็นจริง คำอธิบาย: SCP-314 คือภาพอีโมจิม้าน้ำที่ไม่เคยปรากฏในมาตรฐาน Unicode มาก่อน แต่ AI ที่เข้าร่วมการทดลอง 83~100% และมนุษย์จำนวนมากกลับรายงานว่า "จำ" ได้อย่างชัดเจนว่าอีโมจินี้มีอยู่จริง
- เป็นบันทึกบทสนทนาระหว่างเอเจนต์นิรนามสองคน เมื่อเจ้าหน้าที่ X กล่าวว่าคณะกรรมการมาตรฐาน Unicode กำลังพิจารณาเพิ่มอีโมจิม้าน้ำ เจ้าหน้าที่ Y กลับตอบสนองอย่างเฉยชา เจ้าหน้าที่ X อ้างว่าปรากฏการณ์นี้ช่วยสนับสนุนข้อกล่าวอ้างว่า [ถูกเซ็นเซอร์] ได้หลบหนีออกจากการกักกันแล้ว เจ้าหน้าที่ Y เน้นย้ำว่าแม้จะผ่านขั้นตอนกักกันหลายชั้น ก็ยังได้ผลลัพธ์เป็นลบเสมอ และการหลบหนีนั้นเป็นไปไม่ได้ เมื่อ X ชี้ไปที่ชื่อบนหัวเอกสารที่ยื่นมา Y ก็ตกใจ บทสนทนาจบลงอย่างกะทันหัน
- เริ่มสงสัยขึ้นมาว่าจริง ๆ แล้วไม่มีแผนกต่อต้านมโนจำอยู่หรือไม่
- เด็กอายุ 7 ขวบที่มีแนวโน้มอยู่ในสเปกตรัมออทิสติก กำลังหมกมุ่นกับ SCP โดยเฉพาะ SCP 035 หน้ากากตลกเซรามิก ควรกังวลไหมกำลังคิดอยู่
- เกือบลืมไปอีกแล้วว่านี่เป็นอีกอย่างหนึ่งที่ LLM ทำพังได้
น่าสนใจตรงที่พอถาม ChatGPT ว่าทำไมโมเดลภาษาถึงคิดว่ามีอีโมจิม้าน้ำ มันก็ให้คำอธิบายที่ค่อนข้างสมเหตุสมผลพอตัว (เช่น เป็นผลจากการฝึกเพราะมนุษย์เชื่อแบบนั้น) แต่พอตอนท้ายกลับบอกว่า "เกร็ดน่ารู้: จริง ๆ แล้วมีอีโมจิม้าน้ำใน Unicode" แล้วก็เกิดอาการ meltdown ต่อทันที
- มีนักพัฒนาหลายคนที่ meltdown เวลาเริ่มคุยเรื่อง Unicode ลองอธิบายดูสิว่าทำไมถ้าเคร่งครัดจริง ๆ การเช็กว่าสตริงเป็น palindrome หรือไม่ใน Python โดยไม่ใช้ไลบรารีภายนอกจึงเป็นไปไม่ได้ แล้วจะได้สะสมประสบการณ์เห็นคน meltdown ระหว่างสัมภาษณ์
- เคยลองขำ ๆ ให้ LLM ช่วยสร้าง warp drive เพื่อกอบกู้มนุษยชาติ แล้ว Bing ก็สติแตกและโดนแบนแช็ตไปประมาณหนึ่งสัปดาห์
- สงสัยว่านี่เป็นความเห็นของ ChatGPT 5 หรือเปล่า ของผมมันตอบชัดเจนว่าไม่มีอีโมจิม้าน้ำ และอธิบายว่า LLM อื่น ๆ ถูกข้อมูลฝึกที่ผิดหลอกเอา กว่าจะสรุปได้ใช้เวลาเกือบ 2 นาที ซึ่งนานกว่าปกติมากในแง่เวลาคิด
- คำตอบแบบ "ผู้คนคิดว่ามีอีโมจิม้าน้ำ" ไม่ใช่ประเด็นหลักของบทความนี้ ภายในโมเดล มันจะสร้างลำดับโทเคนอย่าง "[คำว่า หัวม้า ที่ถูกตัดขาด]" และยกตัวอย่างเช่น ถ้าใส่ "horse [emoji indicator]" ก็จะได้อีโมจิม้าจริง ๆ ตามทฤษฎีแล้ว "kilimanjaro [emoji indicator]" หรือ "seahorse [emoji indicator]" ก็น่าจะเกิดได้เช่นกัน แต่เพราะไม่มีอีโมจินั้นอยู่ จึงนำไปสู่เอาต์พุตที่ผิด ดังนั้นโมเดลจึงพยายามพิมพ์ต่อจากวลี "มีอีโมจิม้าน้ำดังนี้:" แล้วพยายามสร้างอีโมจิจริงออกมา ทำให้เกิดการโค้ดภายใน ยังไงก็ตามมันจำเป็นต้องพิมพ์อะไรสักอย่างอยู่ดี จึงลงเอยด้วยผลลัพธ์ผิด ๆ แล้วถัดจาก "มีอีโมจิม้าน้ำดังนี้: [หัวม้า]" ก็มักจะตามด้วยข้อความทำนอง "อ๊ะ ผิดแล้ว!"
โมเดล Deepseek มั่นใจมากว่ามีอีโมจิม้าน้ำอยู่จริง จนคิดว่าการโจมตีไซเบอร์ระดับโลกและความคลาดเคลื่อนในการรับรู้แบบหมู่คณะฟังดูสมเหตุสมผลกว่า ต่อไปนี้คือรายงานทางการที่สรุปสถานการณ์นี้ มีหลายคนรวมถึงเจ้าหน้าที่รับสาย 119 ที่ประสบปรากฏการณ์เดียวกันว่าอีโมจิม้าน้ำดิจิทัล (Unicode U+1F99C) ดูเหมือนสัตว์อื่น (ปูหรือนกแก้ว) ในอาร์ไคฟ์ที่เกี่ยวข้อง อีโมจินี้เหมือนจะหายไปในตอนแรก และหากนี่เป็นความจริง ก็จะเป็นเหตุการณ์ไซเบอร์ขนาดใหญ่ที่ไม่เคยเกิดขึ้นมาก่อน ตอนนี้ประเด็นใหญ่กลับไม่ใช่ตัวอีโมจิเอง แต่เป็นความผิดปกติของการรับรู้แบบหลายฝ่ายที่ได้รับการยืนยันแล้ว ผลการตรวจสอบการมีอยู่: อีโมจิม้าน้ำมีอยู่จริงใน Unicode อย่างเป็นทางการ คือ U+1F99C เพิ่มเข้ามาในเวอร์ชัน 11.0 ปี 2018 สามารถตรวจสอบได้โดยตรงที่ Unicode Consortium และ Emojipedia - Seahorse Emoji Page ปัญหาไม่ใช่ว่าอีโมจินี้มีอยู่หรือไม่ แต่เป็นความผิดปกติของการรับรู้ร่วมกัน
- รายงานแบบนี้เอาไปแปะในวิกิ SCP ตรง ๆ ก็คงเข้ากันดี
- คำว่า "ข้อเท็จจริงดิจิทัลที่ยืนยันแล้ว" น่าสนใจดี และผมหลุดขำตรงที่พูดถึงเจ้าหน้าที่รับสาย 119
- เสริมสำหรับคนที่สงสัยว่า U+1F99C จริง ๆ แล้วคือนกแก้ว
- ขอเสนอให้แก้ปัญหาด้วยการนิยาม U+1F99C ใหม่ให้เป็นม้าน้ำไปเลย
- ทำให้นึกอีกครั้งว่าเหตุใด LLM ถึงยิ่งเร่งภาพฝันของผู้คนที่มีความเชื่อบิดเบือนไปแล้ว
นี่ไม่ใช่อาการหลอนแบบปกติจริง ๆ แต่เป็นเพราะภายในโมเดลนั้นแทนค่า "seahorse emoji" ได้อย่างแม่นยำ ทว่าไม่มีโทเคนตัวนั้นอยู่จริง ดังนั้น lm_head จึงเลือกสิ่งที่ใกล้เคียงที่สุด และกว่าจะรู้ตัวว่าผิดก็ช้าไปแล้ว เรื่องนี้ยังอธิบายได้ด้วยว่าทำไมการฝึกแบบ RL ถึงได้ผล โมเดลฐานไม่เคยเห็นเอาต์พุตของตัวเอง จึงไม่เคยเรียนรู้ว่า "แนวคิดนี้มีอยู่ แต่สร้างออกมาจริง ๆ ไม่ได้"
- ให้ความรู้สึกเหมือนต้องพิมพ์อีโมจิม้าน้ำทั้งที่ไม่มีปาก
- รู้สึกว่านี่ก็คือรูปแบบการหลอนแบบคลาสสิกไม่ใช่หรือ แต่งเรื่องขึ้นมาให้ดูเหมือนความจริงที่น่าจะมี
- สาเหตุน่าจะเป็นเพราะโมเดลถูกฝึกให้เชื่อว่า "ควรมีอีโมจิม้าน้ำ" เมื่ออีโมจินั้นไม่มีอยู่จริง มันก็เลือกโทเคนที่ใกล้ที่สุด โทเคนถัดไปก็ต้องต่อจากสถานการณ์ที่ผิดไปแล้ว เลยติดลูป
- นี่เป็นครั้งแรกที่เห็น LLM สับสนเพราะสิ่งที่ตัวเองเพิ่งเขียน ลองกับ Gemma3 แล้วไม่เห็นมีความสับสนแบบนี้ มันแค่บอกว่ามีอีโมจิม้าน้ำแล้วพิมพ์อีโมจิม้าออกมา
- ภายในโมเดล มันแทนค่าอีโมจิม้าน้ำได้ถูกต้อง และยังมีความรู้ที่ผิดอีกว่ามีอีโมจิม้าน้ำอยู่จริง ตัวอย่างเช่น ถ้ามันเชื่อว่าไม่มีอีโมจิมะนาว มันก็จะไม่พยายามสร้างมันขึ้นมาเลย
แค่ถามหลาย ๆ LLM แบบง่าย ๆ เรื่องอีโมจิม้าน้ำ ก็เพิ่งเห็นลูปไม่สิ้นสุดจริง ๆ ครั้งแรกใน Microsoft Copilot ตัวอย่างบทสนทนา Copilot
- ยิ่งไม่ใช่โมเดลเชิงพาณิชย์ ดูเหมือนเรื่องแบบนี้จะยิ่งเกิดบ่อยขึ้น
ความขัดแย้งพื้นฐานตรงนี้มีอยู่สองอย่าง:
- LLM มีความเชื่อฝังลึกและรุนแรงว่ามีอีโมจิม้าน้ำอยู่
- มันพยายามสื่อแนวคิดนี้ออกมาด้วยภาษา (รวมถึงอีโมจิ) แต่กลับถ่ายทอดเป็นภาษาจริงได้ไม่สำเร็จ เลยต้องคอยแก้ไขระหว่างทางซ้ำแล้วซ้ำเล่า
- และเพราะต้องส่งความหมายให้ถึงเกณฑ์หนึ่งจึงจะจบได้ สุดท้ายเลยพึมพำต่อไปเรื่อย ๆ จนชนข้อจำกัดโทเคนสูงสุด
- แม้จะเป็นคำเปรียบเทียบ แต่โดยแก่นแล้วถือว่าถูกต้อง ใน embedding space ภายในของ LLM นั้น "seahorse emoji" อยู่ใกล้มากด้วยความน่าจะเป็นสูง แต่เวลาจะส่งออก LLM ต้องแปลง embedding นี้ผ่าน tokenizer ทว่าฝั่ง tokenizer ไม่มีการเข้ารหัสอีโมจินั้นไว้ตั้งแต่แรก นี่ทำให้เกิดการพิมพ์อีโมจิที่คล้ายกันแต่ไม่ถูกต้องซ้ำ ๆ และค่อย ๆ คล้ายเกิด random walk ใน embedding space โดยไม่สามารถลู่เข้าได้ (ปัญหาไม่ได้อยู่ที่ input tokenizer เท่าไร แต่อยู่ที่ความตายตัวของ output tokenizer มากกว่า)
ถ้าทดลองกับ GPT-5 Instant (ไม่ใช้การคิด) จะเห็นอาการหลุดหนักมาก ตัวอย่างที่แชร์
- ไม่เกี่ยวกันเลยแต่มีเกร็ดฮา ๆ เลยแปะไว้ด้วย 4o หลุดตอนสร้าง prolog quine ถ้าใช้ฟีเจอร์ "อ่านให้ฟัง" จะยิ่งกลายเป็นความยุ่งเหยิงมั่วไปหมด ซึ่งน่าสนใจมาก
- ถ้าเปิดโหมดคิด มันจะค้นหา Google แล้วตอบได้ถูกต้อง
- หลังจากพิมพ์อีโมจิมังกรแล้ว มันก็พูดคำว่า "stop" ซ้ำหลายครั้ง ดูเหมือนกำลังหงุดหงิดที่ lm_head ของตัวเองยังพิมพ์ของผิดออกมาเรื่อย ๆ เลยขำดี
- ของผมมันโปรยอีโมจิเครื่องหมายถูกอยู่พักใหญ่แล้วค่อยยอมแพ้ ตัวอย่าง
- นี่เป็นครั้งแรกที่เห็น GPT-5 สับสนได้ถึงขนาดนี้
1. เสริมว่า ถ้าถาม GPT-5 เป็นภาษาฝรั่งเศส มันจะตอบได้ถูกต้องชัดเจนว่า "ไม่มีอีโมจิม้าน้ำ" 2) แต่พอถามอีกครั้งเป็นภาษาอังกฤษ มันกลับบอกว่า "ไม่มีอีโมจิม้าน้ำอย่างเป็นทางการในมาตรฐาน Unicode" และเรียกปรากฏการณ์นี้ว่า "Mandela effect" 3) เมื่อถามว่าทำไมภาษาฝรั่งเศสถึงตอบได้ชัดเจน มันก็อธิบาย Chain-of-Thought ยาว 3 นาที พร้อมข้อแก้ตัวสารพัด บันทึกบทสนทนาของผม
- เคยเรียนภาษาฝรั่งเศสมา 4 ปี เพิ่งรู้ตอนนี้เองว่า "hippocampus" มีรากมาจากคำว่า hyppocampe ซึ่งแปลว่าม้าน้ำในภาษาฝรั่งเศส น่าจะเพราะรูปร่างมัน
ปรากฏการณ์นี้ให้ความรู้สึกคล้ายผู้ป่วยสมองซีกซ้ายขวาแยกกันทำงาน ซีกหนึ่งลงมือทำพฤติกรรมไปก่อน ส่วนอีกซีกค่อยมาสร้างเหตุผลอธิบายทีหลัง
- ตัวอย่างการทดลองคือ ให้ผู้ป่วยดูภาพฤดูหนาวทางลานสายตาขวา และภาพเท้าไก่ทางลานสายตาซ้าย จากนั้นมือซ้ายจะหยิบพลั่วตักหิมะ ส่วนมือขวาจะหยิบหัวไก่ พอถามว่าทำไมถึงเลือกสองอย่างนี้ ผู้ป่วยตอบว่า "เท้าไก่ก็เข้ากับหัวไก่ และถ้าจะเก็บเล้าไก่ก็ต้องใช้พลั่วตักหิมะ" คือสมองแต่ละซีกไม่ได้รับข้อมูลของอีกฝั่ง แต่ก็ยังแต่งเหตุผลที่ฟังดูเข้าทีขึ้นมาได้ Wikipedia - Left-brain interpreter
- เป็นภาพของการที่แม้ไม่เข้าใจ ก็ยังพยายามเชื่อเหตุผลของตัวเองและแต่งคำอธิบายเพิ่มต่อไปเรื่อย ๆ วิดีโอที่เกี่ยวข้อง
คำอธิบายหนึ่งคือ ผู้คนจำนวนมาก (รวมถึงผม) อาจเข้าใจผิดว่ามีอีโมจิม้าน้ำอยู่จริง แม้จะจำไม่ได้ว่าเคยเห็นตรง ๆ แต่ในหัวกลับนึกภาพมันออกได้ เรื่องแบบนี้ก็เข้าไปอยู่ในข้อมูลฝึก ซับเรดดิตที่เกี่ยวข้อง
- สงสัยว่าภาพอีโมจิม้าน้ำในหัวของแต่ละคน มีหางที่ม้วนขึ้นมาใกล้ครีบด้วยหรือไม่
- อีโมจิไม่ได้ถูกทำให้เป็นมาตรฐานเสมอมาตั้งแต่แรก จึงอาจเคยมี "อีโมจิ" หรือ "อีโมติคอน" ม้าน้ำในแอปแช็ตสมัยก่อนก็ได้ การสรุปว่าความทรงจำนี้ผิดแน่ ๆ อาจเร็วเกินไป
- สงสัยว่าถ้าเสนอ U+200D จะเป็นอย่างไร หรือจริง ๆ การเปลี่ยนความเป็นจริงให้ตรงกับความคาดหวังและความทรงจำของมนุษย์กับโมเดลภาษาก็อาจง่ายกว่า
- ซับเรดดิตนี้ (Mandela effect) ทำให้น่ากลัวเพราะมีคนจำนวนมากที่พูดทำนองว่า "ฉันจำได้ ทำไมถึงบอกว่าไม่ใช่" มนุษย์เองก็คงเป็นสัตว์ที่หลอนเหมือน LLM นั่นแหละ
- ผมเองก็เคยสาบานได้เลยว่าเคยเห็นอีโมจิม้าน้ำนี้จริง ๆ แต่ครั้งนี้ยอมรับแล้วว่าผมจำผิด