- มีการถกเถียงกันมากเกี่ยวกับระดับของทฤษฎีจิตใจ (Theory of Mind) ในโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งเป็นความสามารถในการเข้าใจว่าคนอื่นรู้อะไรและไม่รู้อะไร
- ในโน้ตบุ๊กนี้ มีการสำรวจประเด็นส่วนหนึ่งของคำถามนี้โดยการให้แชตบอต LLM 9 ตัวแก้ปัญหาวันเกิดของเชอริล ซึ่งเป็นปริศนาตรรกะชื่อดังที่ตัวละครแต่ละคนมีสถานะความรู้แตกต่างกันในแต่ละช่วงเวลา
สรุปประสิทธิภาพของ LLM
- LLM ทุกตัวคุ้นเคยกับปัญหานี้อยู่แล้ว จึงไม่จำเป็นต้องอธิบายโจทย์ในพรอมป์ต์ แค่เอ่ยชื่อก็พอ
- ส่วนใหญ่จำคำตอบที่ถูกต้องของปัญหาได้อย่างแม่นยำว่าเป็นวันที่ 16 กรกฎาคม
- อย่างไรก็ตาม ไม่มีตัวใดเลยที่สามารถเขียนโปรแกรมเพื่อหาคำตอบได้
- LLM ทุกตัวไม่สามารถแยกแยะสถานะความรู้ที่แตกต่างกันของตัวละครเมื่อเวลาผ่านไปได้
- อย่างน้อยสำหรับปัญหานี้ LLM ไม่มีทฤษฎีจิตใจ (ซึ่งอาจเป็นเพราะแทบไม่มีโปรแกรม Python ที่ LLM ถูกฝึกมาซึ่งจัดการกับทฤษฎีจิตใจ)
สรุปคำตอบแยกตาม LLM
มนุษย์จริง
- สามารถแก้ปัญหาต้นฉบับได้อย่างถูกต้อง และยังเขียนโปรแกรมเพื่อจัดการกับชุดวันที่ใหม่และรูปแบบดัดแปลงอื่น ๆ ของปัญหาได้
- ได้แนะนำแนวคิดชื่อ BeliefState ซึ่งเป็นชุดของวันที่เป็นไปได้ที่บุคคลเชื่อว่าอาจเป็นวันเกิด
- สร้างแบบจำลองคำพูดของตัวละครเป็นฟังก์ชันที่รับวันที่เฉพาะเป็นอินพุต และคืนค่า true หากสอดคล้องกับคำพูดนั้น
ChatGPT 4o
- เริ่มต้นด้วยการสรุปปัญหาได้ยอดเยี่ยม
- พยายามเขียนคำตอบแบบทั่วไป แต่ไม่สามารถติดตามสถานะความเชื่อที่แตกต่างกันของตัวละครตามเวลาได้
Microsoft Copilot
- ทำพลาดในลักษณะคล้ายกับ ChatGPT
Gemini Advanced
- ทำได้ดีในแง่ที่นิยามฟังก์ชันหลายตัว แต่ยังจัดการการเปลี่ยนแปลงของสถานะตามเวลาได้ไม่ถูกต้อง
Meta Llama 405B
Claude 3.5 Sonnet
- ทำได้ดีตรงที่ลองใช้ตัวอย่างด้วยวันที่ต่างกันอย่างชัดเจน แต่สำหรับตัวอย่างที่สองนั้นเพียงบังเอิญรายงานได้ถูกต้องว่าไม่มีคำตอบ
Perplexity
- ดูมีแววเพราะมีตัวแปรแยกชื่อ albert_knows และ bernard_knows แต่ก็ยังจัดการได้ไม่ถูกต้อง
- แม้จะรับวันที่ที่เป็นไปได้เป็นพารามิเตอร์ แต่กลับละเลยอินพุตและนิยาม
month_days โดยอิงจากวันที่เดิม
HuggingFace Chat
- เป็นโมเดลเดียวที่เสนอการนิยามคลาส แต่ก็ยังทำพลาดในลักษณะคล้ายกัน
- แม้จะรับรายการวันที่ที่เป็นไปได้ใน constructor แต่กลับฮาร์ดโค้ดเดือนและวันที่เฉพาะของปัญหาต้นฉบับ
You.com
- ทำพลาดคล้ายกับโมเดลอื่น ๆ แต่ผลลัพธ์คือเลือกวันที่ผิดแทนที่จะไม่เลือกวันที่เลย
ความเห็นของ GN+
- ปัญหานี้เป็นวิธีที่น่าสนใจในการประเมินความสามารถด้านทฤษฎีจิตใจของ LLM
- LLM ทุกตัวจำคำตอบที่ถูกต้องได้ แต่ไม่มีตัวใดเลยที่สร้างโปรแกรมเพื่อติดตามการเปลี่ยนแปลงของสถานะความรู้ของตัวละครตามเวลาได้
- สิ่งนี้อาจเกิดจากการที่ตัวอย่างโค้ดที่ใช้ฝึก LLM ไม่มีการให้เหตุผลประเภทนี้รวมอยู่
- หากต้องการปรับปรุงประสิทธิภาพของ LLM กับปัญหาการให้เหตุผลประเภทนี้ การฝึกด้วยโปรแกรมที่จัดการสถานการณ์ลักษณะนี้อย่างชัดเจนอาจช่วยได้
- เราจำเป็นต้องทดสอบปัญหาอื่น ๆ ที่คล้ายกันเพิ่มเติม เพื่อขยายความเข้าใจของเราเกี่ยวกับความสามารถด้านทฤษฎีจิตใจของ LLM
4 ความคิดเห็น
เนื่องจากเป็นอุตสาหกรรมล้ำสมัยแห่งอนาคต จึงเหมือนกับการสร้างบางสิ่งที่ไม่รู้จักขึ้นมาบนพื้นที่ว่างเปล่า ในเวลานี้จึงต้องอาศัยจินตนาการเชิงตรรกะด้วย ลองนึกถึงผู้ก่อตั้ง Apple ดูสิ
ตัดออกเนื่องจากมีคำโฆษณา
วันเกิดของเชอริลดังขึ้นมาเพราะถูกนำไปใช้เป็นโจทย์ในการแข่งขันคณิตศาสตร์โอลิมปิกของสิงคโปร์ปี 2015 จนมีหน้าในวิกิด้วย
(ได้ยินมาว่าจริง ๆ แล้วก็มีเวอร์ชันแรกที่ออกมาตั้งแต่ปี 2006 เช่นกัน)
https://en.wikipedia.org/wiki/Cheryl%27s_Birthday
โจทย์มีดังนี้
อัลเบิร์ตกับเบอร์นาร์ดได้เป็นเพื่อนกับเชอริล และถามวันเกิดของเธอ
เชอริลบอกวันที่เป็นไปได้ให้พวกเขา 10 วัน
เชอริลบอก "เดือน" ของวันเกิดให้แก่อัลเบิร์ต และบอก "วัน" ของวันเกิดให้แก่เบอร์นาร์ด
อัลเบิร์ต: ฉันไม่รู้ว่าวันเกิดของเชอริลคือวันไหน แต่ฉันรู้ว่าเบอร์นาร์ดก็ไม่รู้เหมือนกัน
เบอร์นาร์ด: ตอนแรกฉันก็ไม่รู้ว่าวันเกิดของเชอริลคือวันไหน แต่ตอนนี้ฉันรู้แล้ว
อัลเบิร์ต: ถ้าอย่างนั้นตอนนี้ฉันก็รู้แล้วว่าวันเกิดของเชอริลคือวันไหน
วันเกิดของเชอริลคือวันไหน?
ความเห็นจาก Hacker News
find_cheryls_birthdayจะวิเคราะห์วันที่ที่เป็นไปได้เพื่อหาวันเกิดของ Cheryl