5 คะแนน โดย GN⁺ 2024-10-06 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • มีการถกเถียงกันมากเกี่ยวกับระดับของทฤษฎีจิตใจ (Theory of Mind) ในโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งเป็นความสามารถในการเข้าใจว่าคนอื่นรู้อะไรและไม่รู้อะไร
  • ในโน้ตบุ๊กนี้ มีการสำรวจประเด็นส่วนหนึ่งของคำถามนี้โดยการให้แชตบอต LLM 9 ตัวแก้ปัญหาวันเกิดของเชอริล ซึ่งเป็นปริศนาตรรกะชื่อดังที่ตัวละครแต่ละคนมีสถานะความรู้แตกต่างกันในแต่ละช่วงเวลา

สรุปประสิทธิภาพของ LLM

  • LLM ทุกตัวคุ้นเคยกับปัญหานี้อยู่แล้ว จึงไม่จำเป็นต้องอธิบายโจทย์ในพรอมป์ต์ แค่เอ่ยชื่อก็พอ
  • ส่วนใหญ่จำคำตอบที่ถูกต้องของปัญหาได้อย่างแม่นยำว่าเป็นวันที่ 16 กรกฎาคม
  • อย่างไรก็ตาม ไม่มีตัวใดเลยที่สามารถเขียนโปรแกรมเพื่อหาคำตอบได้
  • LLM ทุกตัวไม่สามารถแยกแยะสถานะความรู้ที่แตกต่างกันของตัวละครเมื่อเวลาผ่านไปได้
  • อย่างน้อยสำหรับปัญหานี้ LLM ไม่มีทฤษฎีจิตใจ (ซึ่งอาจเป็นเพราะแทบไม่มีโปรแกรม Python ที่ LLM ถูกฝึกมาซึ่งจัดการกับทฤษฎีจิตใจ)

สรุปคำตอบแยกตาม LLM

มนุษย์จริง

  • สามารถแก้ปัญหาต้นฉบับได้อย่างถูกต้อง และยังเขียนโปรแกรมเพื่อจัดการกับชุดวันที่ใหม่และรูปแบบดัดแปลงอื่น ๆ ของปัญหาได้
  • ได้แนะนำแนวคิดชื่อ BeliefState ซึ่งเป็นชุดของวันที่เป็นไปได้ที่บุคคลเชื่อว่าอาจเป็นวันเกิด
  • สร้างแบบจำลองคำพูดของตัวละครเป็นฟังก์ชันที่รับวันที่เฉพาะเป็นอินพุต และคืนค่า true หากสอดคล้องกับคำพูดนั้น

ChatGPT 4o

  • เริ่มต้นด้วยการสรุปปัญหาได้ยอดเยี่ยม
  • พยายามเขียนคำตอบแบบทั่วไป แต่ไม่สามารถติดตามสถานะความเชื่อที่แตกต่างกันของตัวละครตามเวลาได้

Microsoft Copilot

  • ทำพลาดในลักษณะคล้ายกับ ChatGPT

Gemini Advanced

  • ทำได้ดีในแง่ที่นิยามฟังก์ชันหลายตัว แต่ยังจัดการการเปลี่ยนแปลงของสถานะตามเวลาได้ไม่ถูกต้อง

Meta Llama 405B

  • ไม่สามารถหาคำตอบได้

Claude 3.5 Sonnet

  • ทำได้ดีตรงที่ลองใช้ตัวอย่างด้วยวันที่ต่างกันอย่างชัดเจน แต่สำหรับตัวอย่างที่สองนั้นเพียงบังเอิญรายงานได้ถูกต้องว่าไม่มีคำตอบ

Perplexity

  • ดูมีแววเพราะมีตัวแปรแยกชื่อ albert_knows และ bernard_knows แต่ก็ยังจัดการได้ไม่ถูกต้อง
  • แม้จะรับวันที่ที่เป็นไปได้เป็นพารามิเตอร์ แต่กลับละเลยอินพุตและนิยาม month_days โดยอิงจากวันที่เดิม

HuggingFace Chat

  • เป็นโมเดลเดียวที่เสนอการนิยามคลาส แต่ก็ยังทำพลาดในลักษณะคล้ายกัน
  • แม้จะรับรายการวันที่ที่เป็นไปได้ใน constructor แต่กลับฮาร์ดโค้ดเดือนและวันที่เฉพาะของปัญหาต้นฉบับ

You.com

  • ทำพลาดคล้ายกับโมเดลอื่น ๆ แต่ผลลัพธ์คือเลือกวันที่ผิดแทนที่จะไม่เลือกวันที่เลย

ความเห็นของ GN+

  • ปัญหานี้เป็นวิธีที่น่าสนใจในการประเมินความสามารถด้านทฤษฎีจิตใจของ LLM
  • LLM ทุกตัวจำคำตอบที่ถูกต้องได้ แต่ไม่มีตัวใดเลยที่สร้างโปรแกรมเพื่อติดตามการเปลี่ยนแปลงของสถานะความรู้ของตัวละครตามเวลาได้
  • สิ่งนี้อาจเกิดจากการที่ตัวอย่างโค้ดที่ใช้ฝึก LLM ไม่มีการให้เหตุผลประเภทนี้รวมอยู่
  • หากต้องการปรับปรุงประสิทธิภาพของ LLM กับปัญหาการให้เหตุผลประเภทนี้ การฝึกด้วยโปรแกรมที่จัดการสถานการณ์ลักษณะนี้อย่างชัดเจนอาจช่วยได้
  • เราจำเป็นต้องทดสอบปัญหาอื่น ๆ ที่คล้ายกันเพิ่มเติม เพื่อขยายความเข้าใจของเราเกี่ยวกับความสามารถด้านทฤษฎีจิตใจของ LLM

4 ความคิดเห็น

 
comsect62 2024-10-08

เนื่องจากเป็นอุตสาหกรรมล้ำสมัยแห่งอนาคต จึงเหมือนกับการสร้างบางสิ่งที่ไม่รู้จักขึ้นมาบนพื้นที่ว่างเปล่า ในเวลานี้จึงต้องอาศัยจินตนาการเชิงตรรกะด้วย ลองนึกถึงผู้ก่อตั้ง Apple ดูสิ

 
moderator 2024-10-08

ตัดออกเนื่องจากมีคำโฆษณา

 
xguru 2024-10-07

วันเกิดของเชอริลดังขึ้นมาเพราะถูกนำไปใช้เป็นโจทย์ในการแข่งขันคณิตศาสตร์โอลิมปิกของสิงคโปร์ปี 2015 จนมีหน้าในวิกิด้วย
(ได้ยินมาว่าจริง ๆ แล้วก็มีเวอร์ชันแรกที่ออกมาตั้งแต่ปี 2006 เช่นกัน)

https://en.wikipedia.org/wiki/Cheryl%27s_Birthday

โจทย์มีดังนี้

อัลเบิร์ตกับเบอร์นาร์ดได้เป็นเพื่อนกับเชอริล และถามวันเกิดของเธอ
เชอริลบอกวันที่เป็นไปได้ให้พวกเขา 10 วัน

  • 15 พฤษภาคม, 16 พฤษภาคม, 19 พฤษภาคม
  • 17 มิถุนายน, 18 มิถุนายน
  • 14 กรกฎาคม, 16 กรกฎาคม
  • 14 สิงหาคม, 15 สิงหาคม, 17 สิงหาคม

เชอริลบอก "เดือน" ของวันเกิดให้แก่อัลเบิร์ต และบอก "วัน" ของวันเกิดให้แก่เบอร์นาร์ด

อัลเบิร์ต: ฉันไม่รู้ว่าวันเกิดของเชอริลคือวันไหน แต่ฉันรู้ว่าเบอร์นาร์ดก็ไม่รู้เหมือนกัน
เบอร์นาร์ด: ตอนแรกฉันก็ไม่รู้ว่าวันเกิดของเชอริลคือวันไหน แต่ตอนนี้ฉันรู้แล้ว
อัลเบิร์ต: ถ้าอย่างนั้นตอนนี้ฉันก็รู้แล้วว่าวันเกิดของเชอริลคือวันไหน

วันเกิดของเชอริลคือวันไหน?

 
GN⁺ 2024-10-06
ความเห็นจาก Hacker News
  • เคยสร้างเวอร์ชันชื่อ "Cheryl's Murder" ไว้นานแล้ว โน้ตบุ๊กสามารถแก้และสร้างปัญหาอุปนัยเชิงตรรกะแบบ "Cheryl's Birthday" ได้
  • Gp1-o1 แก้ปริศนานี้ได้ถูกต้องใน 13 วินาที และให้เหตุผลเชิงตรรกะกับคำอธิบายอย่างละเอียด คิดว่าการขอให้ดึงนิยามของปริศนามาจากข้อมูลฝึกนั้นไม่ยุติธรรม
  • o1 mini แก้ปริศนาได้ตั้งแต่ครั้งแรก และใช้งานได้กับตัวอย่างที่ให้ไว้ในโน้ตบุ๊ก
    • ฟังก์ชัน find_cheryls_birthday จะวิเคราะห์วันที่ที่เป็นไปได้เพื่อหาวันเกิดของ Cheryl
  • ปัญหาของการประเมิน LLM คือองค์ประกอบแบบสุ่มและถ้อยคำเฉพาะในพรอมป์ต์มีความสำคัญ ได้อธิบายปัญหาให้ Claude ฟังและขอให้เขียนโค้ด Python แม้จะเกิด exception แต่หลังแก้ไขแล้วก็ได้คำตอบที่ถูกต้อง
  • คิดว่าเคสทดสอบนี้ไม่เหมาะสม เพราะตัวอย่าง Python เข้าถึงได้ง่ายมากในข้อมูลฝึก น่าสนใจที่โมเดลยังแก้ไม่ได้
  • LLM และ NLP ทำหน้าที่คล้ายเครื่องคิดเลขสำหรับการให้เหตุผลทางภาษา ภาษาธรรมชาติมีความกำกวมและความยืดหยุ่นของความหมาย การขอให้แก้โจทย์คณิตศาสตร์ในรูปประโยคนั้นเป็นการเสียเวลา
  • ความคาดหวังต่อพัฒนาการของ AI เปลี่ยนไปเรื่อย ๆ LLM ฉลาดกว่ามนุษย์ทั่วไป และอาจเหนือกว่ามนุษย์ในงานด้านการรับรู้ที่ใช้งานได้จริง
  • การสรุปจากการที่ LLM ตอบคำถามบางประเภทไม่ได้ อาจล้มเหลวภายใต้หลักคิดว่า "ในการวนรอบถัดไปมันจะทำได้"
  • ปัญหานี้เป็นเพียงปัญหาเชิงตรรกะ ไม่ใช่การทดสอบ "Theory of Mind" ที่แท้จริง เป็นไปได้ว่า LLM มีความสามารถในการจำลองพฤติกรรมของมนุษย์
  • Claude 3.5 Sonnet แก้ปัญหาได้ตั้งแต่ครั้งแรก และเขียนโปรแกรม Python เพื่อสร้างชุดวันที่ที่เป็นไปได้ได้อย่างถูกต้อง ไม่มีความยากลำบากในการแก้ปัญหานี้