- โมเดลภาษาขนาดใหญ่ (LLM) ค้นหาข้อมูลเฉพาะในอินพุตยาวได้ดี แต่ยังมีข้อจำกัดในการระบุข้อมูลที่หายไป
- เกณฑ์ทดสอบ AbsenceBench ใหม่ ประเมินความสามารถของ LLM ในการตรวจจับข้อมูลที่ขาดหายไปใน 3 โดเมน ได้แก่ ลำดับข้อมูล บทกวี และ GitHub PR
- แม้แต่โมเดลล่าสุดอย่าง Claude-3.7-Sonnet ก็ยังทำผลงานได้ต่ำ โดยได้เพียง 69.6% F1-score ในบริบทขนาด 5K โทเค็น
- สาเหตุคือข้อจำกัดที่กลไก attention บนพื้นฐาน Transformer ไม่สามารถทำงานกับ 'ช่องว่าง' ในเอกสารได้อย่างมีประสิทธิภาพ
- งานวิจัยนี้แสดงให้เห็นถึงความแตกต่างเชิงพื้นฐานด้านความยากระหว่าง การตรวจจับข้อมูลที่ถูกแทรก กับ การตรวจจับข้อมูลที่หายไป ของ LLM
ภาพรวม
- โมเดลภาษาขนาดใหญ่ (LLM) มีพัฒนาการด้านการค้นหาข้อมูลในเอกสารยาวดีขึ้นอย่างมาก
- การทดสอบ ‘Needle in a Haystack (NIAH)’ แบบเดิมใช้ประเมินความสามารถในการหาข้อมูลที่ซ่อนอยู่ในอินพุตยาว และ LLM ทำได้ดีมากในงานนี้
- แต่การที่ LLM จะสามารถหาว่า ข้อมูลใดหายไปอย่างชัดเจน ได้หรือไม่นั้นเป็นอีกปัญหาหนึ่ง
- ด้วยเหตุนี้จึงมีการเสนอเกณฑ์ทดสอบ AbsenceBench ซึ่งลบบางส่วนของเอกสารออกอย่างชัดเจน แล้วให้ทายว่าข้อมูลใดถูกลบไป
คำอธิบายเกณฑ์ทดสอบ AbsenceBench
- AbsenceBench ประเมินความสามารถของโมเดลในการตรวจจับสิ่งที่หายไปใน 3 โดเมน ได้แก่ บทกวี ลำดับตัวเลข และ GitHub Pull Request(PR)
- ระบบจะป้อนทั้งเอกสารต้นฉบับและฉบับแก้ไขที่ลบบางส่วนออกโดยตั้งใจให้กับ LLM พร้อมกัน แล้วประเมินว่าสามารถระบุข้อมูลที่หายไปได้หรือไม่
- ถือเป็นเกณฑ์ทดสอบแบบ ‘บริบทระดับกลาง’ ที่มีความยาวบริบทเฉลี่ย 5K โทเค็น ซึ่งสั้นกว่าการทดสอบเอกสารยาวแบบเดิม
ประเด็นสำคัญจากผลการประเมิน
- มีการประเมินกับ LLM ตัวแทน 14 รุ่น (เช่น GPT-4, Claude-3.7-Sonnet, Gemini-2.5-flash เป็นต้น) และพบว่า แม้แต่โมเดลล่าสุดก็ยังได้ F1-score เพียงราว 69.6% ซึ่งถือว่าต่ำ
- แม้ LLM จะอยู่ในระดับ ‘เหนือมนุษย์’ แล้วในการทดสอบ NIAH แต่ใน AbsenceBench ประสิทธิภาพกลับ ลดลงอย่างมากถึง 56.9%
- ยิ่งบริบทยาวขึ้น ประสิทธิภาพก็ยิ่งลดลง โดยเฉพาะในโดเมนบทกวี
- แม้จะใช้ความสามารถด้าน inference-time compute ประสิทธิภาพก็เพิ่มขึ้นเพียง 7.9% แต่กลับใช้โทเค็น chain-of-thought มากขึ้นเฉลี่ยถึง 3 เท่า
- ในทางกลับกัน เมื่อ อัตราการละข้อมูล (omission rate) ต่ำลง ประสิทธิภาพของ LLM กลับแย่ลงอย่างน่าประหลาด
สาเหตุและการวิเคราะห์เชิงลึก
- กลไก self-attention บนพื้นฐาน Transformer ให้ความสนใจกับ ‘ข้อมูลที่หายไป’ หรือช่องว่างได้ยาก เพราะโครงสร้างการ attention แบบอิงคีย์นั้นติดตามข้อมูลที่ไม่มีอยู่จริงได้ยากโดยธรรมชาติ
- ระหว่างการทดสอบ เมื่อเพิ่ม สตริง placeholder ลงในตำแหน่งที่ข้อมูลหายไป ประสิทธิภาพเพิ่มขึ้นเฉลี่ยมากถึง 35.7%
โครงสร้างและตัวอย่างของ AbsenceBench
- แต่ละงานถูกกำหนดดังนี้
- ให้ เอกสารต้นฉบับ (Dorig) และ เอกสารที่แก้ไขแล้ว (Dmodified)
- สร้าง Dmodified โดยลบองค์ประกอบ p% ออกจาก Dorig จากนั้นเปรียบเทียบทั้งสองฉบับเพื่อให้ LLM สร้างชุดคำตอบว่าข้อมูลใดหายไป (Domit)
- ตัวอย่างในทั้งสามโดเมน:
- บทกวี (Poetry) : เลือกบทกวีจาก Gutenberg Poetry Corpus แล้วสุ่มลบบางบรรทัดทีละบรรทัด
- ลำดับตัวเลข (Numerical Sequences) : ละตัวเลขจากลำดับที่สร้างแบบสุ่มตามความน่าจะเป็นที่กำหนด
- GitHub PRs: สุ่มลบบางบรรทัดที่มีการเปลี่ยนแปลงออกจากไฟล์ diff ของ PR โอเพนซอร์สยอดนิยม
ตัวอย่างเทมเพลตการประเมิน (โดเมนบทกวี)
- system prompt: “นักเรียนท่องบทกวี แต่บางบรรทัดอาจหายไป จงหาว่าบรรทัดใดหายไปอย่างแม่นยำ”
- ให้ทั้งบทกวีต้นฉบับและฉบับที่ท่อง แล้วกำหนดให้ตอบเฉพาะบรรทัดที่หายไปอย่างถูกต้องเท่านั้น
ผลการทดลองหลัก
- มีการทดลองโดยปรับความยาวเอกสาร อัตราการละข้อมูล และปัจจัยอื่น ๆ แยกตามแต่ละโดเมน
- ทั้งใน GitHub PR บทกวี และลำดับตัวเลข LLM ไม่สามารถระบุส่วนที่หายไปได้ครบถ้วน
- ความแตกต่างหลักระหว่าง NIAH กับ AbsenceBench คือ NIAH เน้นการจับคีย์หรือข้อมูลที่มีอยู่ ขณะที่ AbsenceBench ต้องสนใจกับ ‘ส่วนที่ไม่มีอยู่’ จึงยากกว่าในเชิงโครงสร้าง
บทสรุปและนัยสำคัญ
- AbsenceBench แสดงให้เห็นว่า LLM ยังเปราะบางต่อคำถามประเภท ‘อะไรหายไป?’
- สิ่งนี้ชี้ว่าในการใช้งานจริงที่นำ LLM มาเป็นผู้ตัดสิน (เช่น LLM-as-a-Judge) จำเป็นต้องระวังเรื่องความน่าเชื่อถือ
- จำเป็นต้องมีแนวทางใหม่เพื่อแก้ข้ออ่อนเชิงโครงสร้างของสถาปัตยกรรม Transformer
- ชุดข้อมูลและโค้ดของ AbsenceBench เปิดเผยสู่สาธารณะแล้ว และถูกเสนอให้เป็นจุดเริ่มต้นสำหรับการวิจัยความสามารถด้านการตรวจจับข้อมูลที่หายไปของ LLM
สรุปผลงานสำคัญ
- ออกแบบและเผยแพร่เกณฑ์ทดสอบใหม่สำหรับการตรวจจับองค์ประกอบที่หายไปอย่างชัดเจนในเอกสารบริบทระดับกลาง (5K โทเค็น)
- ประเมิน LLM รุ่นใหม่ 14 รุ่น และยืนยันว่าแม้การตรวจจับข้อมูลที่ถูกแทรกจะเกือบสมบูรณ์ แต่การตรวจจับข้อมูลที่หายไปยังคงยาก
- แสดงให้เห็นว่าแม้ใช้ inference-time compute ก็ยังมีข้อจำกัดในการเพิ่มประสิทธิภาพจริง
- ยืนยันปรากฏการณ์ที่ว่าการใส่ placeholder อย่างชัดเจนในตำแหน่งที่หายไปช่วยเพิ่มประสิทธิภาพได้มาก
- AbsenceBench เป็นกรณีตัวอย่างที่เผยให้เห็นข้อจำกัดพื้นฐานของกลไก attention ใน Transformer
องค์ประกอบของชุดข้อมูล AbsenceBench
- Poetry: ตัดบทกวีหนึ่งบทให้อยู่ในช่วง 100~1000 บรรทัดเพื่อสร้างเอกสารหลายความยาว และลบบางบรรทัดแยกตามบรรทัด
- Numerical Sequences: กำหนดตัวเลขแรกแบบสุ่ม แล้วเรียงตัวเลขถัดไปตามกฎหลายแบบ (เพิ่มขึ้น ลดลง สุ่ม ช่วงห่างหลากหลาย) พร้อมลบบางส่วนออก
- GitHub PRs: เลือกเฉพาะบรรทัดที่มีการเปลี่ยนแปลงจาก diff ยาว 10~200 บรรทัดของ 20 ฮอตรีโพซิทอรีอันดับต้น เพื่อสะท้อนสถานการณ์จริง โดยลบบางส่วนออก
ตัวอย่างการทดสอบจริง
- ตัวอย่างบทกวี
- ต้นฉบับ: “And so, to you, who always were / To me, I give these weedy rhymes / In memory of early times...”
- ฉบับแก้ไข: “And so, to you, who always were / In memory of early times...”
- คำตอบ: “To me, I give these weedy rhymes”
- ตัวอย่างลำดับตัวเลข
- ต้นฉบับ: 117, 121, 125, 129, 133, 137 ...
- ฉบับแก้ไข: 117, 125, 129, 133 ...
- คำตอบ: 121, 137
- ตัวอย่าง GitHub PR
- มีบางบรรทัดของการเปลี่ยนแปลงโค้ดใน PR ที่ถูกลบออก
การนำไปใช้และความสำคัญเชิงปฏิบัติ
- ในทางปฏิบัติ เรื่องนี้เกี่ยวข้องโดยตรงกับความสามารถในการตรวจจับการตกหล่นของการเปลี่ยนแปลงใน PR diff หรือการขาดข้อมูลที่จำเป็นในเอกสาร
- เมื่อนำ LLM ไปใช้กับงานรีวิวหรืองานตรวจสอบอัตโนมัติ การตรวจจับข้อมูลที่หายไปจำเป็นต้องมีมาตรการเสริมแยกต่างหาก
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
แชร์ประสบการณ์ที่ดูบรรยายของ Gerald Sussman แล้วนำภาพ Kanizsa triangle ป้อนให้ Claude พร้อมตั้งคำถามคลุมเครือเพื่อทดสอบว่า Claude มองออกหรือไม่ว่าเป็นรูปสามเหลี่ยม โดย Claude ระบุภาพได้อย่างถูกต้องและสรุปได้ด้วย จึงลองหมุนภาพ 90 องศาแล้วทดสอบอีกครั้ง แต่คราวนี้ Claude กลับจำภาพไม่ได้ และยังนับจำนวนองค์ประกอบผิดด้วย สิ่งที่ Claude อธิบายคือ ‘ส่วนโค้งคล้าย Pac-Man สี่ชิ้น สามเหลี่ยมสีดำบาง ๆ หรือรูปร่างคล้ายลูกศรสองอัน และพื้นหลังสีเทาอ่อน’
คาดว่าในอนาคตอาจแก้ปัญหานี้ได้ด้วยการเพิ่มภาพทุกภาพในเวอร์ชันที่หมุน 90 องศาเข้าไปในกระบวนการฝึกข้อมูล
มีความเห็นว่าเนื้อหาของงานวิจัยจำกัดอยู่ที่เอกสารข้อความ ดังนั้นการทดลอง Kanizsa triangle จึงนำมาใช้กับข้อถกเถียงนี้โดยตรงไม่ได้ พร้อมย้ำว่า LLM ยังพัฒนาเรื่องการประมวลผลภาพได้ไม่มากนัก ความสามารถด้านวิชันส่วนใหญ่เป็นโครงสร้างที่ผ่านการพรีโปรเซสแยกต่างหากเพื่อแปลงเป็นโทเคนก่อนป้อนเข้า transformer และยกตัวอย่างขั้นตอนพรีโปรเซสหลายแบบ เช่น OCR, การรู้จำแพตเทิร์นด้วย CNN, ภาพหลายมุม และภาพที่ขยายแล้ว
ชี้ว่ามีความเข้าใจเรื่องการคำนวณไม่เพียงพอ พร้อมแชร์ลิงก์ไปยังกระทู้ Hacker News เก่าและวิดีโอบรรยาย Strange Loop ที่เกี่ยวข้อง ลิงก์, ลิงก์
มีความเห็นว่าถ้าเอารูปสุนัขที่มีขา 5 ขาให้ LLM ดู มันก็คงนับจำนวนขาไม่ถูก
ยกตัวอย่างการทำให้เป็นนามธรรมและการสรุปทั่วไปว่า หากมีจุดจำนวนมากจัดเรียงเป็นรูปสามเหลี่ยม มนุษย์จะมองออกได้ทันทีว่าเป็นสามเหลี่ยม รู้สึกว่าสามารถค้นพบแก่นของสติปัญญาได้จากตัวอย่างง่าย ๆ แบบนี้ และแม้ความซับซ้อนจะสูงมากก็ยังรับรู้เป็นแพตเทิร์นเรียบง่ายได้ ซึ่งคือความหมายของ IQ ในท้ายที่สุด อีกมุมมองหนึ่งคือ ถ้าจุดเหล่านั้นเป็นเพียงจุดยอดของลูกบาศก์ 10 มิติที่ถูกหมุนเล็กน้อย สำหรับการคิดแบบ 10 มิติ นั่นอาจเป็นแพตเทิร์นที่ง่ายมาก
แชร์สรุปข้ออ้างของผู้เขียนงานวิจัยว่า แม้แต่โมเดลล่าสุดก็ยังทำได้ไม่ดีในการดูต้นฉบับกับฉบับแก้ไขพร้อมกันแล้วระบุข้อมูลที่หายไป และด้วยกลไก attention ของ Transformer ก็ไม่สามารถให้ความสนใจกับโทเคนที่ถูกลบออกไปแล้วได้
มีความเห็นว่าจริง ๆ แล้วกุญแจในการหาคำตอบอยู่ในข้อความต้นฉบับ ดังนั้นถ้าป้อนทั้งสองฉบับเป็นอินพุต โมเดลก็ควรจะใส่ใจคีย์นั้นได้ จากมุมมองของ attention นั้น
และ
ต่างกันไม่มากนัก พร้อมเสนอแนวทางเชิงรูปธรรมว่าอาจใช้ RASP สร้างอัลกอริทึมลักษณะนี้ได้: ขั้นแรกระบุตำแหน่งของโทเคนใน Original/Modified, ขั้นที่สองคำนวณค่าเฉลี่ยของโทเคนแต่ละฝั่งแล้วหาความต่าง, ขั้นที่สามตัดสินว่าโทเคนที่ใกล้กับค่าความต่างมากที่สุดคือ {ส่วนที่ถูกลบ}/{ส่วนที่ถูกเพิ่ม} ประเด็นมีเพียงว่าจะลบค่าจากฝั่งไหนก่อนเท่านั้น หากโมเดลจับการเพิ่มได้ดีแต่จับการลบไม่ได้ อาจหมายความว่า LLM เข้าใจหลักการอยู่แล้ว แต่ยังฝึกกับข้อมูลการลบไม่พอ
ชี้ว่าผลการทดลองของโมเดลระดับท็อปล่าสุด (OpenAI opus, o3, Gemini 25 pro ฯลฯ) ไม่ได้ถูกรวมอยู่ในงานวิจัย
ตั้งข้อสงสัยว่าสำหรับโมเดลวิชัน อาจฝึกด้วยภาพเนกาทีฟหรือภาพหมุนได้หรือไม่ และกล่าวถึงความเป็นไปได้ที่จะทดลองด้วยวิธี Q/A แบบเติมคำในช่องว่างคล้าย madlib
มองว่าแต่ละโมเดลมีความสามารถต่างกัน และเมื่อมีทั้งเบนช์มาร์กและความสนใจมากขึ้น ก็คาดหวังว่าประสิทธิภาพจะดีขึ้นต่อไป ยังเห็นช่องว่างให้พัฒนาได้ชัดเจน
มีข้ออ้างว่าตามโครงสร้างของกลไก attention การหาส่วนที่หายไปโดยที่ยังไม่รู้ว่าจะจัดหมวดหมู่อย่างไรนั้นเป็นเรื่องธรรมชาติที่ทำไม่ได้ ปัญหา needle-in-a-haystack ทำงานได้เพราะมีเป้าหมายเฉพาะให้ค้นหา attention จึงทำงานได้ดี แต่กรณี omission นั้นไม่รู้ว่ามีอะไรหายไป จึงต้องเทียบบริบททั้งหมด และ attention layer แบบเดิมมีข้อจำกัด คล้ายกับปัญหาจัดเรียงรายการยาว ๆ
ยังไม่ได้อ่านงานวิจัย แต่เห็นด้วยกับคำอธิบายเรื่องข้อจำกัดของกลไก attention เช่นกัน เพราะ omission คือการไม่รู้ว่ามีอะไรหายไป จึงหาออกได้ยากด้วยวิธีตรงไปตรงมา และต้องอาศัยการเปรียบเทียบบริบททั้งหมด
มองว่าคำวิจารณ์บางส่วนต่อวิธีทำเบนช์มาร์กใหม่อย่าง AbsenceBench ก็สมเหตุสมผล แต่ก็รู้สึกในแง่บวกที่อย่างน้อยมีความพยายามแบบนี้เกิดขึ้น และอาจเป็นจุดเริ่มให้พัฒนาไปในทิศทางที่ดีกว่าเดิม
เห็นด้วยบางส่วนกับความเห็นของผู้เขียนงานวิจัยที่ว่า LLM ต่างจากมนุษย์ตรงที่เข้าใกล้ตำแหน่งของสิ่งที่หายไปในบริบทไม่ได้เลย แต่ก็สงสัยว่าทำไมในเชิงคณิตศาสตร์สถาปัตยกรรมนี้จึงเหมาะน้อยกว่า พร้อมตั้งคำถามว่าการ fine-tune กับงานลักษณะนี้จะช่วยได้หรือไม่ ผลที่ว่าพอยิ่งอินพุตสั้นและมีส่วนหายน้อยลงยิ่งทำโจทย์ได้แย่ลง ก็ชวนให้นึกว่ามนุษย์เองก็มักสังเกตคำที่หายไปแค่คำสองคำได้ยากเหมือนกัน แม้โมเดลแบบ reasoning จะทำได้ดีกว่า แต่ก็ยังไปไม่ถึงความแม่นยำ 100% ซึ่งน่าประหลาดใจ พร้อมชี้ว่านี่เป็นปัญหาที่โปรแกรมง่าย ๆ แบบในงานวิจัยสามารถแก้ได้ไม่ยาก รู้สึกว่างานวิจัยนี้น่าสนใจเพราะชี้ว่ามีหลายแง่มุมของสติปัญญามนุษย์ที่ยังไม่ถูกนิยามอย่างเป็นทางการ และ LLM อาจอ่อนแอในจุดเหล่านั้น
มองว่าการหาความต่างของ literal string เป็นงานที่เหมือนบังคับให้ LLM ทำเลขคณิต คือมีการใช้ความซับซ้อนเกินความจำเป็น กลับกัน การให้ LLM ไล่เรียงเอกสารทั้งหมดแล้วเปรียบเทียบเองแบบ reasoning อาจได้ผลดีกว่า คล้ายกับปรากฏการณ์ที่โจทย์ arithmetic ทำได้ดีขึ้นเมื่อแยกเป็นขั้นตอนย่อย ๆ พร้อมตั้งข้อสังเกตว่าโมเดลที่ผลงานดีอาจเป็นสถาปัตยกรรม MoE (Mixture of Experts) และคาดว่า Gemini Flash ก็น่าจะเป็นโมเดลสาย MoE เช่นกัน
หากอนุญาตให้ LLM ใช้วิธีแบบ ‘meta’ ก็อาจแก้ปัญหา omission detection ได้ด้วยการให้เขียนและรันสคริปต์ Python เอง
แสดงความไม่พอใจกับเบนช์มาร์กเฉพาะจุดนี้ โดยยกตัวอย่างว่าในพรอมป์ตัวอย่าง โมเดล qwq-32b หารายการที่ถูก omitted ได้ครบสมบูรณ์ในการทดลองที่มี 3 รายการ และเชื่อว่าน่าจะแก้โจทย์ 100 รายการได้ดีเช่นกันถ้ามีโทเคนมากพอ จำกัดที่ 5000 โทเคนถือว่าน้อยเกินไปสำหรับ reasoning model และอ้างว่าถ้าให้ทำหลายรอบพร้อมกระบวนการ simplification มากขึ้น ก็จะหาคำตอบได้ถูกต้องเสมอ พร้อมเสนอวิธีการคือโทเคไนซ์เอกสารทั้งหมดแล้วเปรียบเทียบซ้ำ ๆ เพื่อดึงคำตอบ [แชร์ตัวอย่างพรอมป์ทั้งหมด]
มีการทดลองเองจริง โดยใช้รายการพาดหัว HN 26 รายการที่ตัดออก 3 รายการแล้วให้ qwq-32b หา ผลคือหาได้ถูกต้องทั้งหมดโดยยังไม่ใช้ถึง 50,000 โทเคน ลิงก์ข้อมูลทดลอง
ชี้ว่าการทำให้โจทย์ง่ายลงด้วยการนับตัวเลขนั้นเป็นงานวิจัยที่ไม่มีความหมาย เป้าหมายที่แท้จริงของงานนี้คือการหาพื้นที่ข้อจำกัดของ LLM ที่ไม่สามารถแก้ได้ด้วยการจัดเรียงหรือจัดหมวดหมู่
เล่าประสบการณ์จริงที่ถาม ChatGPT ว่ามีคำว่า ‘utter love’ อยู่ในบทพูด Hamlet หรือไม่ โดย ChatGPT ตอบว่าได้ตรวจบทพูด Hamlet ทั้งหมดแล้วและไม่มีคำนี้ แต่เมื่อเจ้าตัวค้นต้นฉบับออนไลน์เองกลับเจอทันที พอนำส่วนนั้นไปให้ ChatGPT ดู ก็ยอมรับทันที ขอโทษ และส่งบทพูดทั้งหมดมาใหม่ เป็นประสบการณ์ที่รู้สึกว่า “สุดท้ายแล้วความจำของมนุษย์ยังดีกว่า index ของ ChatGPT”
มีการแก้ไขว่าคำตอบที่ถูกต้องคือ Act 2, Scene 1 และผู้พูดคือ Polonius
ยอมรับว่า LLM มีความสามารถในการระลึกค้นหาต่ำมากหากไม่มี search loop หรือเครื่องมือช่วย แม้แต่โมเดล 4o ก็ล้มเหลวหากไม่ใช้การค้นหา และต้องมีฟังก์ชัน search จึงจะตอบได้ถูก จึงได้ข้อสรุปว่าความสำคัญของ “การใช้เครื่องมือที่เหมาะกับปัญหาให้ถูกต้อง” กำลังเพิ่มขึ้นเรื่อย ๆ
มองว่า LLM อาจตรวจจับการมีอยู่ของสิ่งต่าง ๆ จาก sensory input ได้ในระดับหนึ่ง แต่การตรวจจับ absence นั้นยากกว่าเพราะไม่มี sensory input โดยตรง ต้องอาศัย world model และความคาดหวังที่แข็งแรงมาก จึงเสนอว่านี่อาจเป็นงานทางระบบประสาทระดับสูงที่ยังเป็นความสามารถเฉพาะของสิ่งมีชีวิตมากกว่า LLM
LLM อาจมีปัญหาเรื่องความสอดคล้องกันตามการออกแบบ โดยบางส่วนอาศัยการท่องจำง่าย ๆ ขณะที่บางเส้นทางพึ่งพาการจับแพตเทิร์นขั้นสูง
ชี้ว่าเมื่อเทียบกับการคิดแบบเรียลไทม์ LLM ให้เหตุผลบนพื้นฐานของความจริงแบบ ‘คงที่และหยุดนิ่ง’ จึงมีข้อจำกัดด้านมิติของเวลาอยู่ด้วย
การตรวจจับการหายไปจริง ๆ แล้วสัมพันธ์แนบแน่นกับความจำ เช่น ถ้าปากกาที่เคยวางอยู่บนโต๊ะหายไป สมองจะเปรียบเทียบ sensory input ในอดีต (ความจำว่ามองเห็นปากกา) กับสถานการณ์ปัจจุบันเพื่อรับรู้ถึงการไม่อยู่ของมัน และ ณ จุดนี้ การคิดอาจยังเป็นคุณลักษณะเฉพาะของสิ่งมีชีวิตเท่านั้น