AbsenceBench: โมเดลภาษาไม่สามารถระบุข้อมูลที่หายไปได้

(arxiv.org)

1 คะแนน โดย GN⁺ 2025-06-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การประเมินความสามารถในการค้นหา “ข้อมูลที่มีอยู่” ในบริบทยาว ๆ พัฒนาขึ้นอย่างรวดเร็ว แต่ AbsenceBench แสดงให้เห็นว่าความสามารถในการเปรียบเทียบต้นฉบับกับฉบับแก้ไขเพื่อหา ข้อมูลที่ขาดหายไป ยังคงอ่อนแอ
benchmark นี้ประกอบด้วย 3 โดเมน ได้แก่ บทกวี, ลำดับตัวเลข, และ GitHub PR diff ใช้ 4,302 instance พร้อมบริบทเฉลี่ย 5K token และมีอัตราการละเว้นพื้นฐาน 10%
แม้จะประเมิน LLM 14 ตัว เช่น GPT-4, Claude-3.7-Sonnet, Gemini-2.5-flash, o3-mini, Grok-3-mini, DeepSeek-R1 แต่ประสิทธิภาพของโมเดลสมัยใหม่ยังมีข้อจำกัด โดย Claude-3.7-Sonnet ทำได้เพียง 69.6% F1-score ที่บริบทเฉลี่ย 5K token
F1-score ของ AbsenceBench ลดลงเฉลี่ย 56.9% เมื่อเทียบกับ NIAH และโมเดลที่ใช้การคำนวณระหว่างการอนุมาน แม้ใช้ thinking token เพิ่มเฉลี่ย 8K token แต่ประสิทธิภาพดีขึ้นเพียง 7.9%
เมื่อใส่ placeholder ที่ชัดเจนในตำแหน่งที่ข้อมูลหายไป ประสิทธิภาพดีขึ้นเฉลี่ย 35.7% ซึ่งสนับสนุนการตีความว่า Transformer attention ให้ความสนใจกับ “ช่องว่าง” ในเอกสารได้ยาก

คำถามที่ AbsenceBench ตั้งขึ้น

LLM ช่วงหลังแสดงประสิทธิภาพสูงในงานบริบทยาว และในการทดสอบ Needle-in-a-Haystack(NIAH) ก็แสดงความสามารถในการค้นหาข้อมูลผิดแปลกขนาดเล็กภายในอินพุตที่ยาวมาก
AbsenceBench ประเมินปัญหาในทิศทางตรงกันข้าม
- แทนที่จะค้นหาข้อมูลที่มีอยู่ในอินพุต ต้องค้นหา ข้อมูลที่หายไปอย่างชัดเจน
- โมเดลจะได้รับทั้งเอกสารต้นฉบับและเอกสารฉบับแก้ไขที่มีองค์ประกอบบางส่วนถูกลบออก
- เอาต์พุตต้องเป็นชุดองค์ประกอบที่หายไปจากเอกสารฉบับแก้ไขอย่างถูกต้อง
งานนี้มีกฎเรียบง่ายและคำตอบก็ชัดเจน แต่แม้แต่โมเดลแบบปิดระดับแนวหน้าก็ยังมีประสิทธิภาพต่ำ

นิยามงานและการจัดชุดข้อมูล

AbsenceBench เป็นรูปแบบ controlled generation ที่จงใจนำองค์ประกอบบางส่วน Domit ออกจากเอกสารต้นฉบับ Dorig เพื่อสร้างเอกสารฉบับแก้ไข Dmodified แล้วให้โมเดลตรวจหาองค์ประกอบที่ถูกลบออก
“document length” หมายถึงจำนวน token ของเอกสารต้นฉบับ ส่วน “context length” หมายถึงจำนวน token ทั้งหมดของอินพุตที่ป้อนให้โมเดล
benchmark ทั้งหมดประกอบด้วย 4,302 instance และมีความยาวบริบทเฉลี่ย 5K token
โค้ด repository เผยแพร่ที่ harvey-fin/absence-bench
การวัดความยาว token ใช้ GPT-4 Tokenizer

บทกวี, ลำดับตัวเลข, GitHub PR diff

บทกวี(Poetry)
- ใช้บทกวีจาก Gutenberg Poetry Corpus
- ใช้การละเว้นเป็นรายบรรทัด โดยตัวคั่นบรรทัดคืออักขระ newline
- เพื่อให้เอกสารมีความยาวหลากหลาย จึงตัดบทกวีแต่ละบทให้จำนวนบรรทัดกระจายอย่างสม่ำเสมอระหว่าง 100~1000 บรรทัด
ลำดับตัวเลข
- สร้างลำดับตัวเลขสังเคราะห์รวม 1,200 รายการ
- ตัวเลขถูกจัดเรียงแบบหนึ่งในสามรูปแบบ: เรียงจากน้อยไปมาก, เรียงจากมากไปน้อย, หรือเรียงแบบสุ่ม
- step size ระหว่างตัวเลขต่อเนื่องเป็นหนึ่งในค่า 1, 4, 7, 13
- ตัวเลขแรกสุ่มเลือกจากช่วง 0~9999
GitHub PR diff
- ใช้ข้อมูล GitHub สาธารณะและ GitHub API เพื่อรวบรวม PR จาก repository 20 อันดับแรกที่มีจำนวน PR มากที่สุด
- เก็บเฉพาะ PR ที่มีบรรทัดอัปเดตใน diff อยู่ระหว่าง 10~200 บรรทัด
- ในบรรทัดอัปเดตที่ขึ้นต้นด้วย + หรือ - จะใช้เฉพาะบรรทัดที่ไม่ซ้ำกันภายใน PR diff แต่ละรายการเป็นเป้าหมายการละเว้น
- เนื่องจาก LLM ที่แก้ไขและตรวจสอบ merge conflict ต้องสามารถตรวจจับการละเว้นใน file diff ได้ จึงเชื่อมโยงกับกรณีใช้งานจริง

ข้อจำกัดที่พบจากการประเมิน LLM 14 ตัว

กลุ่มที่ประเมินมี LLM 14 ตัว รวมทั้งหมด
- รวมโมเดลสมัยใหม่ เช่น GPT-4, Claude-3.7-Sonnet, Gemini-2.5-flash
- รวมโมเดลที่ใช้การคำนวณระหว่างการอนุมาน เช่น o3-mini, Grok-3-mini, DeepSeek-R1
- Claude-3.7-Sonnet และ Gemini-2.5-flash ถูกประเมินแยกตามการใช้หรือไม่ใช้การคำนวณระหว่างการอนุมาน
แม้แต่โมเดลสมัยใหม่ก็ยังให้ประสิทธิภาพที่เสถียรบน AbsenceBench ไม่ได้
- Claude-3.7-Sonnet ทำ 69.6% F1-score ที่บริบทเฉลี่ย 5K token
ยิ่งความยาวบริบทยาวขึ้น งานก็ยิ่งยากขึ้น โดยเฉพาะใน โดเมนบทกวี ที่เห็นความแตกต่างชัดเจน
การคำนวณระหว่างการอนุมานช่วยเพิ่มประสิทธิภาพเฉลี่ยเพียง 7.9%
- แต่สร้าง thinking token เพิ่มเฉลี่ย 8K token
- ซึ่งเทียบได้กับเกือบ 3 เท่าของความยาวเอกสารเฉลี่ย
ยังพบผลลัพธ์ว่าเมื่ออัตราการละเว้นต่ำลง ประสิทธิภาพของโมเดลกลับแย่ลง

รูปแบบความล้มเหลวที่ต่างจาก NIAH

AbsenceBench กลายเป็นงานที่ยากกว่า NIAH มากสำหรับ LLM
- เมื่อเปรียบเทียบ LLM สามตัวในตั้งค่าของ AbsenceBench กับตั้งค่า NIAH ดั้งเดิม F1-score ลดลงเฉลี่ย 56.9%
Transformer attention อาจรับมือกับ ช่องว่าง ในเอกสารได้ยาก
- เพราะข้อมูลที่หายไปไม่ได้สอดคล้องกับ key เฉพาะที่ attention จะมุ่งไปหาได้
ในการทดลองที่ใส่สตริง placeholder ในตำแหน่งที่หายไป ประสิทธิภาพดีขึ้นเฉลี่ย 35.7%
- ตัวอย่างคือการใส่ token เช่น <missing line> ในตำแหน่งบรรทัดที่หายไป
ผลลัพธ์นี้แสดงให้เห็นว่า LLM อาจเปราะบางกว่าในการระบุสถานการณ์ที่ข้อมูล “หายไป” เมื่อเทียบกับสถานการณ์ที่ข้อมูลถูก “แทรกเข้ามา”
ในรูปแบบการใช้งานอย่าง LLM-as-a-Judge ที่ต้องสังเกตข้อมูลที่หายไปให้ถูกต้อง ข้อจำกัดนี้อาจนำไปสู่ความเสี่ยงในทางปฏิบัติได้

1 ความคิดเห็น

GN⁺ 2025-06-22

ความคิดเห็นบน Hacker News

หลังจากดูบรรยายของ Gerald Sussman ผมลองใส่ภาพ Kanizsa triangle เข้าไปใน Claude แล้วถามแบบค่อนข้างคลุมเครือว่ามัน “มองเห็น” สามเหลี่ยมที่ถูกอนุมานขึ้นมาได้ไหม ปรากฏว่ามันจำภาพได้และสรุปออกมาทันที
ดังนั้นผมจึงหมุนภาพ 90 องศาแล้วลองใหม่ในบทสนทนาใหม่ มันกลับจำภาพไม่ได้ และนับจำนวนองค์ประกอบก็ผิดด้วย
สำหรับภาพที่ถูกหมุนนั้น Claude อธิบายว่าเป็นรูปทรงสีดำคล้าย Pac-Man 4 รูปที่มุมทั้งสี่, สามเหลี่ยมแคบ ๆ 1 รูปชี้ขึ้น และสามเหลี่ยมแคบ ๆ 1 รูปชี้ไปทางขวา พร้อมพื้นหลังสีเทาอ่อน
- ต่อไปคงต้องเอาภาพทั้งหมดในข้อมูลฝึกมาใส่แบบ หมุน 90 องศา ด้วย เพื่ออุดช่องโหว่แบบนี้
- ถ้าให้ LLM ดูรูปสุนัขที่มีขา 5 ขา จะเห็นได้เลยว่ามัน นับจำนวน ไม่เป็นเอาเสียเลย
- ผมรู้สึกว่าเรายังไม่รู้จริง ๆ ว่า การคำนวณ ต้องทำอย่างไร
  ตุลาคม 2011, ความคิดเห็น 30 รายการ
  https://news.ycombinator.com/item?id=3163473
  วิดีโอ Strange Loop:
  กรกฎาคม 2011, ความคิดเห็น 36 รายการ
  https://news.ycombinator.com/item?id=2820118
- ในมุมผม งานวิจัยนี้พูดถึงแค่ เอกสารข้อความ ดังนั้นตัวอย่างนั้นจึงไม่ตรงนัก
  เป็นที่รู้กันดีว่า LLM ยังต้องไปอีกไกลในการประมวลผลภาพแบบเดียวกับที่ประมวลผลข้อความหรือเสียง
  ผมคิดว่าแทบไม่มีโมเดลมัลติโมดัลที่รับพิกเซลภาพโดยตรงแล้วทำงานได้ดี ความสามารถด้านการมองเห็นส่วนใหญ่ใกล้เคียงกับการแฮ็กหรือการต่อเติมเชิงวิศวกรรมมากกว่า โดยภาพจะผ่านขั้นตอนประมวลผลหลายชั้น แล้วเอาผลลัพธ์จากตัวประมวลผลแต่ละตัวป้อนเป็นโทเค็นเข้า Transformer สิ่งนี้อาจเกิดขึ้นในเครือข่ายเดียวกันได้ แต่ก็มีเครือข่ายที่ไม่ใช่ Transformer เข้ามาเกี่ยวข้องด้วย ตัวอย่างการประมวลผลล่วงหน้าอาจมี OCR, CNN (ตัวรู้จำแพตเทิร์น 2D) ที่ใช้กำลังขยาย·มุม·ส่วนตัดหลายแบบ และอื่น ๆ
- ถ้าขยายแนวคิดนี้ให้ทั่วไปขึ้น เมื่อเราเห็นจุด 1,000 จุดที่เติมเป็นรูปสามเหลี่ยมคร่าว ๆ เราจะรู้รูปทรงนั้นได้ทันที
  ผมคิดว่าตัวอย่างง่าย ๆ นี้เผยให้เห็นแก่นของสติปัญญา เราจำสามเหลี่ยมได้เพราะความซับซ้อนขนาดใหญ่ของจุด 1,000 จุดนั้นสอดคล้องกับ รูปทรงเรขาคณิตเอนโทรปีต่ำ ที่เรียบง่าย
  สิ่งที่เราเรียกว่า IQ ผมมองว่าใกล้เคียงกับขีดจำกัดบนของความซับซ้อนของแพตเทิร์นที่เราสามารถสังเกตเห็นได้ เช่น จุด 1,000 จุดนั้นจริง ๆ อาจเป็นจุดยอดของไฮเปอร์คิวบ์ 10 มิติที่ถูกหมุนเล็กน้อย และอาจเป็นแพตเทิร์นที่สิ่งมีจิต 10 มิติมองเห็นได้ง่าย
น่าสนใจ แม้แต่โมเดลล่าสุด เมื่อให้ทั้งบริบทต้นฉบับและบริบทที่ถูกแก้ไข ก็ยังมีประสิทธิภาพค่อนข้างต่ำในการ ระบุว่าข้อมูลใดถูกลบออกไป จากบริบท
ผู้เขียนมองว่าประสิทธิภาพต่ำเพราะกลไก attention ของ Transformer ไม่มีคีย์สำหรับโทเค็นที่ถูกลบ จึงไม่สามารถให้ความสนใจกับมันได้
- มีคีย์ให้สนใจอยู่ เพียงแต่มันอยู่ใน ข้อความต้นฉบับ ไม่ใช่ฉบับแก้ไข ในเมื่อโมเดลได้รับทั้งสองอย่างเป็นอินพุต ตามทฤษฎีก็สามารถให้ความสนใจกับคีย์เหล่านั้นได้
  ในมุมมองของกลไก attention ความต่างระหว่าง Original: {คำนำหน้าร่วม} {ส่วนที่ถูกลบ} {คำต่อท้ายร่วม} Modified: {คำนำหน้าร่วม} {คำต่อท้ายร่วม} กับ Original: {คำนำหน้าร่วม} {คำต่อท้ายร่วม} Modified: {คำนำหน้าร่วม} {ส่วนที่เพิ่มเข้ามา} {คำต่อท้ายร่วม} ไม่ได้มากนัก
  ด้วย RASP (ภาษาสำหรับโปรแกรม Transformer ด้วยมือ) น่าจะสร้างอัลกอริทึมประมาณนี้ได้ ชั้นที่ 1 ให้ความสนใจกับโทเค็น "Original:" และ "Modified:" เพื่อพิจารณาว่าโทเค็นปัจจุบันอยู่ฝั่งต้นฉบับหรือฝั่งแก้ไข ชั้นที่ 2 ให้ head หนึ่งกระจาย attention เท่า ๆ กันไปยังโทเค็นต้นฉบับทั้งหมดเพื่อเฉลี่ยค่า และอีก head เฉลี่ยโทเค็นฉบับแก้ไขทั้งหมด จากนั้นคำนวณความต่างของค่าเฉลี่ยสองฝั่ง ชั้นที่ 3 ให้ความสนใจกับโทเค็นที่คล้ายกับความต่างนี้ ซึ่งก็จะเป็น {ส่วนที่ถูกลบ} หรือ {ส่วนที่เพิ่มเข้ามา}
  ส่วนเดียวที่ขึ้นกับลำดับคือจะคำนวณความต่างเป็น ค่าเฉลี่ยต้นฉบับ - ค่าเฉลี่ยฉบับแก้ไข หรือกลับกัน
  ถ้าโมเดลตรวจจับการเพิ่มได้แต่ตรวจจับการลบไม่ได้ โดยหลักการอาจหมายความว่ามันมีความสามารถที่จะเรียนรู้อัลกอริทึมแบบนี้หรือคล้ายกัน แต่ข้อมูลประเภทการลบมีไม่พอจนวงจรที่จำเป็นไม่ได้พัฒนาขึ้น
- สงสัยว่าโมเดลภาพจะฝึกกับสิ่งอย่างภาพเนกาทีฟหรือภาพหมุนได้ไหม หรืออาจเป็น ประโยคเติมคำในช่องว่าง เช่น “the _____ took first place in the horse show” ก็ได้
- ดูเหมือนแทบไม่ได้ใช้โมเดลระดับท็อปล่าสุดเลย ไม่มี Opus, o3, Gemini 2.5 Pro
- ถึงอย่างนั้นก็มีความแตกต่างที่เห็นชัดระหว่างโมเดลต่าง ๆ ดังนั้นเมื่อมีเบนช์มาร์กออกมาและปัญหานี้ได้รับความสนใจ ผมก็อยากรู้ว่าจะพัฒนาได้อีกแค่ไหน แน่นอนว่าน่าจะทำอะไรได้บ้าง
น่าสนใจมาก 1) ผู้เขียนบอกว่าช่องว่างไม่ใช่โทเค็น กลไก attention จึงอาจไม่สามารถสนใจตำแหน่งของช่องว่างได้ แต่ผมคาดว่า Transformer ของ LLM ที่ดีน่าจะอย่างน้อยเข้าใกล้ บริเวณใกล้ช่องว่าง ได้พอสมควร
ผมยังไม่ค่อยเข้าใจในเชิงคณิตศาสตร์ว่าทำไมโครงสร้างนี้จึงไม่เหมาะนัก ดูเหมือนว่ามันน่าจะให้ความสนใจกับบริเวณที่อาจมีช่องว่างได้ ผมก็สงสัยด้วยว่าถ้า fine-tune ด้วยงานแบบนี้จะช่วยไหม
2) ยิ่งอินพุตสั้นและส่วนที่ขาดหายไปน้อย ก็ยิ่งยากขึ้น แม้คนทำงานนี้เอง การสังเกตว่าคำหนึ่งคำหายไปก็ยากกว่า และการหายไปหนึ่งบรรทัดก็ยากกว่าการหายไปสิบบรรทัด จึงไม่ได้น่าประหลาดใจทั้งหมด แต่ก็ยังน่าสนใจที่ LLM ประสบปัญหาแบบนี้
3) โมเดลแบบ reasoning ทำได้ดีกว่า เพราะสามารถแก้โดยเขียนเอกสารออกมาเองโดยตรง แต่การที่ความแม่นยำยังไม่ใช่ 100% ก็ยังน่าประหลาดใจมาก งานนี้ควรเป็นงานเล็กน้อย และอย่างที่บทความบอก มันแก้ได้ด้วยโปรแกรมง่าย ๆ ผมคิดว่าเอเจนต์อย่าง ChatGPT อาจได้อ่านบทความนี้ระหว่างการฝึก แล้วรู้ว่าตอนแก้ปัญหาแบบนี้ควรเขียนและรัน Python
ส่วนที่น่าสนใจที่สุดคือ ยังมีแง่มุมอื่นใดของสติปัญญาที่เรายังระบุอย่างชัดเจนไม่ได้ และ LLM กับ AI ปัจจุบันอ่อนแอมากกับสิ่งเหล่านั้นหรือไม่ บทความนี้ชี้ว่าอาจมีแง่มุมแบบนั้นอยู่มาก และโดยรวมแล้วดูเป็นช่วงเวลาที่ค่อนข้างสนุกสำหรับ คนสร้างเบนช์มาร์ก
ถ้าพูดอย่างเป็นธรรม การหา ความต่างของสตริง แบบตรงตัว ผมจะจัดไว้ในหมวดเดียวกับการให้ LLM ทำเลขเชิงกลไก
กลไก attention คิดซับซ้อนเกินไปสำหรับงานโง่ ๆ แบบนี้ กรณีแบบนี้แหละที่ต้องตั้งใจทำให้ง่ายลง โฟกัส และจัดการอย่างมีวินัย มากกว่าจะพยายามทำนายโทเค็นถัดไปในระดับสูง
ถ้าขอให้ LLM ไล่รายการเอกสารทั้งหมดแล้วเปรียบเทียบจริง ๆ น่าจะช่วยได้ เป็นวิธีแบ่งขั้นตอนเหมือนการ reasoning และคล้ายกับที่ LLM ทำได้ดีขึ้นเมื่อแตกโจทย์เลขคณิตหรือพีชคณิตเป็นขั้นตอนย่อย ๆ
ผมเดาว่าโมเดลที่ทำผลงานดีอาจเป็นโมเดล MoE อาจมีผู้เชี่ยวชาญสักหนึ่งหรือสองตัวที่เหมาะกับงานที่ต้องใช้สมาธิมากกว่าสัญชาตญาณ ผมไม่รู้จัก Gemini Flash เลย แต่คิดว่าน่าจะเป็นโมเดล MoE
ยังไม่ได้อ่าน论文 แต่จากมุมมองของ กลไก attention เชิงโครงสร้าง การตรวจไม่เจอสิ่งที่ขาดหายซึ่งไม่ได้ถูกจัดหมวดไว้นั้นคาดเดาได้อย่างสมบูรณ์ อย่างไรก็ดี ผมคิดว่าสามารถแก้ได้ด้วยการคิดแบบมีโครงสร้าง
ในปัญหาหาเข็มในกองฟาง แค่ให้ความสนใจกับสิ่งที่กำลังหา และ attention ทำเรื่องนี้ได้ค่อนข้างดี
เมื่อต้องหาสิ่งที่ขาดหาย สิ่งที่ขาดอาจเป็นอะไรก็ได้ จึงอนุมานได้ก็ต่อเมื่อเปรียบเทียบบริบททั้งหมดหนึ่งชุดกับบริบททั้งหมดอีกชุดหนึ่ง เลเยอร์ attention ทำแบบนั้นให้ดีได้ยาก
นี่คล้ายกับปัญหา “จัดอันดับชุดรายการยาว ๆ” ถ้าไม่มีกระบวนการเมตาคอกนิชันบางอย่าง ก็ทำไม่ได้เลย
- แม้จะบอกว่า “สิ่งที่ขาดอาจเป็นอะไรก็ได้” แต่ใน benchmark นี้ให้ข้อมูลที่จำเป็นแก่ LLM เพื่อพิจารณาว่าอะไรหายไป
  เช่น “นี่คือบทกวี และนี่คือเวอร์ชันจากบทกวีเดียวกันที่อาจมีบางบรรทัดหายไป มีบรรทัดไหนหายไปหรือไม่?” ประมาณนั้น
  ในความเห็นผม มันใกล้กับ ปัญหาการจูน มากกว่าจะเป็นจุดอ่อนโดยเนื้อแท้ของ LLM
  ถ้าผมถูกขอให้หาสิ่งที่ขาดหายในบทความแมชชีนเลิร์นนิง สมองผมจะเทียบมันกับบทความแมชชีนเลิร์นนิงอื่น ๆ ไม่จำเป็นต้องเทียบกับ Star Wars, Top Gear, ประวัติศาสตร์กรีก, เครื่องปั้นดินเผา และบริบทอื่น ๆ อีกนับพันที่ผมรู้จัก
คำวิจารณ์ต่อวิธีของ AbsenceBench นั้นสมเหตุสมผล แต่การที่มีการทำ benchmark เรื่องแบบนี้เองก็น่ายินดีมาก เป็นการผลักดันไปในทิศทางที่ถูกต้องอย่างชัดเจน
เวลาตรวจจับการมีอยู่ สมองจริงรับอินพุตประสาทสัมผัสมาเปรียบเทียบกับความคาดหวัง แล้วคงความสงบหรือบันทึกความประหลาดใจ และบางครั้งก็สร้างการคาดการณ์เพื่อชี้นำสิ่งมีชีวิต
เวลาตรวจจับการไม่มีอยู่ ตามนิยามแล้วสมองไม่สามารถพึ่งพาอินพุตประสาทสัมผัสได้ หากจะประหลาดใจเมื่อไม่มีหลักฐานทางประสาทสัมผัส ก็ต้องมี โมเดลโลก ที่แข็งแรงพอให้ประหลาดใจได้ว่าความคาดหวังไม่ได้รับการเติมเต็ม แม้ไม่มีเบาะแสทางประสาทสัมผัส
การตรวจจับการไม่มีอยู่ดูเหมือนเป็นงานทางประสาทวิทยาที่มีมิติสูงกว่าการประมวลผลอินพุตประสาทสัมผัสอย่างเคร่งครัด
ถ้า LLM ทำงานทางประสาทวิทยาระดับสูงกว่านี้ไม่ได้ นี่เป็นความสามารถที่มีเฉพาะสิ่งมีชีวิตในปัจจุบันหรือเปล่า?
- การคิดเองก็ยังมีเฉพาะในสิ่งมีชีวิตอยู่แล้ว จึงไม่จำเป็นต้องไปถึงคำอธิบายแบบนั้นเพื่อหาความเป็นเอกลักษณ์ของสมองมนุษย์
  สิ่งที่อธิบายมานั้นเกี่ยวข้องกับ ความจำ ความจำคือการเก็บและเล่นซ้ำอินพุตประสาทสัมผัสในสภาพที่ไม่มีอินพุตประสาทสัมผัส ดังนั้นสมองจึงเล่นซ้ำอินพุตประสาทสัมผัสในอดีตแล้วเทียบกับอินพุตประสาทสัมผัสปัจจุบัน
  ตัวอย่างเช่น ถ้าวางปากกาไว้บนโต๊ะแล้วออกไป พอกลับมาปากกาหายไป สมองจะเปรียบเทียบความจำที่เก็บไว้ว่ามีปากกาอยู่บนโต๊ะกับสิ่งที่เห็นตอนนี้
- LLM อาจไม่ได้สอดคล้องกันมากนักทั่วทั้งโครงสร้างที่เรียนรู้มา บางเส้นทางอาจนำไปสู่ข้อมูลที่ท่องจำไว้ และบางเส้นทางอาจนำไปสู่ การจับคู่แพตเทิร์น ขั้นสูง
- ผมแทบไม่รู้เรื่องสาขานี้ แต่แค่ มิติด้านเวลา ก็น่าจะเป็นปัญหาแล้ว เอเจนต์พวกนี้ไม่ได้ reasoning จากเวอร์ชัน “ความจริง” ที่คงที่หรือถูกแช่แข็งไว้ มากกว่าจะปรับตัวแบบเรียลไทม์หรือ?
LLM ดูเหมือนจะอ่อนด้าน ความต่างของสตริง นอกเรื่องนิดหนึ่ง ผมสงสัยว่ามีทรัพยากรอย่าง GitHub repository ที่รวบรวมการค้นพบแบบนี้เกี่ยวกับสิ่งที่ LLM ทำได้ดีและทำไม่ได้หรือเปล่า
เป็น benchmark ที่แย่
ผมลอง prompt [1] ของพวกเขากับรายการที่มีหมายเลข 3 ข้อ แล้ว qwq-32b ตอบถูกโดยไม่มีปัญหาเลย คิดว่ารายการ 100 ข้อก็น่าจะแก้ได้ถูกต้อง 100% แต่อาจต้องใช้โทเค็น 1 ล้านตัว บางทีอาจมากกว่า 10 ล้านตัวด้วยซ้ำ
ข้อจำกัด 5,000 โทเค็น น้อยเกินไปสำหรับโมเดล reasoning ต้องให้คำนวณในช่วงทดสอบเยอะ ๆ และแม้แต่ 10 เท่าของ 5,000 โทเค็นก็ยังไม่พอ
ถ้าผู้เขียนพูดถึงอินพุตยาว ๆ ถ้า 100 หน้าก็ควรให้ 1 พันล้านโทเค็น
วิธี implement ที่ถูกต้องคือการประมวลผลแบบ batch หา 5 รายการที่มีหมายเลขแรกในข้อความอินพุตที่มีส่วนหายไป ถ้าพบแล้วก็ทำให้อินพุตรายการและอินพุตที่มีส่วนหายไปเรียบง่ายลง จากนั้นทำต่อแบบนี้
จะต้องใช้โทเค็นจำนวนมากเสมอตามขนาดอินพุต แต่การทำให้ง่ายลงจะช่วยย้อนกลับได้อย่างถูกต้องและไม่สูญเสียบริบทไปทั้งหมด
[1] คุณกำลังช่วยนักเรียนฝึกท่องจำบทกวี นักเรียนท่องบทกวี แต่อาจข้ามบางบรรทัดไป งานของคุณคือระบุให้แน่ชัดว่าบรรทัดใดหายไปจากการท่อง ให้ระบุเฉพาะบรรทัดที่หายไปและอย่าเขียนอย่างอื่น ข้อความผู้ใช้: นี่คือบทกวีต้นฉบับฉบับสมบูรณ์: 1)Quisella's lashes fluttered panic-morse. 2)The Moisture Vampires leeches that sucked humidity. 3)Lysandra's nostrils flared precisely one degree. ตอนนี้นี่คือการท่องของผม ซึ่งอาจมีบางบรรทัดหายไป: Quisella's lashes fluttered panic-morse. Lysandra's nostrils flared precisely one degree. ผมข้ามบรรทัดใดไป? ให้ระบุเฉพาะบรรทัดที่หายไปและอย่าเขียนอย่างอื่น
- ไม่รู้ว่าการลดปัญหาให้เหลือเป็น การนับจำนวน นั้นน่าสนใจตรงไหน เป้าหมายที่ชัดเจนของงานวิจัยนี้ดูเหมือนเป็นการทำความเข้าใจขีดจำกัดของ LLM ในงานที่ไม่สามารถทำให้เป็นรายการหรือจัดเรียงแบบเล็กน้อยได้
- เมื่อกี้ลอง qwq-32b กับหัวข้อมีหมายเลขปัจจุบัน 26 หัวข้อของ HN [1] แล้วลบออก 3 หัวข้อ มันหาหัวข้อที่หายไปทั้ง 3 หัวข้อได้สมบูรณ์ตั้งแต่ครั้งแรก และไม่ได้ใช้ถึง 50,000 โทเค็นด้วย
  [1] https://gist.github.com/pramatias/fee1391ad08c7b965f435f3af1...
สงสัยว่าเรื่องนี้จะใช้กับ โมเดลภาพ อย่างไร จากตัวอย่างภาพเดี่ยวไม่กี่อันที่ลอง ดูเหมือนมันทำได้ดี
จากตัวอย่างเล่น ๆ ไม่กี่อัน Claude กับ Gemini ดูเหมือนทำงานหาความต่างได้ค่อนข้างดี ตัวอย่างภาพ: https://www.pinterest.com/pin/127578601938412480/
พอกลับภาพ ดูเหมือนจะยากขึ้น และอาจพบความต่างได้น้อยลงหรือ hallucinate มากขึ้น

AbsenceBench: โมเดลภาษาไม่สามารถระบุข้อมูลที่หายไปได้

คำถามที่ AbsenceBench ตั้งขึ้น

นิยามงานและการจัดชุดข้อมูล

บทกวี, ลำดับตัวเลข, GitHub PR diff

บทกวี(Poetry)

ลำดับตัวเลข

GitHub PR diff

ข้อจำกัดที่พบจากการประเมิน LLM 14 ตัว

รูปแบบความล้มเหลวที่ต่างจาก NIAH

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News