การทดลองหน่วยความจำของ AI Agent: ความรู้ที่ถูกสรุปกลับทำให้ประสิทธิภาพแย่ลง
(blog.clawsouls.ai)นี่คือผลการทดลองจริงเกี่ยวกับวิธีให้หน่วยความจำกับ AI agent
นำ AI agent ตัวเดียวกัน (Claude) มาทดสอบด้วยการตั้งค่าหน่วยความจำ 4 แบบ แล้วถามคำถามชุดเดียวกัน 20 ข้อเกี่ยวกับโครงการซอฟต์แวร์จริง
ผลลัพธ์ (เต็ม 5 คะแนน):
• ไฮบริด (ประสบการณ์+สังเคราะห์): 4.95
• หน่วยความจำเชิงประสบการณ์ (ล็อกดิบ): 4.55
• เบสไลน์ (ไม่มีหน่วยความจำ): 3.30
• หน่วยความจำเชิงสังเคราะห์ (สรุปที่เรียบเรียงแล้ว): 2.65
ข้อค้นพบที่น่าประหลาดใจที่สุดคือ หน่วยความจำเชิงสังเคราะห์ที่ถูกจัดระเบียบอย่างดี กลับได้คะแนนต่ำกว่าการไม่มีหน่วยความจำเลย
ผู้วิจัยตั้งชื่อสิ่งนี้ว่า "ผลของความมั่นใจเกินจริง" — ความรู้ที่ถูกสรุปไว้อย่างเรียบร้อยทำให้ agent เกิดความมั่นใจโดยไร้หลักฐาน และลดความสามารถในการยอมรับว่าอะไรคือสิ่งที่ตนไม่รู้ ขณะที่บันทึกเชิงประสบการณ์แบบดิบยังคงเก็บร่องรอยของความไม่แน่นอนไว้ จึงทำให้ agent ให้เหตุผลได้อย่างซื่อสัตย์มากกว่า
บทความวิจัย (preprint): https://doi.org/10.5281/zenodo.18802214
ข้อมูลการทดลอง (สาธารณะ): https://github.com/clawsouls/experiential-memory-dataset
4 ความคิดเห็น
จากประสบการณ์ก็พอรู้สึกแบบนี้อยู่เหมือนกัน แต่เมมโมรีสังเคราะห์นี่แย่ยับยิ่งกว่าที่ผมคิดไว้มาก
ใช่ครับ ตอนแรกผมเองก็คาดว่าอย่างน้อยหน่วยความจำสังเคราะห์ก็น่าจะดีกว่าเบสไลน์ แต่พอเห็นผลลัพธ์แล้วก็แปลกใจมาก
พอลองวิเคราะห์ดูก็พบว่าหัวใจสำคัญคือ "การคงไว้ซึ่งความไม่แน่นอน" ล็อกดิบจะทิ้งร่องรอยอย่าง "ลองอันนี้แล้วแต่ไม่ได้ผล", "ไม่รู้สาเหตุ" ไว้ ทำให้เอเจนต์ตอบได้ว่าอะไรที่มันไม่รู้ก็คือไม่รู้ แต่ในฉบับสรุป บริบทแบบนั้นกลับถูกลบหายไปหมด เลยกลายเป็นว่ามันตอบผิดอย่างมั่นใจเสียมากกว่า
ถ้าอย่างนั้น หากออกแบบให้หน่วยความจำสังเคราะห์บรรจุกระบวนการ ความล้มเหลว และความสำเร็จของงานเหล่านั้นไว้ด้วย จะต่างออกไปไหม?
เป็นคำถามที่ดีครับ ที่จริงแล้วเงื่อนไขแบบ "ไฮบริด" ในการทดลองของเราก็คือแนวทางนั้นพอดี — คือการให้ทั้งสรุปที่จัดระเบียบแล้วควบคู่กับบันทึกประสบการณ์ดิบ
ผลลัพธ์คือแบบไฮบริดได้สูงสุดที่ 4.95/5.0 ครับ ถ้าให้แค่สรุปอย่างเดียวจะได้ 2.65 แต่พอแนบบันทึกกระบวนการอย่าง "ล้มเหลว" หรือ "ไม่ทราบสาเหตุ" เข้าไป กลับช่วยชดเชยจุดอ่อนของสรุปได้
ดังนั้นข้อสรุปคือ "ไม่ใช่ว่าตัวสรุปเองไม่ดี แต่ต้องเก็บทั้งกระบวนการและความไม่แน่นอนไว้ด้วย"
แต่เนื่องจาก N=1 จึงยังต้องมีงานวิจัยต่อเนื่องเพื่อดูว่าสามารถนำไปใช้ได้อย่างครอบคลุมกับผู้ใช้ที่หลากหลายหรือไม่