ประหยัดเพิ่มได้สูงสุดอีก 25% เมื่อเทียบกับเทคนิคบีบอัด KV เดิม แถมประสิทธิภาพยังดีขึ้น — CASK
(arxiv.org)CASK เป็นงานวิจัยที่เสนอแนวทางแบบ เชิงโครงสร้าง (role-based) เพื่อแก้ปัญหาการเพิ่มขึ้นของ KV cache ระหว่างกระบวนการอนุมานของ LLM
แทนที่จะใช้วิธี pruning แบบอิงความสำคัญของ token ตามเดิม
งานนี้ยังน่าสนใจตรงที่ ได้ข้อสรุปภายในเวลาเพียง 5 วัน และเป็นผลงานของนักวิจัยอิสระ 2 คนที่ทำโดยไม่มีอาจารย์ที่ปรึกษา
📌 นิยามปัญหา
เมื่อทำการอนุมานแบบ chain-of-thought ที่ยาว KV cache จะเพิ่มขึ้นอย่างรวดเร็ว ทำให้:
- การใช้หน่วยความจำพุ่งสูง
- latency ของการอนุมานเพิ่มขึ้น
- ประสิทธิภาพของการให้เหตุผลระยะยาวลดลง
แนวทางเดิม:
- ใช้การให้คะแนนความสำคัญของ token
- eviction token ที่ได้คะแนนต่ำ
❌ ข้อจำกัดของแนวทางเดิม
จากผลการทดลองในงานวิจัย:
- แม้จะปรับปรุง importance scoring ให้ละเอียดขึ้น
→ ชุด token ที่ถูกเก็บไว้จริงก็ยังเปลี่ยนแปลงได้จำกัด
กล่าวคือ
- การปรับปรุงแค่กลยุทธ์ eviction เพียงอย่างเดียว
ยังมีข้อจำกัดในการยกระดับทั้งประสิทธิภาพและความคุ้มค่า
🔥 ไอเดียหลัก
CASK แยก token ตาม บทบาท ไม่ใช่ตามระดับความสำคัญ
Core
- มีส่วนโดยตรงต่อการสร้างผลลัพธ์สุดท้าย
- เป็นสถานะหลักของกระบวนการ reasoning
- เก็บไว้เสมอ
Scratch
- เป็นสถานะที่เกิดจากการคำนวณระหว่างทางและการสำรวจ
- อาจมีข้อมูลซ้ำซ้อนหรือไม่จำเป็นปะปนอยู่
- เป็นเป้าหมายของการบีบอัดและการรวม
⚙️ วิธีการทำงาน
Prefix Phase
- ช่วงข้อมูลนำเข้า (prompt)
- ทำ KV eviction บางส่วน
Decode Phase
- ช่วงที่การอนุมานกำลังดำเนินไป
- ใช้การบีบอัดแบบเลือกเฉพาะกับพื้นที่ Scratch เท่านั้น
👉 ความต่างจากเดิม:
- จากการลบแบบตรง ๆ → การเก็บรักษาแบบคัดเลือก + การบีบอัดเชิงโครงสร้าง
📊 ประสิทธิภาพ
อ้างอิงจากผลลัพธ์ในงานวิจัย:
-
เมื่อเทียบกับเทคนิคบีบอัด KV เดิม
→ ประหยัดหน่วยความจำเพิ่มได้สูงสุดอีก 25% -
ภายใต้งบประมาณ KV cache เท่ากัน
→ รักษาความแม่นยำได้สูงกว่า -
ในบางช่วง
→ ใช้ KV cache น้อยกว่าแต่ได้ประสิทธิภาพสูงกว่า
ตัวอย่าง:
- CASK (KV 384) > วิธีเดิม (KV 512)
👉 ลดการใช้หน่วยความจำและเพิ่มประสิทธิภาพได้พร้อมกัน
📌 คุณลักษณะทางเทคนิค
- จาก token-level pruning → structure-aware compression
- จากการเน้น eviction → กลยุทธ์ preserve + reuse
- เสริมการนำข้อมูลกลับมาใช้ซ้ำในกระบวนการ reasoning
📌 ความหมายของงานนี้
CASK เป็นแนวทางที่เปลี่ยนการเพิ่มประสิทธิภาพ KV cache จาก
- “จะทิ้งไปเท่าไร”
- ไปเป็น “อะไรที่ต้องเก็บไว้ให้ได้”
🚀 สรุป
- ประหยัด KV cache เพิ่มได้สูงสุด 25%
- รักษาประสิทธิภาพการอนุมานได้เท่าเดิมหรือสูงกว่า
- เสนอแนวทางจัดการ KV แบบอิงโครงสร้าง
2 ความคิดเห็น
ถ้าคุณใช้ AI ในการเขียนงานวิจัย ผม/ฉันอยากทราบว่าคุณใช้อย่างไรบ้างครับ/คะ ส่วนที่บอกว่าดำเนินการตั้งแต่การระดมไอเดียไปจนถึงการทดลองเสร็จภายใน 5 วันนั้นน่าประทับใจมาก เลยอยากขอถามครับ/ค่ะ
แก้ไขไม่ได้ เลยขอฝากเพิ่มเติมไว้ตรงนี้ครับ!
ลิงก์งานวิจัย
https://arxiv.org/abs/2604.10900
ลิงก์ GitHub
https://github.com/Skyline-23/CASK