การเพิ่มความยาวคอนเท็กซ์ของ LLM (slashpage.com) 4 คะแนน โดย frida 2024-07-01 | 2 ความคิดเห็น | แชร์ทาง WhatsApp บทความที่เกี่ยวข้อง Context Rot: เมื่อโทเค็นอินพุตมากขึ้น ประสิทธิภาพของ LLM เปลี่ยนไปอย่างไร 13 คะแนน · 2 ความคิดเห็น · 2025-07-16 ไทม์ไลน์การขยายขนาด Context Window ของ LLM ในช่วง 5 ปีที่ผ่านมา 10 คะแนน · 3 ความคิดเห็น · 2025-08-27 SmolLM3 - LLM บริบทยาวขนาดเล็กที่รองรับหลายภาษา 1 คะแนน · 1 ความคิดเห็น · 2025-07-09 ข้อโต้แย้งว่า AI ‘กำลังคิด’ 40 คะแนน · 7 ความคิดเห็น · 2025-11-05 2 ความคิดเห็น frida 2024-07-02 เพื่อใช้งาน LLM ภาษาเกาหลีที่มีความยาวคอนเท็กซ์มาก จึงได้สำรวจและทดลองวิธีต่าง ๆ เพื่อเพิ่มความยาวคอนเท็กซ์ของ LLM อย่างมีประสิทธิภาพ LongLoRA ขยายได้สูงสุด 8 เท่าด้วยการใช้ shifted sparse attention และการทำ LoRA fine-tuning Rope-based Position Interpolation สามารถนำไปใช้กับโมเดลที่ใช้ RoPE-based embedding เช่น Llama ได้โดยปรับแก้ RoPE embedding และขยายความยาวคอนเท็กซ์ได้สูงสุด 16 เท่าผ่านการ fine-tuning Dynamic NTK ประยุกต์ใช้ทฤษฎี NTK โดยไม่ต้อง fine-tuning และขยายได้มากกว่า 2 เท่า LongLM ใช้ attention ที่ดัดแปลงแล้วเพื่อขยายได้สูงสุด 4 เท่าโดยไม่ต้อง fine-tuning ChunkLlama แยกข้อความเป็น Chunk เพื่อขยายความยาวคอนเท็กซ์ของโมเดล Llama เป็น 4 เท่าโดยไม่ต้อง fine-tuning Infini-attention สามารถขยายได้ถึง 2M ด้วยการใช้หน่วยความจำเพิ่มเพียงเล็กน้อย และทำ inference ได้รวดเร็ว เป็นวิธีที่ถูกนำไปใช้กับ Gemini-Pro superwoou 2024-07-02 นี่เป็นครั้งแรกอีกเหมือนกันที่เจอบทความซึ่งไม่มีบทสรุปเลยสักนิด
2 ความคิดเห็น
เพื่อใช้งาน LLM ภาษาเกาหลีที่มีความยาวคอนเท็กซ์มาก จึงได้สำรวจและทดลองวิธีต่าง ๆ เพื่อเพิ่มความยาวคอนเท็กซ์ของ LLM อย่างมีประสิทธิภาพ
LongLoRA
ขยายได้สูงสุด 8 เท่าด้วยการใช้ shifted sparse attention และการทำ LoRA fine-tuning
Rope-based Position Interpolation
สามารถนำไปใช้กับโมเดลที่ใช้ RoPE-based embedding เช่น Llama ได้โดยปรับแก้ RoPE embedding และขยายความยาวคอนเท็กซ์ได้สูงสุด 16 เท่าผ่านการ fine-tuning
Dynamic NTK
ประยุกต์ใช้ทฤษฎี NTK โดยไม่ต้อง fine-tuning และขยายได้มากกว่า 2 เท่า
LongLM
ใช้ attention ที่ดัดแปลงแล้วเพื่อขยายได้สูงสุด 4 เท่าโดยไม่ต้อง fine-tuning
ChunkLlama
แยกข้อความเป็น Chunk เพื่อขยายความยาวคอนเท็กซ์ของโมเดล Llama เป็น 4 เท่าโดยไม่ต้อง fine-tuning
Infini-attention
สามารถขยายได้ถึง 2M ด้วยการใช้หน่วยความจำเพิ่มเพียงเล็กน้อย และทำ inference ได้รวดเร็ว เป็นวิธีที่ถูกนำไปใช้กับ Gemini-Pro
นี่เป็นครั้งแรกอีกเหมือนกันที่เจอบทความซึ่งไม่มีบทสรุปเลยสักนิด