- มอบความสามารถเติมข้อความอัตโนมัติภายใน VIM บนพื้นฐานของ local LLM
- แนะนำอัตโนมัติเมื่อเลื่อนเคอร์เซอร์ในโหมด
Insert
- สามารถสลับเป็นการแนะนำแบบสั่งเองด้วย
Ctrl+F
- รับข้อเสนอแนะด้วย
Tab
- รับข้อเสนอแนะเฉพาะบรรทัดแรกด้วย
Shift+Tab
- สามารถตั้งค่าเวลาสูงสุดในการสร้างข้อความได้
- สามารถกำหนดช่วงคอนเท็กซ์รอบเคอร์เซอร์ได้
- สร้าง context ring โดยใช้ชิ้นส่วนคอนเท็กซ์จากไฟล์ที่เปิดอยู่ ไฟล์ที่กำลังแก้ไข และข้อความที่คัดลอกไว้
- รองรับคอนเท็กซ์ขนาดใหญ่มากผ่านการนำคอนเท็กซ์กลับมาใช้อย่างชาญฉลาด แม้บนฮาร์ดแวร์สเปกไม่สูง
- แสดงสถิติประสิทธิภาพ
การติดตั้ง
- vim-plug :
Plug 'ggml-org/llama.vim'
- Vundle :
การตั้งค่า llama.cpp
- ปลั๊กอินต้องการอินสแตนซ์เซิร์ฟเวอร์ llama.cpp ที่กำลังทำงานอยู่ที่
g:llama_config.endpoint
- Mac OS :
brew install llama.cpp
- OS อื่น ๆ : คอมไพล์จากซอร์สหรือใช้ไบนารีล่าสุด: llama.cpp releases
การตั้งค่า llama.cpp
- การตั้งค่าที่แนะนำตามขนาด VRAM:
- VRAM 16GB ขึ้นไป:
Qwen2.5-Coder-7B-Q8_0-GGUF
- VRAM ต่ำกว่า 16GB:
Qwen2.5-Coder-3B-Q8_0-GGUF
- VRAM ต่ำกว่า 8GB:
Qwen2.5-Coder-1.5B-Q8_0-GGUF
- ดูรายละเอียดเพิ่มเติมได้ที่
:help llama
LLM ที่แนะนำ
รายละเอียดการพัฒนา
- ปลั๊กอินนี้มุ่งเป้าไปที่ FIM completion แบบโลคัลที่เรียบง่าย น้ำหนักเบา และให้ประสิทธิภาพคุณภาพสูงแม้บนฮาร์ดแวร์ระดับผู้บริโภค
IDE อื่น ๆ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
แนะนำให้ลองดูรายละเอียดเชิงเทคนิคของการติดตั้งฝั่งเซิร์ฟเวอร์ เพราะมีไอเดียที่น่าสนใจและยอดเยี่ยมอยู่ในนั้น ปลั๊กอินนี้ยังใช้งานได้กับ VS Code ด้วย และประสิทธิภาพก็ดีขึ้นจากการแคชฝั่งไคลเอนต์
ผู้ใช้นี้มีส่วนร่วมกับระบบนิเวศ AI โอเพนซอร์สไว้มาก และหวังว่าจะระดมทุนได้เพียงพอเพื่อพัฒนาซอฟต์แวร์ต่อไปและปล่อยออกมาเป็นโอเพนซอร์สแบบ "ไม่มีเงื่อนไข" อย่างแท้จริง
คิดว่าหากผสานเครื่องมือ LLM เข้ากับ LSP, คอมไพเลอร์ และเครื่องมือวิเคราะห์แบบสถิตอื่น ๆ ให้แนบแน่นยิ่งขึ้น ก็น่าจะให้บริบทได้มากขึ้นและได้ผลลัพธ์ที่ดีกว่า น่าจะดีหากสามารถ fine-tune LLM ตามแต่ละภาษา และส่งมอบมาพร้อมกับเครื่องมือเอดิเตอร์ทั่วไปได้ อีกทั้งยังชี้ให้เห็นปัญหาที่เครื่องมือ AI มักทำงานได้ดีกว่ากับภาษาที่เก่าและได้รับความนิยม ซึ่งอาจกลายเป็นปัจจัยสำคัญในการเลือกภาษา อยากให้สามารถติดตั้งโมเดลเฉพาะสำหรับ Gleam ที่รับข้อมูลจาก LSP และคอมไพเลอร์เพื่อไม่ให้สร้างไวยากรณ์ที่ผิดพลาด
สงสัยว่า "ring context" ทำงานอย่างไร และเสนอแนวทางแก้ปัญหาการจัดการ KV cache ในโปรเจกต์ลักษณะคล้ายกัน โดยเก็บ tree ของโทเค็นไว้ และบันทึก snapshot ของสถานะ LLM ทั้งหมดเป็นช่วงตามความลึกคงที่ เพื่อให้เมื่อบัฟเฟอร์เปลี่ยน จะต้อง "เล่นซ้ำ" เพียงไม่กี่โทเค็น คิดว่าอาจมีคุณสมบัติทางคณิตศาสตร์บางอย่างที่อธิบายการทำงานของส่วนสำคัญของสถานะนี้ได้
คิดว่าเคอร์เซอร์ที่กะพริบในวิดีโอเดโมทำให้ใจสั่น แต่ก็ดูเท่มาก และสงสัยว่า Linux ทำงานบนฮาร์ดแวร์ M* อย่างไร
สงสัยว่าปลั๊กอินนี้เหมือนกับเวอร์ชัน VSCode หรือไม่
สงสัยว่าในอีก 10 ปีข้างหน้า อะไรจะเป็นไปได้บ้างด้วยฮาร์ดแวร์สำหรับผู้บริโภคและการปรับปรุงด้าน quantization ตอนนี้แม้แต่ GPU 24GB ก็ยังตามประสิทธิภาพของบริการโฮสต์ไม่ทัน
ชอบเขียนโค้ดในเทอร์มินัล และถ้าติดขัดก็สามารถใช้
askdsเพื่อวิเคราะห์เชิงลึกต่อในเทอร์มินัลได้สงสัยว่าสามารถใช้ llama บนฮาร์ดแวร์ระดับกลางได้หรือไม่ และคิดว่ามันล่มเพราะ RAM ไม่พอ รู้สึกว่า 2G VRAM กับ 16G system RAM ยังไม่เพียงพอ และแม้ว่าในผลิตภัณฑ์ Apple ส่วนใหญ่หน่วยความจำจะทำงานแบบรวมศูนย์ แต่ถ้าไม่ใช่แบบนั้นก็คงต้องใช้ Nvidia GPU ราคาแพงที่มี VRAM เยอะ จึงสงสัยว่ามีตัวเลือกที่ถูกกว่านี้หรือไม่
ขอคำแนะนำจากผู้ที่รู้เรื่องด้านนี้ โดยกำลังมองหาวิธีซื้อการ์ดจอราคาพอรับได้เพื่อรัน LLM แบบโลคัล