4 คะแนน โดย GN⁺ 2025-01-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มอบความสามารถเติมข้อความอัตโนมัติภายใน VIM บนพื้นฐานของ local LLM
  • แนะนำอัตโนมัติเมื่อเลื่อนเคอร์เซอร์ในโหมด Insert
  • สามารถสลับเป็นการแนะนำแบบสั่งเองด้วย Ctrl+F
  • รับข้อเสนอแนะด้วย Tab
  • รับข้อเสนอแนะเฉพาะบรรทัดแรกด้วย Shift+Tab
  • สามารถตั้งค่าเวลาสูงสุดในการสร้างข้อความได้
  • สามารถกำหนดช่วงคอนเท็กซ์รอบเคอร์เซอร์ได้
  • สร้าง context ring โดยใช้ชิ้นส่วนคอนเท็กซ์จากไฟล์ที่เปิดอยู่ ไฟล์ที่กำลังแก้ไข และข้อความที่คัดลอกไว้
  • รองรับคอนเท็กซ์ขนาดใหญ่มากผ่านการนำคอนเท็กซ์กลับมาใช้อย่างชาญฉลาด แม้บนฮาร์ดแวร์สเปกไม่สูง
  • แสดงสถิติประสิทธิภาพ

การติดตั้ง

  • vim-plug : Plug 'ggml-org/llama.vim'
  • Vundle :

การตั้งค่า llama.cpp

  • ปลั๊กอินต้องการอินสแตนซ์เซิร์ฟเวอร์ llama.cpp ที่กำลังทำงานอยู่ที่ g:llama_config.endpoint
  • Mac OS : brew install llama.cpp
  • OS อื่น ๆ : คอมไพล์จากซอร์สหรือใช้ไบนารีล่าสุด: llama.cpp releases

การตั้งค่า llama.cpp

  • การตั้งค่าที่แนะนำตามขนาด VRAM:
    • VRAM 16GB ขึ้นไป: Qwen2.5-Coder-7B-Q8_0-GGUF
    • VRAM ต่ำกว่า 16GB: Qwen2.5-Coder-3B-Q8_0-GGUF
    • VRAM ต่ำกว่า 8GB: Qwen2.5-Coder-1.5B-Q8_0-GGUF
  • ดูรายละเอียดเพิ่มเติมได้ที่ :help llama

LLM ที่แนะนำ

  • ต้องใช้โมเดลที่รองรับ FIM: HF collection

รายละเอียดการพัฒนา

  • ปลั๊กอินนี้มุ่งเป้าไปที่ FIM completion แบบโลคัลที่เรียบง่าย น้ำหนักเบา และให้ประสิทธิภาพคุณภาพสูงแม้บนฮาร์ดแวร์ระดับผู้บริโภค

IDE อื่น ๆ

1 ความคิดเห็น

 
GN⁺ 2025-01-24
ความคิดเห็นจาก Hacker News
  • แนะนำให้ลองดูรายละเอียดเชิงเทคนิคของการติดตั้งฝั่งเซิร์ฟเวอร์ เพราะมีไอเดียที่น่าสนใจและยอดเยี่ยมอยู่ในนั้น ปลั๊กอินนี้ยังใช้งานได้กับ VS Code ด้วย และประสิทธิภาพก็ดีขึ้นจากการแคชฝั่งไคลเอนต์

  • ผู้ใช้นี้มีส่วนร่วมกับระบบนิเวศ AI โอเพนซอร์สไว้มาก และหวังว่าจะระดมทุนได้เพียงพอเพื่อพัฒนาซอฟต์แวร์ต่อไปและปล่อยออกมาเป็นโอเพนซอร์สแบบ "ไม่มีเงื่อนไข" อย่างแท้จริง

  • คิดว่าหากผสานเครื่องมือ LLM เข้ากับ LSP, คอมไพเลอร์ และเครื่องมือวิเคราะห์แบบสถิตอื่น ๆ ให้แนบแน่นยิ่งขึ้น ก็น่าจะให้บริบทได้มากขึ้นและได้ผลลัพธ์ที่ดีกว่า น่าจะดีหากสามารถ fine-tune LLM ตามแต่ละภาษา และส่งมอบมาพร้อมกับเครื่องมือเอดิเตอร์ทั่วไปได้ อีกทั้งยังชี้ให้เห็นปัญหาที่เครื่องมือ AI มักทำงานได้ดีกว่ากับภาษาที่เก่าและได้รับความนิยม ซึ่งอาจกลายเป็นปัจจัยสำคัญในการเลือกภาษา อยากให้สามารถติดตั้งโมเดลเฉพาะสำหรับ Gleam ที่รับข้อมูลจาก LSP และคอมไพเลอร์เพื่อไม่ให้สร้างไวยากรณ์ที่ผิดพลาด

  • สงสัยว่า "ring context" ทำงานอย่างไร และเสนอแนวทางแก้ปัญหาการจัดการ KV cache ในโปรเจกต์ลักษณะคล้ายกัน โดยเก็บ tree ของโทเค็นไว้ และบันทึก snapshot ของสถานะ LLM ทั้งหมดเป็นช่วงตามความลึกคงที่ เพื่อให้เมื่อบัฟเฟอร์เปลี่ยน จะต้อง "เล่นซ้ำ" เพียงไม่กี่โทเค็น คิดว่าอาจมีคุณสมบัติทางคณิตศาสตร์บางอย่างที่อธิบายการทำงานของส่วนสำคัญของสถานะนี้ได้

  • คิดว่าเคอร์เซอร์ที่กะพริบในวิดีโอเดโมทำให้ใจสั่น แต่ก็ดูเท่มาก และสงสัยว่า Linux ทำงานบนฮาร์ดแวร์ M* อย่างไร

  • สงสัยว่าปลั๊กอินนี้เหมือนกับเวอร์ชัน VSCode หรือไม่

  • สงสัยว่าในอีก 10 ปีข้างหน้า อะไรจะเป็นไปได้บ้างด้วยฮาร์ดแวร์สำหรับผู้บริโภคและการปรับปรุงด้าน quantization ตอนนี้แม้แต่ GPU 24GB ก็ยังตามประสิทธิภาพของบริการโฮสต์ไม่ทัน

  • ชอบเขียนโค้ดในเทอร์มินัล และถ้าติดขัดก็สามารถใช้ askds เพื่อวิเคราะห์เชิงลึกต่อในเทอร์มินัลได้

  • สงสัยว่าสามารถใช้ llama บนฮาร์ดแวร์ระดับกลางได้หรือไม่ และคิดว่ามันล่มเพราะ RAM ไม่พอ รู้สึกว่า 2G VRAM กับ 16G system RAM ยังไม่เพียงพอ และแม้ว่าในผลิตภัณฑ์ Apple ส่วนใหญ่หน่วยความจำจะทำงานแบบรวมศูนย์ แต่ถ้าไม่ใช่แบบนั้นก็คงต้องใช้ Nvidia GPU ราคาแพงที่มี VRAM เยอะ จึงสงสัยว่ามีตัวเลือกที่ถูกกว่านี้หรือไม่

  • ขอคำแนะนำจากผู้ที่รู้เรื่องด้านนี้ โดยกำลังมองหาวิธีซื้อการ์ดจอราคาพอรับได้เพื่อรัน LLM แบบโลคัล