2 คะแนน โดย flamehaven01 2025-12-19 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

FLAMEHAVEN FileSearch คือโปรเจกต์โอเพนซอร์สที่เริ่มต้นจากคำถามว่า
👉 “เราจะทำ RAG สำหรับค้นหาเอกสารให้เบา, ทำซ้ำได้, และเป็น self-hosted แบบสมบูรณ์ได้ไหม?”

ปัจจุบันมี ⭐ Star 81 / 🍴 Fork 11 แม้จะเป็นโปรเจกต์ขนาดเล็ก แต่ก็พัฒนาอย่างชัดเจนต่อเนื่องในทุกรีลีส

รีลีส v1.3.1 ครั้งนี้ไม่ใช่แค่การเพิ่มฟีเจอร์ธรรมดา
👉 แต่เป็นอัปเดตที่ล้มสมมติฐานว่า “การค้นหาเชิงความหมาย = ต้องใช้ ML stack หนัก ๆ”


🔍 สรุปโปรเจกต์ในบรรทัดเดียว

  • เอนจินค้นหา RAG แบบ self-hosted

  • อัปโหลดเอกสาร (PDF/DOCX/MD/TXT) แล้วค้นหาได้ทั้งแบบ keyword + semantic + hybrid

  • ทำงานบนเครื่องโลคัลโดยไม่ต้องมี external vector DB

  • รันได้ภายใน 3 นาทีด้วย Docker เพียงบรรทัดเดียว


✨ ไฮไลต์สำคัญของ v1.3.1 (จุดที่นักพัฒนาน่าจะชอบ)
1️⃣ ตัดการพึ่งพา ML ออกทั้งหมด (การเปลี่ยนแปลงที่ใหญ่ที่สุด)

  • ถอด sentence-transformers / torch ออกทั้งหมด

  • นำ DSP v2.0 (Deterministic Semantic Projection) ที่พัฒนาขึ้นเองมาใช้

  • ✔️ สร้างเวกเตอร์ได้ใน < 1ms

  • ✔️ ไม่มีดีเลย์ตอนเริ่มต้นระบบ (เดิม 2 นาที → ทันที)

  • แม้เป็นการค้นหาเชิงความหมาย แต่ทำงานแบบ deterministic โดยไม่ต้องพึ่ง ML framework


2️⃣ ปรับแต่งหน่วยความจำและประสิทธิภาพ

  • ทำ quantization เวกเตอร์เป็น int8
    → ใช้หน่วยความจำน้อยลง 75%

  • การคำนวณ cosine similarity เร็วขึ้นมากกว่า 30%

  • บีบอัดเมตาดาต้าได้มากกว่า 90% (Gravitas-Pack)

  • เหมาะกับการรันบนเซิร์ฟเวอร์ส่วนตัว / VM ภายในองค์กรได้อย่างไม่หนักเครื่อง


3️⃣ ขยายโหมดการค้นหา

  • รองรับโหมดค้นหา keyword / semantic / hybrid

  • มี typo correction + query refinement

  • backward-compatible กับ API เดิมทั้งหมด


4️⃣ เสถียรภาพและความน่าเชื่อถือ

  • เปลี่ยน test framework จาก pytestunittest

  • ผ่านการทดสอบ 19/19 รายการ (0.33s)

  • แก้ปัญหา timeout และความไม่เสถียรของ CI


🔐 ฟีเจอร์ระดับโปรดักชันที่ยังคงมีอยู่

  • การยืนยันตัวตนและจัดการสิทธิ์ด้วย API Key

  • Rate limiting / Audit log

  • Batch search (1~100 queries)

  • Redis cache แบบ optional

  • Prometheus metrics


👀 เหมาะเป็นพิเศษสำหรับคนกลุ่มนี้

  • ทีมที่ต้องการ local RAG สำหรับค้นหาเอกสารภายในองค์กร

  • สภาพแวดล้อมที่ไม่สะดวกอัปโหลดข้อมูลขึ้น external SaaS (เช่น Pinecone)

  • นักพัฒนาที่อยู่ในขั้น “PoC ทำได้แล้ว แต่จะเอาไปใช้งานจริงอย่างไรต่อ?”

  • วิศวกรที่ให้ความสำคัญกับความสามารถในการทำซ้ำ / ต้นทุน / อำนาจควบคุมระบบ


🔗 GitHub

👉 https://github.com/flamehaven01/Flamehaven-Filesearch

---ลองใช้งานดูได้ และถ้าช่วยคุณได้ก็ฝากกด ⭐ สักครั้ง จะเป็นกำลังใจอย่างมาก
ยินดีรับทั้งความคิดเห็น ฟีดแบ็ก และ PR ทุกแบบ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น