Flamehaven FileSearch — เอนจินค้นหาเอกสาร RAG โอเพนซอร์สที่โฮสต์เองได้
(github.com/flamehaven01)🔥Flamehaven FileSearch
- Flamehaven FileSearch คือ เอนจินค้นหาเชิงความหมายแบบโอเพนซอร์สที่โฮสต์เองได้ ซึ่งช่วยให้ใครก็ตามสามารถสร้างระบบ RAG (Retrieval-Augmented Generation) ที่อิงเอกสารได้ภายใน 5 นาที
- ทำงานบนพื้นฐานของ Python, FastAPI และ SQLite และใช้ Google Gemini Embedding เพื่อทำ การถาม-ตอบด้วยภาษาธรรมชาติ จากเอกสารหลากหลายประเภท เช่น PDF/DOCX/TXT/MD
ทำไมถึงสร้างมันขึ้นมา?
- โครงการ RAG แบบโอเพนซอร์สส่วนใหญ่ทำงานได้ดีในสภาพแวดล้อมอย่าง Colab หรือ Jupyter แต่เมื่อจะนำขึ้นเซิร์ฟเวอร์เพื่อใช้งานจริง มักมีโครงสร้างที่ซับซ้อนเกินไปหรือยังขาดเสถียรภาพ
- Flamehaven FileSearch ถูกออกแบบภายใต้เป้าหมาย “สแตก RAG ขนาดเบาที่ใช้งานได้จริง” เพื่อให้นักวิจัย สตาร์ทอัป และนักพัฒนารายบุคคลสามารถทดลองค้นหาเชิงความหมายกับข้อมูลของตนเองได้ทันที
ทำไมจึงน่าจับตา?
- อิสระอย่างสมบูรณ์: ไม่ต้องพึ่งพาเซิร์ฟเวอร์ภายนอกหรือคลาวด์ และข้อมูลทั้งหมดถูกเก็บไว้ในเครื่องโลคัล
- โครงสร้างที่เน้นนักพัฒนา: Python SDK + REST API พร้อมเอกสาร Swagger ที่สร้างอัตโนมัติบน FastAPI
- เผยแพร่เป็นแพ็กเกจบน PyPI: ติดตั้งได้ทันทีจาก PyPI — เพียงบรรทัดเดียว
pip install flamehaven-filesearch[api]ก็ติดตั้งแบบอัตโนมัติครบชุด - พร้อมใช้งานทันที: หลังติดตั้งสามารถรันเซิร์ฟเวอร์ได้ทันทีด้วยคำสั่ง
flamehaven-apiและทดสอบ API ได้ที่/docsบนเบราว์เซอร์ - ขยายต่อได้: รองรับที่เก็บข้อมูลแบบ SQLite, สถาปัตยกรรมปลั๊กอิน และการดีพลอยด้วย Docker
- เหมาะกับการศึกษา/วิจัย: ใช้ Gemini Embedding จึงเหมาะอย่างยิ่งสำหรับการฝึกปฏิบัติด้าน semantic search บนพื้นฐาน LLM รุ่นใหม่
มีอะไรอยู่ข้างในบ้าง? (ไฮไลต์)
-
Python SDK:
from flamehaven_filesearch import FlamehavenFileSearch→ มีฟังก์ชันครบสำหรับอัปโหลดเอกสาร / ค้นหา / จัดการสโตร์
-
REST API: เอนด์พอยต์
/upload,/search,/stores+ Swagger UI -
รองรับ Docker:
docker run -e GEMINI_API_KEY=... -p 8000:8000 flamehaven/filesearch:latest -
โครงสร้าง:
core(เอนจิน)/api(FastAPI)/data(SQLite)/examples/docs
ลองใช้อย่างรวดเร็ว
1️⃣ แพ็กเกจ PyPI
Flamehaven FileSearch สามารถติดตั้งได้ทันทีผ่าน PyPI
ดูเวอร์ชันล่าสุด: https://pypi.org/project/flamehaven-filesearch
pip install flamehaven-filesearch[api]
2️⃣ ติดตั้ง
pip install flamehaven-filesearch[api]
export GEMINI_API_KEY="your-google-gemini-key"
flamehaven-api
3️⃣ อัปโหลดเอกสารและค้นหา
curl -X POST "http://localhost:8000/upload" -F "file=@handbook.pdf"
curl "http://localhost:8000/search?q=vacation+policy"
4️⃣ ตัวอย่างการใช้ SDK
from flamehaven_filesearch import FlamehavenFileSearch
fs = FlamehavenFileSearch()
fs.upload_file("handbook.pdf")
print(fs.search("vacation policy")["answer"])
ประสิทธิภาพและสเปก
- สภาพแวดล้อม: Ubuntu 22.04 / 2vCPU / 4GB RAM / SSD
- อัปโหลด PDF ขนาด 10MB → ประมาณ 5 วินาที
- เวลาเฉลี่ยในการตอบกลับการค้นหา → 2 วินาที (เมื่ออ้างอิงแหล่งข้อมูล 5 รายการ)
- การลบ/สร้างสโตร์ → ภายใน 1 วินาที
- โอเวอร์เฮดของสตอเรจ → ประมาณ 5% ของขนาดเอกสาร
โรดแมป
- v1.1 : แคชและการจัดการโควตา
- v1.2 : การค้นหาแบบแบตช์ + WebSocket streaming
- v2.0 : รองรับเอกสารหลายภาษา, แดชบอร์ดวิเคราะห์
- อนาคต : ผสาน Pinecone/Weaviate vector DB, OCR, collaborative store
ใบอนุญาต
- MIT License (โอเพนซอร์สเต็มรูปแบบ)
🛡️ ประกาศด้านความปลอดภัยและบัญชี GitHub ของ Flamehaven
เมื่อไม่นานมานี้ มีการตรวจพบความพยายามเข้าสู่ระบบที่น่าสงสัยในบัญชี GitHub ของ Flamehaven (บัญชีหลักนี้) ส่งผลให้บัญชีอยู่ในสถานะถูกระงับชั่วคราว ขณะนี้กำลังร่วมมือกับทีมความปลอดภัยของ GitHub เพื่อตรวจสอบปัญหา
จากเหตุการณ์ครั้งนี้ บัญชีที่มี dir2md, flashrecord, crom-efficient และ Arr-medic-cyp3a4 รวมอยู่ด้วย จะหยุดใช้งานชั่วคราวไปก่อนในระยะนี้
ขออภัยผู้ใช้งานทุกท่านอย่างจริงใจสำหรับความไม่สะดวก และขอความกรุณาให้รอสักระยะจนกว่าการตรวจสอบด้านความปลอดภัยจะเสร็จสิ้น
ยังไม่มีความคิดเห็น