aipack: เครื่องมือสร้าง Parquet แบบ semantic chunking ที่เป็นกลางบนพื้นฐาน BGE-M3 + เซิร์ฟเวอร์ MCP
(github.com/rkttu)ขอเปิดตัวเวอร์ชันแรกของเฟรมเวิร์ก aipack ที่ทำ semantic chunking โดยใช้ BGE-M3, MarkItDown และตัวแยกโครงสร้าง Markdown แล้วบันทึกผลลัพธ์ลงในไฟล์ Parquet โดยออกแบบมาให้คงสภาพความเป็นกลางที่ไม่ผูกติดกับโมเดลหรือฐานข้อมูล เพื่อให้สามารถนำรูปแบบไฟล์กลับมาใช้ซ้ำได้ทุกเมื่อสำหรับการทำ RAG และยังสามารถรันเซิร์ฟเวอร์ MCP ได้ด้วย
ทิศทางที่ aipack มุ่งไปคือการทำ RAG ที่ไม่พึ่งพา NPU หรือ GPU พร้อมกับสร้างสภาพแวดล้อมที่ขยายต่อไปยังโครงสร้าง RAG ที่หลากหลายในอนาคตได้ง่าย ภายใต้สมมติฐานว่า "ถ้าสร้างไฟล์ Parquet คุณภาพสูงได้ ก็ทำอะไรได้ทุกอย่าง" นี่คือโปรเจกต์เชิงทดลองที่ลอง decoupling RAG pipeline ซึ่งใช้กันทั่วไปในอุตสาหกรรม
เป็นการนำไอเดียที่คิดไว้มาลองทำจริง จึงยังมีส่วนที่ไม่ลงตัวอยู่มาก แต่หากช่วยส่งฟีดแบ็กและความคิดเห็นกันมาเยอะ ๆ ผมจะนำสิ่งเหล่านั้นไปต่อยอดให้เป็นโปรเจกต์ที่ดีขึ้นครับ!
ยังไม่มีความคิดเห็น