ขอเปิดตัวเวอร์ชันแรกของเฟรมเวิร์ก aipack ที่ทำ semantic chunking โดยใช้ BGE-M3, MarkItDown และตัวแยกโครงสร้าง Markdown แล้วบันทึกผลลัพธ์ลงในไฟล์ Parquet โดยออกแบบมาให้คงสภาพความเป็นกลางที่ไม่ผูกติดกับโมเดลหรือฐานข้อมูล เพื่อให้สามารถนำรูปแบบไฟล์กลับมาใช้ซ้ำได้ทุกเมื่อสำหรับการทำ RAG และยังสามารถรันเซิร์ฟเวอร์ MCP ได้ด้วย

ทิศทางที่ aipack มุ่งไปคือการทำ RAG ที่ไม่พึ่งพา NPU หรือ GPU พร้อมกับสร้างสภาพแวดล้อมที่ขยายต่อไปยังโครงสร้าง RAG ที่หลากหลายในอนาคตได้ง่าย ภายใต้สมมติฐานว่า "ถ้าสร้างไฟล์ Parquet คุณภาพสูงได้ ก็ทำอะไรได้ทุกอย่าง" นี่คือโปรเจกต์เชิงทดลองที่ลอง decoupling RAG pipeline ซึ่งใช้กันทั่วไปในอุตสาหกรรม

เป็นการนำไอเดียที่คิดไว้มาลองทำจริง จึงยังมีส่วนที่ไม่ลงตัวอยู่มาก แต่หากช่วยส่งฟีดแบ็กและความคิดเห็นกันมาเยอะ ๆ ผมจะนำสิ่งเหล่านั้นไปต่อยอดให้เป็นโปรเจกต์ที่ดีขึ้นครับ!

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น