ไลบรารีทำ Text Chunking แบบง่ายสุดๆ สำหรับ Node.js
(github.com/golbin)วันนี้เพิ่งแนะนำเวกเตอร์ DB แบบง่ายๆ ที่ทำขึ้นมาเพื่อใช้ทำ LLM prototyping ไปครับ..(https://th.news.hada.io/topic?id=10798)
ต่อเนื่องจากนั้นก็เลยลองทำไลบรารี text chunking แบบง่ายสุดๆ สำหรับ Node.js ขึ้นมาด้วยครับ
ตอนใช้ LLM เพื่อทำ embedding เอกสาร แทบไม่มีของที่หยิบมาใช้แบบง่ายๆ ได้เลย และสำหรับ Node.js ก็ยิ่งแทบไม่มีเข้าไปใหญ่ เลยรู้สึกไม่ค่อยสบายใจทุกครั้งที่ต้องใช้ไลบรารีตัวใหญ่ๆ อยู่เสมอ (ยังไม่ต้องพูดถึงการเอาไปใช้บน Edge)
พอทำ VectorDB แบบง่ายๆ ขึ้นมาแล้ว ก็เลยทำตัวนี้ไว้เพื่อใช้คู่กัน และในเมื่อสุดท้ายก็เอาไปใช้กับ LLM อยู่แล้ว ส่วนใหญ่ก็ไม่จำเป็นต้องละเอียดมากนัก เลยทำไว้แค่ให้ตัดตามประโยค/ย่อหน้าแบบง่ายๆ และปรับ overlap ได้ในระดับพอเหมาะ
ลองใช้ดูแป๊บหนึ่งแล้วก็รู้สึกว่า ของแบบนี้ยังไงก็ It just works, simple is the best จริงๆ ครับ 555
1 ความคิดเห็น
สินค้าร่วมตระกูล: เวกเตอร์ DB แบบเรียบง่ายสุดๆ สำหรับ Node.js -> https://th.news.hada.io/topic?id=10798