- PdfGptIndexer: เป็นเครื่องมือสำหรับจัดทำดัชนีและค้นหาข้อมูลข้อความจาก PDF โดยใช้ GPT-2 และ FAISS
- ใช้ไลบรารีอย่าง Textract, Transformers, Langchain และ FAISS เพื่อให้ได้ทั้งการค้นคืนข้อมูลที่มีประสิทธิภาพและความแม่นยำในการค้นหา
- เครื่องมือนี้ประมวลผลเอกสาร PDF และดึงข้อความออกมา ก่อนจะแบ่งเป็นชิ้นข้อมูลที่จัดการได้ด้วย GPT-2 tokenizer
- แต่ละชิ้นข้อความจะถูกทำเป็น embedding ผ่านโมเดล GPT-2 โดยใช้ไลบรารี LangChain
- embedding เหล่านี้จะถูกเก็บไว้ในดัชนี FAISS ทำให้สามารถบีบอัดและจัดเก็บได้อย่างมีประสิทธิภาพ
- ผ่านอินเทอร์เฟซสำหรับการสืบค้น ผู้ใช้สามารถค้นหาข้อมูลที่เกี่ยวข้องจากข้อมูลที่ถูกจัดทำดัชนีไว้ได้ด้วยการตั้งคำถาม
- การจัดเก็บ embedding ไว้ในเครื่องให้ข้อดีในด้านความเร็ว การเข้าถึงแบบออฟไลน์ การประหยัดการคำนวณ และความสามารถในการขยายระบบ
- ในการรันโปรแกรม ให้ติดตั้ง dependency, โคลน repository, แทนที่ OpenAI API key แล้วรันสคริปต์
- หลังจากคำนวณและจัดเก็บ embedding เสร็จแล้ว อินเทอร์เฟซสำหรับการสืบค้นจะเริ่มทำงาน
- ผู้ใช้สามารถใช้คู่มือแบบครบถ้วนที่มีอยู่ในโพสต์เพื่อสำรวจข้อมูลที่กำหนดเองด้วย ChatGPT
ยังไม่มีความคิดเห็น