• PdfGptIndexer: เป็นเครื่องมือสำหรับจัดทำดัชนีและค้นหาข้อมูลข้อความจาก PDF โดยใช้ GPT-2 และ FAISS
  • ใช้ไลบรารีอย่าง Textract, Transformers, Langchain และ FAISS เพื่อให้ได้ทั้งการค้นคืนข้อมูลที่มีประสิทธิภาพและความแม่นยำในการค้นหา
  • เครื่องมือนี้ประมวลผลเอกสาร PDF และดึงข้อความออกมา ก่อนจะแบ่งเป็นชิ้นข้อมูลที่จัดการได้ด้วย GPT-2 tokenizer
  • แต่ละชิ้นข้อความจะถูกทำเป็น embedding ผ่านโมเดล GPT-2 โดยใช้ไลบรารี LangChain
  • embedding เหล่านี้จะถูกเก็บไว้ในดัชนี FAISS ทำให้สามารถบีบอัดและจัดเก็บได้อย่างมีประสิทธิภาพ
  • ผ่านอินเทอร์เฟซสำหรับการสืบค้น ผู้ใช้สามารถค้นหาข้อมูลที่เกี่ยวข้องจากข้อมูลที่ถูกจัดทำดัชนีไว้ได้ด้วยการตั้งคำถาม
  • การจัดเก็บ embedding ไว้ในเครื่องให้ข้อดีในด้านความเร็ว การเข้าถึงแบบออฟไลน์ การประหยัดการคำนวณ และความสามารถในการขยายระบบ
  • ในการรันโปรแกรม ให้ติดตั้ง dependency, โคลน repository, แทนที่ OpenAI API key แล้วรันสคริปต์
  • หลังจากคำนวณและจัดเก็บ embedding เสร็จแล้ว อินเทอร์เฟซสำหรับการสืบค้นจะเริ่มทำงาน
  • ผู้ใช้สามารถใช้คู่มือแบบครบถ้วนที่มีอยู่ในโพสต์เพื่อสำรวจข้อมูลที่กำหนดเองด้วย ChatGPT

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น