- ไลบรารีโอเพนซอร์ส Python สำหรับเว็บสแครปปิงที่ขับเคลื่อนด้วย AI
- สร้างไปป์ไลน์สำหรับสแครปข้อมูลจากเว็บไซต์ เอกสาร และไฟล์ XML โดยใช้ LLM และตรรกะแบบกราฟโดยตรง
- เพียงระบุว่าต้องการดึงข้อมูลอะไร ไลบรารีจะจัดการส่วนที่เหลือให้เอง
- รองรับโมเดลหลากหลาย เช่น Ollama, OpenAI, Groq, Azure, Gemini
- โหนดที่มีให้ใช้งาน
- Base Node, HTML Fetch Node, Image_to_text Node, Text-To-Speech Node, Internet Search Node
- Conditional Node : กำหนดโหนดถัดไปของกราฟ
- Answer Generation Node : ใช้ LLM เพื่อสร้างคำตอบให้กับคำถาม
generate_scraper Node : ดึงข้อมูลที่ต้องการจากคอนเทนต์ตามอินพุตของผู้ใช้
Get_probable_tags Node : ค้นหาแท็ก HTML ที่มีข้อมูลตามต้องการในคอนเทนต์
- Parse Node : ดึงข้อมูลจากเอกสาร HTML
- RAG Node : ดึงข้อมูลที่เกี่ยวข้องจากเอกสารขนาดใหญ่
- Robots Node : ตรวจสอบว่าสามารถเข้าถึงด้วยบอตได้หรือไม่
1 ความคิดเห็น
ดูเหมือนว่าจะดึงข้อมูลจากเว็บแอปแบบ CSR ได้ไม่ค่อยดีนัก จึงรู้สึกน่าเสียดาย
แต่สำหรับ SSR นั้นค่อนข้างน่าพอใจมาก