Scrapegraph-ai - เว็บสแครปปิงด้วย LLM และตรรกะแบบกราฟโดยตรง

xguru · 2024-05-10T09:51:01+09:00

ไลบรารีโอเพนซอร์ส Python สำหรับเว็บสแครปปิงที่ขับเคลื่อนด้วย AI สร้างไปป์ไลน์สำหรับสแครปข้อมูลจากเว็บไซต์ เอกสาร และไฟล์ XML โดยใช้ LLM และตรรกะแบบกราฟโดยตรง เพียงระบุว่าต้องการดึงข้อมูลอะไร ไลบรารีจะจัดการส่วนที่เหลือให้เอง รองรับโมเดลหลากหลาย เช่น Ollama, OpenAI, Groq, Azure, Gemini โหนดที่มีให้ใช้งาน Base Node, HTML Fetch Node, Image_to_text Node, Text-To-Speech Node, Internet Search Node Conditional Node : กำหนดโหนดถัดไปของกราฟ Answer Generation Node : ใช้ LLM เพื่อสร้างคำตอบให้กับคำถาม generate_scraper Node : ดึงข้อมูลที่ต้องการจากคอนเทนต์ตามอินพุตของผู้ใช้ Get_probable_tags Node : ค้นหาแท็ก HTML ที่มีข้อมูลตามต้องการในคอนเทนต์ Parse Node : ดึงข้อมูลจากเอกสาร HTML RAG Node : ดึงข้อมูลที่เกี่ยวข้องจากเอกสารขนาดใหญ่ Robots Node : ตรวจสอบว่าสามารถเข้าถึงด้วยบอตได้หรือไม่

(github.com/VinciGit00)

20 คะแนน โดย xguru 2024-05-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ไลบรารีโอเพนซอร์ส Python สำหรับเว็บสแครปปิงที่ขับเคลื่อนด้วย AI
- สร้างไปป์ไลน์สำหรับสแครปข้อมูลจากเว็บไซต์ เอกสาร และไฟล์ XML โดยใช้ LLM และตรรกะแบบกราฟโดยตรง
เพียงระบุว่าต้องการดึงข้อมูลอะไร ไลบรารีจะจัดการส่วนที่เหลือให้เอง
รองรับโมเดลหลากหลาย เช่น Ollama, OpenAI, Groq, Azure, Gemini
โหนดที่มีให้ใช้งาน
- Base Node, HTML Fetch Node, Image_to_text Node, Text-To-Speech Node, Internet Search Node
- Conditional Node : กำหนดโหนดถัดไปของกราฟ
- Answer Generation Node : ใช้ LLM เพื่อสร้างคำตอบให้กับคำถาม
- generate_scraper Node : ดึงข้อมูลที่ต้องการจากคอนเทนต์ตามอินพุตของผู้ใช้
- Get_probable_tags Node : ค้นหาแท็ก HTML ที่มีข้อมูลตามต้องการในคอนเทนต์
- Parse Node : ดึงข้อมูลจากเอกสาร HTML
- RAG Node : ดึงข้อมูลที่เกี่ยวข้องจากเอกสารขนาดใหญ่
- Robots Node : ตรวจสอบว่าสามารถเข้าถึงด้วยบอตได้หรือไม่

1 ความคิดเห็น

ng0301 2024-05-13

ดูเหมือนว่าจะดึงข้อมูลจากเว็บแอปแบบ CSR ได้ไม่ค่อยดีนัก จึงรู้สึกน่าเสียดาย
แต่สำหรับ SSR นั้นค่อนข้างน่าพอใจมาก

Scrapegraph-ai - เว็บสแครปปิงด้วย LLM และตรรกะแบบกราฟโดยตรง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น