Firecrawl - เครื่องมือที่ทำให้ทั้งเว็บไซต์ใช้งานกับ LLM ได้
(github.com/mendableai)- ครอลเว็บไซต์และแปลงเป็น Markdown หรือข้อมูลแบบมีโครงสร้างที่สามารถใช้กับ LLM ได้
- เมื่อส่ง URL ผ่าน API ระบบจะครอลทุกหน้าลูกและให้ข้อมูลที่สะอาดสำหรับแต่ละหน้าลูก
- รองรับ SDK สำหรับ Python, Node, Go, Rust
- รองรับการเชื่อมต่อกับ LangChain, Llama Index, Dify, Langflow, Zapier เป็นต้น
2 ความคิดเห็น
แม้จะไม่รองรับการครอลแบบลึกลงไปในลำดับชั้น แต่ขอแนะนำตัวแปลงรูปแบบเอกสารที่มีจุดประสงค์คล้ายกัน
https://github.com/DS4SD/docling
มันไม่ได้ทำงานได้ตามที่ต้องการเท่าไหร่นัก