Scrapeghost - ไลบรารีเว็บสแครปปิงที่ใช้ GPT
(jamesturk.github.io)- ไลบรารีเชิงทดลองสำหรับดึงข้อมูลจาก HTML โดยไม่ต้องเขียนโค้ดที่เกี่ยวกับหน้าเว็บเลย
- เพียงระบุรูปแบบข้อมูลที่ต้องการดึงออกมา แล้วส่ง URL ให้ ระบบก็จะดึงข้อมูลให้เอง
- ภายในมีการจัดการทำความสะอาด HTML และแบ่งส่วนข้อมูลเพื่อลดค่าใช้จ่าย และยังตรวจสอบอาการหลอนของโมเดล (hallucination) ว่าข้อมูลที่ดึงมาเป็นค่าที่มีอยู่จริงและถูกต้องบนหน้าเว็บหรือไม่
- มีฟังก์ชันตั้งงบประมาณสำหรับค่าใช้จ่ายในการเรียกใช้ GPT API
ยังไม่มีความคิดเห็น