- เครื่องมือที่แปลงเว็บไซต์เป็นรูปแบบ Markdown และ llms.txt ได้อย่างรวดเร็วและเบา เพื่อรองรับการสร้าง LLM context ที่ AI สามารถค้นหาได้
- ตัวแปลง HTML→Markdown แบบดั้งเดิมไม่ได้ออกแบบมาสำหรับ LLM จึงใช้โทเค็นมากและทำงานช้า
- แกนหลักของ
mdream คือ ตัวแปลง HTML→Markdown ที่ปรับให้เหมาะกับ LLM ซึ่งสร้างผลลัพธ์ที่ปรับแต่งแล้วโดยใช้โทเค็นน้อยลงประมาณ 50% และสามารถ แปลง HTML ขนาด 1.4MB ได้อย่างรวดเร็วมากภายในราว 50ms
- เป็นไลบรารีขนาด 5kB gzip ที่ไม่มี external dependency
- ด้วยแพ็กเกจ
@mdream/crawl สามารถครอว์ลทั้งเว็บไซต์เพื่อสร้าง llms.txt, llms-full.txt และไฟล์ Markdown แยกแต่ละไฟล์ และเชื่อมต่อกับเครื่องมือ AI อย่าง Claude Code ได้
- สามารถรันได้ในหลากหลายสภาพแวดล้อม เช่น CLI, Docker, GitHub Actions, Vite, Nuxt
- มี ระบบปลั๊กอิน ที่สามารถเพิ่มการกรองคอนเทนต์, การแปลงโหนด และพฤติกรรมแบบกำหนดเองผ่าน pipeline hooking ได้
- extractionPlugin: ดึงองค์ประกอบเฉพาะด้วย CSS selector เพื่อนำไปใช้วิเคราะห์ข้อมูล
- filterPlugin: รวม/ยกเว้นองค์ประกอบตาม CSS selector หรือ tag ID ได้
- frontmatterPlugin: สร้าง YAML frontmatter จากข้อมูลใน HTML head (title, meta เป็นต้น)
- isolateMainPlugin: ดึงเฉพาะคอนเทนต์หลักจากองค์ประกอบ
<main> หรือช่วง header~footer
- tailwindPlugin: แปลงคลาส Tailwind CSS เป็นรูปแบบ Markdown (ตัวหนา, ตัวเอียง เป็นต้น)
- readabilityPlugin: ให้คะแนนความอ่านง่ายของคอนเทนต์และดึงคอนเทนต์ออกมา (ฟีเจอร์ทดลอง)
1 ความคิดเห็น
ลองแล้วแต่เกิดข้อผิดพลาดและทำงานได้ไม่ถูกต้องครับ ผมได้โพสต์ไว้ในประเด็นของ Eldan แล้ว