- เครื่องมือทรงพลังสำหรับแปลง HTML ให้เป็น Markdown ที่สะอาดและอ่านง่าย
- รองรับการจัดรูปแบบที่ซับซ้อน และสามารถควบคุมกระบวนการแปลงได้อย่างสมบูรณ์ผ่านตัวเลือกแบบกำหนดเองและปลั๊กอิน
- สามารถใช้งานผ่านไลบรารี Golang หรือคำสั่ง CLI หรือทดลองได้โดยตรงผ่านเดโมออนไลน์หรือ REST API
ฟีเจอร์หลัก
- Bold & Italic: รองรับตัวหนาและตัวเอียงได้แม้ภายในคำเดียว
- List: รองรับการซ้อนรายการแบบมีลำดับและไม่มีลำดับได้อย่างสมบูรณ์
- Blockquote: สามารถมีองค์ประกอบอื่นภายในบล็อกอ้างอิงได้ และรองรับบล็อกอ้างอิงแบบซ้อนกันอย่างลื่นไหล
- Inline Code & Code Block: จัดการ backtick และบล็อกโค้ดหลายบรรทัดได้อย่างถูกต้องเพื่อคงโครงสร้างของโค้ดไว้
- Link & Image: จัดรูปแบบลิงก์หลายบรรทัดได้อย่างถูกต้อง และเพิ่มการ escape สำหรับบรรทัดว่าง
- Smart Escaping: escape อักขระพิเศษเฉพาะเมื่อจำเป็น เพื่อป้องกันการเรนเดอร์ Markdown โดยไม่ตั้งใจ
- Remove/Keep HTML: มีตัวเลือกให้ลบหรือคงแท็ก HTML บางประเภทไว้ได้
- Plugin: ขยายปลั๊กอินได้ง่าย หรือสร้างปลั๊กอินแบบกำหนดเองเพื่อเพิ่มความสามารถได้
- หากต้องการตรรกะแบบกำหนดเอง ก็สามารถเขียนโค้ดและลงทะเบียนได้
- หากไม่ชอบค่าตั้งต้น สามารถใช้
PriorityEarly เพื่อให้ตรรกะทำงานก่อนตัวอื่นได้
Converter สามารถใช้งานจากหลาย goroutine ได้ และภายในใช้ mutex
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
หากใช้ API ฟรีของ Jina.ai ก็สามารถดึง URL แล้วรับเอกสาร Markdown ได้โดยไม่ต้องยืนยันตัวตนหรือใช้ API key
สงสัยว่าเครื่องมือนี้ที่ใช้ไลเซนส์ MIT จะใช้แทน p2k, Instapaper และบริการทำนองเดียวกันสำหรับอ่านบน Kindle ได้หรือไม่
ใช้ไลบรารีนี้ในฟังก์ชัน Lambda เพื่อแปลง URL เป็น Markdown แล้วบันทึกลง S3
มีประโยชน์สำหรับป้อนข้อมูลหน้าเว็บให้ LLM
อยากให้เครื่องมือนี้มีฟีเจอร์ deduplication แบบ n-gram
ใช้ Urlbox เพื่อรับทั้งภาพหน้าจอที่แม่นยำของหน้าเว็บและ Markdown ได้
RedditToMarkdown และ urltomarkdown.com มีประโยชน์สำหรับการสร้างแอป LLM และ AI
กำลังมองหาไลบรารีคล้ายกันไว้ใช้ในแอป Kotlin/Spring
หนึ่งในความยากเมื่อใช้เครื่องมือนี้คือการจัดการ code block ที่มี syntax highlighting