9 คะแนน โดย GN⁺ 2024-11-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เครื่องมือทรงพลังสำหรับแปลง HTML ให้เป็น Markdown ที่สะอาดและอ่านง่าย
  • รองรับการจัดรูปแบบที่ซับซ้อน และสามารถควบคุมกระบวนการแปลงได้อย่างสมบูรณ์ผ่านตัวเลือกแบบกำหนดเองและปลั๊กอิน
  • สามารถใช้งานผ่านไลบรารี Golang หรือคำสั่ง CLI หรือทดลองได้โดยตรงผ่านเดโมออนไลน์หรือ REST API

ฟีเจอร์หลัก

  • Bold & Italic: รองรับตัวหนาและตัวเอียงได้แม้ภายในคำเดียว
  • List: รองรับการซ้อนรายการแบบมีลำดับและไม่มีลำดับได้อย่างสมบูรณ์
  • Blockquote: สามารถมีองค์ประกอบอื่นภายในบล็อกอ้างอิงได้ และรองรับบล็อกอ้างอิงแบบซ้อนกันอย่างลื่นไหล
  • Inline Code & Code Block: จัดการ backtick และบล็อกโค้ดหลายบรรทัดได้อย่างถูกต้องเพื่อคงโครงสร้างของโค้ดไว้
  • Link & Image: จัดรูปแบบลิงก์หลายบรรทัดได้อย่างถูกต้อง และเพิ่มการ escape สำหรับบรรทัดว่าง
  • Smart Escaping: escape อักขระพิเศษเฉพาะเมื่อจำเป็น เพื่อป้องกันการเรนเดอร์ Markdown โดยไม่ตั้งใจ
  • Remove/Keep HTML: มีตัวเลือกให้ลบหรือคงแท็ก HTML บางประเภทไว้ได้
  • Plugin: ขยายปลั๊กอินได้ง่าย หรือสร้างปลั๊กอินแบบกำหนดเองเพื่อเพิ่มความสามารถได้
    • หากต้องการตรรกะแบบกำหนดเอง ก็สามารถเขียนโค้ดและลงทะเบียนได้
    • หากไม่ชอบค่าตั้งต้น สามารถใช้ PriorityEarly เพื่อให้ตรรกะทำงานก่อนตัวอื่นได้
  • Converter สามารถใช้งานจากหลาย goroutine ได้ และภายในใช้ mutex

1 ความคิดเห็น

 
GN⁺ 2024-11-10
ความคิดเห็นจาก Hacker News
  • หากใช้ API ฟรีของ Jina.ai ก็สามารถดึง URL แล้วรับเอกสาร Markdown ได้โดยไม่ต้องยืนยันตัวตนหรือใช้ API key

    • แม้จะจัดการบางเว็บไซต์ไม่ได้ แต่โดยมากแล้วช่วยทำงานได้ราว 90%
    • สามารถใช้ Pandoc เพื่อแปลง HTML เป็น Markdown ได้
  • สงสัยว่าเครื่องมือนี้ที่ใช้ไลเซนส์ MIT จะใช้แทน p2k, Instapaper และบริการทำนองเดียวกันสำหรับอ่านบน Kindle ได้หรือไม่

    • บริการเหล่านี้เรนเดอร์ได้ไม่แม่นยำนัก และยังเรียกเก็บค่าสมัครสมาชิก
    • หากโปรเจ็กต์นี้ยังมีการดูแลอย่างต่อเนื่อง ก็ยินดีทดสอบกับบทความหลายแบบและรายงานปัญหา
  • ใช้ไลบรารีนี้ในฟังก์ชัน Lambda เพื่อแปลง URL เป็น Markdown แล้วบันทึกลง S3

    • เชื่อมเข้ากับแอปบุ๊กมาร์กทั้งหมดผ่าน webhook เพื่อเก็บทุกอย่างที่บุ๊กมาร์กไว้เป็น Markdown
    • สะดวกมากสำหรับนำเข้าไปยัง Obsidian
  • มีประโยชน์สำหรับป้อนข้อมูลหน้าเว็บให้ LLM

    • เคยทำเครื่องมือคล้ายกันสำหรับฝั่ง Elixir แต่ยังมีข้อจำกัด
    • น่าจะหยิบไอเดียไปใช้ได้
  • อยากให้เครื่องมือนี้มีฟีเจอร์ deduplication แบบ n-gram

    • ต้องการความสามารถในการลบเนื้อหาที่ซ้ำกันจาก header และ footer
  • ใช้ Urlbox เพื่อรับทั้งภาพหน้าจอที่แม่นยำของหน้าเว็บและ Markdown ได้

    • สามารถใช้ความสามารถนี้ได้ด้วยเครื่องมือฟรี
  • RedditToMarkdown และ urltomarkdown.com มีประโยชน์สำหรับการสร้างแอป LLM และ AI

  • กำลังมองหาไลบรารีคล้ายกันไว้ใช้ในแอป Kotlin/Spring

    • ตอนแปลงจาก HTML เป็น Markdown สตริงเอกสาร HTML ถูกจัดระเบียบไว้แล้ว
  • หนึ่งในความยากเมื่อใช้เครื่องมือนี้คือการจัดการ code block ที่มี syntax highlighting

    • สงสัยว่า html-to-markdown ทำงานอย่างไรในสถานการณ์แบบนี้