Paper to HTML - แปลงงานวิจัยเป็น HTML ที่อ่านง่าย

xguru · 2021-09-17T09:18:57+09:00

ใช้แมชชีนเลิร์นนิงในการอ่านเนื้อหาจาก PDF, LaTeX และ PubMed Central XML แล้วแปลงเป็น HTML มีเป้าหมายเพื่อเพิ่มการเข้าถึง เป็นต้นแบบเชิงทดลองของ Semantic Scholar ซึ่งเป็นเสิร์ชเอนจินค้นหาเอกสารวิจัยที่ขับเคลื่อนด้วย AI ปัจจุบันแคชเฉพาะรูปภาพ/คอนเทนต์ที่สกัดออกมา และใช้เพื่อให้บริการได้รวดเร็วเฉพาะกับผู้ที่อัปโหลดเอกสารเดียวกันเท่านั้น โดยจะไม่เก็บไฟล์ที่อัปโหลดไว้ ข้อจำกัด → ตาราง (Table) จะถูกสกัดออกมาเป็นรูปภาพ → เนื้อหาคณิตศาสตร์ (Math) มีความแม่นยำต่ำหรือแทบจะสกัดออกมาไม่ได้ → การประมวลผล LaTeX/PubMed อาจมีความสามารถบางส่วนด้อยกว่า PDF มีแผนจะเพิ่มฟีเจอร์ด้านการเข้าถึงให้กับ Semantic Scholar ในอนาคต

(papertohtml.org)

9 คะแนน โดย xguru 2021-09-17 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

ใช้แมชชีนเลิร์นนิงในการอ่านเนื้อหาจาก PDF, LaTeX และ PubMed Central XML แล้วแปลงเป็น HTML
มีเป้าหมายเพื่อเพิ่มการเข้าถึง
เป็นต้นแบบเชิงทดลองของ Semantic Scholar ซึ่งเป็นเสิร์ชเอนจินค้นหาเอกสารวิจัยที่ขับเคลื่อนด้วย AI
ปัจจุบันแคชเฉพาะรูปภาพ/คอนเทนต์ที่สกัดออกมา และใช้เพื่อให้บริการได้รวดเร็วเฉพาะกับผู้ที่อัปโหลดเอกสารเดียวกันเท่านั้น โดยจะไม่เก็บไฟล์ที่อัปโหลดไว้
ข้อจำกัด

→ ตาราง (Table) จะถูกสกัดออกมาเป็นรูปภาพ

→ เนื้อหาคณิตศาสตร์ (Math) มีความแม่นยำต่ำหรือแทบจะสกัดออกมาไม่ได้

→ การประมวลผล LaTeX/PubMed อาจมีความสามารถบางส่วนด้อยกว่า PDF

มีแผนจะเพิ่มฟีเจอร์ด้านการเข้าถึงให้กับ Semantic Scholar ในอนาคต

3 ความคิดเห็น

v08zbv8fvlkjasdflkj 2021-09-23

เวลาจะแปลง PDF ไปเป็นฟอร์แมตอื่น (ชอบ epub) สิ่งที่เป็นปัญหาคือตารางกับสมการที่เรียงอยู่ด้านบนนี้ ถ้าจัดการสมการได้ไม่ดี ก็ไม่รู้ว่าจุดเด่นคืออะไรนะ

ดูเดโมแล้ว น่าใช้งานอยู่ครับ

indigo6 2021-09-18

ก็ดูเหมือนว่าจะทำให้อ่านสบายขึ้นนะ แต่ก็น่าจะมีคนที่ไม่อยากให้บทความวิจัยของตัวเองถูกแปลงเป็นรูปแบบ HTML เหมือนกันนะครับ รู้สึกว่าถ้าเจ้าของสิทธิ์สามารถ opt-out จากการแปลงได้ก็น่าจะดี...

เมื่อก่อนผมเคยเขียนเปเปอร์ด้วย LaTex (นานมากจริง ๆ แล้วครับ T_T) แล้วรู้สึกปลาบปลื้มแบบสุด ๆ เนื้อหาน่ะพังไม่เป็นท่า แต่การเรนเดอร์มันเรียบร้อยและสวยงามมากจนทุกวันนี้ยังจำความรู้สึกตอนนั้นได้อยู่เลย ตอนเห็น TeX ก็ถึงกับคิดว่าอาจารย์ Knuth นี่คือพระเจ้า... ยังไงก็ตาม อยู่ ๆ ก็คิดขึ้นมาว่านอกจากเนื้อหาของงานที่ตัวเองเขียนแล้ว ก็น่าจะมีคนที่ให้ความสำคัญกับรูปแบบหรือรายละเอียดของการนำเสนอในเปเปอร์นั้นด้วยเหมือนกัน

xguru 2021-09-17

ลองดูแกลเลอรีแล้ว คุณภาพถือว่าใช้งานได้ดีพอสมควรเลยครับ

https://papertohtml.org/gallery

ก็แอบคิดเหมือนกันว่าถ้าเอาอะไรแบบนี้ไปใช้กับ Google Scholar ได้ก็น่าจะสะดวกดีนะ

Paper to HTML - แปลงงานวิจัยเป็น HTML ที่อ่านง่าย

บทความที่เกี่ยวข้อง

3 ความคิดเห็น