9 คะแนน โดย xguru 2021-09-17 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
<p>- ใช้แมชชีนเลิร์นนิงในการอ่านเนื้อหาจาก PDF, LaTeX และ PubMed Central XML แล้วแปลงเป็น HTML <br /> - มีเป้าหมายเพื่อเพิ่มการเข้าถึง <br /> - เป็นต้นแบบเชิงทดลองของ Semantic Scholar ซึ่งเป็นเสิร์ชเอนจินค้นหาเอกสารวิจัยที่ขับเคลื่อนด้วย AI <br /> - ปัจจุบันแคชเฉพาะรูปภาพ/คอนเทนต์ที่สกัดออกมา และใช้เพื่อให้บริการได้รวดเร็วเฉพาะกับผู้ที่อัปโหลดเอกสารเดียวกันเท่านั้น โดยจะไม่เก็บไฟล์ที่อัปโหลดไว้ <br /> - ข้อจำกัด<br /> → ตาราง (Table) จะถูกสกัดออกมาเป็นรูปภาพ <br /> → เนื้อหาคณิตศาสตร์ (Math) มีความแม่นยำต่ำหรือแทบจะสกัดออกมาไม่ได้ <br /> → การประมวลผล LaTeX/PubMed อาจมีความสามารถบางส่วนด้อยกว่า PDF <br /> - มีแผนจะเพิ่มฟีเจอร์ด้านการเข้าถึงให้กับ Semantic Scholar ในอนาคต </p>

3 ความคิดเห็น

 
v08zbv8fvlkjasdflkj 2021-09-23
<p>เวลาจะแปลง PDF ไปเป็นฟอร์แมตอื่น (ชอบ epub) สิ่งที่เป็นปัญหาคือตารางกับสมการที่เรียงอยู่ด้านบนนี้ ถ้าจัดการสมการได้ไม่ดี ก็ไม่รู้ว่าจุดเด่นคืออะไรนะ <br /> --<br /> ดูเดโมแล้ว น่าใช้งานอยู่ครับ</p>
 
indigo6 2021-09-18
<p>ก็ดูเหมือนว่าจะทำให้อ่านสบายขึ้นนะ แต่ก็น่าจะมีคนที่ไม่อยากให้บทความวิจัยของตัวเองถูกแปลงเป็นรูปแบบ HTML เหมือนกันนะครับ รู้สึกว่าถ้าเจ้าของสิทธิ์สามารถ opt-out จากการแปลงได้ก็น่าจะดี...<br /> <br /> เมื่อก่อนผมเคยเขียนเปเปอร์ด้วย LaTex (นานมากจริง ๆ แล้วครับ T_T) แล้วรู้สึกปลาบปลื้มแบบสุด ๆ เนื้อหาน่ะพังไม่เป็นท่า แต่การเรนเดอร์มันเรียบร้อยและสวยงามมากจนทุกวันนี้ยังจำความรู้สึกตอนนั้นได้อยู่เลย ตอนเห็น TeX ก็ถึงกับคิดว่าอาจารย์ Knuth นี่คือพระเจ้า... ยังไงก็ตาม อยู่ ๆ ก็คิดขึ้นมาว่านอกจากเนื้อหาของงานที่ตัวเองเขียนแล้ว ก็น่าจะมีคนที่ให้ความสำคัญกับรูปแบบหรือรายละเอียดของการนำเสนอในเปเปอร์นั้นด้วยเหมือนกัน</p>
 
xguru 2021-09-17
<p>ลองดูแกลเลอรีแล้ว คุณภาพถือว่าใช้งานได้ดีพอสมควรเลยครับ<br /> https://papertohtml.org/gallery<br /> <br /> ก็แอบคิดเหมือนกันว่าถ้าเอาอะไรแบบนี้ไปใช้กับ Google Scholar ได้ก็น่าจะสะดวกดีนะ</p>