HTML ในฐานะแฟอร์แมตที่เข้าถึงได้สำหรับบทความวิจัย (2023)
(info.arxiv.org)- arXiv เริ่มจัดให้มี บทความในรูปแบบ HTML ควบคู่กับ PDF เพื่อยกระดับการเข้าถึงงานวิจัย
- จากบทความมากกว่า 2 ล้านชิ้น บางส่วนยัง ไม่สามารถให้เวอร์ชัน HTML ได้เนื่องจากข้อจำกัดในการแปลงอัตโนมัติ และคุณภาพการแปลงจะได้รับการปรับปรุงต่อเนื่อง
- HTML มีความได้เปรียบด้านการเข้าถึงมากขึ้นเพราะมีความเข้ากันได้สูงกับ โปรแกรมอ่านหน้าจอ การแปลงเป็นเสียง และอุปกรณ์มือถือ เป็นต้น
- ชุมชนสามารถมีส่วนร่วมในโครงการนี้ได้โดยตรงผ่านการ รายงานข้อผิดพลาดและการพัฒนาคุณภาพการแปลง LaTeX
- ความพยายามนี้แสดงถึงแนวทางระยะยาวของ arXiv ในการขยาย ความครอบคลุมและการเข้าถึงงานวิจัยทางวิทยาศาสตร์
ภาพรวมการให้บริการบทความในรูปแบบ HTML
- arXiv กำลังนำ รูปแบบบทความ HTML มาด้วย PDF เดิมเพื่อเพิ่มการเข้าถึงงานวิจัย
- ตามฟีดแบ็กจากชุมชน การมี HTML ถูกมองว่าเป็นการดำเนินการที่สร้างผลกระทบมากที่สุดในระยะสั้น
- เวอร์ชัน HTML จะถูกแสดง ใต้ลิงก์ดาวน์โหลด PDF ของหน้าบทคัดย่อบทความ
- ผู้เขียนสามารถดูตัวอย่าง HTML ของบทความตัวเองได้ในขั้นตอนการส่ง
- arXiv กำลังเพิ่ม HTML อย่างค่อยเป็นค่อยไปให้กับ งานวิจัยมากกว่า 2 ล้านชิ้น และบางบทความยังไม่สามารถให้ HTML ได้เพราะการแปลงล้มเหลว
- การเปิดตัว HTML แบบเบตาถือเป็นจุดเริ่มต้น โดยการปรับปรุง คุณภาพการแปลง LaTeX และการรวบรวมฟีดแบ็ก กำลังดำเนินต่อไป
เหตุผลที่เรียก HTML ว่า “ทดลอง”
- ในการส่งของ arXiv มากกว่า 90% อยู่ในรูปแบบ TeX (ส่วนใหญ่คือ LaTeX) ซึ่งทำให้การแปลงเป็น HTML อย่างแม่นยำยังมีความท้าทายทางเทคนิค
- LaTeX มีความยืดหยุ่นสูง และการใช้งานแตกต่างกันไปในแต่ละผู้เขียน
- HTML มีความเข้ากันได้ดีเยี่ยมกับ โปรแกรมอ่านหน้าจอ การแปลงเป็นเสียง เครื่องขยายหน้าจอ และอุปกรณ์มือถือ
- การแปลงต้องคงไว้ซึ่ง การทำงานอัตโนมัติและความเร็ว จึงทำให้การเรนเดอร์ให้สมบูรณ์ได้ยาก
- arXiv เปิดตัว HTML ในลักษณะ “ทดลอง” ด้วยเหตุผลสองประการ
- ต้องมีบทความที่เข้าถึงได้ทันที — นักวิจัยที่มีความต้องการด้านการเข้าถึงได้เรียกร้องให้ปล่อยใช้โดยไม่ชะลอ
- ต้องการความช่วยเหลือจากชุมชน — เพื่อรับรายงานข้อผิดพลาดการแปลงและติดตามปัญหาจากแพ็กเกจ LaTeX เฉพาะ
ข้อผิดพลาดที่อาจเกิดขึ้นในบทความ HTML
- บทความ HTML ยังเป็นงานที่อยู่ระหว่างการปรับปรุง อาจเกิดข้อผิดพลาดการแปลงหรือปัญหาการเรนเดอร์ได้
- arXiv แชร์ข้อมูลสาเหตุของข้อผิดพลาดและวิธีที่ผู้เขียนสามารถลดปัญหาเหล่านี้ได้
- รายละเอียดเพิ่มเติมสามารถตรวจสอบได้ในหน้าที่เกี่ยวข้องแยกต่างหาก
วิธีมีส่วนร่วมของชุมชน
-
1) อ่านบทความ HTML และรายงานปัญหา
- เข้าไปที่หน้าบทคัดย่อของบทความที่สนใจแล้วคลิกลิงก์ HTML เพื่ออ่าน
- การรายงานปัญหาทำได้ผ่าน ปุ่ม Open Issue, เลือกข้อความแล้วรายงาน หรือทางลัด Ctrl+?
- ผู้ใช้โปรแกรมอ่านหน้าจอสามารถสลับปุ่มรายงานการเข้าถึงตามย่อหน้าได้ด้วย Alt+y
- ขออย่าเพียงรายงานเฉพาะเพราะ HTML ไม่ได้แสดงเหมือน PDF
- ใน HTML จะให้ความสำคัญกับ ความสามารถใช้งานมาก่อนรูปลักษณ์ ส่วนความต่างของการเว้นบรรทัดและช่องไฟคือการออกแบบที่ตั้งใจ
- HTML ดีกว่า PDF ในด้าน ความเข้ากันได้กับเทคโนโลยีช่วยเหลือและการปรับตัวกับอุปกรณ์
-
2) สนับสนุนการปรับปรุงการแปลง LaTeX
- ผู้เขียนสามารถยกระดับคุณภาพการแปลงได้โดยอ้างอิง คู่มือแนวทางปฏิบัติที่ดีที่สุดสำหรับ LaTeX markup ของ arXiv
- นักพัฒนาสามารถมีส่วนร่วมในการปรับปรุงการแปลงผ่าน รายชื่อประเด็นของโครงการ LaTeXML
- สมาคมวิชาการหรือสำนักพิมพ์สามารถช่วยเพิ่มการเข้าถึงได้โดยตรวจสอบไฟล์ .cls ที่ใช้แพ็กเกจที่ยังไม่รองรับ
ขอบคุณผู้มีส่วนร่วม
- ในโครงการโดยรวม คำแนะนำและความเชี่ยวชาญของนักวิทยาศาสตร์ที่มีความบกพร่องทางร่างกาย มีส่วนสำคัญอย่างยิ่ง
- การสร้างฟีเจอร์บทความ HTML เป็นไปได้เพราะความร่วมมือระหว่าง LaTeX Project กับทีม LaTeXML ของ NIST
- เราขอขอบคุณอย่างสูงต่อ ความรู้ ความชำนาญ และความมุ่งมั่นต่อการเข้าถึงได้ ของทั้งสองทีม
1 ความคิดเห็น
ความเห็นจาก Hacker News
ในฐานะนักพัฒนา arXiv HTML Papers ขออัปเดตสั้น ๆ
ทราบดีว่าตอนนี้ยังมีปัญหาด้านคุณภาพและความครอบคลุมของการเรนเดอร์บทความอยู่มาก หากพบปัญหาเหล่านี้ ขอให้ช่วยรายงานที่หน้า GitHub Issues
คอขวดใหญ่ที่สุดคือเวลาสำหรับการพัฒนา และหัวใจสำคัญของการปรับปรุงฝั่ง LaTeX ก็ยังคงเป็น LaTeXML
ผมชอบอ่านบทความบน arXiv ในรูปแบบ HTML มากกว่า PDF อย่างมาก
สามารถใช้ส่วนขยายของเบราว์เซอร์ได้โดยตรง ทำให้แปลภาษา เขียนโน้ต ส่งเข้า LLM และทำงานอื่น ๆ ได้ง่าย
ตอนนี้ arXiv มีทั้งบริการ HTML หลัก (https://arxiv.org/html/xxxx.xxxxx) และบริการทางเลือก (https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)
แต่บริการหลักมีปัญหาเรื่องความครอบคลุมค่อนข้างหนัก เช่น บทความนี้ ใช้งานไม่ได้ พอสลับไปใช้บริการทางเลือกก็อาจแก้ได้ แต่ก็มีบางกรณีที่ล้มเหลวทั้งคู่ (ตัวอย่าง)
ถ้า Unicode Consortium ให้ความสำคัญกับการรองรับสัญลักษณ์คณิตศาสตร์มากกว่า อีโมจิ เราอาจหลุดพ้นจากโครงสร้างที่ยึด (LA)TeX/PDF เป็นศูนย์กลางได้
OpenType และ TrueType รองรับการเรนเดอร์ที่ซับซ้อนได้อยู่แล้ว และยังมี font fallback ได้ด้วย
ปัญหาไม่ใช่ข้อจำกัดทางเทคนิค แต่เป็นการตัดสินใจเชิงนโยบายที่ว่า “ไม่รวมอยู่ในลำดับชั้นของสัญลักษณ์”
ที่น่าสนใจคือ Gemini 3 Pro จะบังคับแสดงสมการเป็น LaTeX ไม่ว่าจะตั้งค่าอย่างไร ผมแชร์ผลการทดลองไว้ที่นี่
เพราะ Unicode โดยแก่นแท้แล้วเป็นระบบตัวอักษร ไม่ใช่ระบบจัดเลย์เอาต์
บทความแบบ HTML ก็เป็นไปได้สบาย แต่เหล่านักวิจัยยังคงยึดติดกับเลย์เอาต์สองคอลัมน์แบบดั้งเดิมและฟอนต์ serif
ปัญหาคือวัฒนธรรมที่ให้ความสำคัญกับการ “ดูเหมือนบทความวิชาการจริง” มากกว่าการเข้าถึงบนมือถือหรือความอ่านง่าย
ขั้นแรกให้ตั้งคำถาม แล้วขั้นที่สองใช้โมเดลขนาดเล็กแปลงสัญลักษณ์ LaTeX เป็นสมการยูนิโค้ด
บทความแบบ HTML มีให้ใช้มาหลายปีแล้ว
ยืนยันได้จากบล็อกทางการ ว่าถูกนำมาใช้จริงในปี 2023
เพราะ 90% ของบทความบน arXiv เขียนด้วย LaTeX ทำให้การแปลงยากมาก
โจทย์สำคัญคือจะเพิ่มการเข้าถึงได้อย่างไรโดยยังคงการแปลงที่รวดเร็วและเป็นอัตโนมัติ
ในฐานะผู้เขียนที่ใช้โครงสร้าง TeX ซับซ้อนอยู่บ่อย ๆ การนำระบบแปลงเป็น HTML เข้ามาทำให้ภาระงานเพิ่มขึ้นมาก
ความเร็วในการแปลงก็ช้า และไม่มีวิธีจำลองการทำงานในเครื่องตัวเอง
ถึงอย่างนั้นก็ยังคิดว่าเป็นความพยายามที่ดีเพื่อเพิ่มการเข้าถึง
คิดว่าน่าจะดีถ้าบทความมีให้ในรูปแบบ epub ด้วย ไม่แน่ใจว่ามีข้อยากทางเทคนิคหรือแค่ความต้องการยังไม่มากพอ
แต่ยังไม่เคยเห็นรีดเดอร์ที่อ่านสบายหรือแสดงผลสวยงามได้เท่า PDF และฟีเจอร์ annotation ก็ยังเข้ากันข้ามแพลตฟอร์มได้ไม่ดี
ให้ผู้วิจัยต้องมารับประกันคุณภาพส่วนนั้นด้วยคงไม่มีประสิทธิภาพนัก ดังนั้นถ้าต้องการก็ใช้ตัวแปลง HTML→epub เองได้
ปัญหาเรื่องการเข้าถึงงานวิจัยไม่ใช่เรื่องใหม่ แต่ตอนนี้คือช่วงเวลาที่เร่งด่วนที่สุด
การที่ arXiv ให้บริการบทความ HTML ควบคู่กับ PDF อาจเป็นการเปลี่ยนแปลงที่เร็วและส่งผลมากที่สุด
สิ่งที่ไม่พอใจที่สุดคือข้อจำกัดเรื่องการฝังวิดีโอในบทความ
ทำได้เพียงแนบเป็นสื่อประกอบหรือให้ลิงก์ภายนอกเท่านั้น
อยากให้สามารถฝังGIF หรือวิดีโอลงไปในเนื้อหาบทความได้โดยตรง
พอเห็นคำอธิบายว่า “90% เขียนด้วย LaTeX เลยแปลงยาก” ก็รู้สึกว่านี่เป็นงานที่ท้าทายมาก เป็นความพยายามที่ดี
ราวปี 1998 ตอนที่ผมรับหน้าที่จัดหน้าหนังสือพิมพ์โรงเรียน เคยเสนอให้เปลี่ยนจาก Corel Draw ไปใช้ HTML
สุดท้ายตอนนั้นก็ล้มเลิกการใช้ HTML ด้วยเหตุผลเดียวกับที่เห็นในคอมเมนต์ตอนนี้