HTML ในฐานะแฟอร์แมตที่เข้าถึงได้สำหรับบทความวิจัย (2023)

(info.arxiv.org)

2 คะแนน โดย GN⁺ 2025-12-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

arXiv เริ่มจัดให้มี บทความในรูปแบบ HTML ควบคู่กับ PDF เพื่อยกระดับการเข้าถึงงานวิจัย
จากบทความมากกว่า 2 ล้านชิ้น บางส่วนยัง ไม่สามารถให้เวอร์ชัน HTML ได้เนื่องจากข้อจำกัดในการแปลงอัตโนมัติ และคุณภาพการแปลงจะได้รับการปรับปรุงต่อเนื่อง
HTML มีความได้เปรียบด้านการเข้าถึงมากขึ้นเพราะมีความเข้ากันได้สูงกับ โปรแกรมอ่านหน้าจอ การแปลงเป็นเสียง และอุปกรณ์มือถือ เป็นต้น
ชุมชนสามารถมีส่วนร่วมในโครงการนี้ได้โดยตรงผ่านการ รายงานข้อผิดพลาดและการพัฒนาคุณภาพการแปลง LaTeX
ความพยายามนี้แสดงถึงแนวทางระยะยาวของ arXiv ในการขยาย ความครอบคลุมและการเข้าถึงงานวิจัยทางวิทยาศาสตร์

ภาพรวมการให้บริการบทความในรูปแบบ HTML

arXiv กำลังนำ รูปแบบบทความ HTML มาด้วย PDF เดิมเพื่อเพิ่มการเข้าถึงงานวิจัย
- ตามฟีดแบ็กจากชุมชน การมี HTML ถูกมองว่าเป็นการดำเนินการที่สร้างผลกระทบมากที่สุดในระยะสั้น
เวอร์ชัน HTML จะถูกแสดง ใต้ลิงก์ดาวน์โหลด PDF ของหน้าบทคัดย่อบทความ
- ผู้เขียนสามารถดูตัวอย่าง HTML ของบทความตัวเองได้ในขั้นตอนการส่ง
arXiv กำลังเพิ่ม HTML อย่างค่อยเป็นค่อยไปให้กับ งานวิจัยมากกว่า 2 ล้านชิ้น และบางบทความยังไม่สามารถให้ HTML ได้เพราะการแปลงล้มเหลว
การเปิดตัว HTML แบบเบตาถือเป็นจุดเริ่มต้น โดยการปรับปรุง คุณภาพการแปลง LaTeX และการรวบรวมฟีดแบ็ก กำลังดำเนินต่อไป

เหตุผลที่เรียก HTML ว่า “ทดลอง”

ในการส่งของ arXiv มากกว่า 90% อยู่ในรูปแบบ TeX (ส่วนใหญ่คือ LaTeX) ซึ่งทำให้การแปลงเป็น HTML อย่างแม่นยำยังมีความท้าทายทางเทคนิค
- LaTeX มีความยืดหยุ่นสูง และการใช้งานแตกต่างกันไปในแต่ละผู้เขียน
- HTML มีความเข้ากันได้ดีเยี่ยมกับ โปรแกรมอ่านหน้าจอ การแปลงเป็นเสียง เครื่องขยายหน้าจอ และอุปกรณ์มือถือ
โฆษณา
การแปลงต้องคงไว้ซึ่ง การทำงานอัตโนมัติและความเร็ว จึงทำให้การเรนเดอร์ให้สมบูรณ์ได้ยาก
arXiv เปิดตัว HTML ในลักษณะ “ทดลอง” ด้วยเหตุผลสองประการ
1. ต้องมีบทความที่เข้าถึงได้ทันที — นักวิจัยที่มีความต้องการด้านการเข้าถึงได้เรียกร้องให้ปล่อยใช้โดยไม่ชะลอ
2. ต้องการความช่วยเหลือจากชุมชน — เพื่อรับรายงานข้อผิดพลาดการแปลงและติดตามปัญหาจากแพ็กเกจ LaTeX เฉพาะ

ข้อผิดพลาดที่อาจเกิดขึ้นในบทความ HTML

บทความ HTML ยังเป็นงานที่อยู่ระหว่างการปรับปรุง อาจเกิดข้อผิดพลาดการแปลงหรือปัญหาการเรนเดอร์ได้
arXiv แชร์ข้อมูลสาเหตุของข้อผิดพลาดและวิธีที่ผู้เขียนสามารถลดปัญหาเหล่านี้ได้
รายละเอียดเพิ่มเติมสามารถตรวจสอบได้ในหน้าที่เกี่ยวข้องแยกต่างหาก

วิธีมีส่วนร่วมของชุมชน

1) อ่านบทความ HTML และรายงานปัญหา
โฆษณา
- เข้าไปที่หน้าบทคัดย่อของบทความที่สนใจแล้วคลิกลิงก์ HTML เพื่ออ่าน
- การรายงานปัญหาทำได้ผ่าน ปุ่ม Open Issue, เลือกข้อความแล้วรายงาน หรือทางลัด Ctrl+?
- ผู้ใช้โปรแกรมอ่านหน้าจอสามารถสลับปุ่มรายงานการเข้าถึงตามย่อหน้าได้ด้วย Alt+y
- ขออย่าเพียงรายงานเฉพาะเพราะ HTML ไม่ได้แสดงเหมือน PDF
- ใน HTML จะให้ความสำคัญกับ ความสามารถใช้งานมาก่อนรูปลักษณ์ ส่วนความต่างของการเว้นบรรทัดและช่องไฟคือการออกแบบที่ตั้งใจ
- HTML ดีกว่า PDF ในด้าน ความเข้ากันได้กับเทคโนโลยีช่วยเหลือและการปรับตัวกับอุปกรณ์
2) สนับสนุนการปรับปรุงการแปลง LaTeX
- ผู้เขียนสามารถยกระดับคุณภาพการแปลงได้โดยอ้างอิง คู่มือแนวทางปฏิบัติที่ดีที่สุดสำหรับ LaTeX markup ของ arXiv
- นักพัฒนาสามารถมีส่วนร่วมในการปรับปรุงการแปลงผ่าน รายชื่อประเด็นของโครงการ LaTeXML
- สมาคมวิชาการหรือสำนักพิมพ์สามารถช่วยเพิ่มการเข้าถึงได้โดยตรวจสอบไฟล์ .cls ที่ใช้แพ็กเกจที่ยังไม่รองรับ

ขอบคุณผู้มีส่วนร่วม

ในโครงการโดยรวม คำแนะนำและความเชี่ยวชาญของนักวิทยาศาสตร์ที่มีความบกพร่องทางร่างกาย มีส่วนสำคัญอย่างยิ่ง
การสร้างฟีเจอร์บทความ HTML เป็นไปได้เพราะความร่วมมือระหว่าง LaTeX Project กับทีม LaTeXML ของ NIST
เราขอขอบคุณอย่างสูงต่อ ความรู้ ความชำนาญ และความมุ่งมั่นต่อการเข้าถึงได้ ของทั้งสองทีม

1 ความคิดเห็น

GN⁺ 2025-12-08

ความเห็นจาก Hacker News

ในฐานะนักพัฒนา arXiv HTML Papers ขออัปเดตสั้น ๆ
ทราบดีว่าตอนนี้ยังมีปัญหาด้านคุณภาพและความครอบคลุมของการเรนเดอร์บทความอยู่มาก หากพบปัญหาเหล่านี้ ขอให้ช่วยรายงานที่หน้า GitHub Issues
คอขวดใหญ่ที่สุดคือเวลาสำหรับการพัฒนา และหัวใจสำคัญของการปรับปรุงฝั่ง LaTeX ก็ยังคงเป็น LaTeXML
ผมชอบอ่านบทความบน arXiv ในรูปแบบ HTML มากกว่า PDF อย่างมาก
สามารถใช้ส่วนขยายของเบราว์เซอร์ได้โดยตรง ทำให้แปลภาษา เขียนโน้ต ส่งเข้า LLM และทำงานอื่น ๆ ได้ง่าย
ตอนนี้ arXiv มีทั้งบริการ HTML หลัก (https://arxiv.org/html/xxxx.xxxxx) และบริการทางเลือก (https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)
แต่บริการหลักมีปัญหาเรื่องความครอบคลุมค่อนข้างหนัก เช่น บทความนี้ ใช้งานไม่ได้ พอสลับไปใช้บริการทางเลือกก็อาจแก้ได้ แต่ก็มีบางกรณีที่ล้มเหลวทั้งคู่ (ตัวอย่าง)
ถ้า Unicode Consortium ให้ความสำคัญกับการรองรับสัญลักษณ์คณิตศาสตร์มากกว่า อีโมจิ เราอาจหลุดพ้นจากโครงสร้างที่ยึด (LA)TeX/PDF เป็นศูนย์กลางได้
OpenType และ TrueType รองรับการเรนเดอร์ที่ซับซ้อนได้อยู่แล้ว และยังมี font fallback ได้ด้วย
ปัญหาไม่ใช่ข้อจำกัดทางเทคนิค แต่เป็นการตัดสินใจเชิงนโยบายที่ว่า “ไม่รวมอยู่ในลำดับชั้นของสัญลักษณ์”
ที่น่าสนใจคือ Gemini 3 Pro จะบังคับแสดงสมการเป็น LaTeX ไม่ว่าจะตั้งค่าอย่างไร ผมแชร์ผลการทดลองไว้ที่นี่
- ต่อให้จัดการตัวยก·ตัวห้อยได้ดีแค่ไหน ก็ยังไม่สามารถแสดงรูปแบบสมการพื้นฐานอย่างเศษส่วนหรือวงเล็บที่ปรับขนาดได้
  เพราะ Unicode โดยแก่นแท้แล้วเป็นระบบตัวอักษร ไม่ใช่ระบบจัดเลย์เอาต์
- สมการคณิตศาสตร์ซับซ้อนกว่าอีโมจิมาก ผมคิดว่าเปรียบเทียบกันตรง ๆ ได้ยาก
- น่าแปลกที่ดูเหมือนจะมีปัญหาแบบนั้นเฉพาะ Gemini 3 ส่วน LLM ส่วนใหญ่น่าจะยึด LaTeX เป็นศูนย์กลางอยู่แล้ว ดังนั้นผลลัพธ์แบบนี้กลับดูเป็นธรรมชาติในฐานะมาตรฐาน
- ที่จริงแล้วคำว่า “ต้องใช้ LaTeX เพราะมีคณิตศาสตร์” เป็นเพียงข้ออ้างที่ใช้กันมานาน
  บทความแบบ HTML ก็เป็นไปได้สบาย แต่เหล่านักวิจัยยังคงยึดติดกับเลย์เอาต์สองคอลัมน์แบบดั้งเดิมและฟอนต์ serif
  ปัญหาคือวัฒนธรรมที่ให้ความสำคัญกับการ “ดูเหมือนบทความวิชาการจริง” มากกว่าการเข้าถึงบนมือถือหรือความอ่านง่าย
- ขอนำเสนอแนวทางแบบสองขั้น
  ขั้นแรกให้ตั้งคำถาม แล้วขั้นที่สองใช้โมเดลขนาดเล็กแปลงสัญลักษณ์ LaTeX เป็นสมการยูนิโค้ด
บทความแบบ HTML มีให้ใช้มาหลายปีแล้ว
ยืนยันได้จากบล็อกทางการ ว่าถูกนำมาใช้จริงในปี 2023
- ทำไมถึงเป็น HTML แบบ “Experimental”?
  เพราะ 90% ของบทความบน arXiv เขียนด้วย LaTeX ทำให้การแปลงยากมาก
  โจทย์สำคัญคือจะเพิ่มการเข้าถึงได้อย่างไรโดยยังคงการแปลงที่รวดเร็วและเป็นอัตโนมัติ
- มีเอกสารที่เกี่ยวข้องอยู่ในหน้าเอกสาร GitHub และมีการพูดถึงว่าต้องใช้แท็กปี 2023
ในฐานะผู้เขียนที่ใช้โครงสร้าง TeX ซับซ้อนอยู่บ่อย ๆ การนำระบบแปลงเป็น HTML เข้ามาทำให้ภาระงานเพิ่มขึ้นมาก
ความเร็วในการแปลงก็ช้า และไม่มีวิธีจำลองการทำงานในเครื่องตัวเอง
ถึงอย่างนั้นก็ยังคิดว่าเป็นความพยายามที่ดีเพื่อเพิ่มการเข้าถึง
- Docker image ของ dginev มีสภาพแวดล้อมเกือบเหมือนกับของ arXiv และสามารถรันในเครื่องได้
คิดว่าน่าจะดีถ้าบทความมีให้ในรูปแบบ epub ด้วย ไม่แน่ใจว่ามีข้อยากทางเทคนิคหรือแค่ความต้องการยังไม่มากพอ
- epub นั้นจริง ๆ แล้วแทบจะเป็นHTML-based
  แต่ยังไม่เคยเห็นรีดเดอร์ที่อ่านสบายหรือแสดงผลสวยงามได้เท่า PDF และฟีเจอร์ annotation ก็ยังเข้ากันข้ามแพลตฟอร์มได้ไม่ดี
- epub ก็เป็นผลลัพธ์จากการจัด HTML/CSS ให้เรียบร้อยดีนั่นเอง
  ให้ผู้วิจัยต้องมารับประกันคุณภาพส่วนนั้นด้วยคงไม่มีประสิทธิภาพนัก ดังนั้นถ้าต้องการก็ใช้ตัวแปลง HTML→epub เองได้
- ยังมีคำถามด้วยว่า “ทำไมต้อง epub?” เพราะสุดท้ายมันก็คือ HTML อยู่ดี
ปัญหาเรื่องการเข้าถึงงานวิจัยไม่ใช่เรื่องใหม่ แต่ตอนนี้คือช่วงเวลาที่เร่งด่วนที่สุด
การที่ arXiv ให้บริการบทความ HTML ควบคู่กับ PDF อาจเป็นการเปลี่ยนแปลงที่เร็วและส่งผลมากที่สุด
- ผมรู้สึกขอบคุณที่ได้เห็น preprint ของตัวเองในรูปแบบ HTML และก็อยากรู้ด้วยว่าชุมชนจะมีส่วนร่วมได้อย่างไร
สิ่งที่ไม่พอใจที่สุดคือข้อจำกัดเรื่องการฝังวิดีโอในบทความ
ทำได้เพียงแนบเป็นสื่อประกอบหรือให้ลิงก์ภายนอกเท่านั้น
อยากให้สามารถฝังGIF หรือวิดีโอลงไปในเนื้อหาบทความได้โดยตรง
พอเห็นคำอธิบายว่า “90% เขียนด้วย LaTeX เลยแปลงยาก” ก็รู้สึกว่านี่เป็นงานที่ท้าทายมาก เป็นความพยายามที่ดี
ราวปี 1998 ตอนที่ผมรับหน้าที่จัดหน้าหนังสือพิมพ์โรงเรียน เคยเสนอให้เปลี่ยนจาก Corel Draw ไปใช้ HTML
สุดท้ายตอนนั้นก็ล้มเลิกการใช้ HTML ด้วยเหตุผลเดียวกับที่เห็นในคอมเมนต์ตอนนี้

HTML ในฐานะแฟอร์แมตที่เข้าถึงได้สำหรับบทความวิจัย (2023)

ภาพรวมการให้บริการบทความในรูปแบบ HTML

เหตุผลที่เรียก HTML ว่า “ทดลอง”

ข้อผิดพลาดที่อาจเกิดขึ้นในบทความ HTML

วิธีมีส่วนร่วมของชุมชน

ขอบคุณผู้มีส่วนร่วม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News