ArXiv Paper Reader - โอเพนซอร์สที่ทำให้อ่านงานวิจัยจาก ArXiv ได้เป็นเสียง/วิดีโอ

xguru · 2024-03-20T10:16:01+09:00

โค้ดที่สรุปงานวิจัยจาก ArXiv ให้อ่านได้ง่าย แล้วใช้ GPT สร้างเป็นเสียง/วิดีโอ แปลงงานวิจัยเป็นวิดีโอสำหรับผู้ที่เรียนรู้ด้วยภาพ และเป็นเสียงสำหรับผู้ที่ชอบการฟัง ขั้นตอนการทำงาน ดาวน์โหลดซอร์สโค้ดของงานวิจัยผ่าน ArXiv ID ใช้ latex2html หรือ latexmlc แปลงโค้ด LaTeX เป็นหน้า HTML ดึงข้อความและสมการจากหน้า HTML โดยละเว้นตารางและรูปภาพ เป็นต้น เมื่อสร้างวิดีโอ จะจับคู่หน้าของ PDF ข้อความ และชังก์ข้อความที่ตรงกับบล็อกของหน้า แบ่งข้อความเป็นเซกชัน แล้วใช้ OpenAI GPT API เรียบเรียงประโยคใหม่ ทำให้ง่ายขึ้น และอธิบายเพิ่มเติม แบ่งข้อความที่ GPT สร้างออกเป็นชังก์ แล้วใช้ Google Text-to-Speech API แปลงเป็นเสียง แพ็กทุกส่วนที่จำเป็นและสร้างไฟล์ zip สำหรับการประมวลผลวิดีโอ ใช้ text-block map ที่คำนวณไว้ก่อนหน้าเพื่อสร้างวิดีโอด้วย ffmpeg

(github.com/imelnyk)

6 คะแนน โดย xguru 2024-03-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โค้ดที่สรุปงานวิจัยจาก ArXiv ให้อ่านได้ง่าย แล้วใช้ GPT สร้างเป็นเสียง/วิดีโอ
แปลงงานวิจัยเป็นวิดีโอสำหรับผู้ที่เรียนรู้ด้วยภาพ และเป็นเสียงสำหรับผู้ที่ชอบการฟัง
ขั้นตอนการทำงาน
- ดาวน์โหลดซอร์สโค้ดของงานวิจัยผ่าน ArXiv ID
- ใช้ latex2html หรือ latexmlc แปลงโค้ด LaTeX เป็นหน้า HTML
- ดึงข้อความและสมการจากหน้า HTML โดยละเว้นตารางและรูปภาพ เป็นต้น
- เมื่อสร้างวิดีโอ จะจับคู่หน้าของ PDF ข้อความ และชังก์ข้อความที่ตรงกับบล็อกของหน้า
- แบ่งข้อความเป็นเซกชัน แล้วใช้ OpenAI GPT API เรียบเรียงประโยคใหม่ ทำให้ง่ายขึ้น และอธิบายเพิ่มเติม
- แบ่งข้อความที่ GPT สร้างออกเป็นชังก์ แล้วใช้ Google Text-to-Speech API แปลงเป็นเสียง
- แพ็กทุกส่วนที่จำเป็นและสร้างไฟล์ zip สำหรับการประมวลผลวิดีโอ
- ใช้ text-block map ที่คำนวณไว้ก่อนหน้าเพื่อสร้างวิดีโอด้วย ffmpeg

1 ความคิดเห็น

xguru 2024-03-20

มีวิดีโอด้วยเหรอ? พอแปลกใจเลยเข้าไปดูใน YouTube แล้วก็พบว่าเป็นแค่การแคปหน้ากระดาษของบทความพร้อมเสียงพากย์ครับ
พอ OpenAI Sora เปิดตัวออกมา ก็รู้สึกว่าอาจจะสามารถสร้างวิดีโอที่ตีความตัวบทความเพิ่มเติมและอธิบายมันได้เลยก็เป็นได้

ช่อง YouTube ทางการ: https://www.youtube.com/@ArxivPapers

ArXiv Paper Reader - โอเพนซอร์สที่ทำให้อ่านงานวิจัยจาก ArXiv ได้เป็นเสียง/วิดีโอ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น