- โค้ดที่สรุปงานวิจัยจาก ArXiv ให้อ่านได้ง่าย แล้วใช้ GPT สร้างเป็นเสียง/วิดีโอ
- แปลงงานวิจัยเป็นวิดีโอสำหรับผู้ที่เรียนรู้ด้วยภาพ และเป็นเสียงสำหรับผู้ที่ชอบการฟัง
- ขั้นตอนการทำงาน
- ดาวน์โหลดซอร์สโค้ดของงานวิจัยผ่าน ArXiv ID
- ใช้
latex2html หรือ latexmlc แปลงโค้ด LaTeX เป็นหน้า HTML
- ดึงข้อความและสมการจากหน้า HTML โดยละเว้นตารางและรูปภาพ เป็นต้น
- เมื่อสร้างวิดีโอ จะจับคู่หน้าของ PDF ข้อความ และชังก์ข้อความที่ตรงกับบล็อกของหน้า
- แบ่งข้อความเป็นเซกชัน แล้วใช้ OpenAI GPT API เรียบเรียงประโยคใหม่ ทำให้ง่ายขึ้น และอธิบายเพิ่มเติม
- แบ่งข้อความที่ GPT สร้างออกเป็นชังก์ แล้วใช้ Google Text-to-Speech API แปลงเป็นเสียง
- แพ็กทุกส่วนที่จำเป็นและสร้างไฟล์ zip สำหรับการประมวลผลวิดีโอ
- ใช้ text-block map ที่คำนวณไว้ก่อนหน้าเพื่อสร้างวิดีโอด้วย
ffmpeg
1 ความคิดเห็น
มีวิดีโอด้วยเหรอ? พอแปลกใจเลยเข้าไปดูใน YouTube แล้วก็พบว่าเป็นแค่การแคปหน้ากระดาษของบทความพร้อมเสียงพากย์ครับ
พอ OpenAI Sora เปิดตัวออกมา ก็รู้สึกว่าอาจจะสามารถสร้างวิดีโอที่ตีความตัวบทความเพิ่มเติมและอธิบายมันได้เลยก็เป็นได้
ช่อง YouTube ทางการ: https://www.youtube.com/@ArxivPapers