6 คะแนน โดย xguru 2024-03-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โค้ดที่สรุปงานวิจัยจาก ArXiv ให้อ่านได้ง่าย แล้วใช้ GPT สร้างเป็นเสียง/วิดีโอ
  • แปลงงานวิจัยเป็นวิดีโอสำหรับผู้ที่เรียนรู้ด้วยภาพ และเป็นเสียงสำหรับผู้ที่ชอบการฟัง
  • ขั้นตอนการทำงาน
    • ดาวน์โหลดซอร์สโค้ดของงานวิจัยผ่าน ArXiv ID
    • ใช้ latex2html หรือ latexmlc แปลงโค้ด LaTeX เป็นหน้า HTML
    • ดึงข้อความและสมการจากหน้า HTML โดยละเว้นตารางและรูปภาพ เป็นต้น
    • เมื่อสร้างวิดีโอ จะจับคู่หน้าของ PDF ข้อความ และชังก์ข้อความที่ตรงกับบล็อกของหน้า
    • แบ่งข้อความเป็นเซกชัน แล้วใช้ OpenAI GPT API เรียบเรียงประโยคใหม่ ทำให้ง่ายขึ้น และอธิบายเพิ่มเติม
    • แบ่งข้อความที่ GPT สร้างออกเป็นชังก์ แล้วใช้ Google Text-to-Speech API แปลงเป็นเสียง
    • แพ็กทุกส่วนที่จำเป็นและสร้างไฟล์ zip สำหรับการประมวลผลวิดีโอ
    • ใช้ text-block map ที่คำนวณไว้ก่อนหน้าเพื่อสร้างวิดีโอด้วย ffmpeg

1 ความคิดเห็น

 
xguru 2024-03-20

มีวิดีโอด้วยเหรอ? พอแปลกใจเลยเข้าไปดูใน YouTube แล้วก็พบว่าเป็นแค่การแคปหน้ากระดาษของบทความพร้อมเสียงพากย์ครับ
พอ OpenAI Sora เปิดตัวออกมา ก็รู้สึกว่าอาจจะสามารถสร้างวิดีโอที่ตีความตัวบทความเพิ่มเติมและอธิบายมันได้เลยก็เป็นได้

ช่อง YouTube ทางการ: https://www.youtube.com/@ArxivPapers