- ซีรีส์บทสอนสำหรับสร้างเวิร์กโฟลว์ที่แปลง PDF เป็นพอดแคสต์
- สามารถเรียนรู้การทดลองโดยใช้โมเดลแปลงข้อความเป็นเสียงได้ด้วย
- ทุกอย่างมีอธิบายไว้ในแต่ละโน้ตบุ๊ก จึงไม่จำเป็นต้องมีความรู้ล่วงหน้าเกี่ยวกับ LLM, พรอมป์ต์, หรือโมเดลเสียง
ขั้นตอนแบบทีละลำดับ
- ขั้นตอนที่ 1: การประมวลผล PDF ล่วงหน้า
ใช้โมเดล Llama-3.2-1B-Instruct เพื่อประมวลผล PDF ล่วงหน้าและบันทึกเป็นไฟล์ .txt
- ขั้นตอนที่ 2: การเขียนทรานสคริปต์
ใช้โมเดล Llama-3.1-70B-Instruct เพื่อเขียนทรานสคริปต์พอดแคสต์จากข้อความ
- ขั้นตอนที่ 3: การเขียนใหม่ให้ดราม่ามากขึ้น
ใช้โมเดล Llama-3.1-8B-Instruct เพื่อทำให้ทรานสคริปต์มีความดราม่ามากขึ้น
- ขั้นตอนที่ 4: เวิร์กโฟลว์แปลงข้อความเป็นเสียง
ใช้โมเดล parler-tts/parler-tts-mini-v1 และ bark/suno เพื่อสร้างพอดแคสต์แบบบทสนทนา
ขั้นตอนอย่างละเอียดสำหรับการรันโน้ตบุ๊ก
- ข้อกำหนด
ต้องมีเซิร์ฟเวอร์ GPU หรือผู้ให้บริการ API เพื่อใช้งานโมเดล Llama ขนาด 70B, 8B และ 1B
- โน้ตบุ๊ก 1
ประมวลผล PDF และแปลงเป็นไฟล์ .txt โดยใช้โมเดล Feather light
- โน้ตบุ๊ก 2
รับผลลัพธ์จากโน้ตบุ๊ก 1 แล้วแปลงเป็นทรานสคริปต์พอดแคสต์อย่างสร้างสรรค์
- โน้ตบุ๊ก 3
รับทรานสคริปต์ก่อนหน้าแล้วเพิ่มองค์ประกอบเชิงดราม่าและการเว้นจังหวะในบทสนทนา
- โน้ตบุ๊ก 4
แปลงผลลัพธ์จากโน้ตบุ๊กสุดท้ายเป็นพอดแคสต์
แนวทางปรับปรุง/ไอเดียเพิ่มเติมในอนาคต
- การทดลองโมเดลเสียง: ยังต้องปรับปรุงโมเดล TTS เพื่อให้เสียงเป็นธรรมชาติมากขึ้น
- การโต้วาที LLM ปะทะ LLM: ให้เอเจนต์สองตัวอภิปรายหัวข้อเพื่อเขียนโครงร่างพอดแคสต์
- ทดสอบการเขียนทรานสคริปต์ด้วยโมเดล 405B
- เขียนพรอมป์ต์ให้ดีขึ้น
- รองรับความสามารถในการรวบรวมเว็บไซต์ ไฟล์เสียง ลิงก์ YouTube เป็นต้น
สรุปโดย GN⁺
- NotebookLlama เป็นโปรเจกต์โอเพนซอร์สที่แปลง PDF เป็นพอดแคสต์ โดยใช้ LLM และโมเดล TTS หลากหลายแบบเพื่อสร้างคอนเทนต์เชิงสร้างสรรค์
- โปรเจกต์นี้แสดงให้เห็นถึงความเป็นไปได้ในการสร้างเสียงที่เป็นธรรมชาติมากขึ้นผ่านการทดลองกับ LLM และโมเดล TTS
- โปรเจกต์ที่มีความสามารถคล้ายกันซึ่งแนะนำ ได้แก่ Google TTS API และ Amazon Polly
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ยิ่งฟัง "เอพิโซด" ของ NotebookLM มากเท่าไร ก็ยิ่งมั่นใจว่า Google ได้ฝึกโมเดล "การถกเถียงแบบพอดแคสต์" ที่มีผู้พูดสองคน โดยอาศัยมัลติโมดัลแบ็กโบนที่มีอยู่เดิม
NotebookLM สร้างความประทับใจได้มากแม้กับคนที่ไม่คุ้นเคยกับเทคโนโลยี
คิดว่าการเลือกเอนจิน TTS ดูแปลก
มองว่าตัวอย่างเอาต์พุตมีน้อยเกินไป
หวังว่าจะมีการเปิดตัวในภาษาอื่นและสำเนียงที่หลากหลาย โดยเฉพาะสำเนียงเอเชียตะวันออกเฉียงใต้
คิดว่า NotebookLM อาจไม่ได้เป็นโอเพนซอร์ส แต่เป็นเพียงการทดลองไม่กี่อย่างใน iPython notebook
แสดงให้เห็นว่าการทำต้นแบบด้วย LLM รวดเร็วมาก
ตั้งคำถามว่า NotebookLM สร้างได้แค่พอดแคสต์หรือไม่
คิดว่าถ้ารันแบบโลคัลบนโทรศัพท์มือถือได้ก็คงดี
ประเมินว่าตัวอย่างยังค่อนข้างหยาบ
กล่าวว่าอยากฟังเอาต์พุตจากคนที่ได้ลองใช้ NotebookLM แล้ว