1 คะแนน โดย GN⁺ 2024-10-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ซีรีส์บทสอนสำหรับสร้างเวิร์กโฟลว์ที่แปลง PDF เป็นพอดแคสต์
  • สามารถเรียนรู้การทดลองโดยใช้โมเดลแปลงข้อความเป็นเสียงได้ด้วย
  • ทุกอย่างมีอธิบายไว้ในแต่ละโน้ตบุ๊ก จึงไม่จำเป็นต้องมีความรู้ล่วงหน้าเกี่ยวกับ LLM, พรอมป์ต์, หรือโมเดลเสียง

ขั้นตอนแบบทีละลำดับ

  • ขั้นตอนที่ 1: การประมวลผล PDF ล่วงหน้า
    ใช้โมเดล Llama-3.2-1B-Instruct เพื่อประมวลผล PDF ล่วงหน้าและบันทึกเป็นไฟล์ .txt
  • ขั้นตอนที่ 2: การเขียนทรานสคริปต์
    ใช้โมเดล Llama-3.1-70B-Instruct เพื่อเขียนทรานสคริปต์พอดแคสต์จากข้อความ
  • ขั้นตอนที่ 3: การเขียนใหม่ให้ดราม่ามากขึ้น
    ใช้โมเดล Llama-3.1-8B-Instruct เพื่อทำให้ทรานสคริปต์มีความดราม่ามากขึ้น
  • ขั้นตอนที่ 4: เวิร์กโฟลว์แปลงข้อความเป็นเสียง
    ใช้โมเดล parler-tts/parler-tts-mini-v1 และ bark/suno เพื่อสร้างพอดแคสต์แบบบทสนทนา

ขั้นตอนอย่างละเอียดสำหรับการรันโน้ตบุ๊ก

  • ข้อกำหนด
    ต้องมีเซิร์ฟเวอร์ GPU หรือผู้ให้บริการ API เพื่อใช้งานโมเดล Llama ขนาด 70B, 8B และ 1B
  • โน้ตบุ๊ก 1
    ประมวลผล PDF และแปลงเป็นไฟล์ .txt โดยใช้โมเดล Feather light
  • โน้ตบุ๊ก 2
    รับผลลัพธ์จากโน้ตบุ๊ก 1 แล้วแปลงเป็นทรานสคริปต์พอดแคสต์อย่างสร้างสรรค์
  • โน้ตบุ๊ก 3
    รับทรานสคริปต์ก่อนหน้าแล้วเพิ่มองค์ประกอบเชิงดราม่าและการเว้นจังหวะในบทสนทนา
  • โน้ตบุ๊ก 4
    แปลงผลลัพธ์จากโน้ตบุ๊กสุดท้ายเป็นพอดแคสต์

แนวทางปรับปรุง/ไอเดียเพิ่มเติมในอนาคต

  • การทดลองโมเดลเสียง: ยังต้องปรับปรุงโมเดล TTS เพื่อให้เสียงเป็นธรรมชาติมากขึ้น
  • การโต้วาที LLM ปะทะ LLM: ให้เอเจนต์สองตัวอภิปรายหัวข้อเพื่อเขียนโครงร่างพอดแคสต์
  • ทดสอบการเขียนทรานสคริปต์ด้วยโมเดล 405B
  • เขียนพรอมป์ต์ให้ดีขึ้น
  • รองรับความสามารถในการรวบรวมเว็บไซต์ ไฟล์เสียง ลิงก์ YouTube เป็นต้น

สรุปโดย GN⁺

  • NotebookLlama เป็นโปรเจกต์โอเพนซอร์สที่แปลง PDF เป็นพอดแคสต์ โดยใช้ LLM และโมเดล TTS หลากหลายแบบเพื่อสร้างคอนเทนต์เชิงสร้างสรรค์
  • โปรเจกต์นี้แสดงให้เห็นถึงความเป็นไปได้ในการสร้างเสียงที่เป็นธรรมชาติมากขึ้นผ่านการทดลองกับ LLM และโมเดล TTS
  • โปรเจกต์ที่มีความสามารถคล้ายกันซึ่งแนะนำ ได้แก่ Google TTS API และ Amazon Polly

1 ความคิดเห็น

 
GN⁺ 2024-10-28
ความคิดเห็นจาก Hacker News
  • ยิ่งฟัง "เอพิโซด" ของ NotebookLM มากเท่าไร ก็ยิ่งมั่นใจว่า Google ได้ฝึกโมเดล "การถกเถียงแบบพอดแคสต์" ที่มีผู้พูดสองคน โดยอาศัยมัลติโมดัลแบ็กโบนที่มีอยู่เดิม

    • ลักษณะที่ผู้พูดสองคนพูดแทรกกันและสนทนาโต้ตอบกันเหมือนมนุษย์นั้นเป็นธรรมชาติมาก
    • มีความเป็นไปได้ว่าอาจมีการไฟน์จูนโมเดลจากพอดแคสต์จริงและบทถอดเสียงของมัน
    • ยกตัวอย่างเอพิโซดของ "The Daily" และคาดเดาว่าโมเดลภาษาอาจเขียนบทความสมมติที่สรุปเนื้อหาพอดแคสต์ จากนั้นป้อนบทความนี้ให้โมเดลผู้พูดสองคน แล้วตรวจสอบว่าบทถอดเสียงที่ได้สอดคล้องกับบทความต้นทางมากน้อยเพียงใด
  • NotebookLM สร้างความประทับใจได้มากแม้กับคนที่ไม่คุ้นเคยกับเทคโนโลยี

    • ทั้งพ่อแม่วัย 70 กว่าและเด็กอายุ 8 ขวบก็ยังทึ่งกับเทคโนโลยีนี้และใช้งานต่อเนื่องอยู่
  • คิดว่าการเลือกเอนจิน TTS ดูแปลก

    • เมื่อเทียบกับระบบ TTS แบบโอเพนรุ่นใหม่แล้ว มองว่า XTTSv2 หรือ F5-TTS รุ่นใหม่ น่าจะเป็นตัวเลือกที่ดีกว่า
  • มองว่าตัวอย่างเอาต์พุตมีน้อยเกินไป

    • เน้นย้ำว่าทีม NotebookLM สามารถสร้างสินค้ายอดฮิตขึ้นมาได้โดยใช้โมเดลพื้นฐานที่มีอยู่แล้ว
  • หวังว่าจะมีการเปิดตัวในภาษาอื่นและสำเนียงที่หลากหลาย โดยเฉพาะสำเนียงเอเชียตะวันออกเฉียงใต้

  • คิดว่า NotebookLM อาจไม่ได้เป็นโอเพนซอร์ส แต่เป็นเพียงการทดลองไม่กี่อย่างใน iPython notebook

    • ความสามารถในระดับ LLM อาจไม่ได้ใหม่เป็นพิเศษ แต่การแพ็กเป็นผลิตภัณฑ์นั้นน่าสนใจ
    • ส่วน "พอดแคสต์" มองว่าเป็นเพียงบทนำ/ภาพรวมของคอร์ปัสขนาดใหญ่ และการสนทนากับบอตเพื่อดึงแหล่งอ้างอิงที่ถูกอ้างถึงน่าจะมีประโยชน์มากกว่า
  • แสดงให้เห็นว่าการทำต้นแบบด้วย LLM รวดเร็วมาก

    • แนะนำให้คนที่ยังไม่เคยลองใช้ API หาโอกาสลองดู
  • ตั้งคำถามว่า NotebookLM สร้างได้แค่พอดแคสต์หรือไม่

    • มองว่าพอดแคสต์สนุกก็จริง แต่เป็นฟีเจอร์ที่ค่อนข้างขี้เล่น
  • คิดว่าถ้ารันแบบโลคัลบนโทรศัพท์มือถือได้ก็คงดี

    • ยกตัวอย่างว่า หากแปลงเอกสารงานเป็นพอดแคสต์เพื่อฟังระหว่างขับรถได้ ก็จะช่วยเพิ่มผลิตภาพได้มาก
  • ประเมินว่าตัวอย่างยังค่อนข้างหยาบ

  • กล่าวว่าอยากฟังเอาต์พุตจากคนที่ได้ลองใช้ NotebookLM แล้ว