2 คะแนน โดย GN⁺ 2024-11-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Standard Intelligence กำลังวิจัยการเรียนรู้ข้ามโมดาลิตีที่ขยายขนาดได้ และได้เปิดซอร์ส hertz-dev ซึ่งเป็นโมเดลฐานแบบทรานส์ฟอร์เมอร์สำหรับออดิโอโดยเฉพาะ

  • hertz-dev มีพารามิเตอร์ 8.5 พันล้านตัว และถูกออกแบบมาเฉพาะสำหรับการสร้างแบบจำลองออดิโอ

  • hertz-codec

    • เป็นคอนโวลูชันออดิโอออโตเอนโคเดอร์ที่แปลงเสียงพูดโมโน 16kHz เป็น latent representation ที่ 8Hz
    • ที่บิตเรต 1kbps ให้ประสิทธิภาพดีกว่า Soundstream และ Encodec และมีสมรรถนะใกล้เคียงกับ DAC
    • มีพารามิเตอร์ในตัวเข้ารหัส 5 ล้านตัว และในตัวถอดรหัส 95 ล้านตัว
  • hertz-vae

    • เป็นทรานส์ฟอร์เมอร์ดีโคเดอร์ที่มีพารามิเตอร์ 1.8 พันล้านตัว ทำหน้าที่เป็น prior ที่เรียนรู้แล้วของออดิโอ VAE
    • ใช้ latent representation ที่สุ่มตัวอย่าง 8192 ค่าเพื่อทำนายเฟรมออดิโอที่ถูกเข้ารหัสถัดไป
  • hertz-dev

    • เป็นสแตกทรานส์ฟอร์เมอร์ที่มีพารามิเตอร์ 6.6 พันล้านตัว
    • ฝึกด้วยโทเค็น 5 แสนล้านโทเค็นเป็นเวลา 1 epoch โดยใช้การกำหนดค่าเริ่มต้นบางส่วนจากน้ำหนักของโมเดลภาษาแบบ pre-trained
    • โมเดลนี้เหมาะเป็นจุดเริ่มต้นสำหรับนักวิจัยในการนำไป fine-tune ให้เข้ากับงานที่หลากหลาย
    • บน RTX 4090 มี latency ตามทฤษฎี 65ms และ latency เฉลี่ยจริง 120ms
  • แนวโน้มในอนาคต

    • Hertz-dev เป็นโมเดลที่สะท้อนภาพอนาคตของปฏิสัมพันธ์ด้วยเสียงแบบเรียลไทม์ และเป็นโมเดลที่นักวิจัยสามารถ fine-tune และขยายต่อได้อย่างง่ายดาย
    • กำลังพัฒนา Hertz เวอร์ชันที่ใหญ่กว่า ซึ่งคาดว่าจะยกระดับความสามารถดิบของโมเดลและความสอดคล้องของผลลัพธ์ปลายทางอย่างมากผ่านการปรับจูนด้วย reinforcement learning
  • ตัวอย่างการสร้าง

    • มีตัวอย่างทั้งแบบช่องสัญญาณเดี่ยวและสองช่องสัญญาณ รวมถึงบทสนทนาแบบเรียลไทม์ระหว่างโมเดลกับมนุษย์ เพื่อแสดงความสามารถด้านการสร้างแบบจำลองออดิโอของ hertz-dev
  • เป้าหมายของ Standard Intelligence

    • มีเป้าหมายในการสร้างปัญญาประดิษฐ์ทั่วไป และปัจจุบันประกอบด้วยทีมงาน 4 คน
    • กำลังรับคนที่สนใจการสร้าง AGI เข้าร่วมทีม และยินดีให้ผู้ที่สนใจการลงทุนติดต่อมาได้

1 ความคิดเห็น

 
GN⁺ 2024-11-04
ความคิดเห็นจาก Hacker News
  • ผู้ที่ทำงานเกี่ยวกับโมเดลเสียงสงสัยว่าเสียงที่ออกมาจากระบบส่งผลทางสรีรวิทยาหรือไม่

    • เป็นโมเดลที่เหนือกว่าเอนจิน TTS โอเพนซอร์สที่มีอยู่มาก
    • น่าจะดีถ้าเพิ่มความสามารถแบบมัลติโหมดให้รองรับข้อความได้ด้วย
    • สามารถปรับจูนละเอียดให้เอาต์พุตอย่าง Piper เล่นด้วยน้ำเสียงที่เป็นธรรมชาติมากขึ้นได้
    • ถ้าเชื่อม text LLM ไปที่ Piper แล้วให้ Piper เชื่อมไปที่ Hertz-dev ก็น่าจะมีประโยชน์
  • แม้จะบอกว่า Hertz เป็นโมเดลแรก แต่ก็มีโมเดลคล้ายกันชื่อ Moshi

  • แนวทางขับขี่อัตโนมัติที่อิงวิชันล้วนของ Tesla ทำให้เทคโนโลยีเข้าถึงได้ง่ายขึ้นและขยายขนาดได้มากขึ้น

    • ทำให้สามารถเก็บชุดข้อมูลขนาดใหญ่และทำรอบการปรับปรุงซ้ำได้รวดเร็ว
    • เมื่อไปถึงขั้นที่สุกงอมแล้ว ก็อาจมีโอกาสนำข้อมูลจากเซนเซอร์เพิ่มเติมกลับมาผสานอีกครั้ง
  • กำลังสำรวจไอเดียเกี่ยวกับระบบปฏิสัมพันธ์ด้วยเสียง

    • ปัจจุบันปฏิสัมพันธ์ด้วยเสียงส่วนใหญ่จะแปลงเสียงเป็นข้อความก่อน แล้วค่อยแปลงกลับเป็นเสียงอีกครั้ง
    • หากพัฒนาระบบที่ตอบกลับเป็นเสียงได้โดยตรงโดยไม่ผ่านข้อความ ก็น่าจะสร้างคำตอบที่เป็นธรรมชาติและด้นสดได้มากขึ้น
    • สงสัยว่าโมเดลปฏิสัมพันธ์ด้วยเสียงนี้ทำตามกระบวนการมาตรฐานเสียง-ข้อความ-เสียง หรือกำลังสำรวจการประมวลผลแบบเสียง-สู่-เสียงอยู่
  • สงสัยว่าไลเซนส์ของน้ำหนักโมเดลคืออะไร

  • ตัวอย่างเสียงมักมีเสียงที่ไร้ความหมายปนอยู่ แต่ในเชิงอะคูสติกถือว่ายอดเยี่ยม

    • สำหรับ SD และ LLMs สามารถศึกษาการตอบสนองต่อการเปลี่ยนแปลงเล็กน้อยเพื่อใช้ดีบักได้
    • Hertz-dev ใช้เสียงเป็นอินพุต จึงแยกได้ยากว่าควรปรับโทเค็นตัวไหน
    • สำหรับการใช้งานแบบเรียลไทม์ การมานั่งลองปรับไปเรื่อย ๆ คงทำไม่ได้
    • สงสัยว่ามีวิธีศึกษาพฤติกรรมของ Hertz-dev อย่างเป็นระบบอย่างไร
  • กำลังสำรวจ VUI (Voice User Interface) และคิดว่าน่าจะมีประโยชน์

    • คิดว่า VUI คืออนาคตของการปฏิสัมพันธ์กับคอมพิวเตอร์
    • สามารถเพิ่มเด็กและผู้สูงอายุให้เป็นกลุ่มผู้ใช้ใหม่ได้
  • พารามิเตอร์ของโคเด็กทำให้นึกถึงโคเด็กเสียงทางทหารในปี 2010

    • ใช้เฟรม 120ms และเข้ารหัสเป็นเสียง 16KHz
    • ลิงก์ IEEE
  • เสียงพูดฟังดูบิดเบี้ยวเล็กน้อยและมีเสียงรบกวนพื้นหลัง

    • สงสัยว่าเป็นข้อจำกัดของโมเดล หรือเป็นปัญหาคุณภาพของข้อมูลฝึก
  • ลิงก์ที่เก็บโค้ด Hertz-dev