-
Standard Intelligence กำลังวิจัยการเรียนรู้ข้ามโมดาลิตีที่ขยายขนาดได้ และได้เปิดซอร์ส
hertz-devซึ่งเป็นโมเดลฐานแบบทรานส์ฟอร์เมอร์สำหรับออดิโอโดยเฉพาะ -
hertz-devมีพารามิเตอร์ 8.5 พันล้านตัว และถูกออกแบบมาเฉพาะสำหรับการสร้างแบบจำลองออดิโอ -
hertz-codec
- เป็นคอนโวลูชันออดิโอออโตเอนโคเดอร์ที่แปลงเสียงพูดโมโน 16kHz เป็น latent representation ที่ 8Hz
- ที่บิตเรต 1kbps ให้ประสิทธิภาพดีกว่า Soundstream และ Encodec และมีสมรรถนะใกล้เคียงกับ DAC
- มีพารามิเตอร์ในตัวเข้ารหัส 5 ล้านตัว และในตัวถอดรหัส 95 ล้านตัว
-
hertz-vae
- เป็นทรานส์ฟอร์เมอร์ดีโคเดอร์ที่มีพารามิเตอร์ 1.8 พันล้านตัว ทำหน้าที่เป็น prior ที่เรียนรู้แล้วของออดิโอ VAE
- ใช้ latent representation ที่สุ่มตัวอย่าง 8192 ค่าเพื่อทำนายเฟรมออดิโอที่ถูกเข้ารหัสถัดไป
-
hertz-dev
- เป็นสแตกทรานส์ฟอร์เมอร์ที่มีพารามิเตอร์ 6.6 พันล้านตัว
- ฝึกด้วยโทเค็น 5 แสนล้านโทเค็นเป็นเวลา 1 epoch โดยใช้การกำหนดค่าเริ่มต้นบางส่วนจากน้ำหนักของโมเดลภาษาแบบ pre-trained
- โมเดลนี้เหมาะเป็นจุดเริ่มต้นสำหรับนักวิจัยในการนำไป fine-tune ให้เข้ากับงานที่หลากหลาย
- บน RTX 4090 มี latency ตามทฤษฎี 65ms และ latency เฉลี่ยจริง 120ms
-
แนวโน้มในอนาคต
- Hertz-dev เป็นโมเดลที่สะท้อนภาพอนาคตของปฏิสัมพันธ์ด้วยเสียงแบบเรียลไทม์ และเป็นโมเดลที่นักวิจัยสามารถ fine-tune และขยายต่อได้อย่างง่ายดาย
- กำลังพัฒนา Hertz เวอร์ชันที่ใหญ่กว่า ซึ่งคาดว่าจะยกระดับความสามารถดิบของโมเดลและความสอดคล้องของผลลัพธ์ปลายทางอย่างมากผ่านการปรับจูนด้วย reinforcement learning
-
ตัวอย่างการสร้าง
- มีตัวอย่างทั้งแบบช่องสัญญาณเดี่ยวและสองช่องสัญญาณ รวมถึงบทสนทนาแบบเรียลไทม์ระหว่างโมเดลกับมนุษย์ เพื่อแสดงความสามารถด้านการสร้างแบบจำลองออดิโอของ
hertz-dev
- มีตัวอย่างทั้งแบบช่องสัญญาณเดี่ยวและสองช่องสัญญาณ รวมถึงบทสนทนาแบบเรียลไทม์ระหว่างโมเดลกับมนุษย์ เพื่อแสดงความสามารถด้านการสร้างแบบจำลองออดิโอของ
-
เป้าหมายของ Standard Intelligence
- มีเป้าหมายในการสร้างปัญญาประดิษฐ์ทั่วไป และปัจจุบันประกอบด้วยทีมงาน 4 คน
- กำลังรับคนที่สนใจการสร้าง AGI เข้าร่วมทีม และยินดีให้ผู้ที่สนใจการลงทุนติดต่อมาได้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ผู้ที่ทำงานเกี่ยวกับโมเดลเสียงสงสัยว่าเสียงที่ออกมาจากระบบส่งผลทางสรีรวิทยาหรือไม่
แม้จะบอกว่า Hertz เป็นโมเดลแรก แต่ก็มีโมเดลคล้ายกันชื่อ Moshi
แนวทางขับขี่อัตโนมัติที่อิงวิชันล้วนของ Tesla ทำให้เทคโนโลยีเข้าถึงได้ง่ายขึ้นและขยายขนาดได้มากขึ้น
กำลังสำรวจไอเดียเกี่ยวกับระบบปฏิสัมพันธ์ด้วยเสียง
สงสัยว่าไลเซนส์ของน้ำหนักโมเดลคืออะไร
ตัวอย่างเสียงมักมีเสียงที่ไร้ความหมายปนอยู่ แต่ในเชิงอะคูสติกถือว่ายอดเยี่ยม
กำลังสำรวจ VUI (Voice User Interface) และคิดว่าน่าจะมีประโยชน์
พารามิเตอร์ของโคเด็กทำให้นึกถึงโคเด็กเสียงทางทหารในปี 2010
เสียงพูดฟังดูบิดเบี้ยวเล็กน้อยและมีเสียงรบกวนพื้นหลัง
ลิงก์ที่เก็บโค้ด Hertz-dev