- โครงการ "1,000 Languages Initiative" (สร้างโมเดลแมชชีนเลิร์นนิงที่รองรับ 1,000 ภาษา) ที่เริ่มเมื่อเดือนพฤศจิกายนปีก่อนยังคงดำเนินอยู่
- ปัจจุบัน USM มีพารามิเตอร์ 2B (2 พันล้าน) ผ่านการฝึกด้วยภาษามากกว่า 300 ภาษา เสียงพูด 12 ล้านชั่วโมง และประโยค 2.8 หมื่นล้านประโยค
- ใช้ใน YouTube เพื่อสร้างคำบรรยาย รองรับไม่เพียงแค่ภาษาอังกฤษ/จีน แต่รวมถึงภาษาอย่าง Amharic, Cebuano, Assamese และ Azerbaijani
- มี 2 โจทย์สำคัญเพื่อให้บรรลุเป้าหมาย
- วิธีการเรียนรู้แบบมีผู้สอนเดิมขยายสเกลได้ไม่ดี
- ต้องสร้างโมเดลอย่างมีประสิทธิภาพเพื่อเพิ่มจำนวนภาษา
- แนวทาง: Self-supervised learning with fine-tuning (การเรียนรู้แบบกำกับตนเองร่วมกับการปรับจูนละเอียด)
- เปิดเผยทั้งงานวิจัยและ API (สมัครได้เฉพาะนักวิจัย)
1 ความคิดเห็น
ฉันคิดว่านี่เป็นเทคโนโลยีที่ดีที่จะช่วยให้ภาษาหรือภาษาถิ่นที่กำลังเลือนหายไปยังคงถูกใช้งานได้โดยคนรุ่นหลังด้วย